Регистрация / Вход
Прислать материал

14.607.21.0006

Аннотация скачать
Постер скачать
Общие сведения
Номер
14.607.21.0006
Тематическое направление
Информационно-телекоммуникационные системы
Исполнитель проекта
федеральное государственное бюджетное образовательное учреждение высшего образования "Московский государственный университет имени М.В.Ломоносова"
Название доклада
Обеспечение эффективности суперкомпьютерных центров будущего на основе технологий обработки больших объемов данных и экстремальных вычислений
Докладчик
Воеводин Вадим Владимирович
Тезисы доклада
Цели и задачи исследования
Архитектура суперкомпьютерных центров совершенствуется с каждым годом. Это приводит к тому, что эффективность выполнения приложений деградирует, поскольку все сложнее становится учитывать возрастающее многообразие аппаратных особенностей суперкомпьютеров, каждая из которых может кардинальным образом влиять на скорость расчетов. На данный момент эффективность на уровне 3-5 процентов от максимальных возможностей суперкомпьютеров уже является нормой; однако подобное неоптимальное использование вычислительных ресурсов приводит к серьезным временны́м и, в конечном итоге, финансовым потерям. Требуется разработка прототипов программно-технических решений, которые позволят проводить разносторонний анализ эффективности как отдельных пользовательских приложений, так и суперкомпьютерного центра в целом.
Целью прикладного научного исследования является создание научных и программно-технических решений в области обеспечения эффективности существующих суперкомпьютерных центров малого, среднего и высокого уровней производительности, а также с учетом сверхвысокой степени параллельности суперкомпьютерных центров будущего.
Актуальность и новизна исследования
Современные суперкомпьютерные центры устроены очень сложно. Процессоры, ускорители, подсистемы памяти, коммуникационные сети, вычислительная и инженерная инфраструктура – все эти стандартные на настоящий момент составляющие вычислительной системы состоят из огромного количества компонент, которые находятся в сложной взаимосвязи друг с другом. Усложнение аппаратуры приводит к тому, что эффективность (отношение реальной производительности к пиковой) в настоящее время редко превышает нескольких процентов.
Поэтому неудивительно, что уже в течение длительного времени ведется множество различных исследований и работ по разным направлениям повышения эффективности решения задач на суперкомпьютерах. Однако проведенный обзор показывает, что для получения более точных результатов и для проведения более подробного анализа эффективности как суперкомпьютеров в целом, так и отдельных пользовательских приложений, нужен более универсальный подход, который позволит объединить в себе преимущества разных существующих либо новых разработанных методов.
Это говорит о необходимости проведения исследований, учитывающих различные аспекты обеспечения эффективности суперкомпьютерных центров, на что и направлен данный проект. Проведение подобных исследований позволит создать прототип программной системы, которая не только обладает широкой функциональностью, но и за счет проведения разностороннего анализа позволит достичь более точных результатов по каждому из рассматриваемых аспектов.
Описание исследования

Разработанный в рамках данного исследования прототип состоит из четырех блоков – Мониторинг, Анализ эффективности, Обеспечение надежности и работоспособности и Визуализация. Каждый блок описывает логически выделяемую сущность, направленную на решение определенного круга задач. Далее приведено краткое описание функциональности каждого из блоков и их взаимодействия друг с другом.

1. Блок мониторинга. Основной задачей данного блока является сбор всевозможных данных о состоянии суперкомпьютера, которые могут быть важны при анализе его эффективности и работоспособности. Это включает в себя как данные о вычислительных узлах, так и информацию о состоянии инфраструктуры; как данные, касающиеся вопросов работоспособности компонент (температура, работоспособность сервисов и т.д.), так и данные об эффективности работы тех или иных компонент (загрузка процессора, объем передаваемых по сети данных, число кэш-промахов и т.д.). Помимо непосредственно сбора данных, в рамках данного блока выполняется анализ и агрегация данных «на лету».

Блок мониторинга получает все входные данные от внешней для прототипа общей системы программно-аппаратной инфраструктуры суперкомпьютера. Это подразумевает и получение данных как напрямую (с помощью агентов мониторинга), так и использование выходных данных различного системного программного обеспечения, например, менеджера ресурсов.

2. Блок анализа эффективности. Данный блок отвечает за определение и предоставление необходимой информации для осуществления анализа эффективности работы как отдельных пользовательских приложений, так и всего вычислительного комплекса в целом. Нахождение первопричин снижения эффективности практически всегда невозможно выполнять автоматически, поэтому задачей данного блока является обработка и предоставление данных об эффективности в наиболее удобном формате, для того чтобы сам пользователь в дальнейшем мог на основе этих данных делать необходимые выводы.

Блок Анализа Эффективности взаимодействует с блоком Мониторинга и внешним менеджером ресурсов для получения требуемых входных данных.

3. Блок визуализации. Задача блока Визуализации заключается в организации наиболее удобного визуального представления передаваемых данных от других блоков прототипа общей подсистемы. Визуальное представление требуется пользователю прототипа общей системы для проведения различного анализа поведения вычислительного комплекса в целом или отдельных пользовательских приложений.

Входными данными этого блока может служить самая разнообразная информация от блоков Анализа эффективности и Мониторинга. Результатом работы данного блока является визуальное представление переданных данных в требуемом формате, которое отображается в web-браузере для последующего визуального анализа.

4. Блок обеспечения надежности и работоспособности. Данный блок исследует вопросы надежности и работоспособности суперкомпьютера. В рамках этого блока создана подсистема по обеспечению надежной бесперебойной работы, которая призвана анализировать состояние суперкомпьютера, определять нештатные ситуации и требуемым образом автоматически реагировать на эти ситуации с целью устранения возможных причин и последствий, а также минимизации простоя ресурсов.

Данная подсистема основана на использовании формальной модели суперкомпьютера, которая описывает все его компоненты и взаимосвязи. Если описанная формальная модель расходится с текущим реальным состоянием вычислительного комплекса, подсистема регистрирует нештатную ситуацию и предопределенным образом реагирует на нее – путем автоматического отключения компонент, перезапуска программного обеспечения или отправки оповещения ответственным сотрудникам комплекса.

Входными данными для данной подсистемы являются всевозможные данные мониторинга, которые нужно учитывать при анализе надежности системы. К таким данным относятся, например, данные о температуре и наличии различных ошибок на вычислительных узлах или инфраструктуре. Все эти данные получаются от блока Мониторинга.

Результаты исследования

Все работы, запланированные в рамках данного проекта, выполнены полностью.

Разработаны методики оценок объема и других характеристик различных данных, которые необходимо собирать и анализировать для получения детальной информации о состоянии современных суперкомпьютеров. Также разработаны методики для оценки масштабируемости разработанных решений и пригодности предложенных подходов к использованию в суперкомпьютерных центрах будущего. По всем разработанным методикам выполнены соответствующие оценки, показывающие применимость предложенных решений.

Разработана архитектура прототипа программной системы обеспечения эффективности функционирования суперкомпьютерных центров и определен набор его компонентов. Согласно предложенной архитектуре, разработаны все компоненты общего прототипа программной системы обеспечения эффективности функционирования суперкомпьютерных центров, а именно:

1) программные подсистемы, отвечающие за мониторинг состояния суперкомпьютера:  прототипы программно-технических решений сбора и хранения данных о состоянии суперкомпьютеров и выполняющихся на них программ; созданная подсистема мониторинга, оперируя терабайтами данных в сутки, привносит минимальные накладные расходы и позволяет оперативно получать информацию обо всех критически важных компонентах суперкомпьютера и работающих параллельных приложениях;

2) программные подсистемы анализа эффективности: прототип программных средств для определения ключевых характеристик эффективности работы реальных приложений пользователей (использования CPU, оперативной памяти, коммуникационной сети и ввода-вывода), а также  прототип программных средств для получения данных о структуре потока программ, исполняющихся на суперкомпьютере; созданные подсистемы позволяют всесторонне оценивать эффективность как отдельных приложений, так и функционирования всего суперкомпьютерного комплекса в целом;

3) программные подсистемы визуализации графиков характеристик эффективности работы реальных приложений пользователей, визуализации динамических характеристик работы суперкомпьютера, а также визуализации структуры потока программ, исполняющихся на суперкомпьютере; данные подсистемы предоставляют целый спектр возможностей для разностороннего визуального анализа различных аспектов функционирования суперкомпьютерного комплекса;

4) программные подсистемы обеспечения надежности и работоспособности функционирования суперкомпьютера для автоматизированного построения программных моделей суперкомпьютерных комплексов; для повышения надежности работы, обеспечения бесперебойного функционирования и уменьшения времени простоя суперкомпьютеров; для анализа работоспособности компонентов суперкомпьютера; а также интерфейс программных средств обеспечения бесперебойного функционирования и уменьшения времени простоя суперкомпьютеров; созданные подсистемы позволяют обеспечивать постоянный контроль за состоянием всей программно-аппаратной суперкомпьютерной среды и минимизировать простой вычислительных ресурсов.

Проведена интеграция всех указанных выше разработанных компонент и выполнена реализация общего прототипа программной системы обеспечения эффективности функционирования суперкомпьютерных центров.

Полученные в результате работ результаты являются новыми и в представленной полноте и комплексности не имеют аналогов в мире.

Практическая значимость исследования
Использование разработанных методов и программных средств позволит в значительной степени повысить эффективность функционирования современных вычислительных систем. Это может быть достигнуто как за счет повышения эффективности выполнения отдельных приложений, что позволит ускорить процесс получения научных результатов в определенной предметной области, так и за счет улучшения производительности всего суперкомпьютерного комплекса в целом. Последнее приведет к оптимизации вычислительного процесса для всех приложений, выполняющихся на данном комплексе, что положительно повлияет на скорость выполнения научных исследований в целом.
Разработанные программно-технические решения могут применяться на большом спектре вычислительных систем самой разной архитектуры – во многих существующих или еще только проектируемых суперкомпьютерных центрах, что позволяет говорить о практической значимости исследования не только в настоящий момент, но и в будущем.
Применение полученных результатов представляет практическую ценность для всех участников, вовлеченных в работу суперкомпьютерного центра. Повышение производительности и работоспособности вычислительных систем важно как для пользователей, так и для администраторов этих систем. Более того, это важно и для руководства суперкомпьютерных центров, поскольку непосредственно влияет на финансовый (и не только) аспект работы таких центров.
Таким образом, в рамках данного проекта создан набор методов и программных средств, направленных на обеспечение эффективности функционирования существующих вычислительных систем и суперкомпьютерных центров будущего. Это позволит ускорить проведение исследований в таких областях, как нефтегазовый сектор, машиностроение, производство новых материалов, экология, энергетика и других. Внедрение результатов проекта в российские суперкомпьютерные центры будет способствовать развитию сферы исследований и разработок в области прикладных исследований в России.
Применение полученных в данном проекте результатов окажет позитивное влияние на развитие не только суперкомпьютерной отрасли, но и науки, техники и промышленности в целом.
Постер

14.607.21.0006.ppt