Регистрация / Вход
Прислать материал

Вычислительные шаблоны для высокопроизводительных многомасштабных вычислений

Аннотация скачать
Постер скачать
Ключевые слова:
высокопроизводительные многомасштабные вычисления, шаблоны многомасштабных вычислений, планирование вычислений, измерение и прогноз производительности, эксафлопсные вычисления

Цель проекта:
Целью совместных исследований является разработка семейства предметно-независимых вычислительных алгоритмов для эффективной реализации методов многомасштабного моделирования на основе обобщенных вычислительных шаблонов, и создание на их основе программного инструментария для поддержки решения прорывных научных задач класса Grand Challenge на суперкомпьютерных системах эксафлопсного диапазона производительности. Выполнение совместных исследований по проекту в целом включает в себя следующие научные задачи: - Формализация основных предметно-независимых вычислительных шаблонов многомасштабного моделирования, включая разработку и исследование моделей производительности, демонстрирующих особенности их применения для различных вычислительных архитектур. - Разработка предметно-независимых алгоритмов для реализации многомасштабных вычислений в рамках заданных шаблонов, включая эффективную организацию балансировки нагрузки, обмен данными, обеспечение надежности и энергоэффективности вычислений с учетом особенностей архитектуры вычислителей эксафлопсного диапазона. - Разработка программной платформы (middleware), обеспечивающей адаптацию предметно-ориентированных алгоритмов и программных кодов многомасштабного моделирования для использования на суперкомпьютерах эксафлопсного диапазона производительности, и развертывание экспериментального стенда на основе объединения суперкомпьютерных ресурсов участников проекта, включая компьютеры PRACE. - Перенос набора предметно-ориентированных приложений многомасштабного моделирования класса Grand Challenge на разработанную программную платформу и проведение экспериментальных исследований в части масштабируемости, отказоустойчивости, энергоэффективности вычислений с целью определения возможностей дальнейшего практического использования данных результатов в практике суперкомпьютерных вычислений в различных предметных областях. - Оценка и обобщение результатов экспериментальных исследований, построение обобщенных моделей прогноза производительности многомасштабных приложений при изменении характеристик вычислительных систем и параметров решаемых задач. Базовым положением проекта является возможность сведения задач многомасштабного моделирования различных процессов и явлений реального мира к типовым вычислительным шаблонам. Предполагается выделить три основных шаблона: - Экстремальное масштабирование (Extreme Scaling, ES): преобладание вычислительных процессов одного масштаба, что позволяет при планировании отдавать им приоритет при распределении вычислительных ресурсов; - Тиражирование вычислений (Replica Computing, RC): наличие большого количества равнозначных расчетных задач, каждая из которых требует большого объема вычислительных ресурсов; - Неоднородные многомасштабные вычисления (Heterogeneous Multiscale Computing, HMC): наличие моделей одного и того же явления в различных масштабах, связанных между собой параметрически (снизу-вверх). Для рассмотренных шаблонов будет разработано семейство параметрических моделей производительности, в явном виде формализующих зависимости параллельных процессов от характеристик вычислительной системы и свойств расчетной задачи (объемы данных, наличие и структура связей, сложность вычислительных алгоритмов). Параметры данных моделей идентифицируются для различных приложений и архитектур в ходе профилирования и в дальнейшем корректируются по результатам практических расчетов. Параметрические модели производительности будут использованы в качестве входных данных для алгоритмов планирования вычислительной нагрузки и размещения данных. В отличие от классических задач суперкомпьютерного планирования, в данном случае решается задача многокритериальной оптимизации (время вычислений и энергоэффективность) для набора задач с динамическими связями. Это требует использования специфических подходов на основе различных гибридных стратегий, например, на основе сочетания эвристик (типа HEFT) и эволюционных алгоритмов – для верхнего уровня планирования (большие задачи класса Replica Computing) и мультиагентного децентрализованного алгоритма (для планирования вычислений внутри каждой задачи). При этом в качестве основы для эволюции может использоваться предыстория работы приложения (а не случайная популяция планирования на каждом шаге). Учитывая ограниченную прогностическую способность параметрических моделей производительности и неопределенность использования разных эвристик, для окончательной реализации технологии планирования будет использоваться ансамблевый подход, который строит агрегированный план на основе стратегий, полученных разными способами. Алгоритмы планирования будут заложены в основе механизмов управления вычислениями, реализуемого платформой многомасштабного моделирования. Платформа будет представлять собой высокоуровневую программную надстройку над сетью распределенных суперкомпьютеров (система PRACE, а также суперкомпьютеры соисполнителей проекта с российской стороны – МГУ и ННГУ). Она будет предоставлять графический интерфейс для конструирования многомасштабных вычислительных задач из уже готовых блоков в форме композитных приложений, описываемых на предметно-ориентированном языке, исходя из специфики выбранного вычислительного шаблона. Высокоуровневое описание задачи будет транслироваться в исполнимую форму, после чего будет обеспечено исполнение задачи на одном или нескольких вычислительных ресурсах с эффективным использованием многоуровневого параллелизма. При этом будет поддерживаться не только классический для таких задач пакетный (batch) режим работы, но и разного рода интерактивные (IWF, LRWF) задачи, в том числе, с возможностью управляемой визуализации результатов (computational steering). В основу разработки такой платформы будет заложена комбинация инструментария многомасштабного моделирования MUSCLE (Multiscale Coupling Library and Environment), развиваемой зарубежным партнером, и платформы распределенных вычислений CLAVIRE (Cloud Application Virtual Environment), развиваемой и поддерживаемой заявителем проекта. Для экспериментальных исследований в рамках совместного проекта изначально предполагалось использовать 9 многомасштабных приложений класса Grand Challenge в трех областях (астрофизика, биомедицина, материаловедение), развиваемых зарубежными партнерами, одна из которых (моделирование стенозных процессов в артериях), разрабатывается совместно с заявителем проекта. В рамках данного проекта предполагается дополнить этот перечень задачами заявителя проекта еще в двух областях (гидрометеорология и урбанистика), а именно: - Моделирование экстремальных гидрометеорологических явлений. Данная задача является классической задачей многомасштабного моделирования, реализуемой в форме сочетания шаблонов RС и HMC. Ее сложность заключается в том, что для определения характеристик особо опасных гидрометеорологических явлений длительностью несколько секунд (например, встречи с волной-убийцей) необходимо моделировать гидрометеорологическую обстановку на всей акватории в течение нескольких десятков (от 40 до 60) лет; при этом масштабы синоптической, сезонной, межгодовой изменчивости связаны параметрически. - Многомасштабное моделирование городской мобильности населения. Для больших городов данная задача является естественной, поскольку население мегаполисов крайне неоднородно, и качественное моделирование мобильности на индивидуальном уровне сталкивается с проблемой недообусловленности моделей. Потому обычно рассматриваются различные пространственные масштабы (от города в целом – до отдельных микрорайонов и даже зданий общественного пользования), которые связаны между собой через начальные и граничные условия. В данном случае задача реализуется в форме сочетания шаблонов EC и HMC. Таким образом, рассмотренные приложения в целом покрывают все три вычислительных шаблона многомасштабных вычислений и обладают специфическими особенностями, комплементарными к приложениям зарубежных партнеров. В целом это позволит более детально обосновать область применения объекта разработки. Заявитель проекта обладает правами на программное обеспечение, которое планируется использовать выше (см. Приложение 6 к форме 2). Экспериментальные исследования выбранных приложений, адаптированных под разрабатываемую платформу многомасштабного моделирования, будут проводиться в логике суперкомпьютерного кодизайна. На основе собранных данных системного мониторинга ставится диагноз качества исследуемого приложения (эффективности, масштабируемости, производительности), а также делается вывод о его потенциальной пригодности для будущих систем со значительно большим уровнем параллелизма. На основе анализа качества отображения типовых шаблонов будут даны рекомендации по их применению в конкретных программно-аппаратных суперкомпьютерных средах.

Основные планируемые результаты проекта:
Выполнение совместных исследований по проекту в целом включает в себя следующие научные задачи:
- Формализация основных предметно-независимых вычислительных шаблонов многомасштабного моделирования, включая разработку и исследование моделей производительности, демонстрирующих особенности их применения для различных вычислительных архитектур.
- Разработка предметно-независимых алгоритмов для реализации многомасштабных вычислений в рамках заданных шаблонов, включая эффективную организацию балансировки нагрузки, обмен данными, обеспечение надежности и энергоэффективности вычислений с учетом особенностей архитектуры вычислителей эксафлопсного диапазона.
- Разработка программной платформы (middleware), обеспечивающей адаптацию предметно-ориентированных алгоритмов и программных кодов многомасштабного моделирования для использования на суперкомпьютерах эксафлопсного диапазона производительности, и развертывание экспериментального стенда на основе объединения суперкомпьютерных ресурсов участников проекта, включая компьютеры PRACE.
- Перенос набора предметно-ориентированных приложений многомасштабного моделирования класса Grand Challenge на разработанную программную платформу и проведение экспериментальных исследований в части масштабируемости, отказоустойчивости, энергоэффективности вычислений с целью определения возможностей дальнейшего практического использования данных результатов в практике суперкомпьютерных вычислений в различных предметных областях.
- Оценка и обобщение результатов экспериментальных исследований, построение обобщенных моделей прогноза производительности многомасштабных приложений при изменении характеристик вычислительных систем и параметров решаемых задач.
Базовым положением проекта является возможность сведения задач многомасштабного моделирования различных процессов и явлений реального мира к типовым вычислительным шаблонам. Предполагается выделить три основных шаблона:
- Экстремальное масштабирование (Extreme Scaling, ES): преобладание вычислительных процессов одного масштаба, что позволяет при планировании отдавать им приоритет при распределении вычислительных ресурсов;
- Тиражирование вычислений (Replica Computing, RC): наличие большого количества равнозначных расчетных задач, каждая из которых требует большого объема вычислительных ресурсов;
- Неоднородные многомасштабные вычисления (Heterogeneous Multiscale Computing, HMC): наличие моделей одного и того же явления в различных масштабах, связанных между собой параметрически (снизу-вверх).
Для рассмотренных шаблонов будет разработано семейство параметрических моделей производительности, в явном виде формализующих зависимости параллельных процессов от характеристик вычислительной системы и свойств расчетной задачи (объемы данных, наличие и структура связей, сложность вычислительных алгоритмов). Параметры данных моделей идентифицируются для различных приложений и архитектур в ходе профилирования и в дальнейшем корректируются по результатам практических расчетов.
Параметрические модели производительности будут использованы в качестве входных данных для алгоритмов планирования вычислительной нагрузки и размещения данных. В отличие от классических задач суперкомпьютерного планирования, в данном случае решается задача многокритериальной оптимизации (время вычислений и энергоэффективность) для набора задач с динамическими связями. Это требует использования специфических подходов на основе различных гибридных стратегий, например, на основе сочетания эвристик (типа HEFT) и эволюционных алгоритмов – для верхнего уровня планирования (большие задачи класса Replica Computing) и мультиагентного децентрализованного алгоритма (для планирования вычислений внутри каждой задачи). При этом в качестве основы для эволюции может использоваться предыстория работы приложения (а не случайная популяция планирования на каждом шаге). Учитывая ограниченную прогностическую способность параметрических моделей производительности и неопределенность использования разных эвристик, для окончательной реализации технологии планирования будет использоваться ансамблевый подход, который строит агрегированный план на основе стратегий, полученных разными способами.
Алгоритмы планирования будут заложены в основе механизмов управления вычислениями, реализуемого платформой многомасштабного моделирования. Платформа будет представлять собой высокоуровневую программную надстройку над сетью распределенных суперкомпьютеров (система PRACE, а также суперкомпьютеры соисполнителей проекта с российской стороны – МГУ и ННГУ). Она будет предоставлять графический интерфейс для конструирования многомасштабных вычислительных задач из уже готовых блоков в форме композитных приложений, описываемых на предметно-ориентированном языке, исходя из специфики выбранного вычислительного шаблона. Высокоуровневое описание задачи будет транслироваться в исполнимую форму, после чего будет обеспечено исполнение задачи на одном или нескольких вычислительных ресурсах с эффективным использованием многоуровневого параллелизма. При этом будет поддерживаться не только классический для таких задач пакетный (batch) режим работы, но и разного рода интерактивные (IWF, LRWF) задачи, в том числе, с возможностью управляемой визуализации результатов (computational steering). В основу разработки такой платформы будет заложена комбинация инструментария многомасштабного моделирования MUSCLE (Multiscale Coupling Library and Environment), развиваемой зарубежным партнером, и платформы распределенных вычислений CLAVIRE (Cloud Application Virtual Environment), развиваемой и поддерживаемой заявителем проекта.
Для экспериментальных исследований в рамках совместного проекта изначально предполагалось использовать 9 многомасштабных приложений класса Grand Challenge в трех областях (астрофизика, биомедицина, материаловедение), развиваемых зарубежными партнерами, одна из которых (моделирование стенозных процессов в артериях), разрабатывается совместно с заявителем проекта.
В рамках данного проекта предполагается дополнить этот перечень задачами заявителя проекта еще в двух областях (гидрометеорология и урбанистика), а именно:
- Моделирование экстремальных гидрометеорологических явлений. Данная задача является классической задачей многомасштабного моделирования, реализуемой в форме сочетания шаблонов RС и HMC. Ее сложность заключается в том, что для определения характеристик особо опасных гидрометеорологических явлений длительностью несколько секунд (например, встречи с волной-убийцей) необходимо моделировать гидрометеорологическую обстановку на всей акватории в течение нескольких десятков (от 40 до 60) лет; при этом масштабы синоптической, сезонной, межгодовой изменчивости связаны параметрически.
- Многомасштабное моделирование городской мобильности населения. Для больших городов данная задача является естественной, поскольку население мегаполисов крайне неоднородно, и качественное моделирование мобильности на индивидуальном уровне сталкивается с проблемой недообусловленности моделей. Потому обычно рассматриваются различные пространственные масштабы (от города в целом – до отдельных микрорайонов и даже зданий общественного пользования), которые связаны между собой через начальные и граничные условия. В данном случае задача реализуется в форме сочетания шаблонов EC и HMC.
Таким образом, рассмотренные приложения в целом покрывают все три вычислительных шаблона многомасштабных вычислений и обладают специфическими особенностями, комплементарными к приложениям зарубежных партнеров. В целом это позволит более детально обосновать область применения объекта разработки. Заявитель проекта обладает правами на программное обеспечение, которое планируется использовать выше (см. Приложение 6 к форме 2).
- Экспериментальные исследования выбранных приложений, адаптированных под разрабатываемую платформу многомасштабного моделирования, будут проводиться в логике суперкомпьютерного кодизайна. На основе собранных данных системного мониторинга ставится диагноз качества исследуемого приложения (эффективности, масштабируемости, производительности), а также делается вывод о его потенциальной пригодности для будущих систем со значительно большим уровнем параллелизма. На основе анализа качества отображения типовых шаблонов будут даны рекомендации по их применению в конкретных программно-аппаратных суперкомпьютерных средах.

Краткая характеристика создаваемой/созданной научной (научно-технической, инновационной) продукции:
Предсказательное моделирование в различных предметных областях сталкивается с проблемой, когда повышение точности расчетов в отдельных ситуациях не может достигаться только за счет новых численных методов, более мощных компьютеров или уточнения параметров модели. Как следствие, это требует устранения самого замыкания модели, т.е. перехода на новый уровень детализации, позволяющий объяснить происхождение тех или иных параметров, которые ранее назначались эмпирически. В целом такой подход порождает многомасштабную модель, состоящую из набора отдельных подмоделей, связанных друг с другом параметрически, через начальные или граничные условия. Многомасштабное моделирование является уже устоявшимся подходом в прорывных задачах астрофизики, биомедицины, материаловедения, наук о Земле и пр.
Суперкомпьютерная реализация задач многомасштабного моделирования существенно отличается от классических монолитных больших задач, поскольку требует обеспечения эффективной совместной работы программных модулей, построенных на различных принципах и конкурирующих за общие ресурсы. Ситуация существенно усугубляется при использовании суперкомпьютеров эксафлопсного диапазона производительности. Это обусловлено как внутренними особенностями самого процесса моделирования (высокого уровня обменов данными между программными модулями многомасштабной модели), так и спецификой его организации (динамической структуры связей в многомасштабном приложении). При этом наравне с проблемой масшабируемости для таких систем в полной мере проявляются проблемы энергоэффективности (минимизации времени простоя узлов) и отказоустойчивости (способности модели выдать непротиворечивые результаты при отсутствии результатов на некоторых узлах). В совокупности это требует развития специальных механизмов планирования и организации многомасштабных вычислений на эксафлопсных вычислительных системах.
Ручная разработка таких механизмов для отдельных прикладных задач многомасштабного моделирования является крайне ресурсоемкой; при этом переносимость результатов в другие области ограничена. Существующие в настоящее время инструментальные платформы (например, MUSCLE) не предназначены для суперкомпьютеров эксафлопсного диапазона производительности. Однако из опыта предметных областей в настоящее время становится очевидным, что для различных систем реального мира задачу многомасштабного моделирования можно свести к одному из нескольких вычислительных шаблонов (или их комбинации). Таким образом, это делает актуальным создание предметно-независимых алгоритмов многомасштабных вычислений с возможностью их эффективного отображения на эксафлопсные вычислительные архитектуры, а также создание на их основе соответствующих инструментальных средств.

Назначение и область применения, эффекты от внедрения результатов проекта:
Разрабатываемая платформа многомасштабного моделирования предназначена для использования в составе программного инструментария суперкомпьютерных центров. Она обеспечивает пользователям центра возможности быстрой разработки и эффективного исполнения многомасштабных приложений в различных предметных областях, как на ресурсах самого центра, так и на ресурсах нескольких территориально-разнесенных центров в рамках модели метакомпьютинга.
Адаптированное прикладное ПО многомасштабного моделирования может быть использовано в составе соответствующих САПР и СППР в рамках облачных моделей SaaS и AaaS.
Первичными потребителями платформы многомасштабного моделирования будут организации-участники проекта (и пользователи их суперкомпьютерных центров). Предполагается, что для всех участников проекта будет общая система с точкой входа через Интернет, которая будет обслуживать все ресурсы или группировать их под конкретную задачу. Однако прямой коммерческой ценностью данная платформа (как всякое middleware) не обладает.
Результаты адаптации приложений класса Grand Challenge на основе разработанной платформы обладают существенно большим потенциалом внедрения в составе информационных систем для прогноза и поддержки принятия решений. Так, ПО задачи моделирования экстремальных гидрометеорологических явлений планируется использовать для создания системы прогнозирования гидрометеорологических процессов на Арктическом шельфе (в программе развития ОАО «Роснефть»); отдельные результаты будут внедрены в деятельность Комплекса защиты Санкт-Петербурга от наводнений. ПО задачи многомасштабного моделирования городской мобильности населения – для организации системы поддержки принятия решений по управлению крупными городскими территориями (в кооперации с ИАЦ Санкт-Петебрурга) и системы мониторинга биологических угроз (в кооперации с ОАО РТИ).
Также допустим вывод этих приложений на международный рынок, используя связи зарубежных партнеров по проекту. В частности, коммерческий интерес к использованию результатов проекта выражен IBM (см. письмо поддержки на стр. 109 приложенной заявки на проект HORIZON 2020 ComPat).

Текущие результаты проекта:
1 Выполнен аналитический обзор современной научно-технической, нормативной, методической литературы, затрагивающей научно-техническую проблему, исследуемую в рамках проекта.
2 Проведены патентные исследования в соответствии с ГОСТ Р 15.011.
3 Выполнен выбор оптимального направления исследований и выполнение сравнительной оценки вариантов возмовжных решений.
4 Проведено исследование существующих методов организации многомасштабных вычислений на высокопроизводительных вычислительных системах.
5 Проведено исследование и разработка математических методов оптимизации масштабируемости многомасштабных вычислений применительно к специфике эксафлопсных вычислителей.
6 Проведен анализ программного обеспечения многомасштабного моделирования с целью выделения вычислительных шаблонов.
7 Приведено описание формализации и обоснование вычислительных шаблонов многомасштабного моделирования EC, RC, HMC.
8 Разработан план обеспечения качества выполнения проекта в соответствии с требованиями Еврокомиссии.
9 Выполнены мероприятий по диссеминации результатов.