Регистрация / Вход
Прислать материал

Суперкомпьютерные технологии для решения задач обработки, хранения,
передачи и защиты информации

Стадии проекта
Предложение принято
Конкурс завершен
Проект закончен
Проект
02.740.11.0388

Информация отсутствует

Соисполнители

Организация
Факультет ВМК МГУ
Организация
НИИЯФ МГУ

Участники проекта

Зам. руководителя работ
Антонов Александр Сергеевич
Зам. руководителя работ
Воеводин Владимир Валентинович

Этапы проекта

1
30.09.2009 - 31.12.2009
1.Наименование разрабатываемой продукции
В рамках государственного контракта № 02.740.11.0388 от 30 сентября 2009 г. разрабатывается типовая инфраструктура суперкомпьютерного центра, на базе которой реализуются передовые суперкомпьютерные технологии для решения задач обработки, хранения, передачи и защиты информации, развиваются грид-технологии, а также разрабатываются базовые учебные курсы соответствующей тематики, которые внедряются в учебный процесс Московского университета.
2. Характеристика выполненных на этапе работ по созданию продукции
2.1. На первом этапе выполнения государственного контракта № 02.740.11.0388 от 30 сентября 2009 г. была заложена база создания инфраструктуры крупного суперкомпьютерного центра на основе Научно-образовательного центра «Суперкомпьютерные технологии».
25 ноября 2009 года в МГУ имени М.В. Ломоносова при участии Президента Российской Федерации Дмитрия Медведева состоялась презентация самого мощного в СНГ и Восточной Европе суперкомпьютера «Ломоносов» производительностью 420 Тфлопс. В помещении НОЦ «Суперкомпьютерные технологии» было проведено заседание Комиссии по модернизации и технологическому развитию экономики России.
Создаваемая инфраструктура суперкомпьютерного центра должна обеспечить использование передовых суперкомпьютерных технологий для решения важнейших задач из различных областей науки. На отчетном этапе были разработаны следующие материалы:
Проект типовой инфраструктуры крупного суперкомпьютерного комплекса.
Прототип информационного портала суперкомпьютерного комплекса.
Базовая система администрирования и мониторинга суперкомпьютерных систем.
Алгоритмы оптимального распределения заданий в неоднородных вычислительных средах.
Молекулярные модели белков PIM1 и их активных центров.
Научно-методические материалы программ лекционных курсов по базовым технологиям параллельных вычислений с учетом особенностей вычислительных систем с терафлопной и петафлопной производительностью, а также материалы базового практикума по технологиям параллельного программирования и высокопроизводительным вычислениям.
Набор заданий базового практикума по технологиям параллельного программирования и высокопроизводительным вычислениям.
Научно-методические материалы спецкурса «Параллельные математические библиотеки».
Научно-методические материалы практикума «Задачи теории чисел: разложение чисел на множители».
Параллельные программы для базовых операций: умножение матрицы на блочный вектор, умножение блочных векторов друг на друга и на маленькие матрицы.
Описание детальной архитектуры и алгоритмов работы модулей сервиса запуска многошаговых заданий.
Отчет о НИР, содержащий обоснование развиваемого направления исследований, изложение методик проведения исследований, а также описание полученных результатов.
2.2. Создаваемый суперкомпьютерный центр в Московском государственном университете входит в число крупнейших мировых центров, а установленный в МГУ суперкомпьютер «Ломоносов» занял 12-ое место в списке 500 наиболее мощных компьютеров мира.
2.3. Первый этап выполнения государственного контракта закладывает базу для дальнейших работ по развитию и совершенствованию инфраструктуры крупного суперкомпьютерного центра.
2.4. На отчетном этапе объекты интеллектуальной собственности не создавались.
3. Области и масштабы использования полученных результатов
3.1. Разрабатываемая инфраструктура суперкомпьютерного центра МГУ является типовой и может быть реализована в любой научно-образовательной организации, обладающей вычислительными ресурсами. Учебные материалы могут быть внедрены в учебный процесс ВУЗа для освоения суперкомпьютерных технологий и использования высокопроизводительной вычислительной техники. Результаты в области решения задач молекулярного моделирования могут быть использованы для разработки новых лекарственных соединений. Результаты в области решения задач криптографии могут быть использованы для проведения опытно-конструкторских и опытно-технологических работ, направленных на создание новых параметров безопасности используемых систем защиты информации, а также тех, которые используют решение больших разреженных систем линейных уравнений над конечными полями (например, создание и обработка математических моделей развития экономики, состояния биосферы и других многофакторных процессов). Результаты в области решения задач интеллектуальной обработки данных могут быть использованы в хозяйственных договорах НИВЦ МГУ (планируется использовать полученные результаты при организации обработки слабоструктурированной информации в интересах Департамента исследования и информации и Департамента банковского надзора Банка России). Результаты в области развития грид-технологий могут быть использованы для решения прикладных задач обработки информации в различных областях науки и техники, связанных с выполнением сложной структурированной последовательности операций на удаленных ресурсах (в том числе, суперкомпьютерах), доступ к которым осуществляется с помощью грид-инфраструктуры или федерации грид-инфраструктур.
3.2. Ход практического внедрения полученных результатов.
В сентябре 2009 года на базе Научно-образовательного центра «Суперкомпьютерные технологии» проведено формирование учебной спецгруппы, состоящей из 37 студентов старших курсов и аспирантов факультетов Московского университета: вычислительной математики и кибернетики, механико-математического и физического, которые прошли интенсивное обучение по специально разработанной программе «Суперкомпьютерные технологии».
Учебные занятия спецгруппы проходили в период с 5 октября по 30 декабря 2009 года. Аудиторная учебная нагрузка распределена примерно поровну между лекционными курсами (около 30 часов) и вычислительным практикумом (около 30 часов), проходившим с использованием мощных ресурсов суперкомпьютерного комплекса Московского университета (суперкомпьютеры СКИФ МГУ «Чебышев» и IBM BlueGene/P). Дополнительное время использовалось учащимися для выполнения проектных заданий.
Для чтения лекций и ведения практических занятий привлечены известные ученые и ведущие специалисты МГУ и институтов РАН.
3.3. Полученные результаты способствуют формированию сообщества квалифицированных пользователей суперкомпьютерной техники, подготовке и закреплению в сфере науки и образования квалифицированных научных и научно-педагогических кадров. Заданные программные индикаторы и показатели достигнуты в полном объеме.
4. Выводы
На первом этапе «Проектирование инфраструктуры крупного суперкомпьютерного комплекса» выполнения государственного контракта № 02.740.11.0388 от «30» сентября 2009 г по теме «Суперкомпьютерные технологии для решения задач обработки, хранения, передачи и защиты информации» осуществлены работы в строгом соответствии с требованиями технического задания и календарного плана. Работа выполнена на высоком научно-техническом уровне.
Развернуть
2
01.01.2010 - 30.06.2010
На втором этапе выполнения государственного контракта № 02.740.11.0388 от 30 сентября 2009 г. были произведены работы по созданию программной и информационной инфраструктуры крупного суперкомпьютерного центра.
Создаваемая инфраструктура суперкомпьютерного центра должна обеспечить использование передовых суперкомпьютерных технологий для решения важнейших задач из различных областей науки. На отчетном этапе были выполнены следующие работы:
Ввод в эксплуатацию вычислительной системы следующего поколения. Пробная инсталляция программного обеспечения суперкомпьютерного комплекса.
Создание методики организации обслуживания больших потоков задач на суперкомпьютерах.
Наполнение информационного портала суперкомпьютерного комплекса справочными материалами.
Пробная инсталляция программного обеспечения реконфигурируемого компьютера, построенного на базе ПЛИС. Исследование прикладного программного обеспечения для графических процессоров разных производителей.
Исследование возможностей по улучшению качества известных методов классификации методами машинного обучения за счет учета известной матрицы близости.
Разработка методики постпроцессинга для программы докинга на основе локальной минимизации. Адаптация разработанных программ для работы с использованием грид-технологий распределенных вычислений.
Проведение патентных исследований.
Разработка лекционных модулей, методических материалов для кафедральных спецкурсов и практикумов с использованием суперкомпьютерных технологий. Разработка научно-методических материалов для предложений по модификации Учебных программ по специальности «Прикладная математика и информатика» (магистратура) с целью внесения новых компонент в поддержку суперкомпьютерных технологий.
Разработка научно-методических материалов для модернизации практикума «Задачи теории чисел: разложение чисел на множители» на использование параллельных программ для решения системы линейных уравнений. Разработка параллельной версии программы решения разреженных систем линейных уравнений над полем из двух элементов.
Исследование статистических свойств распределения сопряженных элементов для установления соответствия между эллиптическими кривыми с фиксированным числом точек и квадратичными формами с фиксированным дискриминантом.
Разработка прототипов программного обеспечения, программных интерфейсов и интерфейсов пользователя в соответствии с разработанными на предыдущем этапе архитектурой и алгоритмами сервиса запуска многошаговых заданий.
Внедрение системы администрирования и мониторинга суперкомпьютерных систем.
Реализация алгоритмов оптимального распределения заданий в неоднородных вычислительных средах. Разработка прототипа системы распределенных вычислений, реализующей данные алгоритмы.
Подготовка программы спецкурса «Администрирование суперкомпьютерных систем».
Отчет о НИР, содержащий обоснование развиваемого направления исследований, изложение методик проведения исследований, а также описание полученных результатов.
Развернуть
3
01.07.2010 - 31.12.2010
Произведен анализ эффективности программного обеспечения суперкомпьютерного комплекса.
Суперкомпьютеры нацелены на решение больших и сверхбольших задач. Решение таких задач даже с использованием суперкомпьютерных комплексов занимает большое время и требует огромных ресурсов. Для анализа эффективности программ традиционно применяются такие средства как отладчики и профилировщки. С помощью отладчика можно проверить эффективность работы небольших участков кода, и этот подход возможен только для небольших оптимизаций. Такой подход отчасти применим и для суперкомпьютеров, но только отчасти. Традиционная профилировка требует существенных дополнительных ресурсов и вносит значительные накладные расходы, что негативно отражается на работе параллельных программ. Что ещё важнее, традиционная профилировка не позволяет работать с несколькими параллельными процессами на нескольких разных физических вычислительных узлах одновременно.
Отсюда следует, что традиционные подходы к исследованию эффективности программ плохо применимы в случае суперкомпьютерных комплексов. Для исследования эффективности программ на суперкомпьютерных комплексах необходимы подходы позволяющие:
отслеживать эффективность использования ресурсов суперкомпьютера с минимальным вмешательством в работу вычислительных программ,
производить профилировку параллельных программ.

Произведена разработка интерактивных компонент информационного портала суперкомпьютерного комплекса.
Разработка интерактивных компонент информационного портала суперкомпьютерного комплекса обусловлена необходимостью решения следующих задач:
Предоставление актуальной информации о текущем состоянии вычислительной системы;
Предоставление актуальной информации о текущем состоянии очереди задач;
Предоставление наиболее часто запрашиваемой справочной информации;
Обеспечение возможности коллективного обсуждения вопросов параллельного программирования, администрирования вычислительных систем и других разделов области высокопроизводительных вычислений.
Разработаны и активно используются два ключевых интерактивных механизма, решающих вышеуказанные задачи:
«дискуссионный клуб», предназначенный для коллективного обсуждения вопросов, связанных с деятельность суперкомпьютерного центра и смежных вопросов параллельного программирования, предоставляющий возможность поиска в уже завершенных обсуждениях;
модуль визуализации состояния вычислительной системы (занятость узлов, стоек, состояние очереди задач).

Организована многопользовательская работа на реконфигурируемом компьютере, построенном на базе ПЛИС. Сформирован тестовый вычислительный полигон на базе графических процессоров.
В рамках данной работы был организован многопользовательский доступ для работы на реконфигурируемом компьютере, построенном на базе ПЛИС — программно-аппаратном комплексе РВС-5. Основной комплект ПО для работы с вычислительными узлами РВС-5 и компиляции реализован только для платформы Windows. Для работы с ними напрямую необходимо использовать протокол RDP и графический удалённый доступ. Это сопряжено с рядом сложностей — высокие требования по пропускной способности сетевого канала, невозможность одновременной компиляции и ряд других. Для обхода этих ограничений в схеме комплекса предусмотрен сервер удалённого доступа на базе Linux. На программно-аппаратном комплексе РВС-5 развёрнута система управления заданиями Cleo, адаптированная для этого комплекса, а также набор инструментов, позволяющий проводить компиляцию и запуск программ на РВС-5.
Графический полигон создан с целью исследования применений различных ГПУ к решению вычислительно сложных задач. Полигон открыт для совместной работы и к нему предоставляется удалённый доступ. В составе графического полигона находится 4 компьютера, на 3-х из них установлены ГПУ NVidia, на одном — ГПУ AMD. На всех стоят различные серверные варианты ОС Linux. Удалённый доступ осуществляется при помощи технологии SSH. Программы, работающие с ГПУ, могут использовать либо технологию NVidia CUDA (только для ГПУ NVidia), либо технологию OpenCL (ГПУ NVidia и AMD).

Разработаны новые методы классификации, прежде всего для случая противоречивых входных данных (когда для тематически близких документов приписаны разные классы).
В последнее время согласно общепринятой точкой зрения считается, что методы классификации текстов на основе метода опорных векторов (метод SVM) обычно показывают лучшие результаты относительно других. Наши исследования показали, что во многих случаях метод k ближаших соседей не уступает методу опорных векторов, а в случае зашумленных обучающих выборок может значительно превосходить его. Применение метода k ближайших соседей для модификации зашумленного обучающего множества может улучшать характеристики качества классификации метода опорных векторов. В условиях зашумленного обучающего множества при решении задачи классификации существенно использовать специальные модификации методов машинного обучения, что повышает качество получаемых результатов. Наиболее перспективным является двухэтапная процедура, когда на первом этапе производится явная или неявная очистка обучающего множества, а на втором этапе уже решается задача классификации.

Создан набор соединений-кандидатов для синтеза и проведения экспериментов in vitro по ингибированию протеинкиназ PIMI.
В ходе выполнения третьего этапа были проведены экспериментальные исследования 20 соединений из группы индолилмалеимидов, с целью определения являются ли они ингибиторами различных семейств протеинкиназ и в частности PIM-1. Экспериментальные результаты показали, что данная группа может быть разделена на три подгруппы в зависимости от их активности. Лишь одна из этих подгрупп содержит соединения, проявляющие активность по отношению к протеинкиназам семейств PIM.
Была проведена работа по подбору параметров программы докинга, оптимальных для описания взаимодействия ингибиторов с активным центром протеинкиназы PIM-1. Оптимизация параметров проводилась на наборе индолилмалеимидов. В ходе расчетов было показано, что кластеризация найденных решений для соединений, входящих в третью подгруппу и проявляющих активность относительно PIM-1, значительно превосходит результаты в двух других подгруппах. Были подобраны оптимальные параметры для проведения процедуры докинга с новыми наборами соединений.
Была проведена процедура докинга для 1894 соединений из базы данных NCI Diversity. По результатам расчетов было отобрано 35 соединений, которые могут быть потенциальными ингибиторами протеинкиназы PIM-1.

Разработаны научно-методические материалы для предложений по модификации учебных программ по специальности «Технологии параллельного программирования и высокопроизводительные вычисления» (магистратура) с учетом особенностей терафлопной и петафлопной производительности.
Приведено описание разработанных методических материалов для магистерских программ по специальности «Технологии параллельного программирования и высокопроизводительные вычисления». Представленные материалы включают расширенное описание учебных программ двух лекционных курсов, посвященных актуальным проблемам, связанным с решением прикладных задач на суперкомпьютерных системах. В курсе «Методы и средства отладки эффективности параллельных программ для высокопроизводительных вычислений» дается систематическое описание методов, подходов и инструментальных систем, направленных на повышение эффективности параллельных программ для суперкомпьютеров. Курс «Высокопроизводительные вычисления в задачах вычислительной физики и нанотехнологий» посвящен изучению вычислительных моделей и алгоритмов для описания физических процессов используемых при создании новых молекулярных систем на основе нанотехнологий. Основное внимание уделяется вычислительным аспектам и тем приближениям, которые используются в современных вычислительных кодах, позволяющих решать задачи нанотехнологий на современных параллельных супер-ЭВМ. Рассматриваются примеры применения вычислительных кодов и пакетов программ при разработке новых технологических процессов.

Проведена тестовая апробация разработанных кафедральных практикумов и модулей программной системы поддержки практикумов на вычислительных платформах НОЦ.
Приведено описание разработанной инструментальной системы для поддержки практикума по параллельным вычислениям, рассматривается функциональный состав системы и приводятся методические указания по формированию отчетов по выполнению заданий практикумов. На основе анализа результатов применения системы формулируются основные направления ее дальнейшего развития.

Разработаны научно-методические материалы для практикума «Задачи теории чисел: дискретное логарифмирование». Использованы открытые коды программ набора соотношений и решения систем линейных уравнений над полем большой характеристики, а также интерфейсы параллельного программирования и библиотеки работы с большими числами.
Научно-методические материалы практикума «Задачи теории чисел: дискретное логарифмирование» содержат описание различных алгоритмов дискретного логарифмирования с явными формулами, пригодными для реализации в виде программы. Составлено подробное описание библиотеки GMP для работы с большими числами, которая может служить инструментом при написании программ, позволяющих осуществить дискретное логарифмирование для размеров модуля, близких к реально используемым в современных системах защиты информации.

Оптимизирована параллельная версии программы решения разреженных систем линейных уравнений над полем двух элементов, набор статистики. Осуществлена факторизация конкретных чисел.
Получены теоретические оценки нового алгоритма решения разреженных систем линейных уравнений над полем из двух элементов по шагам. Данные оценки проверены при помощи тестовых запусков частей программы. Полученные результаты в основном совпали с теоретическими. В программе, реализующей последний шаг, выявлена затяжка времени, которая, по-видимому, связана с неоптимальной работой алгоритма циклической пересылки на данном кластере. Осуществлено изучение данной проблемы при помощи тестовой программы циклической пересылки. Полученные результаты свидетельствуют о влиянии на время физической конфигурации вычислительных узлов. Узлы на одном куске оперативной памяти работают значительно медленнее, чем на разных. Причина этого феномена видится в конструктивных особенностях процедур MPI, Open-MP. Решение видится в использовании специальных инструкций или программирования в машинных кодах.

Исследованы возможности использования рекуррентных последовательностей для тестов на простоту для чисел специального вида.
Путём обобщения функций Лемера получен новый тест на простоту чисел вида 2А5n-1, похожий на тест Вильямса 1976 года, но позволяющий параллельно проверять несколько соотношений, каждое из которых может быть свидетелем простоты указанного числа.

В рамках работ по направлению развития грид-технологий определена необходимость проведения экспериментов для подтверждения достижимости параметров работы системы, определенных в Техническом задании. Разработана программа и методика экспериментальных исследований, подготовлен тестовый полигон. Проведены тестовые эксперименты, обработка данных, сопоставление результатов тестирования с параметрами, определенными в Техническом задании.
Объектом исследования является географически-распределенная грид-инфраструктура с суперкомпьютерами в качестве ресурсных центров. Цель данного промежуточного этапа НИР — разработка методов эффективного решения задач, обработки, хранения, передачи и защиты информации с использованием прототипов программного обеспечения, программных интерфейсов и интерфейсов пользователя в рамках разработанной архитектуры и с использованием алгоритмов запуска многошаговых заданий, разработанных на предыдущих этапах.
Развернуть
4
01.01.2011 - 30.06.2011
Произведена разработка документа "Типовой регламент использования ресурсов суперкомпьютерного комплекса".
Суперкомпьютеры представляют собой большие и сложные комплексы. В связи с этим, их использование значительно отличается от использования бытовых компьютеров.
Для облегчения использования суперкомпьютерного комплекса разработан регламент использования ресурсов суперкомпьютерного комплекса. Данный документ основан на реальном опыте использования больших суперкомпьютерных комплексов «Чебышёв» и «Ломоносов».
Документ опирается на общую структуру комплекса, которая может варьироваться в зависимости от конкретной вычислительной установки. Например, размер и характер использования общей файловой системы может быть различен для разных областей применения комплекса, для разных возможностей файлового хранилища, числа пользователей. Политика использования вычислительных ресурсов также может отличаться в зависимости от множества факторов. Всё это нужно учитывать при разработке реального регламента. Представляемый документ может быть использован как типовой, то есть как основа для реального регламента.
Типовой регламент призван регулировать использование основных ресурсов суперкомпьютерного комплекса и установить порядок работы. К основным ресурсам относятся — вычислительные ресурсы (процессорное время), локальные дисковые ресурсы (недоступные вычислительным узлам), сетевые дисковые ресурсы (доступные вычислительным узлам), ленточные ресурсы, использование коммерческого ПО.

Произведена интеграция информационного портала суперкомпьютерного комплекса с другими информационными ресурсами. Интеграция портала суперкомпьютерного комплекса Московского университета с основными профильными web-сервисами и информационными ресурсами по суперкомпьютерным технологиям является важнейшей составляющей создания информационного поля, адекватно отражающего деятельность МГУ в области высокопроизводительных вычислений.
При построении взаимосвязанной системы web-ресурсов использованы различные уровни интеграции, каждый из которых целесообразен к применению при решении своих задач.
1) Уровень базовой интеграции. Применяется для установления логической связи между информационными ресурсами. В большинстве случаев является рекомендацией пользователю продолжить изучение текущего материала или обратить внимание на сопряженные вопросы, пройдя по указанной ссылке (URL).
2) Уровень статического общего контента. Данный тип связей характерен для случаев, когда контент обладает сложной, изменяющейся структурой и используется на различных ресурсах. В таком случае обычно используются ручные или полуавтоматизированные вставки контента. Однако если возможно автоматизировать выборку исходных данных, то целесообразно применять динамические сервисы генерации страниц. Этот способ обычно является промежуточным шагом между использованием ручного копирования контента и применением полностью автоматизированной системы управления контентом (CMS).
3) Динамические вставки. Представляют собой вставки кода на языке сценариев (например, PHP) или сделанные с помощью серверных директив (если скрипт выполняется локально). При обращении к странице обрабатывается сценарий и подгружается результат его выполнения. При этом сценарий может быть локальным или же располагаться на другом сервере. Примеры реализации в случае web-представительства Суперкомпьютерного центра МГУ: отражение текущего состояния вычислительной системы, статус очереди задач, выборка недавно обновленных тем в дискуссионном клубе.

Проанализирована эффективность применения реконфигурируемого компьютера, построенного на базе ПЛИС, для решения прикладных задач. Результаты анализа показывают, что структурно-процедурная организация вычислений для сильносвязанных задач является эффективной и обеспечивает практически линейный рост производительности. В частности, для задач математической физики эффективное число процессоров составит 10^5 - 10^6, а для задач цифровой обработки сигналов - 10^4 - 10^5.

Реализация ряда базовых математических алгоритмов на графических процессорах разных производителей произведена. В настоящее время существует два основных инструмента программирования графических процессорных устройств (ГПУ): технология CUDA, разработанная и поддерживаемая компанией NVidia, и открытый стандарт OpenCL, разработанный Apple и поддерживаемый Khronos Group. Поскольку требуется сравнить производительность различных ГПУ, технология CUDA не подходит, т.к. она поддерживается только на ГПУ NVidia. Поэтому в качестве низкоуровневой технологии программирования ГПУ была выбрана технология OpenCL. Но сама по себе технология OpenCL является слишком низкоуровневой, и программирование ГПУ с её помощью требует большого количества дополнительного кода, как для организации взаимодействия между ЦПУ и ГПУ, так и для оптимизации собственно кода, исполняемого на ГПУ. Поэтому OpenCL используется не напрямую, а посредством технологии NUDA (Nemerle Unified Device Architecture), представляющей собой систему расширений языка Nemerle, позволяющую удобно программировать ГПУ. Код, написанный с помощью NUDA, транслируется в эквивалентный код на OpenCL с минимальными накладными расходами, так что его производительность близка к производительности соответствующего низкоуровневого кода. С другой стороны, NUDA скрывает от пользователя низкоуровневые детали взаимодействия между ЦПУ и ГПУ, и позволяет исполнять на ГПУ целые циклы, а не отдельные ядра, поэтому её использование требует написание намного меньшего объёма кода.
Описана используемая для реализации система программирования NUDA. В разделе "Язык программирования Nemerle" даётся краткое описание базового языка программирования Nemerle, а в разделе "Система программирования NUDA" описывается сам набор расширений, используемый для программирования графических процессоров. Далее идёт описание собственно решаемых задач и систем, на которых выполняется тестирование. В разделе "решаемые задачи и используемые системы" описываются тестовые задачи и системы, а в разделе "полученные результаты и дальнейшие работы" описываются и анализируются результаты, и обсуждаются возможные направления дальнейшей работы.

Исследованы возможности улучшения качества известных методов извлечения фактографической и терминологической информации за счет учета известной матрицы близости на больших коллекциях документов.
Рассматривается алгоритм полного попарного расчета матрицы ближайших соседей, эффективно применимый на практике для коллекций размером порядка миллиона документов.
На основе матрицы близости рассмотрено несколько базовых методов кластеризации, для которых выполнили подбор оптимальных параметров для новостных подколлекций Яндекс.Новости 2003 – 2004 гг. по трем дням (в среднем 1750 документов в день). Проведенные эксперименты по оценке методов кластеризации на трех «суточных» подколлекциях новостной коллекции РОМИП 2006 показали, что все основные методы кластеризации показывают примерно одинаковые результаты при соответствующих оптимальных наборах параметров; в наших экспериментах метод агломеративной кластеризации и модифицированный метод k средних показали немного лучшие результаты.
Предложены методы для извлечения однословных и многословных терминов путем ранговой классификации на основе множества принзнаков – оценивается процентная доля терминов в начале упорядоченного списка словосочетаний. Впервые для определения терминологичности словосочетаний предложено использовать структуру разрабатываемого тезауруса предметной области и описанные в нем знаний о предметной области. Эта информация улучшает качество определения терминологических словосочетаний и полезна в ситуации пополнения существующих тезаурусов предметной области. Эксперименты по автоматическому извлечению терминологических словосочетаний проводились на основе сопоставления результатов работы разных алгоритмов с вручную отобранными терминами в Онтологию по естественным наукам и технологиям ОЕНТ.
Представлен способ автоматизированного пополнения обучающих примеров для системы извлечения информации из текста. Метод основан на нахождении в новостном кластере несколько близких по содержанию предложений, если хотя бы в в одном из которых удалось обнаружить извлекаемое событие.
Исследован ряд признаков для обнаружения предложений, потенциально содержащих пропущенный факт. Для наилучшего нахождения таких предложений произведено комбинирование признаков с использованием методов машинного обучения. Реализован комплекс программных средств, предназначенный для автоматического выделения шаблонов, извлекающих описания ситуаций из текстов на русском языке.
Качество работы предложенного подхода проверялось на извлечении фактов получения кредита. Эксперименты показали применимость данной системы для формирования шаблонов извлечения информации из текста.

Разработаны компьютерные методы оценки специфичности связывания лигандов с заданным белком-мишенью.
Прежде чем определять специфичность связывания лигандов с заданным белком-мишенью необходимо повысить точность расчетов энергии связывания белок-лиганд без ухудшения точности докинга, т.е. точности позиционирования лигандов. Для этого было принято решение о разработке программ постпроцессинга, с помощью которых после позиционировании лиганда в активном центре белка-мишени программой докинга проводится уточнение энергии связывания. Это уточнение, если возможно, проводия в два этапа. Эффективность разработанного подхода была проверена на одном белке-мишени – урокиназе, относящемся к калассу сериновых протеаз.

Разработаны научно-методические материалы для модулей базовых лекционных курсов в поддержку суперкомпьютерных технологий для студентов смежных специальностей.
Суперкомпьютерные технологии становятся неотъемлемой частью научных исследований в различных областях. В разделе рассматриваются научно-методические материалы для модулей образовательных курсов, посвященных применению высокопроизводительных вычислений и суперкомпьютерной техники в биоинформатике и молекулярной биологии.
В разделе приводится подробный обзор наиболее популярных программных средств, используемых в биоинформатике, основных механизмов их работы и особенностей их параллельных реализаций. Детально рассмотрены параллельные программные пакеты BLAST, ClustalW, семейство программ FASTA. Приведен анализ эффективности параллельных пакетов mpiBLAST и ClustalW-MPI на суперкомпьютере BlueGene/P. Рассмотрена задача поиска повторов в биологических последовательностях и предложен параллельный алгоритм поиска повторов, основанный на использовании алгоритма нахождения наибольшей общей подпоследовательности для биопоследовательностей.

Проведена оптимизация практикума "Задачи теории чисел: дискретное логарифмирование".
Важной частью алгоритмов факторизации и дискретного логарифмирования является поиск чисел в некотором, определенном заранее множестве, раскладывающихся в произведение сравнительно небольших простых чисел. Каждое такое число дает некоторое соотношение между простыми, входящими в разложение, или между некоторыми их характеристиками.
В практикуме "Задачи теории чисел: дискретное логарифмирование" изучаются три алгоритма решения задачи дискретного логарифмирования. Каждый из алгоритмов предлагается студентам для самостоятельной реализации на одном из языков Java или C++. В этом разделе пойдет речь о том, как применение параллельных вычислений позволяет оптимизировать каждый из алгоритмов, изложенных в практикуме. Основной идеей, применяемой для параллелизации алгоритмов вообще, является, конечно же, выделение независимых друг от друга операций (и/или шагов) алгоритма, и делегирование этих операций независимым вычислителям (это могут отдельные процессоры, узлы кластера, или просто некие виртуальные потоки, выполняющиеся параллельно). Во многих алгоритмах обнаружение таких мест не составляет особого труда. При этом прежде, чем приступать к реализации такого "улучшения", требуется провести некую качественную аналитическую работу по оценке числа операций в параллельной и однопоточной версиях алгоритма. Это необходимо, чтобы понять, а имеет ли вообще смысл параллелизация того или иного алгоритма.
Далее приведено краткое описание каждого из алгоритмов и в виде задач сформулированы способы оптимизации каждого из них. В каждой задаче, где требуется в результате осуществить дискретное логарифмирование, приведены границы, для которых программа должна работать. По этим границам видно, как расширяется область применимости того или иного алгоритма.

Произведена модернизация программы набора соотношений современных теоретических достижений.
Набор соотношений есть важная и наиболее трудоемкая часть алгоритмов факторизации больших целых чисел и дискретного логарифмирования. Метод просеивания на решетках существенно ускоряет выполнимость этого этапа программы.

Проведены исследования распределения длины максимальной ветви дерева Пратта. Исследован и оптимизирован алгоритм решета числового поля. Исследованы возможности по оптимизации набора соотношений в задачах факторизации и дискретного логарифмирования.
В работе излагаются результаты исследований и оптимизации алгоритма решета числового поля. Результаты описываются в связи с задачей факторизации больших целых чисел.

Произведены обобщение результатов предыдущих этапов работ, оценка полноты решения задач и эффективности полученных результатов в сравнении с современным научно- техническим уровнем (грид-технологии). Доработано программное обеспечение сервиса запуска многошаговых заданий в соответствии с результатами тестовых испытаний. Проведены комплексные испытания систем запуска многошаговых заданий.
Объектом исследования является географически-распределенная грид-инфраструктура с суперкомпьютерами в качестве ресурсных центров. В рамках данного этапа проводились работы по реализации и отладке методов эффективного решения задач обработки, хранения, передачи и защиты информации с использованием разработанных прототипов программного обеспечения, программных интерфейсов и интерфейсов пользователя. Проведены испытания прототипа сервиса запуска многошаговых заданий Pilot.
Развернуть
5
01.07.2011 - 25.09.2011
1. Реализация окончательной полнофункциональной версии информационного портала суперкомпьютерного комплекса

Финальным и важнейшим шагом при создании портала суперкомпьютерного комплекса стал перенос статического содержимого, накопленного за все время работ, в систему управления контентом (CMS), позволяющую динамически осуществлять выборки и формировать результирующую страницу для каждого контекстного запроса, избегая при этом физического дублирования материалов в различных разделах портала. В качестве используемой CMS была выбрана система Drupal, успешно опробованная на ряде проектов суперкомпьютерной тематики МГУ, таких как "Совместный центр по высокопроизводительным вычислениям МГУ-Intel" (http://msu-intel.parallel.ru) и портал программы "Суперкомпьютерное образование" (http://hpc-education.ru). Данный переход позволил не только улучшить качество формата представления материалов, но и существенным образом расширить возможности по управлению содержимым, делая максимально удобным доступ к тем разделам, которые имеют отношение к материалу, изучаемому пользователем в данный момент.
Целесообразно отметить, что с переходом на данную CMS все основные web-сервисы суперкомпьютерного комплекса МГУ могут функционировать в едином формате, что существенно повышает степень интеграции и гарантирует прекрасные возможности дальнейшего расширения как контента, так и функционала, что необходимо для современных быстроразвивающихся суперкомпьютерных центров. Благодаря совершенному на последнем этапе переводу контента в CMS был получен мощный инструмент не только для работы с существующими сервисами, отвечающими потребностям суперкомпьютерного центра, но и позволяющий эффективно изменять и добавлять как функционал разделов, так и сами разделы, исходя из возникших особых потребностей.
Таким образом, есть все основания полагать, что разработанный комплекс средств в рамках портала суперкомпьютерного комплекса будет являться удобным, полезным и эффективным ресурсом для всех категорий пользователей, держателей систем, разработчиков и исследователей в области высокопроизводительных вычислений.

2. Разработка научно-методических материалов по методам и технологиям программирования компьютеров с перспективной архитектурой (на базе ГПУ, ПЛИС и других)

На пятом этапе работа велась по трём основным направлениям. Была создана и описана система синхронизации данных между хостом и ГПУ на основе виртуальной памяти в пользовательском пространстве. Созданная система позволяет избавиться от большинства дополнительных аннотаций массивов данных и упростить таким образом программирование ГПУ в рамках системы NUDA, а в перспективе — и других систем. Было создано краткое методическое пособие по обучению основам программирования на NUDA. Были разработаны расширения для программирования ПЛИС при помощи языка Nemerle и системы расширений NUDA.
Учебно-методические материалы по программированию ГПУ и системе программирования NUDA, разработанные в ходе выполнения данного контракта, использовались при проведении следующих мероприятий во время школ по высокопроизводительным вычислениям:
• Лекция и практикум по языку OpenCL для программирования нетрадиционных высокопроизводительных вычислительных архитектур во время летней сессии школы "Суперкомпьютерное моделирование и визуализация в научных исследованиях", 04-14.07.2010, ВМиК МГУ и НИВЦ МГУ им. М.В.Ломоносова, Москва
• Лекция, мастер-класс и практикум по высокоуровневой системе программирования гетерогенных вычислительных архитектур NUDA во время осенней сессии школы "Суперкомпьютерные технологии и высокопроизводительные вычисления в образовании, науке и промышленности", 25-31.10.2010, ННГУ им Н.И.Лобачевского, Нижний Новгород
• Лекция и студенческий проект по использованию расширяемых языков для программирования ГПУ, а также по высокоуровневой системе программирования гетерогенных вычислительных архитектур NUDA во время летней молодёжной школы "Разработка параллельных приложений для петафлопсных вычислительных систем", 26.06-03.07.2011, ВМиК МГУ и НИВЦ МГУ им. М.В.Ломоносова, на базе НОЦ "Суперкомпьютерные технологии"

3. Разработка новых методов извлечения фактографической и терминологической информации, существенно использующих кластерную структуру коллекции документов

Представлен новый метод извлечения терминологических квазисинонимов, предназначенный для улучшения качества решения задачи автоматического обзорного реферирования новостных кластеров. Описан эксперимент, в котором для новостного кластера извлекаются многословные выражения, и производится формирование синонимических рядов выражений, близких по смыслу по употреблению в данном кластере. Часто такие выражения представляют собой альтернативные наименования одной и той же сущности. Для нахождения таких выражений, помимо известного метода сопоставления контекстов употребления выражений, используется еще и информация о встречаемости выражений в соседних предложениях. Было проведено тестирование реализованного метода и показан вклад предложенного фактора.
Предложен и исследован новый метод извлечения специфической фактографической информации – информации об эмоциональной оценке некоторой сущности (кинофильмов) – на основе автоматически выделяемых эмоционально окрашенных терминов.
Описан метод извлечение оценочных слов для конкретной предметной области, на основе нескольких специальных коллекций, исследована роль оценочных слов в задаче классификации отзывов о фильмах на три класса. Наиболее существенное влияние на качество классификации оказало, использование информации об оценочности слова и весов, вычисленных с помощью TFIDF, а также учет слов-операторов. Поведение всех наборов признаков продемонстрировало схожее поведение на различных коллекциях отзывов, что дает основание считать полученные результаты достоверными. Оценена верхняя граница качества классификации, которая оказалась весьма близка к результатам лучшего автоматического алгоритма, что говорит о достижении реального предела дальнейшего улучшения качества автоматической классификации отзывов на три класса.

4. Применение разработанных методов оценки специфичности для протеинкиназы PIM1

В ходе выполнения пятого этапа проекта разработанная программа постпроцессинга Discore была применена к протеинкиназе PIM-1. Показано существенное улучшение точности предсказания энергии связывания белок-лиганд, вычисляемой программой Discore, по сравнению с энергией связывания, даваемой программой докинга SOL. Это улучшение точности расчетов энергии связывания позволяет проводить расчет специфичности разрабатываемых ингибиторов протеинкиназы PIM-1.
В отчете подробно рассмотрено приготовление лигандов и белка для проведения докинга и постпроцессинга, дано описание процедуры постпроцессинга, состоящей в локальной оптимизации положения лиганда в активном центре белка с последующей корректировкой отдельных вкладов в энергию связывания с помощью учета экспериментальных результатов на обучающем наборе лигандов.
Показана важная роль учета эффекта десольватации для повышения точности расчета энергии связывания белок-лиганд.
Показана эффективность проведения локальной оптимизации сначала в вакууме, а затем в растворителе.
Обучение Discore проведено на обучающем наборе из 24 лигандов, включающем 18 ингибиторов PIM-1 и шесть неактивных соединений. Для этого набора оценка энергии связывания белок-лиганд, даваемая программой докинга SOL провела к 11 ошибочным предсказаниям (8 False negatives и 3 False positives). Оценка энергии связывания белок-лиганд программой Discore была правильно для всех 24 лигандов, и в результате все 11 ошибочных предсказаний стали правильными.
Применение программы Discore для тестового набора из 13-ти лигандов (как ингибиторов PIM-1, так и неактивных соединений) привела к ликвидации 5 ошибочных предсказаний программой докинга SOL, и в результате из 13 лигандов осталось только одно ошибочное предсказание (False positive).

5. Разработка программы внедрения результатов НИР в образовательный процесс

Были разработаны программы и выполнено внедрение результатов НИР по следующим направлениям работ:
• Молекулярные модели белков PIM1 и их активных центров. Методика постпроцессинга для программы докинга на основе локальной минимизации. Компьютерные методы оценки специфичности связывания лигандов с заданным белком-мишенью
• Научно-методические материалы программ лекционных курсов по базовым технологиям параллельных вычислений с учетом особенностей вычислительных систем с терафлопной и петафлопной производительностью и базового практикума по технологиям параллельного программирования и высокопроизводительным вычислениям. Набор заданий базового практикума по технологиям параллельного программирования и высокопроизводительным вычислениям. Научно-методические материалы спецкурса «Параллельные математические библиотеки». Научно-методические материалы для Программы спецкурса «Администрирование суперкомпьютерных систем». Научно-методические материалы для программы и для спецкурса «Системы визуализации результатов высокопроизводительных вычислений». Научно-методические материалы спецкурса «Разработка программ для вычислительных систем с перспективной архитектурой». Программная система поддержки практикумов для суперкомпьютерных платформ НОЦ
• Научно-методические материалы практикума «Задачи теории чисел: разложение чисел на множители». Научно-методические материалы практикума «Задачи теории чисел: дискретное логарифмирование». Параллельная программа решения разреженных систем линейных уравнений над полем из двух элементов
• Учебные материалы по методам и технологиям программирования компьютеров с перспективной архитектурой (ГПУ, ПЛИС и других)
• Методы классификации документов, прежде всего для случая противоречивых входных данных (когда для тематически близких документов приписаны разные классы). Методы извлечения фактографической и терминологической информации, существенно использующих кластерную структуру коллекции документов

6. Комплексная апробация разработанного учебно-методического комплекса для суперкомпьютерных систем

Приводится анализ результатов, полученных в результате апробации разработанного учебно-методического комплекса, включающего в свой состав методические разработки и программные системы. Описываются программные приложения, разработанные с целью сбора и анализа статистики по выполнению студентами практических заданий на суперкомпьютерных системах. Обсуждаются результаты комплексной апробации, выполненной в рамках проведения лекционно-практического курса «Актуальные проблемы прикладной математики. Суперкомпьютерные технологии» для студентов 5 курса факультета ВМК МГУ в марте – мае 2011 года и при проведении молодежной школы по суперкомпьютерным технологиям «Разработка параллельных программ для петафлопсных вычислительных систем», прошедшей в НОЦ МГУ в июне-июле 2011 года.
Приводятся рекомендации по использованию разработанных курсов и учебно-методических материалов, обсуждаются возможные направления развития выполненных разработок.

7-10. Оптимизация практикума «Задачи теории чисел: дискретное логарифмирование» с использованием параллельных версий программ решения систем линейных уравнений над полем большой простой характеристики. Разработка прототипа программы решения систем линейных уравнений над полем большой простой характеристики. Создание прототипа программы параллельной реализации решета числового поля. Исследование структурных Гауссовых исключений и других методов сжатия матриц при решении разреженных систем линейных уравнений
Работы 5-го этапа согласно пп. 5.7-5.10 Календарного плана тесно связаны между собой, в связи с чем представлена общая аннотация по данным пунктам КП.
Данные работы посвящены задаче дискретного логарифмирования в мультипликативной группе поля вычетов по простому модулю, т.е. решению сравнений вида , где - простое число, - целые числа, не делящиеся на . Поиск неизвестного показателя степени по заданным есть весьма трудоёмкая вычислительная задача. На этом основаны многочисленные её применения в криптографии. В условиях отсутствия теоретических оценок сложности, реализация на современной технике наиболее эффективных алгоритмов, решающих эту задачу, и практическая оценка необходимого времени дают основу для выбора величины параметра , обеспечивающего безопасное функционирование криптографических устройств.
Самым быстрым из известных в настоящее время алгоритмов решения задачи дискретного логарифмирования является так называемый метод просеивания в полях алгебраических чисел (метод решета числового поля). Он имеет достаточно сложную структуру и реализации его посвящены пункты 5.8-5.10 этого этапа. Основной алгоритм составляет содержание пункта 5.9. Здесь созданы программы, последовательно реализующие следующие стадии алгоритма.
а) Построение двух различных неприводимых многочленов с целыми коэффициентами, обладающих рядом арифметических свойств, в частности, имеющих в определенных границах много значений, распадающихся в произведение сравнительно небольших простых множителей. Созданы программы, строящие специальными методами пары таких многочленов, программы, позволяющие сравнить качество построенных многочленов и выбрать среди них в некотором смысле лучшую пару.
б) Выбранная пара многочленов определяет два поля алгебраических чисел. С помощью параллельной реализации алгоритма просеивания в кольцах целых чисел этих полей удаётся построить множество элементов в обоих полях, допускающих разложение в произведения простых идеалов сравнительно небольшой нормы (базы множителей). Информация об этих разложениях даёт множество мультипликативных сравнений, которые могут быть интерпретированы как линейные соотношения между неизвестными, так называемыми виртуальными логарифмами идеалов из баз множителей. Все вместе эти соотношения образуют огромную систему линейных уравнений.
Получившаяся в результате работы программ пункта 5.9 система разрешима, но слишком велика для того, чтобы непосредственно найти её решения. Принципиальным достоинством является разреженность её матрицы. Методы, описанные и реализованные в п. 5.10 плана работ, позволяют «сжать» эту систему, т.е. заменить её некоторой существенно меньшей по размерам системой, имеющей те же решения, причем не слишком увеличивая плотность матрицы. Для решения разреженных систем линейных уравнений нами был выбран итерационный метод Ланцоша и предложена достаточно эффективная на уровне оценок сложности, параллельная его реализация. Соответствующая программа была написана в соответствии с п. 5.8 плана работ.
Созданные программы учитывают самые последние достижения в этой области и ряд предложенных нами в процессе выполнения работ усовершенствований. Комплекс программ достаточно сложен как в теоретическом, так и в вычислительном отношении и по существу является началом большой работы по совершенствованию его и доведению до рекордных результатов.
В соответствии с п. 5.7 плана работ была проведена оптимизация разработанного нами практикума «Задачи теории чисел: дискретное логарифмирование» на основе параллельных версий программ решения систем линейных уравнений над полем большой простой характеристики. Соответствующее учебное пособие будет использоваться в учебной деятельности на механико-математическом факультете МГУ.

11. Доработка программного обеспечения сервиса запуска многошаговых заданий в соответствии с результатами комплексных испытаний. Оценка возможности создания конкурентоспособной продукции и услуг и разработка рекомендаций по использованию результатов проведенной НИР (грид-технологии). Формулирование технических требований для технического задания на разработку продукции.

По результатам испытаний прототипа сервиса, проведенных на предыдущем этапе, было принято решение о внутренней реорганизации кода сервиса с выделением блоков стыковки с грид-шлюзами и информационной системой в отдельные модули, для упрощения дальнейшей интеграции сервиса с другими грид-инфраструктурами. В отчете приводится спецификация интерфейсов прикладного программирования для разработки модулей стыковки с другими грид-инфраструктурами на основе средств zope.interface.
Сравнение характеристик разработанного прототипа сервиса запуска многошаговых заданий с другими решениями аналогичного уровня показало, что предоставляемый сервисом набор функций является достаточно полным, а некоторые из функциональных возможностей сервиса не имеют известных аналогов. В отчете приводится сравнение функциональных возможностей грид-сервиса Pilot с некоторыми популярными сервисами распределения задач в грид: DagMan, gLite WMS, UNICORE, Taverna. Анализ показал, что набор функций, реализованный в прототипе системы запуска многошаговых заданий Pilot, соответствует текущему мировому уровню, а некоторые из возможностей сервиса являются уникальными и не имеют известных аналогов. К уникальным возможностям грид-сервиса Pilot относится поддержка групповых зависимостей между задачами, что позволяет значительно упростить запуск задач на параллельные кластеры и суперкомпьютеры.
Сформированы технические требования для подготовки Технического задания на разработку продукции на основе результатов НИР.
Приведено описание алгоритма управления многошаговыми заданиями и описание прототипа программы сервиса запуска многошаговых заданий.
Развернуть

Программа

Программа "Научные и научно-педагогические кадры инновационной России" на 2009 - 2013 годы

Программное мероприятие

1.1 Проведение научных исследований коллективами научно-образовательных центров
Продолжительность работ
2010 - 2012, 30 мес.
Бюджетные средства
1,5 млн
Организация
Факультет ВМК МГУ
профинансировано
Продолжительность работ
2010 - 2012, 30 мес.
Бюджетные средства
1,5 млн
профинансировано
Продолжительность работ
2010 - 2012, 26 мес.
Бюджетные средства
6,7 млн
Организация
ФГАОУ ДПО ЦРГОП и ИТ
профинансировано
Тема
Разработка прикладного программного обеспечения в области приоритетного направления «Информационно-телекоммуникационные системы» по критической технологии «Технологии обработки, хранения, передачи и защиты информации».
Продолжительность работ
2008, 2 мес.
Бюджетные средства
2,8 млн
Количество заявок
22
Тема
«Проведение научных исследований коллективами научно-образовательных центров в области обработки, хранения, передачи и защиты информации»
Продолжительность работ
2009 - 2011, 29 мес.
Бюджетные средства
15 млн
Количество заявок
76
Тема
Проведение научных исследований коллективами научно-образовательных центров в области обработки, хранения, передачи и защиты информации
Продолжительность работ
2010 - 2012, 30 мес.
Бюджетные средства
15 млн
Количество заявок
91
Тема
Проведение научных исследований коллективами научно-образовательных центров в области обработки, хранения, передачи и защиты информации
Продолжительность работ
2010 - 2012, 26 мес.
Бюджетные средства
15 млн
Количество заявок
87
Тема
«Организационно-техническое обеспечение проведения конференции «Проведение научных исследований в области обработки, хранения, передачи и защиты информации»»
Продолжительность работ
2011, 2 мес.
Бюджетные средства
0,9 млн
Количество заявок
3