Регистрация / Вход
Прислать материал

Разработка технологий параллельной обработки сверхбольших объемов данных с использованием колоночного представления и сжатия информации на кластерных вычислительных системах с многоядерными ускорителями и создание на их основе параллельной СУБД.

Докладчик: Соколинский Леонид Борисович

Должность: Проректор по информатизации

Цель проекта:
Разработка комплекса научных и программно-технических решений в области технологий параллельной обработки сверхбольших объемов данных с использованием колоночного представления и сжатия информации на кластерных вычислительных системах с многоядерными ускорителями.

Основные планируемые результаты проекта:
Экспериментальная программная реализация параллельной СУБД с сопроцессором баз данных должна быть опробована на суперкомпьютере, входящем в список Топ50 (top50.supercomputers.ru), содержащем не менее 5000 вычислительных ядер.
Экспериментальные исследования разрабатываемых технологий должны быть проведены в соответствии с методикой Совета по обработке транзакций (TPC, Transaction Processing Council) на стандартных тестах TPC-C и TPC-H. В ходе экспериментальных исследований должны быть достигнуты показатели стандартных тестов TPC-C и TPC-H не ниже, чем у систем, находящихся на 10-м месте в рейтинге результатов TPC по соответствующему тесту.
При выполнении ресурсоемких операций к сверхбольшим базам данных с использованием сопроцессора баз данных должно быть достигнута сокращение энергопотребления не менее 5%.
При выполнении ресурсоемких операций к сверхбольшим базам данных с использованием сопроцессора баз данных должно быть достигнуто ускорение не менее 50%.
Система тестовых наборов данных должна состоять из не менее 1 млн. записей и должна включать в себя не менее 5 различных запросов класса OLTP и не менее 5 различных запросов класса OLAP.
При выполнении реляционных операций с использованием распределенных колоночных индексов на многоядерном ускорителе, общая утилизация использования процессорных ядер должна быть не менее 60% от пиковой производительности ускорителя.
Разрабатываемый прототип параллельной СУБД с сопроцессором баз данных должен быть ориентирован на использование многоядерных ускорителей с объемом памяти не менее 8Гб и имеющих не менее 61 вычислительного ядра.

Назначение и область применения, эффекты от внедрения результатов проекта:
Предполагаемые результаты проекта планируется использовать по следующим основным направлениям.
1) Решение практических задач и проведение фундаментальных исследований в широком спектре предметных областей, которые требуют оперативной и аналитической обработки баз данных сверхбольших объемов (научные базы данных в задачах моделирования климата и погоды, экспериментальных установок для изучения элементарных частиц, химических соединений и смесей и др., медицинские базы данных с историями болезней пациентов, базы данных социальных сетей и др.).
2) Моделирование и исследование произвольных аппаратных платформ параллельных систем баз данных, использующих многоядерные ускорители, в контексте оперативной и аналитической обработки сверхбольших баз данных.

Индустриальным партнером и непосредственным потребителем ожидаемых результатов является ЗАО "РСК Технологии".
Потенциальными потребителям ожидаемых научных и научно-технических результатов являются научно-исследовательские центры, университеты и институты РАН, которые проводят научные исследования в различных предметных областях, связанные с хранением, обработкой и интеллектуальным анализом сверхбольших баз данных: Гидрометцентр (Москва), Институт программных систем Российской академии наук (Переславль-Залесский), Научно-исследовательский вычислительный центр МГУ имени М.В. Ломоносова (Москва), Институт математики и механики им. Н.Н. Красовского (Екатеринбург), Институт вычислительной математики и математической геофизики Сибирского отделения Российской академии наук (Новосибирск), Российский химико-технологический университет имени Д.И. Менделеева (Москва), Институт нефтехимии и катализа Российской академии наук (Уфа) и др.

Текущие результаты проекта:
Разработана оригинальная модель распределенных колоночных индексов. Фреймворк СУБД с использованием распределенных колоночных индексов выглядит следующим образом. Система баз данных включает в себя сервер баз данных и сопроцессор баз данных. Сервер баз данных реализован в виде последовательной или параллельной СУБД, в которой вводится дополнительный уровень абстракции при выполнении реляционной операции: на первой фазе вычисляются адреса кортежей, из которых строится результат; на второй фазе конструируется результирующее отношение путем считывания кортежей по полученным адресам. Например, для соединения двух отношений R и S на первой фазе получаются пары адресов кортежей R и S, удовлетворяющих условию соединения; на второй фазе происходит извлечение из базы данных соответствующих отношений и их соединение в кортеж результирующего отношения. В контексте конкретного приложения баз данных администратор для часто повторяющихся ресурсоемких операций создает необходимые распределенные колоночные индексы, постоянно хранящиеся в оперативной памяти вычислительных узлов в сжатом сегментированном виде. Копии этих индексов сохраняются на твердотельных накопителях, установленных в каждом узле. Когда при выполнении запроса встречается такая операция, вычисление адресных пар выполняется сопроцессором баз данных с вовлечением всех узлов кластера, оснащенных многоядерными ускорителями. Каждый сегмент колоночного индекса разжимается, обрабатывается и сжимается на отдельном ядре многоядерного ускорителя. При этом отсутствуют обмены данными как между процессорными ядрами ускорителя, так и между узлами кластера. Полученные адресные пары сливаются в одну таблицу, которая передается СУБД. На основе полученных пар адресов СУБД конструирует результат.