Регистрация / Вход
Прислать материал

Разработка комплекса научно-технических решений предназначенных для хранения и обработки сверхбольших объемов данных в задачах механики сплошной среды

Номер контракта: 14.607.21.0090

Руководитель: Самоваров Олег Ильгисович

Должность: научный руководитель института

Организация: Федеральное государственное бюджетное учреждение науки Институт системного программирования им. В.П. Иванникова Российской академии наук
Организация докладчика: Федеральное государственное бюджетное учреждение науки Институт системного программирования Российской академии наук

Аннотация скачать
Постер скачать
Ключевые слова:
научные данные, обработка данных, извлечение информации, численное моделирование, сингулярное разложение матрицы, собственные значения, гидродинамика, турбулентность, когерентные структуры, метод динамического разложения мод, частоты и волновые числа, параллельные и распределенные вычисления

Цель проекта:
1) Проект направлен на решение фундаментальной задачи — обработка больших объемов данных, возникающих при численном решении задач механики сплошной среды. 2) Целью проекта является разработка комплекса научно-технических решений, предназначенных для создания быстродействующей кластерной системы хранения и обработки сверхбольших объемов данных в распределенных облачных системах, включающих методы построения распределенной архитектуры обработки и хранения больших данных и методы оптимизации скорости доступа к данным в распределенном облачном хранилище на основе частоты их использования. На основе разработанных решений, будет создана система для обработки больших объемов данных, возникающих при численном решении задач механики сплошной среды. Разработанные в рамках проекта методы и программная реализация этих методов даст возможность обработки больших объемов данных возникающих при численном моделировании для целого ряда областей механики сплошной среды: аэроакустика, аэродинамика, гидродинамика.

Основные планируемые результаты проекта:
1. Основные планируемые результаты проекта:
- Принципы и методы построения технологии виртуализации обработки данных непосредственно на узлах хранения данных;
- Принципы и методы оптимизации скорости доступа к данным в распределенном облачном хранилище на основе частоты их использования;
- Программная архитектура обработки больших объемов данных;
- Методика обработки больших объемов данных, возникающих при численном решении задач механики сплошной среды.

2. Разработанный комплекс научно-технических решений не имеет аналогов, поскольку позволит разворачивать виртуальные кластера обработки данных, используя данные о характере прикладных задач, оптимизировать время доступа к данным. Комплекс будет иметь возможность анализировать данные в задачах механики сплошной среды, при этом прикладная область применения не ограничивается механикой сплошной среды.

Краткая характеристика создаваемой/созданной научной (научно-технической, инновационной) продукции:
1. На основе результатов проекта может быть создан программный продукт или предоставляться комплекс услуг по поддержке проектирования распределенных вычислительных инфраструктур, предназначенных для эффективного хранения и анализа «больших данных».
2. Подходы, связанные с многоуровневыми хранилищами известны и описаны давно и не могут называться научно-технически новыми. В то же время, техническая новизна предлагаемой разработки, не ограничена конкретной облачной платформой: в рамках проекта будет разработан и реализован тиринг, в качестве технического решения для оптимизации скорости доступа к данным, для одной из кластерных файловых систем, которые могут применяться не только для Openstack, но и без привязки к нему. Для Openstack будет произведена интеграция этой общей технологии для обеспечения прозрачности использования с точки зрения пользователя.
3. Самым близким решением, является Cloudera Manager (компании Cloudera), которое позволяет разворачивать на кластере утилиты, относящиеся к дистрибутиву CDH.
Отличия предлагаемого решения от Cloudera Manager:
- Сценарии, Cloudera Manager, предполагают использование только для отладки;
- Не содержат оптимизаций, основанных на знаниях о вычислительной среде;
- Не производится проверок, связанных с оптимальностью выделяемых ресурсов;
- Не предлагается решений для анализа «больших данных» в задачах механики сплошной среды.
4. Оптимизация скорости доступа к данным будет достигаться за счет применения математической модели оценки времени выполнения прикладного приложения и за счет применения многоуровневого хранения с тирингом при доступе к архивным данным. В настоящий момент прикладная область будет ограничена обработкой данных в задачах механики сплошной среды, а облачная инфраструктура будет представлена OpenStack.

Назначение и область применения, эффекты от внедрения результатов проекта:
1. Ожидаемые научные и научно-технические результаты могут быть использованы при:
- реализации исследовательских или прикладных проектов с высокой научной составляющей, когда широко применяются методы математического моделирования для учета, как можно большего числа параметров исследуемого явления;
- выполнении комплексных научных и прикладных исследований, выполнение которых осуществляется междисциплинарными коллективами узких специалистов в различных областях, распределенных географически;
- организации образовательного процесса в самых различных формах: от университетского образования в виде специальных и общих курсов лекций, сопровождаемых практическими занятиями и лабораторными работами, выполнения курсовых и дипломных работ различных уровней, до различных форм повышения квалификации специалистов, работающих в индустрии.
2. Одним из планируемых результатов является создание веб-лаборатории обработки больших данных в задачах механики сплошной среды, которая будет размещена на технологической платформе UniHUB и планирует использовать ресурсы ЦКП программы "Университетский кластер". Также на основе результатов проекта можно будет разворачивать исследовательские и образовательные веб-лаборатории в различных прикладных областях, требующих анализа больших объемов данных.
3. На данный момент оценить или спрогнозировать влияние планируемых результатов на развитие научно-технических и технологических направлений не представляется возможным.
4. Результаты проведенных исследований могут быть использованы в качестве задела для разработки совместных решений с рядом ведущих мировых компаний в IT-индустрии (HP, Dell, Mirantis).

Текущие результаты проекта:
Основные результаты полученные в 2015 году:
- методы оптимизации скорости доступа к данным на основе частоты и вида (чтение, запись, добавление) запросов к различным типам данных (оперативные, архивные), размещаемых на носителях с различной производительностью операций ввода-вывода;
- математическая модель оптимизации производительности обработки данных с применением виртуализации и повышения скорости доступа к данным на основе гибридного хранения разработаны алгоритмы для повышения производительности;
- программная архитектура экспериментального образца программного комплекса;
- стенд для проведения экспериментальных исследований ЭО ПК;
- принципы и методы построения технологии виртуализации обработки данных непосредственно на узлах хранения данных;
- программа и методики экспериментальных исследований.