Регистрация / Вход
Прислать материал

Исследования и разработка быстродействующей кластерной системы хранения и обработки сверхбольших объемов данных

Номер контракта: 14.578.21.0077

Руководитель: Бухановский Александр Валерьевич

Должность: Заведующий кафедрой высокопроизводительный вычислений

Организация: федеральное государственное автономное образовательное учреждение высшего образования "Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики"
Организация докладчика: федеральное государственное автономное образовательное учреждение высшего образования "Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики"

Аннотация скачать
Презентация скачать
Ключевые слова:
сверхбольшие объемы данных, облачные вычисления, виртуализация, моделирование производительности, гибридные модели, балансировка нагрузки, адаптивная модель, интеллектуальное управление.

Цель проекта:
1) Задачей прикладного научного исследования является развитие методов и технологий, обеспечивающих увеличение производительности обработки данных в облачном хранилище с возможным использованием виртуализацдии среды обработки данных поверх узлов хранения данных. 2) Целью проекта является разработка комплекса научно-технических решений, предназначенных для создания быстродействующей кластерной системы хранения и обработки сверхбольших объемов данных в распределенных облачных системах с неоднородной архитектурой. Ожидаемыми результатами работ по проекту являются: а) Математическая модель (ММ) оптимизации обработки данных и повышения эффективности их передачи на основе разработанных в ходе исследования методов и алгоритмов, включая: - комплекс гибридных моделей производительности, необходимых для решения задачи оптимизации производительности в условиях изменяющихся характеристик поступления данных и запросов пользователя; - метод измерения и усвоения данных в гибридные параметрические модели производительности с целью адаптации интеллектуальной процедуры оптимизации к динамической изменчивости режимов работы системы. б) Алгоритмы ускорения доступа к данным и их обработки с использованием виртуализации, разработанные на основе ММ, реализованные в составе интеллектуальной процедуры оптимизации производительности для управления составом и характеристиками облачных ресурсов поверх хранилища данных и повышения скорости доступа к данным на основе гибридного хранения. в) Программная архитектура обработки больших объемов данных с использованием средств виртуализации, и реализующий ее экспериментальный образец программного комплекса, представляющий собой промежуточное программное обеспечение (middleware), интегрируемое в существующие и перспективные системы управления большими данными.

Основные планируемые результаты проекта:
Результатами проекта являются математические модели, методы и алгоритмы оптимизации распределенной обработки сверхбольших объемов данных за счет управления составом и характеристиками облачных ресурсов поверх хранилища данных и повышения скорости доступа к данным на основе гибридного хранения. На их основе реализуется экспериментальный образец программного комплекса управления производительностью, который может интегрироваться в различные современные системы хранения и обработки данных (CLAVIRE, YARN, Hadoop) в составе проблемно-ориентированных ЦОД.

Краткая характеристика создаваемой/созданной научной (научно-технической, инновационной) продукции:
Создаваемые математические модели, методы, алгоритмы и программное обеспечение необходимо для повышения эффективности использования промышленных кластерных систем хранения и обработки больших данных, работающих в режиме 24х7, в условиях нерегулярности поступления потоков данных и запросов пользователей. Для этого реализуется интеллектуальная процедура управления производительностью кластерной системы хранения, которая в зависимости от фактической нагрузки на систему (а) делает прогноз ее возможной изменчивости, (б) организует многоуровневое хранение данных в соответствии с их потенциальной востребованностью, (в) оптимизирует облачную инфраструктуру обработки данных и запросов к ним. В целом это обеспечивает ускорение операций чтения для наиболее часто используемых данных не менее, чем в 2 раза, а также повышение производительности обработки данных в распределенном облачном хранилище не менее чем в 1,5 раза.

Назначение и область применения, эффекты от внедрения результатов проекта:
1) Областью применения результатов проекта является создание промежуточного программного обеспечения (middleware) для построения различных кластерных систем хранения и обработки больших данных. Это middleware может быть использовано:
- как составная часть многофункциональных программных платформ для создания и управления распределенных облачных сред, поддерживающих технологии Big Data.
- как инструмент для модернизации существующих и создания перспективных DDA-систем в различных предметных областях, связанных с использованием сверхбольших данных. Эффективность такого использования связано с тем, что, вследствие особенностей архитектуры и наличия адаптивных механизмов для настройки процедуры планирования непосредственно в ходе эксплуатации системы, предлагаемое решение может легко адаптироваться для различных систем работы с Big Data (Hadoop, Spark, Storm) и облачных сервисов разных провайдеров (МТС, Ростелеком, Транстелеком, Amazon EC2).
2) Комплекс разрабатываемых научно-технических решений может применяться для организации распределенных архитектур обработки и хранения больших данных с использованием технологии виртуализации обработки данных поверх узлов хранения. На их основе могут разрабатываться масштабные DDA-системы, решающие конкретные прикладные задачи, в том числе сервисных платформ различных облачных провайдеров.
3) Учитывая темпы развития информационных технологий в области работы с большими данными, прогноз эффектов от влияния данной разработки на существующие научно-технические и социально-экономические системы затруднен.
Практическое внедрение результатов на данном этапе не запланировано, однако в дальнейшем планируется их использование в составе телемедицинской системы, применяемой для длительного ведения пациентов с хроническими неинфекционными заболеваниями вне медицинских стационаров. Эффект от применения результатов проекта будет заключаться в повышении общей производительности (реактивности) системы, что в целом обеспечит повышение качества оказания медицинской помощи хроническим больным за счет своевременного выявления изменений в их состоянии, возможности оценки эффективности лечения и информационной поддержки врачебных решений в целом на основе уже накопленных ретроспективных данных.

Текущие результаты проекта:
1) На отчетном этапе проведены теоретические исследования в части разработки математической модели оптимизации производительности обработки данных с применением виртуализации, а также разработки и исследования программных алгоритмов для увеличения скорости передачи данных и повышения производительности обработки данных. На их основе выполнена разработка интеллектуальной процедуры оптимизации производительности для управления составом и характеристиками облачных ресурсов поверх хранилища данных и повышения скорости доступа к данным на основе гибридного хранения. В частности:
А) Разработано семейство математических моделей функционирования системы обработки данных, в основе которого лежат модели базового приложения, сложного приложения, а также модель приложения реального времени. На их базе строятся процедуры планирования вычислений и размещения данных, использующие модели работы приложений, как инструмент оптимизации вычислений и размещения данных.
Б) На основе гибридного подхода разработано семейство алгоритмов динамической оптимизации распределения потоков задач по вычислительным узлам. Они основываются на быстром получении удовлетворительного решения с помощью эвристического алгоритма HEFT, с последующей оптимизацией мета-эвристическим алгоритмом, запущенным в фоновом режиме с заданным временным окном. Экспериментальные исследования различных вариантов построения мета-эвристических алгоритмов показали, что генетический алгоритм оказался наиболее устойчивым к различным ситуациям, что в итоге определяет целесообразность его использования в системе.
В) Разработана интеллектуальная процедура оптимизации производительности, которая предназначена для обеспечения динамической настройки параметров вычислительной среды с целью ее адаптации к меняющимся условиям работы под действием локальных и глобальных изменений. Сформулированы общие критерии оптимизации производительности, а также сформированы требования к интеллектуальной системе, предъявляемые разработанными алгоритмами оптимизации.
2) Для подтверждения положений, сформулированных выше, был модернизирован программно-аппаратный экспериментальный стенд для работы с большими данными в части разработки программного обеспечения косвенных измерений характеристик производительности и моделирования работы вычислительного кластера с поддержкой процедур оптимизации обработки и хранения данных.
Разработан метод измерений характеристик распределенной вычислительной среды. Он предполагает сочетание возможностей прямых измерений на основе бенчмарков, и косвенных измерений на основе усвоения данных текущих наблюдений непосредственно в коэффициенты параметрических моделей производительности. Это позволяет гибко реагировать на разные динамические изменения вычислительной среды.
3) Валидация модели, проведенная на основе экспериментального стенда, демонстрирует соответствие прогнозных значений, получаемых с помощью разработанных моделей, и данных измерений, получаемых при исполнении распределенных приложений в системах хранения и обработки данных (на примере Hortonworks Data Platform). Используемая процедура усвоения данных позволяет обеспечивать адаптацию распределенной вычислительной среды к изменяющимся условиям по мере накопления новых данных о выполняемых запусках приложений, что также позволяет сглаживать случайные выбросы и несущественные краткосрочные изменения. Применение разработанной интеллектуальной процедуры показывает существенное (до 3 раз) снижение времени обработки за счет эффективного распределения данных и задач в системе.
4) Соответствие полученных результатов требованиям к выполняемому проекту подтверждается как соблюдением формальных требований технического задания, так и результатами экспериментальных исследований, демонстрирующих целесообразность использования выбранных подходов для решения задач проекта и достижения целевых показателей разрабатываемых решений.
5) Решение, реализуемое в рамках проекта, не имеет прямых аналогов, поскольку является симбиотическим, сочетающим в себе возможности современных технологий управления большими данными (YARN, HADOOP, STORM) и экстренных вычислений (SPRUCE).