Регистрация / Вход
Прислать материал

14.578.21.0077

Аннотация скачать
Постер скачать
Общие сведения
Номер
14.578.21.0077
Тематическое направление
Информационно-телекоммуникационные системы
Исполнитель проекта
федеральное государственное автономное образовательное учреждение высшего образования "Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики"
Название доклада
Исследования и разработка быстродействующей кластерной системы хранения и обработки сверхбольших объемов данных
Докладчик
Бухановский Александр Валерьевич
Тезисы доклада
Цели и задачи исследования
Целью исследований является разработка комплекса научно-технических решений, предназначенных для создания быстродействующей кластерной системы хранения и обработки сверхбольших объемов данных в распределенных облачных системах.
Для достижения указанной цели разрабатывается набор гибридных моделей оптимизации сверхбольших объемов обработки данных и повышения эффективности их передачи в условиях изменяющихся характеристик поступления данных и запросов пользователя в распределенных облачных средах. На их основе разрабатывается интеллектуальная процедура оптимизации производительности для управления составом и характеристиками облачных ресурсов поверх хранилища данных, обеспечивающая возможность виртуализации обработки данных непосредственно на узлах их хранения.
Актуальность и новизна исследования
На сегодняшний день DDA (Data Driven Approach – подход, ориентированный на данных) системы повсеместно распространены для решения задач, возникающих в науке и бизнесе. DDA-системы обеспечивают непрерывный сбор данных из различных источников, первичную обработку и хранение для последующего анализа и использования в прогностических моделях и оптимизационных процедурах на их основе. Возможности существующих технологий создания DDA-систем имеют естественный предел, обусловленный тем, что объемы собираемых и обрабатываемых данных год от года интенсивно возрастают: увеличиваются масштаб объектов, номенклатура данных, разнообразие источников и пр. Как следствие, время, затрачиваемое на обработку и анализ, возрастает пропорционально объему данных, а прогностическая способность средств предсказательного моделирования остается прежней или увеличивается незначительно даже при использовании высокопроизводительных вычислений. В результате ключевой показатель эффективности DDA-систем – время от момента получения результата до «точки невозврата», когда результаты работы системы становятся неактуальными – также уменьшается.
Однако, в DDA-системах можно оптимизировать скорость доступа к данным за счет отказа от использования однородных параллельных вычислительных архитектур для обработки данных и построения облачной параллельной архитектуры обработки сверхбольших объемов данных, которая реконфигурируется в зависимости от режима поступления данных и интенсивности запросов пользователя, тем самым обеспечивая повышение общей производительности системы.
Описание исследования

Производилась разработка и исследование математической модели оптимизации производительности обработки данных с применением виртуализации. Для этого необходимо было выделить типы приложений, которые могут быть применены в такой системе. На основе выделенных типов приложений - базовое приложение, сложное приложение, приложение реального времени – строятся их модели производительности, учитывающие производительность узлов и само размещение данных, позволяя, таким образом, оценивать и скорость доступа к данным. На основе данных моделей осуществлялась разработка и исследование алгоритмов оптимизации размещения данных и планирования задач обработки данных. Алгоритмы размещения данных основывались на эволюционном подходе и использовали статистику обращений пользователей к отдельным файлам. Алгоритмы планирования в свою очередь, исследовались в рамках применения гибридной схемы, сочетающей метаэвристические и эвристические алгоритмы. Также проводились исследования эффективности применения созданных алгоритмов в различных условиях вычислительных сред. На основе разработанных алгоритмов была создана процедура оптимизации вычислительной среды, которая обладает возможностью реконфигурации среды, т.е. адаптации среды под изменяющиеся внешние условия. На основе дальнейших проведенных исследований была осуществлена разработка облачной платформы для обработки сверхбольших объемов данных.

Результаты исследования

Для достижения указанной цели были построены и провалидированы математические модели базового приложения, сложного приложения, а также модель приложения реального времени. На их базе построена процедура планирования вычислений и размещения данных, использующая модели работы приложений как ключевой инструмент самой оптимизации. Для планирования задач обработки данных, как результат было разработано семейство гибридных алгоритмов динамической оптимизации распределения потоков задач по вычислительным узлам. Гибридность алгоритма основана на быстром получении удовлетворительного решения с помощью эвристического алгоритма HEFT с последующей оптимизацией начального решения метаэвристическим алгоритмом, запущенным в фоновом режиме с заданным временным окном. Для планирования размещения данных, как результат было разработано семейство эвристических и метаэвристических алгоритмов на основе генетического подхода (ГА) в сочетании с встроенными принципами гравитации и категоризации данных. В итоге, в докладе будет представлена, разработанная на основе этих результатов, интеллектуальная процедура оптимизации производительности за счет динамической настройки параметров вычислительной среды (ресурсов поверх хранилища данных) и повышения скорости доступа к данным с адаптацией к варьируемым условиям работы под действием локальных и глобальных изменений. Для корректировки параметров моделей была создана процедура усвоения данных, которая обеспечивает адаптацию распределенной вычислительной среды к изменяющимся условиям по мере накопления новых данных о выполняемых запусках приложений, что также позволяет сглаживать случайные выбросы и несущественные краткосрочные изменения. Применение интегрированной интеллектуальной процедуры в составе разработанной платформы, показывает существенное (до трех раз) снижение времени обработки за счет эффективного распределения данных и задач в системе.

Практическая значимость исследования
Разработанная программная реализация вычислительной платформы с интегрированной интеллектуальной процедурой и встроенными в неё методами планирования выполнения задач и оптимизации размещения данных, представляют базис для реализации облачной платформы нового типа, позволяющий пользователям адаптировать саму вычислительную среду под их нужды, обеспечивая удобной абстракцией построения сложных приложений, состоящих из множества вычислительных блоков и ориентированных, в том числе, под интенсивную обработку сверхбольших данных. Данные функциональные возможности востребованы в различных областях, и прежде всего в телемедицинской сфере, где ярко выражена необходимость в создании систем с поддержкой вычислительных возможностей для проведения комплексных анализов сверхбольших данных, и в то же время поддержкой приоритетов на оказании услуг по диагностике и сопровождению поступающих или наблюдаемых, в том числе удаленно, пациентов.