Регистрация / Вход
Прислать материал

Исследования и разработка быстродействующей кластерной системы хранения и обработки сверхбольших объемов данных

Докладчик: Бухановский Александр Валерьевич

Должность: Заведующий кафедрой Высокопроизводительных вычислений, главный научный сотрудник НИИ НКТ, д.т.н.

Цель проекта:
Целью исследований является разработка комплекса научно-технических решений, предназначенных для создания быстродействующей кластерной системы хранения и обработки сверхбольших объемов данных в распределенных облачных системах с неоднородной архитектурой. Актуальность данного исследования обусловлена развитием парадигмы DDA (Data Driven Approach; подход, основанный на данных) для построения информационных систем. Как правило, DDA-системы обеспечивают непрерывный сбор данных из различных источников, первичную обработку и хранение для последующего анализа и использования в прогностических моделях и оптимизационных процедурах на их основе. Ключевым фактором успешности построения DDA-систем является оптимизация процессов, связанных с хранением и обработкой сверхбольших объемов данных, путем учета характеристик поступления и обработки данных при планировании ресурсов. Целесообразность такой оптимизации обусловлена тем, что в DDA-системах вычислительная нагрузка, связанная с обработкой данных и моделированием на их основе, изменяется динамически и контролируется внешними факторами: режимами поступления данных, а также интенсивностью и содержанием запросов пользователей. Как следствие, использование однородных параллельных вычислительных архитектур для обработки данных не всегда эффективно. Потому разумным решением, реализуемым в рамках данного проекта, является построение облачной параллельной архитектуры обработки сверхбольших объемов данных, которая реконфигурируется в зависимости от режима поступления данных и интенсивности запросов пользователя, тем самым обеспечивая повышение общей производительности системы. Идея использования реконфигурируемых облачных сред для повышения производительности информационных систем является традиционной для специфического направления суперкомпьютерных технологий – т.н. экстренных вычислений (Urgent Computing, UC). Однако применение этого подхода непосредственно к задачам хранения и обработки сверхбольших объемов данных (совмещая, таким образом, идеологии UC и Big Data) обладает научной и практической новизной и имеет широкую область приложения как к существующим, так и к перспективным DDA-системам.

Основные планируемые результаты проекта:
Основными результатами проекта являются:
1) Математическая модель (ММ) оптимизации обработки данных и повышения эффективности их передачи на основе разработанных в ходе исследования методов и алгоритмов, включая:
- комплекс гибридных моделей производительности, необходимых для решения задачи оптимизации производительности в условиях изменяющихся характеристик поступления данных и запросов пользователя;
- метод измерения и усвоения данных в гибридные параметрические модели производительности с целью адаптации интеллектуальной процедуры оптимизации к динамической изменчивости режимов работы системы.
2) Алгоритмы ускорения доступа к данным и их обработки с использованием виртуализации, разработанные на основе ММ, реализованные в составе интеллектуальной процедуры оптимизации производительности для управления составом и характеристиками облачных ресурсов поверх хранилища данных и повышения скорости доступа к данным на основе гибридного хранения.
3) Программная архитектура обработки больших объемов данных с использованием средств виртуализации, и реализующий ее экспериментальный образец программного комплекса, представляющий собой промежуточное программное обеспечение (middleware), интегрируемое в существующие и перспективные системы управления большими данными.
Для получения указанных результатов в рамках проекта решаются три теоретические задачи:
А) Разработка комплекса гибридных моделей производительности, необходимых для решения задачи оптимизации производительности в условиях изменяющихся характеристик поступления данных и запросов пользователя. Модели производительности описывают взаимодействие между такими элементами, как источник данных (потребитель), канал связи, приемник данных, гипервизор среды виртуализации, программное обеспечение обработки данных. В качестве параметров модели используются полоса пропускания сети, в которой размещены серверы хранения и обработки данных, величина задержки в сети, вычислительная мощность узлов обработки данных. Поскольку в исследовании предполагается использовать гибридную схему хранения данных, то вводится несколько моделей производительности, детализирующих каждый из слоев хранения и обработки и объединяемых в единый комплекс. Для учета нерегулярного характера поступления данных будет введено вероятностное обобщение для моделей производительности, позволяющее строить интервальные оценки времени вычислений для дальнейшего использования в процедуре планирования. При этом сами модели также будут гибридными (содержащими как параметрическую структуру, так и фрагменты, выращиваемые эволюционно на основе метаэвристических алгоритмов).
Б) Разработка интеллектуальной процедуры оптимизации производительности на основе управления составом и характеристиками облачных ресурсов поверх хранилища данных, а также повышения скорости доступа к данным на основе гибридного хранения. Оптимизация производительности обеспечивается как за счет балансировки загрузки самих ресурсов (например, выделения виртуальных машин с характеристиками, соответствующими объемам обрабатываемых данных), так и за счет оптимизации коммуникаций между уровнями обработки и хранения. При этом в рамках исследования рассматривается возможность организации многоуровневой структуры хранения, данные в которой размещаются в соответствии с частотой их использования, что в целом позволяет регулировать характеристики доступа к ним.
В) Разработка метода измерения и усвоения данных в гибридные параметрические модели производительности с целью адаптации интеллектуальной процедуры оптимизации к динамической изменчивости режимов работы системы. В ходе работы DDA-системы могут измениться сами условия функционирования (например, увеличится количество датчиков, изменится порядок поступления данных и пр.). Потому для «горячего» обеспечения работоспособности интеллектуальной процедуры планирования в рамках ПНИ будут проработаны отдельные методы усвоения (ассимиляции) текущих данных в системе. При этом, в отличие от классического понимания задачи усвоения, здесь будет выполняться не только коррекция параметров моделей производительности, но и «выращивание» структуры их непараметрических частей (см. п. А) эволюционными методами.
В целом решение задач (А–В) формирует теоретическую основу для проектирования экспериментального образца программного комплекса, обеспечивающего создание и управление быстродействующей кластерной системы хранения и обработки сверхбольших объемов данных в распределенных облачных системах. Комплекс является промежуточным программным обеспечением (middleware), необходимым для оптимизации работы существующих систем хранения и обработки Big Data, и состоит из двух программных модулей:
- управления обработкой данных в виртуальной среде поверх узла хранения данных;
- оптимизации ввода.

Назначение и область применения, эффекты от внедрения результатов проекта:
Основным практическим результатом исследований является промежуточное программное обеспечение (middleware) для организации распределенных архитектур обработки и хранения больших данных с использованием технологии виртуализации обработки данных поверх узлов хранения. Несмотря на то, что само по себе middleware представляет слабый интерес для коммерциализации, оно может быть востребовано в следующих формах:
1) как составная часть многофункциональных программных платформ для создания и управления распределенными облачными средами, поддерживающими технологии Big Data. В частности, в рамках ПНИ планируется обеспечить интеграцию разработанного middleware с инструментально-технологической платформой CLAVIRE.
2) как инструмент для модернизации существующих и создания перспективных DDA-систем в различных предметных областях, связанных с использованием сверхбольших данных. Эффективность такого применения связана с тем, что, вследствие особенностей архитектуры и наличия адаптивных механизмов для настройки процедуры планирования непосредственно в ходе эксплуатации системы, предлагаемое решение может легко адаптироваться для различных систем работы с Big Data (Hadoop, Spark, Storm) и облачных сервисов разных провайдеров (МТС, Ростелеком, Транстелеком, Amazon EC2).
Разработанный программный комплекс также может использоваться в будущем как составная часть предметно-ориентированных информационных систем, связанных с обработкой больших данных, и функционирующих в условиях неопределенности режимов поступления данных и пользовательских запросов. В качестве примера, в рамках исследования будет рассмотрено применение разработанного middleware в составе телемедицинской системы массового пользования, используемой для длительного ведения пациентов с хроническими неинфекционными заболеваниями вне медицинских стационаров.

Текущие результаты проекта:
На момент представления доклада проект находится в состоянии запуска (согласование договорной документации с Заказчиком). В рамках первого этапа, тем не менее, выполнены работы по проведению аналитического обзора и патентного исследования, обоснованию выбора направления исследований, исследованию существующих методов повышения производительности обработки и хранения больших данных. Результаты прототипирования основных решений, обосновывающих выбор направления исследований, будут приведены в докладе.