Регистрация / Вход
Прислать материал

14.604.21.0147

Аннотация скачать
Постер скачать
Общие сведения
Номер
14.604.21.0147
Тематическое направление
Информационно-телекоммуникационные системы
Исполнитель проекта
Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук
Название доклада
Разработка методов агрегации, нормализации, анализа и визуализации больших массивов гетерогенных структурированных, полуструктурированных и неструктурированных данных для мониторинга и управления безопасностью распределенной сети электронных потребительских устройств (internet of things)
Докладчик
Саенко Игорь Борисович
Тезисы доклада
Цели и задачи исследования
Цель ПНИ заключается в создании комплекса научных/научно-технических решений в области разработки методов и алгоритмов, обеспечивающих повышение эффективности научных исследований посредством агрегации, нормализации, анализа и визуализации больших массивов гетерогенных структурированных, полуструктурированных и неструктурированных данных в распределенной сети электронных потребительских устройств (internet of things) (далее – Интернет вещей).
Задачи исследования:
1) аналитический обзор современной научно-технической, нормативной, методической литературы, затрагивающей научно-техническую проблему, исследуемую в рамках ПНИ;
2) разработка методических подходов к созданию хранилища данных для мониторинга и управления безопасностью Интернета вещей;
3) разработка математических методов и алгоритмов агрегации, нормализации, анализа и визуализации больших массивов гетерогенных данных для мониторинга и управления безопасностью Интернета вещей, том числе с применением приемов и методов параллельных вычислений;
4) разработка методических подходов к созданию протоколов передачи данных от элементов Интернета вещей к центрам обработки данных;
5) разработка экспериментального образца программного обеспечения (далее – ЭО ПО) для агрегации, нормализации, анализа и визуализации данных для мониторинга и управления безопасностью Интернета вещей;
6) экспериментальное исследование ЭО ПО, обобщение и оценка полученных результатов;
7) разработка технических требований и предложений по разработке, производству и эксплуатации продукции с учетом технологических возможностей и особенностей индустриального партнера, включая разработку проекта технического задания на проведение ОКР.
Актуальность и новизна исследования
Интернет вещей следует рассматривать как новое поколение сетевых компьютерных инфраструктур, которые обладают следующими особенностями: 1) очень большим парком электронных устройств, охватываемых сетью; 2) наложением ограничений на вычислительные ресурсы (память, процессор) этих устройств; 3) большим числом пользователей, имеющих доступ к этим устройствам; 4) использованием, как правило, для своего построения ресурсов глобальных компьютерных сетей общего пользования.
В результате многие вопросы, связанные с обработкой данных и достаточно эффективно решаемые в традиционных компьютерных сетях, в сетях, созданных на концепции Интернета вещей, в настоящее время находятся еще в начальной стадии своей проработки. В полной мере это касается обеспечения безопасности Интернета вещей и защиты его от новых видов атак.
Одним из наиболее эффективных направлений защиты от атак на Интернет вещей является технология мониторинга и управления безопасностью. Основными процедурами этой технологии являются агрегация, нормализация, анализ и визуализация собираемых данных о событиях безопасности. В силу специфики построения и обеспечения безопасности сетей Интернет вещей требуются новые эффективные подходы к разработке методов и алгоритмов реализации основных процедур мониторинга и управления безопасностью, которые, с одной стороны, способны обеспечить повышенные требования по оперативности их обработки (реальный или близкий к реальному масштаб времени), полноте, достоверности и прочим характеристикам за счет использования методов параллельных вычислений, а с другой – соответствовали бы имеющимся функциональным ограничениям системы и отдельных ее устройств. Этим определяется актуальность и новизна ПНИ.
Описание исследования

Разработанные методические подходы к созданию хранилища данных для мониторинга и управления безопасностью Интернета вещей охватывают архитектуру хранилища, его практическую реализацию и интегрированную базу данных об уязвимостях. Было предложено использовать комплексные системы хранения данных, способные осуществлять обработку данных в реляционном, XML- и RDF-форматах. В архитектуре хранилища выделены уровень хранения данных и уровень веб-сервисов. На первом уровне осуществляется хранение в различных форматах. Второй уровень ответственен за кросс-платформенное сопряжение репозитория с другими компонентами системы мониторинга безопасности. Для практической реализации хранилища предложено использовать средства построения сервис-ориентированных вычислительных архитектур. Для построения интегрированной базы данных об уязвимостях предложено учитывать в таблице связывания идентификаторы уязвимостей, идентификаторы продуктов и параметры зависимости.    

Разработка методов и алгоритмов агрегации больших массивов данных сводилась к решению трех подзадач. Первая подзадача заключалась в определении последовательностей выполнения потоковых операторов для вычисления мер центральной тенденции и экстремумов данных. Вторая задача связывалась с формированием схем распараллеливания потоковых операторов. Третья подзадача касалась привязки схем распараллеливания к узлам сети Интернет вещей с учетом параметров функционирования сети. Решение подзадач было ориентировано на набор стандартных потоковых операторов, реализованных в известных системах потоковой обработки данных (в частности, в системе Spark Streaming). Разработанные методы и алгоритмы распараллеливания потоковых операторов обеспечивали масштабирование процессов параллельной обработки, балансировку входного потока и оптимальное соединение слоя источников с агрегаторами. Для оптимизации сети агрегаторов использовались генетические алгоритмы.

Методы и алгоритмы нормализации гетерогенных данных были основаны на предварительном преобразовании неструктурированных и полуструктурированных данных к структурированному виду. Для этого было предложено рациональное сочетание двух подходов, связанных с максимальным и минимальным сохранением атрибутов на каждом этапе нормализации. Методы и алгоритмы анализа больших массивов гетерогенных данных были ориентированы на формирование схем потоковой обработки данных с помощью разработанных правил преобразования SQL-запросов. Анализ данных охватывал фильтрацию данных, их преобразование, выявление отношений между данными и обнаружение вредоносной аномальной и некорректной активности как отдельных источников Интернета вещей, так и их групп. Методы были основаны на использовании правил, шаблонов и нейросетевых технологий.

В качестве базовых протоколов синхронной и асинхронной передачи данных от потребительских устройств к центрам обработки было предложено использование протоколов Интернета вещей верхних уровней, в частности, протокола MQTT. Основные процедуры предлагаемых протоколов разделялись две группы: управления блоками данных и управления потоками данных. Для управления блоками данных была разработана структура сообщений, которыми должны обмениваться потребительские устройства и центры обработки, и ориентированные на нее предложения, касающиеся адресации, блокирования и синхронизации сообщений, обработки ошибок, а также обработки данных с помощью потоковых операций. Для управления потоками данных были разработаны предложения по синхронной и асинхронной инициации потоковой обработки, регламентации интенсивности параллельных подпотоков, обнаружения ошибок, разграничения доступа и восстановления процесса потоковой обработки.

Методы и алгоритмы визуализации данных были ориентированы на использование современных технологий анализа данных, таких как кластеризация больших массивов данных, автоматическая классификация массивов данных, «ленивая» загрузка массивов данных при визуализации, детализация кластеризованных данных (Drill-down), переход между связанными данными и микширование данных (mesh-up). Эти технологии визуализации были реализованы различными способами: с использованием GIS-систем; с помощью диаграмм и графиков; инфографическими методами визуализации; табличными методами визуализации; иерархическими методами визуализации. Эти способы обеспечили возможность последовательного графического представления данных и комбинированное представление результатов с использованием диаграммных, древовидных и графовых структур.

Результаты исследования

Результаты ПНИ:

1) основные принципы и методические подходы в области создания средств агрегации, нормализации, анализа и визуализации больших массивов структурированных, полуструктурированных и неструктурированных гетерогенных данных для мониторинга и управления безопасностью Интернета вещей;

2) методические подходы к созданию хранилища данных, обеспечивающего гибридное онтологическое представление больших массивов гетерогенных структурированных, полуструктурированных и неструктурированных данных для мониторинга и управления безопасностью Интернета вещей;

3) математические методы и алгоритмы агрегации больших массивов гетерогенных структурированных, полуструктурированных и неструктурированных данных, в том числе с применением приемов и методов параллельных вычислений;

4) математические методы и алгоритмы нормализации и анализа больших массивов гетерогенных структурированных, полуструктурированных и неструктурированных данных, поступающих синхронно и асинхронно от распределенной сети источников;

5) методические подходы к созданию протоколов для синхронной и асинхронной передачи данных от потребительских устройств к центрам обработки данных;

6) математические методы и алгоритмы визуализации больших массивов гетерогенных структурированных, полуструктурированных и неструктурированных данных;

7) технические принципы и методические подходы к организации и развертыванию решений по агрегации, нормализации, анализу и визуализации больших массивов гетерогенных структурированных, полуструктурированных и неструктурированных данных в различных средах;

8) ЭО ПО для агрегации, нормализации, анализа и визуализации данных для мониторинга и управления безопасностью Интернета вещей;

9) технические требования и предложения по разработке, производству и эксплуатации продукции с учетом технологических возможностей и особенностей индустриального партнера - организации реального сектора экономики;

10) проект технического задания на проведение ОКР по теме ПНИ.

Результаты ориентированы на использование наиболее передовых технологий в областях обработки Больших данных и обеспечения кибербезопасности, каковыми являются: параллельная распределенная обработка Больших данных, потоковая обработка данных «на лету» на основе технологии Complex Event Processing (CEP), мониторинг и управление безопасностью компьютерных сетей на основе концепции  Security Information and Event Management (SIEM), визуализация данных о событиях безопасности. Все указанные технологии в ходе ПНИ получили свое дальнейшее развитие. В рамках технологии параллельной обработки больших массивов данных разработаны методы распределенного параллельного вычисления экстремумов и мер центральной тенденции. В рамках технологии SEP разработаны схемы распараллеливания операторов потоковой обработки и метод генетической оптимизации сети CEP-операторов. Развитие концепции SIEM заключается в ее адаптации к функциональным ограничениям, свойственным Интернету вещей. Новыми моделями визуализации, разработанными в ходе ПНИ, являются карта деревьев, граф с глифами и матричная модель. ЭО ПО разработан на современной программной платформе распределенных параллельных потоковых вычислений Hadoop / Spark.

Новизна разработанных результатов подтверждается тем, что на их основе было сделано 7 публикаций в изданиях, входящих в международную базу цитирования Scopus.

Практическая значимость исследования
Результаты ПНИ могут быть применены на практике при разработке компонентов мониторинга и управления безопасностью компьютерных сетей вида «Интернет вещей» различного назначения в следующих областях: ведомственные телекоммуникационные системы управления; финансовые и банковские системы; предоставление цифровых мультимедиа услуг широкополосного доступа; гидротехнические системы; сети нефтегазового комплекса; транспортные системы; автоматизированные медицинские системы; системы поддержки производственных процессов; систем удаленного автоматизированного измерения расхода и контроля норм потребления в жилищно-коммунальной сфере и другие.
Возможными научными областями для применения результатов являются: безопасность информационно-телекоммуникационных систем, программирование параллельных вычислений, системотехника и программная инженерия и другие.
Перспективами дальнейшего использования результатов являются:
1) разработка CASE-средств для нужд проектирования;
2) верификация и тестирование сетей «Интернет вещей» в целом и отдельных пользовательских устройств;
3) управление сложными социо-техническими системами;
4) модернизация существующих и разработка перспективных технических и программных средств защиты информации;
5) повышение уровня автоматизации и оперативности реакции систем защиты Интернета вещей на изменение угроз и условий эксплуатации.
Результаты следует использовать:
1) при формировании основных направлений или целевых программ развития науки и техники различного уровня;
2) при разработке новых и модернизации существующих компьютерных сетей за счет придания им свойств высокой масштабируемости и адаптивности обработки первичных данных;
3) при разработке технических заданий, по которым разрабатывают новые и модернизируют существующие аппаратно-программные средства защиты информации;
4) при разработке нормативных, технических и организационно-методических документов (стандартов, положений, методик, инструкций, руководств), используемых при разработке, производстве, эксплуатации и ремонте продукции;
5) при разработке программ и методик испытаний адаптивных средств защиты информации.
По результатам ПНИ получено 5 свидетельств о государственной регистрации программ на ЭВМ и подготовлены 3 новые заявки.