Регистрация / Вход
Прислать материал

14.575.21.0100

Аннотация скачать
Постер скачать
Общие сведения
Номер
14.575.21.0100
Тематическое направление
Информационно-телекоммуникационные системы
Исполнитель проекта
федеральное государственное автономное образовательное учреждение высшего образования "Санкт-Петербургский политехнический университет Петра Великого"
Название доклада
Разработка технологии высокопроизводительной обработки и визуализации больших массивов данных в крупномасштабных сетях электронных потребительских устройств (Internet of Things)
Докладчик
Печенкин Александр Игоревич
Тезисы доклада
Цели и задачи исследования
Цели исследования:
а) создание комплекса научных и научно-технических решений в области разработки методов и алгоритмов, обеспечивающих повышение эффективности научных исследований посредством высокопроизводительной агрегации, нормализации, анализа и визуализации больших массивов гетерогенных структурированных, полуструктурированных и неструктурированных данных в крупномасштабных сетях электронных потребительских устройств (Интернет Вещей);
б) получение значимых научных результатов в области высокопроизводительной обработки и визуализации больших массивов гетерогенных данных на предмет последующего анализа защищенности крупномасштабных сетей электронных потребительских устройств (Internet of Things).
Актуальность и новизна исследования
Развитие концепции интернета вещей (ИВ) и ее внедрение в различные сферы деятельности привели к появлению крупномасштабных систем ИВ, состоящих из взаимосвязанных датчиков, сетей, облачных систем хранения данных, приложений и устройств. В системах ИВ обеспечивается совокупное функционирование элементов кибернетического и физического пространств, интегрированных с вычислительными ресурсами, с минимальным участием человека или без такового.
Реализация деструктивного воздействия на системы ИВ влечет за собой финансовые потери и опасность для населения и окружающей среды. Поэтому внедрение ИВ требует обеспечения безопасности, однако в настоящее время решение задачи создания единого механизма безопасности затруднено в связи с крупномасштабностью и гетерогенностью систем ИВ.
Перспективным средством анализа безопасности крупномасштабных систем является технология SIEM (security information and event management, управление информацией и событиями безопасности), позволяющая обнаруживать и расследовать инциденты. Однако существующие SIEM-системы не могут быть применены для анализа безопасности ИВ, поскольку в них не решены следующие задачи:
1) формирования события безопасности в ИВ, связанное с отсутствием средств сетевой безопасности, которые могли бы при интеграции с ИВ осуществлять трансформацию сообщений от устройств ИВ в события;
2) обработки больших объемов гетерогенных данных от устройств ИВ.
В связи с этим, актуальна задача создания SIEM-системы для ИВ, обеспечивающей сбор, нормализацию, высокопроизводительную обработку и визуализацию больших массивов гетерогенных первичных исследовательских данных в крупномасштабных сетях электронных потребительских устройств (ИВ).
Описание исследования

Первостепенной задачей являлась задача формирования события из больших массивов гетерогенных данных от устройств ИВ, для чего была разработана модель события, на основе которой в дальнейшем производилась предварительная обработка данных. Целью предварительной обработки данных являлось сокращение размерности пространства сообщений и приведение значимых для анализа данных к единому формату, удобному для дальнейшего анализа безопасности.

Была разработана методика агрегации и нормализации для сокращения размерности пространства сообщений и его трансформации  в пространство событий. Новизна разработанной методики подтверждается чистотой патентного поиска и поданной заявкой №2015148435 на выдачу патента РФ на изобретение. В основе методики лежит концепция двухэтапной агрегации данных, при которой первоначально производится агрегация сообщений от устройств ИВ в соответствии с временным параметром, это позволяет в значительной степени экономить дисковое пространcтво. Агрегация второго типа проводится уже после этапа нормализации, это агрегация в соответствии с типом устройства. При такой агрегации данные от устройств одного типа, располагающиеся в непосредственной близости, объединяются в один показатель некоторого обобщающего логического устройства.

Задача предварительной обработки данных является наиболее трудоемкой с точки зрения использования вычислительных ресурсов, вследствие чего необходимо обеспечить высокопроизводительную обработку данных, используя интеграцию с многопроцессорным кластером. Задача предварительной обработки данных ИВ представлена в виде ориентированного ациклического графа, что позволило выделить основные задачи и подзадачи, а также определить взаимосвязь между ними. Для обеспечения высокопроизводительной обработки предложен подход к динамическому планированию, при котором распределение вычислительных задач первоначально происходит в системе, а затем - на каждом узле кластера. Интеллектуальное планирование в задаче обработки больших данных реализуется в виде приоритетной очереди с динамическим назначением приоритетов в зависимости от состояния системы и выполняемой задачи. Изменение приоритетов для балансировки выполнения задач происходит в моменты нарушения стабильности системы. 

Для анализа данных ИВ на предмет безопасности разработаны методы:

  • корреляции событий на основе правил;
  • статистической корреляции событий;
  • выявления и мониторинга неявных связей между устройствами ИВ.

Корреляция событий на основе правил обеспечивает обнаружение априорно небезопасных событий – событий, непосредственное наличие которых в системе свидетельствует о нарушении корректного функционирования устройства/сегмента ИВ (отсутствие данных от устройств, сообщения об ошибке, соединение с IP-адресом, входящим в "черный список"). Статистическая корреляция событий обеспечивает обнаружение потенциально небезопасных событий, характеризующихся аномалиями в работе системы. Потенциально небезопасные события могут быть связаны с количеством событий, со значениями параметров событий, а также с временными параметрами. Корреляция на основе правил может быть объединена со статистической корреляцией, вследствие чего будет достигнута высокая точность обнаружения небезопасных ситуаций и расширяемость списка правил.

Разработанный метод выявления и мониторинга неявных связей между устройствами ИВ основывается на предположении о том, что в анализируемом сегменте ИВ, где устройства управляются друг другом без воздействия оператора (или с минимальным воздействием), ряды данных, генерируемых взаимосвязанными устройствами, изменяются согласованно и их динамика крайне схожа. Для этого метод использует следующие подходы корреляционного анализа:

  • определение наличия линейной зависимости между данными с вычислением коэффициента линейной корреляции;
  • определение степени согласия динамики между данными с вычислением коэффициента согласия в динамике.

Для анализа выявленных инцидентов безопасности разработан метод корреляции событий друг с другом. В рамках данного метода события сравниваются друг с другом, вывод об их корреляционной связи делается по вычислению сходства между ними по трем параметрам:

  • анализ корреляции символьных параметров событий;
  • анализ корреляции числовых параметров событий;
  • анализ корреляции событий с учетом параметров обоих типов.

Получив набор коррелирующих друг с другом событий, становится возможным построение из них последовательностей, которые будут характеризовать инцидент безопасности.

Результаты исследования

В результате исследований был разработан экспериментальный образец программного обеспечения (ЭО ПК) для сбора, нормализации, высокопроизводительной обработки и визуализации больших массивов гетерогенных (структурированных, полуструктурированных и неструктурированных) первичных исследовательских данных в крупномасштабных сетях электронных потребительских устройств (Internet of Things, Интернета Вещей). Также были разработаны Программа и методики экспериментальных исследований ЭО ПК, в соответствии с которыми были проведены экспериментальные исследования разработанного ЭО ПК.

Экспериментальная апробация производилась на данных, полученных от саморегулирующейся системы климатической установки оранжереи. Система включала в себя 3 типа датчиков: температуры, влажности, освещенности. Общее число датчиков составляло 1070 штук (по 400 датчиков влажности почвы и температуры, 270 датчиков освещенности). При различных экспериментах в состав датчиков каждого типа входило от 3 до 6 категорий датчиков разных производителей, генерирующих сообщения в разных форматах (JSON, XML и др.). 

Наибольшее сокращение размерности данных за сутки было достигнуто для данных датчиков освещенности. Каждый датчик генерировал сообщения каждые 30 секунд, период агрегации в соответствии с временным параметром составлял 2 минуты.За сутки от всех датчиков освещенности было получено 777 600 сообщений. После агрегации в соответствии с временным параметром количество сообщений составило 194 400. Агрегация в соответствии с типом устройства была произведена в 68% случаев, после нее количество сообщений составило 59 320, размерность пространства наблюдений сократилась в 13,3 раза.

Наименьшее сокращение размерности было достигнуто для данных датчиков влажности почвы. Каждый датчик генерировал сообщения каждые 10 секунд, период агрегации в соответствии с временным параметром составлял 30 секунд. За сутки от всех датчиков освещенности было получено 3 456 000 сообщений. После агрегации в соответствии с временным параметром количество сообщений составило 1 152 000Агрегация в соответствии с типом устройства была произведена в 43% случаев, после нее количество сообщений составило 861 200, размерность пространства наблюдений сократилась в 5 раз.

Оценка эффективности разработанных методов обнаружения инцидентов безопасности проводилась путем реализации 60 атак следующих классов:

  • отказа в обслуживании;
  • Man-in-the-Middle (перехват и подмена, модификация, удаление данных);
  • изменения настроек системы;
  • добавления несуществующих устройств и данных.

Проведенные испытания показали, что использование разработанных методов позволило обнаружить 95% атак на систему, при этом методы дополняют друг друга, обнаруживая разные типы атак. В частности, атака дублирования данных одного из датчиков температуры была выявлена только методом, основанным на обнаружении неявных связей, поскольку было зафиксировано нарушение неявной связи между парой датчиков температуры. Всего из 60 атак было обнаружено 57, для всего ЭО ПК число ошибок первого рода составило 9%, второго рода – 5%.

Результаты проекта являются оригинальными и превосходят мировой уровень, поскольку неизвестны разработки, обеспечивающие сбор, нормализацию, высокопроизводительную обработку и визуализацию больших массивов гетерогенных данных ИВ с учетом специфики данной предметной области.

Практическая значимость исследования
Потребителями результатов являются крупные промышленные компании, занимающиеся разработкой и внедрением систем ИВ, автоматизированных систем управления технологическими процессами, систем «умного дома», цифровых систем управления транспортными потоками, сетей ракетно-космической техники.
Внедрение результатов исследования в вышеперечисленные отрасли позволит эффективно обрабатывать машинные данные, сокращать их размерность, что положительно скажется на скорости анализа безопасности и на скорости реагирования на инциденты. Разработанные методы обнаружения инцидентов безопасности позволят не только обнаруживать аномалии в работе системы, но и получать новые знания о логической связи устройств ИВ друг с другом.