Регистрация / Вход
Прислать материал

Разработка технологии высокопроизводительной обработки и визуализации больших массивов данных в крупномасштабных сетях электронных потребительских устройств (Internet of Things)

Аннотация скачать
Постер скачать
Ключевые слова:
анализ, большие данные, визуализация, виртуальная машина, интернет вещей, производительность, параллельная обработка.

Цель проекта:
1. Получение значимых научных результатов в области высокопроизводительной обработки больших массивов гетерогенных данных на предмет последующего анализа защищенности распределенных сетей электронных потребительских устройств (Internet of Things). 2. Создание комплекса научных и научно-технических решений в области разработки методов и алгоритмов, обеспечивающих повышение эффективности научных исследований посредством высокопроизводительной агрегации, нормализации, анализа и визуализации больших массивов гетерогенных структурированных, полуструктурированных и неструктурированных данных в распределенной сети электронных потребительских устройств (Internet of Things).

Основные планируемые результаты проекта:
1. Математические методы и алгоритмы агрегации, нормализации, анализа и визуализации больших массивов гетерогенных структурированных, полуструктурированных и неструктурированных данных; алгоритм интеллектуального планирования задач по обработке больших массивов данных в вычислительной среде, построенной на базе кластера виртуальных машин; технические принципы и методические подходы к организации и развертыванию решений по агрегации, нормализации, анализу и визуализации больших массивов гетерогенных структурированных, полуструктурированных и неструктурированных данных в различных средах; методические подходы к разработке протоколов для передачи данных от потребительских устройств к центрам обработки данных; технические требования и предложения по разработке, производству и эксплуатации продукции с учетом технологических возможностей и особенностей индустриального партнера - организации реального сектора экономики; проект технического задания на проведение ОКР по теме: «Разработка программного комплекса высокопроизводительной обработки и визуализации больших массивов гетерогенных данных, генерируемых в крупномасштабных распределенных сетях типа Internet of Things»; архитектура и экспериментальный образец программного комплекса, представляющий собой SIEM-систему для Интернета Вещей, реализующую сбор, нормализацию, высокопроизводительную предобработку и визуализацию больших массивов гетерогенных (структурированных, полуструктурированных и неструктурированных) первичных исследовательских данных в распределенной сети электронных потребительских устройств (Internet of Things).
2. Математические методы и алгоритмы агрегации больших массивов гетерогенных структурированных, полуструктурированных и неструктурированных данных разработаны с применением приемов параллельных вычислений, предназначены для оптимального и эффективного получения мер центральной тенденции и экстремумов, локализованных вокруг или взятых от больших массивов данных, генерирующихся в распределенной сети. Методы охватывают синхронный и асинхронный режимы работы. Математические методы и алгоритмы нормализации и анализа больших массивов гетерогенных данных предназначены для приведения к нормальному виду и препроцессинга структурированных, полуструктурированных и неструктурированных данных.

Краткая характеристика создаваемой/созданной научной (научно-технической, инновационной) продукции:
1. Экспериментальный образец программного комплекса (ЭО ПК) для сбора, нормализации, высокопроизводительной предобработки и визуализации больших массивов гетерогенных (структурированных, полуструктурированных и неструктурированных) первичных исследовательских данных в распределенной сети электронных потребительских устройств (Internet of Things). ЭО ПК реализует комплекс разработанных математических методов и алгоритмов агрегации, нормализации, анализа и визуализации, объединяя, таким образом, все методы и алгоритмы в едином решении. Разработанные математические методы и алгоритмы анализа направлены на анализ защищенности крупномасштабных сетей потребительских устройств, а именно, на выявление и расследование инцидентов безопасности в Интернете Вещей. Разрабатываемый ЭО ПК собирает данные от устройств Интернета Вещей, агрегирует и нормализует их, преобразует в события, к которым впоследствии применяются различные корреляционные подходы, позволяющие выявить априорно небезопасные события, так и потенциально небезопасные события. Помимо этого, используемые методы анализа направлены также на обнаружение неявных функциональных взаимосвязей между устройствами, что позволит повысить эффективность обнаружения и расследования инцидентов безопасности в Интернете Вещей за счет построения векторов неизвестных атак.
2. В настоящее время системы анализа защищенности для Интернета Вещей отсутствуют, в частности, и SIEM-системы для обнаружения и расследования инцидентов безопасности в Интернете Вещей, поскольку в связи с высокой гетерогенностью Интернета Вещей выработка и внедрение единого решения обеспечения безопасности не представляются возможными. Поэтому разрабатываемый ЭО ПК обладает новизной. Разработанные подход к агрегации и нормализации данных также обладает научной новизной, поскольку агрегация выполняется в два этапа (агрегация по времени и по объектам), и разделяется этапом нормализации. Также впервые к Интернету Вещей применен подход, базирующийся на иерархических справочниках метаданных. Методы анализа данных на предмет безопасности также обладают новизной. Для обнаружения неявных функциональных взаимосвязей между устройствами применяется коэффициент согласия в динамике, никогда ранее не использовавшийся применительно к Интернету Вещей, как и в сфере IT-технологий в целом.
3. Единственной аналогичной работой является коммерческая система Splunk, предназначенная для операционной аналитики машинных данных. Отличием от разрабатываемого в рамках данного проекта ЭО ПК является ориентация на выявление новых знаний, а не на анализ защищенности. Помимо этого, патентный поиск показал, что запатентованные компанией Splunk способы и системы идеологически отличаются от разработанных методов анализа, в частности, Splunk не реализует обнаружение взаимосвязей по схожести изменения динамики данных от устройств.
4. Заявленные результаты достигаются за счет высокой скорости обработки данных, поскольку все разработанные методы и алгоритмы обладают способностью к распараллеливанию.

Назначение и область применения, эффекты от внедрения результатов проекта:
1. Планируемые результаты проекта могут быть использованы для проведения опытно-конструкторских работ, направленных на создание серийного производства программных комплексов высокоскоростной агрегации, обработки и визуализации данных из крупномасштабных сетей типа Интернета Вещей. В зависимости от типа обработки данных, такие программные комплексы могут эксплуатироваться в различных сферах деятельности, таких, как информационная безопасность, экономика, медицина, автострахование и т.д.
2. Планируемые результаты могут быть практически использованы для мониторинга корректности функционирования "умных" энергосетей Smart Grid, для обнаружения инцидентов безопасности при логистике товаров, снабженных RFID-метками, для обнаружения сбоев и инцидентов безопасности при функционировании сложных автоматических и автоматизированных систем, наподобии SCADA.
3. Планируемые результаты проекта, представляющие собой комплекс научных и научно-технических решений в области разработки методов и алгоритмов высокопроизводительной агрегации, нормализации, анализа и визуализации больших массивов гетерогенных структурированных, полуструктурированных и неструктурированных данных в крупномасштабных сетях электронных потребительских устройств (Internet of Things), позволят повысить эффективности научных исследований и по-лучить значимые научные результаты в области высокопроизводительной обработки и визуализации больших массивов гетерогенных данных на предмет последующего анализа защищенности крупномасштабных сетей электронных потребительских устройств, что улучшит качество и уровень обслуживания и повысит безопасность масштабных сетей потребительских устройств типа Интернета Вещей.
4. Планируемые результаты проекта позволят популяризовать научные подходы к обеспечению безопасности в крупномасштабных сетях электронных потребительских устройств, развивая существующие методы интеллектуального анализа данных для выявления новых знаний о наличии, характере, силе и аналитической форме функциональных взаимосвязей компонентов Интернета Вещей.

Текущие результаты проекта:
1. Разработаны математические методы и алгоритмы агрегации больших массивов данных, в том числе с применением приемов и методов параллельных вычислений:
1) метод агрегации сообщений от устройств Интернета Вещей по времени.
2) метод агрегации синхронных и асинхронных сообщений от устройств Интернета Вещей по объектам.
3) алгоритм формирования нового события от поступившего сообщения;
4) метод агрегации данных от устройств Интернета Вещей с использованием параллельных вычислений.
5) алгоритм обработки сообщения.
2. Разработаны математические методы и алгоритмы нормализации больших массивов гетерогенных данных, поступающих синхронно и асинхронно от распределенной сети источников:
1) метод нормализации сообщений от устройств Интернета Вещей;
2) алгоритм выделения параметров в сообщении;
3) общий алгоритм обработки входящего сообщения.
3. Разработаны математические методы и алгоритмы анализа больших массивов гетерогенных данных, поступающих синхронно и асинхронно от распределенной сети источников:
1) метод обнаружения априорно небезопасных событий с использованием корреляции на основе правил (rule-based correlation);
2) статистический метод обнаружения потенциально небезопасных событий, в рамках ме-тода разработаны следующие алгоритмы:
а) алгоритм определения максимального количества событий;
б) алгоритм определения максимальной частоты наступления событий;
в) алгоритм определения максимального значения параметра;
г) алгоритм определения минимального количества событий;
д) алгоритм определения минимального частоты наступления событий;
е) алгоритм определения минимального значения параметра;
ж) алгоритм определения среднего количества событий;
з) алгоритм определения среднего значения параметра события;
и) алгоритм определения точного значения среднеквадратичного отклонения;
к) алгоритм определения плавающего значения среднеквадратичного отклонения;
л) алгоритм определения периода события;
м) алгоритм определения граничных значений;
3) метод обнаружения потенциально небезопасных событий с использованием корреляци-онно-регрессионного анализа, в рамках метода разработаны следующие алгоритмы:
а) алгоритм определения наличия взаимосвязи между двумя наборами данных;
б) алгоритм определения уравнения линейной взаимосвязи двух наборов значений;
в) алгоритм определения уравнения нелинейной взаимосвязи двух наборов значений;
г) алгоритм экстраполяции для определения будущих значений;
д) алгоритм определения влияния совокупности факторов на один показатель;
е) алгоритм определения взаимосвязи между двумя факторами при исключении влияния на них обоих других показателей;
4) метод корреляции событий для расследования инцидентов безопасности в Интернете Вещей, в рамках метода разработаны следующие алгоритмы:
а) алгоритм корреляции двух событий;
б) алгоритм корреляции потенциально небезопасных событий со стандартными событиями;
в) алгоритм корреляции событий в системе.
4. Разработаны математические методы и алгоритмы анализа больших массивов гетерогенных данных:
1) математический метод и алгоритм визуализации больших массивов гетерогенных данных для обнаружения инцидентов безопасности в Интернете Вещей посредством отображения динамики количества событий и значений их параметров;
2) математический метод и алгоритм визуализации больших массивов гетерогенных данных для обнаружения инцидентов безопасности в Интернете Вещей посредством отображения коммуникационных связей между устройствами;
3) математический метод и алгоритм визуализации больших массивов гетерогенных данных для обнаружения инцидентов безопасности в Интернете Вещей посредством представления регулярно обновляемой статистики;
5. Разработаны методические подходы к созданию протоколов для синхронной и асинхронной передачи данных от потребительских устройств к центрам обработки данных.
6. Разработан алгоритм интеллектуального планирования задач по обработке больших массивов данных в вычислительной среде, построенной на базе кластера виртуальных машин.