Разработка технологии высокопроизводительной обработки и визуализации больших массивов данных в крупномасштабных сетях электронных потребительских устройств (Internet of Things)
Ключевые слова:
анализ, большие данные, визуализация, виртуальная машина, интернет вещей, производительность, параллельная обработка.
Цель проекта:
1. Получение значимых научных результатов в области высокопроизводительной обработки больших массивов гетерогенных данных на предмет последующего анализа защищенности распределенных сетей электронных потребительских устройств (Internet of Things).
2. Создание комплекса научных и научно-технических решений в области разработки методов и алгоритмов, обеспечивающих повышение эффективности научных исследований посредством высокопроизводительной агрегации, нормализации, анализа и визуализации больших массивов гетерогенных структурированных, полуструктурированных и неструктурированных данных в распределенной сети электронных потребительских устройств (Internet of Things).
Основные планируемые результаты проекта:
1. Математические методы и алгоритмы агрегации, нормализации, анализа и визуализации больших массивов гетерогенных структурированных, полуструктурированных и неструктурированных данных; алгоритм интеллектуального планирования задач по обработке больших массивов данных в вычислительной среде, построенной на базе кластера виртуальных машин; технические принципы и методические подходы к организации и развертыванию решений по агрегации, нормализации, анализу и визуализации больших массивов гетерогенных структурированных, полуструктурированных и неструктурированных данных в различных средах; методические подходы к разработке протоколов для передачи данных от потребительских устройств к центрам обработки данных; технические требования и предложения по разработке, производству и эксплуатации продукции с учетом технологических возможностей и особенностей индустриального партнера - организации реального сектора экономики; проект технического задания на проведение ОКР по теме: «Разработка программного комплекса высокопроизводительной обработки и визуализации больших массивов гетерогенных данных, генерируемых в крупномасштабных распределенных сетях типа Internet of Things»; архитектура и экспериментальный образец программного комплекса, представляющий собой SIEM-систему для Интернета Вещей, реализующую сбор, нормализацию, высокопроизводительную предобработку и визуализацию больших массивов гетерогенных (структурированных, полуструктурированных и неструктурированных) первичных исследовательских данных в распределенной сети электронных потребительских устройств (Internet of Things).
2. Математические методы и алгоритмы агрегации больших массивов гетерогенных структурированных, полуструктурированных и неструктурированных данных разработаны с применением приемов параллельных вычислений, предназначены для оптимального и эффективного получения мер центральной тенденции и экстремумов, локализованных вокруг или взятых от больших массивов данных, генерирующихся в распределенной сети. Методы охватывают синхронный и асинхронный режимы работы. Математические методы и алгоритмы нормализации и анализа больших массивов гетерогенных данных предназначены для приведения к нормальному виду и препроцессинга структурированных, полуструктурированных и неструктурированных данных.
2. Математические методы и алгоритмы агрегации больших массивов гетерогенных структурированных, полуструктурированных и неструктурированных данных разработаны с применением приемов параллельных вычислений, предназначены для оптимального и эффективного получения мер центральной тенденции и экстремумов, локализованных вокруг или взятых от больших массивов данных, генерирующихся в распределенной сети. Методы охватывают синхронный и асинхронный режимы работы. Математические методы и алгоритмы нормализации и анализа больших массивов гетерогенных данных предназначены для приведения к нормальному виду и препроцессинга структурированных, полуструктурированных и неструктурированных данных.
Краткая характеристика создаваемой/созданной научной (научно-технической, инновационной) продукции:
1. Экспериментальный образец программного комплекса (ЭО ПК) для сбора, нормализации, высокопроизводительной предобработки и визуализации больших массивов гетерогенных (структурированных, полуструктурированных и неструктурированных) первичных исследовательских данных в распределенной сети электронных потребительских устройств (Internet of Things). ЭО ПК реализует комплекс разработанных математических методов и алгоритмов агрегации, нормализации, анализа и визуализации, объединяя, таким образом, все методы и алгоритмы в едином решении. Разработанные математические методы и алгоритмы анализа направлены на анализ защищенности крупномасштабных сетей потребительских устройств, а именно, на выявление и расследование инцидентов безопасности в Интернете Вещей. Разрабатываемый ЭО ПК собирает данные от устройств Интернета Вещей, агрегирует и нормализует их, преобразует в события, к которым впоследствии применяются различные корреляционные подходы, позволяющие выявить априорно небезопасные события, так и потенциально небезопасные события. Помимо этого, используемые методы анализа направлены также на обнаружение неявных функциональных взаимосвязей между устройствами, что позволит повысить эффективность обнаружения и расследования инцидентов безопасности в Интернете Вещей за счет построения векторов неизвестных атак.
2. В настоящее время системы анализа защищенности для Интернета Вещей отсутствуют, в частности, и SIEM-системы для обнаружения и расследования инцидентов безопасности в Интернете Вещей, поскольку в связи с высокой гетерогенностью Интернета Вещей выработка и внедрение единого решения обеспечения безопасности не представляются возможными. Поэтому разрабатываемый ЭО ПК обладает новизной. Разработанные подход к агрегации и нормализации данных также обладает научной новизной, поскольку агрегация выполняется в два этапа (агрегация по времени и по объектам), и разделяется этапом нормализации. Также впервые к Интернету Вещей применен подход, базирующийся на иерархических справочниках метаданных. Методы анализа данных на предмет безопасности также обладают новизной. Для обнаружения неявных функциональных взаимосвязей между устройствами применяется коэффициент согласия в динамике, никогда ранее не использовавшийся применительно к Интернету Вещей, как и в сфере IT-технологий в целом.
3. Единственной аналогичной работой является коммерческая система Splunk, предназначенная для операционной аналитики машинных данных. Отличием от разрабатываемого в рамках данного проекта ЭО ПК является ориентация на выявление новых знаний, а не на анализ защищенности. Помимо этого, патентный поиск показал, что запатентованные компанией Splunk способы и системы идеологически отличаются от разработанных методов анализа, в частности, Splunk не реализует обнаружение взаимосвязей по схожести изменения динамики данных от устройств.
4. Заявленные результаты достигаются за счет высокой скорости обработки данных, поскольку все разработанные методы и алгоритмы обладают способностью к распараллеливанию.
2. В настоящее время системы анализа защищенности для Интернета Вещей отсутствуют, в частности, и SIEM-системы для обнаружения и расследования инцидентов безопасности в Интернете Вещей, поскольку в связи с высокой гетерогенностью Интернета Вещей выработка и внедрение единого решения обеспечения безопасности не представляются возможными. Поэтому разрабатываемый ЭО ПК обладает новизной. Разработанные подход к агрегации и нормализации данных также обладает научной новизной, поскольку агрегация выполняется в два этапа (агрегация по времени и по объектам), и разделяется этапом нормализации. Также впервые к Интернету Вещей применен подход, базирующийся на иерархических справочниках метаданных. Методы анализа данных на предмет безопасности также обладают новизной. Для обнаружения неявных функциональных взаимосвязей между устройствами применяется коэффициент согласия в динамике, никогда ранее не использовавшийся применительно к Интернету Вещей, как и в сфере IT-технологий в целом.
3. Единственной аналогичной работой является коммерческая система Splunk, предназначенная для операционной аналитики машинных данных. Отличием от разрабатываемого в рамках данного проекта ЭО ПК является ориентация на выявление новых знаний, а не на анализ защищенности. Помимо этого, патентный поиск показал, что запатентованные компанией Splunk способы и системы идеологически отличаются от разработанных методов анализа, в частности, Splunk не реализует обнаружение взаимосвязей по схожести изменения динамики данных от устройств.
4. Заявленные результаты достигаются за счет высокой скорости обработки данных, поскольку все разработанные методы и алгоритмы обладают способностью к распараллеливанию.
Назначение и область применения, эффекты от внедрения результатов проекта:
1. Планируемые результаты проекта могут быть использованы для проведения опытно-конструкторских работ, направленных на создание серийного производства программных комплексов высокоскоростной агрегации, обработки и визуализации данных из крупномасштабных сетей типа Интернета Вещей. В зависимости от типа обработки данных, такие программные комплексы могут эксплуатироваться в различных сферах деятельности, таких, как информационная безопасность, экономика, медицина, автострахование и т.д.
2. Планируемые результаты могут быть практически использованы для мониторинга корректности функционирования "умных" энергосетей Smart Grid, для обнаружения инцидентов безопасности при логистике товаров, снабженных RFID-метками, для обнаружения сбоев и инцидентов безопасности при функционировании сложных автоматических и автоматизированных систем, наподобии SCADA.
3. Планируемые результаты проекта, представляющие собой комплекс научных и научно-технических решений в области разработки методов и алгоритмов высокопроизводительной агрегации, нормализации, анализа и визуализации больших массивов гетерогенных структурированных, полуструктурированных и неструктурированных данных в крупномасштабных сетях электронных потребительских устройств (Internet of Things), позволят повысить эффективности научных исследований и по-лучить значимые научные результаты в области высокопроизводительной обработки и визуализации больших массивов гетерогенных данных на предмет последующего анализа защищенности крупномасштабных сетей электронных потребительских устройств, что улучшит качество и уровень обслуживания и повысит безопасность масштабных сетей потребительских устройств типа Интернета Вещей.
4. Планируемые результаты проекта позволят популяризовать научные подходы к обеспечению безопасности в крупномасштабных сетях электронных потребительских устройств, развивая существующие методы интеллектуального анализа данных для выявления новых знаний о наличии, характере, силе и аналитической форме функциональных взаимосвязей компонентов Интернета Вещей.
2. Планируемые результаты могут быть практически использованы для мониторинга корректности функционирования "умных" энергосетей Smart Grid, для обнаружения инцидентов безопасности при логистике товаров, снабженных RFID-метками, для обнаружения сбоев и инцидентов безопасности при функционировании сложных автоматических и автоматизированных систем, наподобии SCADA.
3. Планируемые результаты проекта, представляющие собой комплекс научных и научно-технических решений в области разработки методов и алгоритмов высокопроизводительной агрегации, нормализации, анализа и визуализации больших массивов гетерогенных структурированных, полуструктурированных и неструктурированных данных в крупномасштабных сетях электронных потребительских устройств (Internet of Things), позволят повысить эффективности научных исследований и по-лучить значимые научные результаты в области высокопроизводительной обработки и визуализации больших массивов гетерогенных данных на предмет последующего анализа защищенности крупномасштабных сетей электронных потребительских устройств, что улучшит качество и уровень обслуживания и повысит безопасность масштабных сетей потребительских устройств типа Интернета Вещей.
4. Планируемые результаты проекта позволят популяризовать научные подходы к обеспечению безопасности в крупномасштабных сетях электронных потребительских устройств, развивая существующие методы интеллектуального анализа данных для выявления новых знаний о наличии, характере, силе и аналитической форме функциональных взаимосвязей компонентов Интернета Вещей.
Текущие результаты проекта:
1. Разработаны математические методы и алгоритмы агрегации больших массивов данных, в том числе с применением приемов и методов параллельных вычислений:
1) метод агрегации сообщений от устройств Интернета Вещей по времени.
2) метод агрегации синхронных и асинхронных сообщений от устройств Интернета Вещей по объектам.
3) алгоритм формирования нового события от поступившего сообщения;
4) метод агрегации данных от устройств Интернета Вещей с использованием параллельных вычислений.
5) алгоритм обработки сообщения.
2. Разработаны математические методы и алгоритмы нормализации больших массивов гетерогенных данных, поступающих синхронно и асинхронно от распределенной сети источников:
1) метод нормализации сообщений от устройств Интернета Вещей;
2) алгоритм выделения параметров в сообщении;
3) общий алгоритм обработки входящего сообщения.
3. Разработаны математические методы и алгоритмы анализа больших массивов гетерогенных данных, поступающих синхронно и асинхронно от распределенной сети источников:
1) метод обнаружения априорно небезопасных событий с использованием корреляции на основе правил (rule-based correlation);
2) статистический метод обнаружения потенциально небезопасных событий, в рамках ме-тода разработаны следующие алгоритмы:
а) алгоритм определения максимального количества событий;
б) алгоритм определения максимальной частоты наступления событий;
в) алгоритм определения максимального значения параметра;
г) алгоритм определения минимального количества событий;
д) алгоритм определения минимального частоты наступления событий;
е) алгоритм определения минимального значения параметра;
ж) алгоритм определения среднего количества событий;
з) алгоритм определения среднего значения параметра события;
и) алгоритм определения точного значения среднеквадратичного отклонения;
к) алгоритм определения плавающего значения среднеквадратичного отклонения;
л) алгоритм определения периода события;
м) алгоритм определения граничных значений;
3) метод обнаружения потенциально небезопасных событий с использованием корреляци-онно-регрессионного анализа, в рамках метода разработаны следующие алгоритмы:
а) алгоритм определения наличия взаимосвязи между двумя наборами данных;
б) алгоритм определения уравнения линейной взаимосвязи двух наборов значений;
в) алгоритм определения уравнения нелинейной взаимосвязи двух наборов значений;
г) алгоритм экстраполяции для определения будущих значений;
д) алгоритм определения влияния совокупности факторов на один показатель;
е) алгоритм определения взаимосвязи между двумя факторами при исключении влияния на них обоих других показателей;
4) метод корреляции событий для расследования инцидентов безопасности в Интернете Вещей, в рамках метода разработаны следующие алгоритмы:
а) алгоритм корреляции двух событий;
б) алгоритм корреляции потенциально небезопасных событий со стандартными событиями;
в) алгоритм корреляции событий в системе.
4. Разработаны математические методы и алгоритмы анализа больших массивов гетерогенных данных:
1) математический метод и алгоритм визуализации больших массивов гетерогенных данных для обнаружения инцидентов безопасности в Интернете Вещей посредством отображения динамики количества событий и значений их параметров;
2) математический метод и алгоритм визуализации больших массивов гетерогенных данных для обнаружения инцидентов безопасности в Интернете Вещей посредством отображения коммуникационных связей между устройствами;
3) математический метод и алгоритм визуализации больших массивов гетерогенных данных для обнаружения инцидентов безопасности в Интернете Вещей посредством представления регулярно обновляемой статистики;
5. Разработаны методические подходы к созданию протоколов для синхронной и асинхронной передачи данных от потребительских устройств к центрам обработки данных.
6. Разработан алгоритм интеллектуального планирования задач по обработке больших массивов данных в вычислительной среде, построенной на базе кластера виртуальных машин.
1) метод агрегации сообщений от устройств Интернета Вещей по времени.
2) метод агрегации синхронных и асинхронных сообщений от устройств Интернета Вещей по объектам.
3) алгоритм формирования нового события от поступившего сообщения;
4) метод агрегации данных от устройств Интернета Вещей с использованием параллельных вычислений.
5) алгоритм обработки сообщения.
2. Разработаны математические методы и алгоритмы нормализации больших массивов гетерогенных данных, поступающих синхронно и асинхронно от распределенной сети источников:
1) метод нормализации сообщений от устройств Интернета Вещей;
2) алгоритм выделения параметров в сообщении;
3) общий алгоритм обработки входящего сообщения.
3. Разработаны математические методы и алгоритмы анализа больших массивов гетерогенных данных, поступающих синхронно и асинхронно от распределенной сети источников:
1) метод обнаружения априорно небезопасных событий с использованием корреляции на основе правил (rule-based correlation);
2) статистический метод обнаружения потенциально небезопасных событий, в рамках ме-тода разработаны следующие алгоритмы:
а) алгоритм определения максимального количества событий;
б) алгоритм определения максимальной частоты наступления событий;
в) алгоритм определения максимального значения параметра;
г) алгоритм определения минимального количества событий;
д) алгоритм определения минимального частоты наступления событий;
е) алгоритм определения минимального значения параметра;
ж) алгоритм определения среднего количества событий;
з) алгоритм определения среднего значения параметра события;
и) алгоритм определения точного значения среднеквадратичного отклонения;
к) алгоритм определения плавающего значения среднеквадратичного отклонения;
л) алгоритм определения периода события;
м) алгоритм определения граничных значений;
3) метод обнаружения потенциально небезопасных событий с использованием корреляци-онно-регрессионного анализа, в рамках метода разработаны следующие алгоритмы:
а) алгоритм определения наличия взаимосвязи между двумя наборами данных;
б) алгоритм определения уравнения линейной взаимосвязи двух наборов значений;
в) алгоритм определения уравнения нелинейной взаимосвязи двух наборов значений;
г) алгоритм экстраполяции для определения будущих значений;
д) алгоритм определения влияния совокупности факторов на один показатель;
е) алгоритм определения взаимосвязи между двумя факторами при исключении влияния на них обоих других показателей;
4) метод корреляции событий для расследования инцидентов безопасности в Интернете Вещей, в рамках метода разработаны следующие алгоритмы:
а) алгоритм корреляции двух событий;
б) алгоритм корреляции потенциально небезопасных событий со стандартными событиями;
в) алгоритм корреляции событий в системе.
4. Разработаны математические методы и алгоритмы анализа больших массивов гетерогенных данных:
1) математический метод и алгоритм визуализации больших массивов гетерогенных данных для обнаружения инцидентов безопасности в Интернете Вещей посредством отображения динамики количества событий и значений их параметров;
2) математический метод и алгоритм визуализации больших массивов гетерогенных данных для обнаружения инцидентов безопасности в Интернете Вещей посредством отображения коммуникационных связей между устройствами;
3) математический метод и алгоритм визуализации больших массивов гетерогенных данных для обнаружения инцидентов безопасности в Интернете Вещей посредством представления регулярно обновляемой статистики;
5. Разработаны методические подходы к созданию протоколов для синхронной и асинхронной передачи данных от потребительских устройств к центрам обработки данных.
6. Разработан алгоритм интеллектуального планирования задач по обработке больших массивов данных в вычислительной среде, построенной на базе кластера виртуальных машин.