Регистрация / Вход
Прислать материал

Исследование и разработка инновационной технологии построения программных средств обеспечения компьютерной безопасности, основанных на использовании методов машинного обучения и математической статистики для анализа данных поведенческой биометрии пользователей при работе в рамках стандартного человеко-машинного интерфейса, для решения задач активной аутентификации и идентификации пользователей, обнаружения внутренних вторжений и предотвращения попыток хищения конфиденциальной информации

Докладчик: Машечкин Игорь Валерьевич

Должность: д.ф.м.н., профессор

Цель проекта:
Использование стандартных средств защиты информации, основанных на разграничении прав доступа, контроле целостности, аутентификации пользователей с использованием паролей, ключей или цифровых подписей, а также применение систем контроля работы пользователей, основанных на предопределенных регламентах, политиках, правилах и использовании сигнатурных методов обнаружения вторжений, не дают надежной защиты. Традиционные методы демонстрируют высокую уязвимость по следующим причинам: 1. Непреднамеренные ошибки, а также невысокая квалификация и безответственность пользователей, приводящие к нарушению безопасности. 2. Злонамеренные действия легальных пользователей – инсайдеров. 3. Технологические недостатки существующих систем защиты данных. Таким образом, в свете обозначенных выше проблем традиционных средств компьютерной безопасности необходимо разработать новые способы решения следующих задач: - задача аутентификации пользователей – процесс подтверждения личности пользователя в результате проведения некоторой интерактивной процедуры проверки в условиях, когда наличие правильного пароля, ключа или любой другой секретной информации (которая в принципе может быть скопирована, украдена, утеряна, передана и т.д.) не может гарантировать стопроцентную достоверность; - задача идентификации пользователей – постоянная (или периодическая) процедура оценки достоверности того, что пользователь, работающий с защищаемой компьютерной системой, является действительно тем, от имени кого он авторизовался; в отличие от аутентификации не подразумевается явных процедур проверки, требующих интерактивных действий от пользователя. - задача раннего обнаружения внутренних вторжений – процедура выявления фактов аномального или подозрительного поведения инсайдеров (авторизованных легальных пользователей или нарушителей, авторизовавшихся под чужим именем), которые могут предшествовать или непосредственно являться частью организации попытки внутреннего вторжения; как показал опыт эксплуатации систем обнаружения внутренних вторжений, в большинстве случаев непосредственно внутреннему вторжению предшествует аномальное (хотя возможно и разрешенное) поведение пользователя, т.е. пользователь еще до атаки или кражи информации начинает совершать действия, не характерные для его предыдущей активности. По мнению ведущих специалистов по компьютерной безопасности, перспективным инструментом для решения обозначенных выше задач являются подходы на основе анализа поведенческой биометрии пользователей с использованием статистических методов и методов машинного обучения. Целью настоящей работы является исследование и разработка инновационной программной технологии, основанной на использовании методов машинного обучения и математической статистики для анализа индивидуальных особенностей поведения пользователей компьютерных систем (поведенческой биометрии) при работе в рамках стандартного человеко-машинного интерфейса, включая: - особенности работы со стандартными устройствами ввода-вывода (клавиатура, манипулятор «мышь», монитор), без использования дополнительного оборудования (сканеры, камеры, микрофоны и другие сенсоры); - особенности использования информационных и вычислительных ресурсов защищаемой компьютерной системы; - особенности потребляемой и создаваемой пользователем текстовой информации (документы, электронные сообщения, почта); для решения следующих задач обеспечения компьютерной безопасности: - активная аутентификация пользователя, включая вход в систему на основе поведенческого теста без использования секретной информации (такой как пароли, электронные ключи, секретные вопросы и т.д.), а также фоновую непрерывную поведенческую идентификацию пользователя во время работы в системе; - раннее обнаружение внутренних вторжений, и, в частности, предотвращение попыток хищения конфиденциальной информации, на основе обнаружения фактов аномальной активности пользователя при работе с информационными и вычислительными ресурсами защищаемой компьютерной системы.

Основные планируемые результаты проекта:
1. Краткое описание основных результатов (основные практические и
экспериментальные результаты, фактические данные, обнаруженные взаимосвязи и закономерности).

Основным научно-техническим результатом настоящей работы должна стать инновационная технология построения программных средств обеспечения компьютерной безопасности, основанных на анализе данных поведенческой биометрии пользователей, собираемых в рамках стандартного человеко-машинного интерфейса, для решения следующих задач обеспечения компьютерной безопасности:
- активная аутентификация пользователя на основе мониторинга и анализа особенностей его работы в защищаемой компьютерной системе, включая вход в систему без использования секретной информации, такой как пароли, электронные ключи и т.д., а также фоновую непрерывную идентификацию пользователя во время работы в системе;
- раннее обнаружение внутренних вторжений, и в частности предотвращение попыток хищения конфиденциальной информации, на основе обнаружения фактов аномальной или подозрительной активности пользователя при работе с информационными и вычислительными ресурсами защищаемой компьютерной системы, а также при работе с электронными документами, циркулирующими в ней.
2. Основные характеристики планируемых результатов (в целом и/или отдельных элементов), планируемой научной (научно-технической, инновационной) продукции.

В качестве поведенческих биометрических данных разрабатываемая технология должна использовать только информацию, получаемую в результате работы пользователя в рамках стандартного человеко-машинного интерфейса без использования сканеров, камер, сенсоров, микрофонов и другого дополнительного оборудования. Технология должна базироваться на следующих источниках поведенческой информации:
- Особенности динамики работы пользователей со стандартными устройствами ввода-вывода (клавиатура, мышь, монитор).
- Особенности использования информационных и вычислительных ресурсов защищаемой компьютерной системы (при работе с приложениями, файлами, внешними носителями, разделяемыми сетевыми ресурсами).
- Особенности потребляемой и создаваемой пользователем текстовой информации (документы, электронные сообщения, почта), включая распознавание характерных для пользователя тематик, ключевых слов, устойчивых оборотов и словосочетаний в создаваемом тексте.
Технология активной аутентификации и обнаружения внутренних вторжений должна полностью базироваться на методах статистического анализа и машинного обучения без использования сигнатур, экспертных правил и других «ручных» настроек, обеспечивая в тоже время высокий уровень точности распознавания при низком уровне ложно- положительных ошибок. Анализ текстовой информации должен быть языково-независимым.


3. Оценка элементов новизны научных (технологических) решений, применявшихся методик и решений.

На настоящий момент не существует комплексной программной технологии компьютерной безопасности для решения задач активной аутентификации и обнаружения внутренних вторжений, построенной на основе анализа поведенческой биометрической информации, собираемой в рамках стандартного человеко-машинного интерфейса и включающей динамику работы со стандартными устройствами ввода-вывода и системные и прикладные журналы.
В то же время, в среде специалистов по компьютерной безопасности сформировалась уверенность, что существует перспектива создания таких технологий. Это подтверждается, с одной стороны, большим числом исследований и публикаций в этой области, с другой стороны пристальным вниманием к данной проблематике государственных структур США и Европейского Союза:
- c 2010 года данное направление активно поддерживается Европейским агентством по сетевой и информационной безопасности (ENISA): http://www.enisa.europa.eu/act/rm/files/deliverables/behavioural-biometrics;
- c 2012 года Агентство по перспективным оборонным научно-исследовательским разработкам США (DARPA) инициировало программу исследований по данному направлению: http://www.darpa.mil/Opportunities/Solicitations/I2O_Solicitations.aspx.
В перспективе возможна реализация востребованного промышленного программного продукта, не имеющего на настоящий момент функциональных аналогов в мире.


4. Сопоставление с результатами аналогичных работ, определяющими мировой уровень.

Аналитический обзор, а также проведенное патентное исследование подтверждают новизну и перспективность предлагаемых в проекте подходов.

5. Пути и способы достижения заявленных результатов, ограничения и риски.
Для достижения заявленных целей планируется решение следующих задач
1. «Алгоритмические»:
1.1. Разработать модели представления для трех типов исходных данных поведенческой биометрии: информации о динамике работы пользователя со стандартными устройствами ввода-вывода; информации о работе с информационными и вычислительными ресурсами защищаемой компьютерной системы; информации о текстовом содержимом и динамике его получения и обработки пользователем.
1.2. Разработать обучаемые алгоритмы для построения моделей поведения пользователей на основе собранных биометрических данных и применения этих моделей для решения задач активной аутентификации, идентификации пользователей, входа в систему без использования секретной информации (пароля, ключа, секретных вопросов и т.д.), раннего обнаружения внутренних вторжений и попыток хищения конфиденциальной информации.
1.3. Сформулировать допустимые критерии по точности и скорости работы алгоритмов для возможности применения в реальных условиях, а также ограничения на размер получаемых моделей и хранимых биометрических данных.
1.4. Разработать методику оценки и провести эксперименты на общедоступных эталонных и реальных собранных данных для определения точности и скорости работы алгоритмов, а также необходимых объемов тренировочного набора и времени его накопления с оценкой статистической достоверности получаемых результатов.
2. «Системные»:
2.1. Разработать общую концепцию функционирования, спроектировать архитектуру и формализовать пользовательские сценарии работы, а также обосновать их удобство с точки зрения пользователя (usability).
2.2. Разработать структуры представления биометрических данных, процедуры их сбора, хранения, управления ими и предварительной обработки.
2.3. Реализовать прототипы программных компонент сбора, хранения, управления и предварительной обработки исходных биометрических данных, оценить параметры их работы с точки зрения безопасности персональных данных, объемов хранимой и передаваемой информации, удобства работы пользователя.
2.4. Реализовать прототипы программных компонент построения, управления и применения пользовательских поведенческих моделей для задач активной аутентификации, идентификации пользователей, аутентификации без использования секретной информации (пароля, ключа, секретных вопросов), раннего обнаружения внутренних вторжений и попыток хищения конфиденциальной информации.
Риски проекта.
Негативные риски:
• Возможен выход аналогичных решений у конкурентов мировых лидеров в ближайшем будущем
• Возможно, что не получится достичь показателей по точности, надежности и скорости работы, необходимых для промышленной реализации
• Не полная готовность заказчиков (особенно в РФ) к работе с программными системами на основе интеллектуальных методов
• Юридические требования и ограничения в РФ, например, на обработку персональных данных, работу с контентом документов, специфические требования регуляторов

Позитивные риски.
• Сильная команда исследователей и разработчиков ВМК МГУ (идеи, люди)
• Наличие значительного опыта исследований в области разработки интеллектуальных программных технологий
• Опыт исследования и разработки систем информационной безопасности
• Есть потенциально заинтересованные заказчики в РФ
• Рынок систем информационной безопасности интернационален и есть примеры удачного выхода на международный рынок российских компаний
• Рынок постоянно растет, на нем общими усилиями всех игроков формируется спрос на продукты информационной безопасности на основе интеллектуальных методов


Назначение и область применения, эффекты от внедрения результатов проекта:
1. Описание областей применения планируемых результатов (области науки и техники; отрасли промышленности и социальной сферы, в которых могут использоваться или планируемая на их основе инновационная продукция);


Область применения планируемых результатов - компьютерная безопасность.

В случае успешного завершения работ по настоящему проекту предлагаемая технология построения систем компьютерной безопасности может быть реализована в виде программного комплекса обеспечения защиты от несанкционированного доступа и внутренних вторжений в рамках прикладной ОКР. Масштабность потенциального применения такой системы практически не ограничена. Она может быть востребована организациям любого уровня и формы собственности, в которой происходит работа с конфиденциальной электронной информацией. Объем рынка подобных систем определяется спектром возможных потребителей. Ими могут быть государственные учреждения, банки, страховые компании, крупные технологические предприятия (КБ, заводы, НИИ), информационные агентства и другие.


2. Описание практического внедрения планируемых результатов или перспектив их использования;

В случае успешного выполнения ПНИ на основе его результатов возможно проведение опытно-конструкторских работ по разработке программных систем, компонентов ПО и информационных технологий, направленных на решение задач компьютерной безопасности, рассматриваемых в настоящей ПНИ. Результаты указанных ОКР возможно коммерциализировать по следующим схемам:
1. «Передача технологии».
В результате работ в рамках настоящего ПНИ и ОКР будет создана интеллектуальная собственность, защищенная патентами, в том числе, возможно, международными. Причем может быть запатентована как технология в целом, включая алгоритмическую и системную составляющие, так и отдельные методы, алгоритмы и полезные модели. Возможен вариант продажи патентов заинтересованным компаниям, работающим на рынке IT-безопасности.
2. Лицензируемое ПО («корпоративная версия»).
По результатам проведенных ОКР возможна разработка программной системы компьютерной безопасности масштаба предприятия (enterprise), которая будет полностью устанавливаться на площадке и оборудовании Заказчика. Основным путем коммерциализации в рамках данного направления будет продажа лицензий и оплата поддержки.
3. SaaS («облачное решение»).
В перспективе при наличии инвестиционных средств и успешного опыта эксплуатации «корпоративной версии» возможна реализация SaaS-версии системы. Это позволит сделать ее доступной для небольших и средних компаний и организаций, не готовых тратить средства на закупку собственного оборудования, ПО и подготовки специалистов для работы с такой системой. В этом случае на площадке Клиента будут устанавливаться только некоторый набор компонентов ПО, предназначенный для сбора входных данных (поведенческой информации) и передачи их «в облако» — на площадку компании-производителя. Хранение и обработка полученных данных, построение и валидация пользовательских моделей будет осуществляться централизовано «в облаке».
4. Расширенная поддержка («аутсорсинг аналитики»).
Под «аутсорсингом» аналитики подразумевается осуществление периодических работ по созданию и настройке поведенческих моделей на основе собранных данных у Заказчика (как в «корпоративной» версии, так и в «облаке») силами специалистов компании-производителя в случае отсутствия у Заказчика своих специалистов, способных осуществлять такие работы. Осуществление таких работ возможно в рамках дополнительно оплачиваемой поддержки.

3. Оценка или прогноз влияния планируемых результатов на развитие научно-технических и технологических направлений; разработка новых технических решений; на изменение структуры производства и потребления товаров и услуг в соответствующих секторах рынка и социальной сфере. Оценка или прогноз влияния планируемых результатов на развитие исследований в рамках международного сотрудничества, развитие системы демонстрации и популяризации науки, обеспечении развития материально-технической и информационной инфраструктуры.

В случае успешного завершения работ по настоящему проекту предлагаемая технология построения систем компьютерной безопасности может быть реализована в виде программного комплекса обеспечения защиты от несанкционированного доступа и внутренних вторжений в рамках прикладной ОКР. Поскольку в настоящее время ни в России, ни в мире не существует аналогичной системы компьютерной безопасности, то на новую технологию могут быть получены международные патенты, а построенная на ее основе система компьютерной безопасности может быть произведена в виде лицензионного программного обеспечения. Причем может быть запатентована как технология в целом, включая алгоритмическую и системную составляющие, так и отдельные методы, алгоритмы и полезные модели. В частности, могут быть получены отдельные патенты на методы сбора, представления и обработки поведенческих биометрических данных и на обучаемые алгоритмы анализа биометрических данных и процедуры построения на их основе моделей поведения и распознавания пользователей. В перспективе возможна реализация востребованного промышленного программного продукта, не имеющего на настоящий момент функциональных аналогов в мире.
Масштабность применения такой системы практически не ограничена. Она будет полезна организациям любого уровня и формы собственности, в которой происходит работа с конфиденциальной электронной информацией. Объем рынка подобных систем определяется спектром возможных потребителей. Ими могут быть государственные учреждения, банки, страховые компании, крупные технологические предприятия (КБ, заводы, НИИ), информационные агентства и другие.

Текущие результаты проекта:
1. Аналитический обзор методов биометрической аутентификации пользователей с использованием машинного обучения и интеллектуального анализа данных был проведен по следующим направлениям:
 подходы к анализу поведенческих биометрических данных о работе пользователя со стандартными устройствами ввода-вывода (клавиатура, мышь);
 подходы к анализу поведенческих биометрических данных о работе пользователя с информационными и вычислительными ресурсами защищаемой компьютерной системы;
 подходы к анализу поведенческих биометрических данных о работе пользователя с текстовой информацией.
Было проанализировано 124 современных научно-технических публикаций в ведущих зарубежных и российских изданиях, и сделаны выводы, что наиболее перспективными и актуальными подходами на сегодняшний день являются, соответственно:
 анализ статистических характеристик действий пользователя с устройствами ввода-вывода, обнаружение шаблонов поведения пользователя, построение и анализ иерархий действий пользователя, комбинированный анализ динамики работы пользователя с мышью и с клавиатурой.
 анализ событий работы пользователя с информационными и вычислительными ресурсами защищаемой компьютерной системы, выявленных инцидентов информационной безопасности и их последствий; обнаружение шаблонов поведения пользователя; осуществление поддержки принятия решений.
 анализ потоков текстовых документов (аннотирование текстовых документов; выявление ключевых тематик и ключевых слов; выделение фактов из текста); классификация контента (рубрикация текстовых данных на основе машинного обучения «с учителем»; группировка текстовых данных на основе машинного обучения «без учителя»); идентификация информации (анализ шаблонов и цифровых отпечатков); анализ временных рядов (анализ временных рядов распределения интереса пользователей к тематикам, анализ временных рядов распределения результатов поиска документов).

2. Выполнены патентные исследования в соответствии ГОСТ Р 15.011-96 по направлениям:
 использование поведенческих биометрических данных о работе пользователя со стандартными устройствами ввода-вывода (клавиатура, мышь);
 использование поведенческих биометрических данных о работе пользователя с информационными и вычислительными ресурсами защищаемой компьютерной системы;
 использование поведенческих биометрических данных о работе пользователя с текстовой информацией.
Проанализированы материалы (в количестве более 150 документов), принадлежащие как российским, так и зарубежным правообладателям. Выявлены основные тенденции совершенствования и развития методов решаемых в настоящем проекте задач. Определены основные патентообладатели и заявители технических решений в данной области (в количестве 25 документов).
По результатам патентного анализа можно сделать вывод об отсутствии конфликтов с существующими патентами и о возможности получения правовой охраны планируемых РИД настоящих ПНИ.
3. Осуществлено обоснование и выбор направления исследований по следующим направлениям:
3.1 возможности применения подходов к анализу поведенческих биометрических данных о работе пользователя со стандартными устройствами ввода-вывода:
 предварительные экспериментальные исследования показали, что наилучшие результаты даёт подход на основе анализа распределения статистических характеристик действий пользователя с клавиатурой и мышкой.
 в качестве метода одноклассовой классификации в рамках данной задачи лучшие результаты показал метод опорных векторов для мышки и метод К-ближайших соседей для клавиатуры.
 указанные методы выбраны для дальнейших теоретических исследований.
3.2 возможности применения подходов к анализу поведенческих биометрических данных о работе пользователя с информационными и вычислительными ресурсами защищаемой компьютерной системы:
 Выбрана технология управления информацией и событиями безопасности (SIEM) в качестве базиса для решения рассматриваемых задач.
 Выбраны подходы для теоретических исследований, основанные на ретроспективном анализе работы пользователя с информационными и вычислительными ресурсами защищаемой компьютерной системы, формировании поведенческого профиля и использования его для разработки перспективных методов прогнозирования обычного поведения и выявления аномальных фактов активности, что позволит осуществлять постоянную фоновую идентификацию пользователей и раннее обнаружение внутренних вторжений.
 Предложен новый подход ретроспективного анализа работы пользователя с информационными и вычислительными ресурсами защищаемой компьютерной системы, основанный на применении методов матричной декомпозиции для задачи поддержки принятия решения в части предоставления доступа к ресурсам. Предварительные экспериментальные исследования предложенного подхода были проведены на примере данных совернования Kaggle "Amazon.com - Employee Access Challenge".
3.3 возможности применения подходов к анализу поведенческих биометрических данных о работе пользователя с текстовой информацией:
 Актуально использовать в рассматриваемой задаче следующие методы языково-независимой предобработки собираемой текстовой информации: аннотирование больших текстовых документов, рубрикацию и группировку текстовых данных на основе машинного обучения «с учителем» и «без», выявление ключевых тематик и ключевых слов, индексацию и теневое копирование.
 Задача постоянной фоновой идентификации пользователей и раннего обнаружения попыток хищения конфиденциальной информации на основе поведенческой биометрии работы пользователя с текстовыми данными на сегодняшний день не решается в современных корпоративных системах, функционал которых направлен на управление контентной информацией организации.
 Предложен новый подход ретроспективного анализа работы корпоративного пользователя с текстовой информацией, основанный на тематическом анализе сложившихся в прошлом тенденций работы пользователя с текстовым контентом различных категорий, в том числе конфиденциальных. В рамках данного подхода предлагается разработка механизмов прогнозирования и выявления отклонений в поведении пользователя, что позволит осуществлять постоянную фоновую идентификацию пользователей и раннее обнаружение попыток хищения конфиденциальной информации. Предварительные экспериментальные исследования предложенного подхода были проведены на примере реальной корпоративной переписки пользователей, сформированной из тестового набора данных Enron.

4. Проведены теоретические исследования 1-ой очереди, направленные на решение следующих задач:
4.1 Разработка структур данных, методов сбора, предобработки, хранения и управления для поведенческой информации об особенностях работы пользователя с текстовой информацией.
 Разработана мультиагентная программная архитектура для сбора, предобработки, хранения и управления поведенческой информации об особенностях работы пользователя с текстовой информацией из различных источников данных (рабочие места пользователей, корпоративные ноутбуки, сообщения электронной почты).
 Для описания процессов работы пользователя с текстовыми документами в данной работе используется понятие потока текстовой информации – последовательности изменений состояния электронного документа и описание операций, вызвавших данные изменения. Изменения состояния электронного документа могут быть двух типов: контентное – изменение содержимого документа; контекстное – изменение атрибутов документа. Для каждого типа электронного документа и среды его функционирования определён свой набор операций, изменяющий его состояние, поэтому для каждого источника данных разрабатываются свои структуры данных, описывающие поток текстовой информации.
4.2 Разработка методов языково-независимой предобработки собираемой текстовой информации.
 Были разработаны алгоритмы анализа текстовой информации для задачи выявления особенностей работы пользователя с контентом, основанные на неотрицательной матричной факторизации (NMF) в качестве алгоритма матричного разложения для латентно-семантического анализа: аннотирование больших текстовых документов; выявление ключевых тематик и ключевых слов; группировка текстовых данных на основе машинного обучения «без учителя», для реализации рубрикации текстовых данных на основе машинного обучения «с учителем» был разработан перспективный метод классификации многотемных документов, основанный на подходе "попарных сравнений" (бинарная декомпозиция типа "каждый-против-каждого").