Регистрация / Вход
Прислать материал

Разработка технологии визуализации массивов неформализованных данных разнородной структуры, полученных путем автоматического анализа новостных потоков

Номер контракта: 14.604.21.0138

Руководитель: Знаменский Сергей Витальевич

Должность руководителя: зав. лабораторией

Докладчик: Куршев Евгений Петрович, Руководитель Исследовательского центра искусственного интеллекта

Аннотация скачать
Постер скачать
Ключевые слова:
системы поддержки принятия решений, технологии визуализации, визуализация неструктурированной информации, анализ текстов на естественно языке, текст-майнинг, извлечение информации

Цель проекта:
Проблема, на решение которой направлен реализуемый проект, – эффективная визуализация данных, содержащихся в массивах и потоках неструктурированных текстов на естественном языке. Целью проекта является разработка технологии интерактивной визуализации неформализованных данных разнородной структуры для использования в системах поддержки принятия решений на основе мониторинга и анализа новостных потоков, в том числе: а) разработка функциональных моделей и алгоритмов извлечения информационных объектов (ИО) и связей между ними из новостных потоков; б) разработка функциональных моделей и алгоритмов предобработки и визуализации ИО и связей, учитывающих их многомерную природу и разнородность; в) разработка и экспериментальное исследование программной реализации алгоритмов извлечения, предобработки и визуализации ИО и связей; г) разработка технических требований для создания перспективных систем поддержки принятия решений на основе создаваемой технологии интерактивной визуализации неформализованных данных; д) создание интерфейсных решений, обеспечивающих интеграцию разрабатываемой технологии визуализации в другие программные системы (в форме доступа к программным интерфейсам и функций экспорта). Комплекс научно-технических решений визуализации и обработки массивов данных новостных потоков разнородной структуры предназначается для использования в системах поддержки принятия решений с целью упрощения восприятия больших объемов сложноорганизованной и разнородной информации и получения целостной картины о состоянии объекта управления.

Основные планируемые результаты проекта:
Ожидается, что в ходе выполнения проекта будут получены следующие научно-технические результаты.
1. Комплекс научно-технических решений визуализации и обработки массивов данных новостных потоков разнородной структуры.
2. Программная реализация разработанных моделей и алгоритмов в экспериментальном образце программного обеспечения визуализации неформализованных данных новостных потоков разнородной структуры.
3. Результаты экспериментальных исследований экспериментального образца программного обеспечения.
4. Рекомендации по использованию результатов прикладных научных исследований в системах поддержки принятия решений в рамках социальных процессов, а также в дальнейших исследованиях и разработках.
5. Технические требования и предложения по разработке, производству и эксплуатации продукции с учетом технологических возможностей и особенностей индустриального партнера.
6. Проект технического задания на проведение ОКР по теме: «Разработка программного комплекса поддержки принятия решений для осуществления социально-политического регулирования в регионе на базе технологии визуализации неформализованных данных, полученных путем автоматического анализа новостных потоков и содержимого социальных сетей».

Краткая характеристика создаваемой/созданной научной (научно-технической, инновационной) продукции:
Создаваемый в рамках проекта экспериментальный образец программного обеспечения визуализации неформализованных данных обеспечит визуализацию и обработку массивов данных новостных потоков разнородной структуры, в частности позволит извлекать из исходных данных ИО и связи между ними по заданным паттернам с применением методов лингво-семантического анализа; нормировать извлеченные ИО; формировать, обрабатывать и визуализировать многомерную матрицу связей между ИО; экспортировать результаты визуализации; а также предоставит программный интерфейс для доступа к результатам визуализации из внешних информационных систем.
Новизна заключается в том, что используется двусторонний подход к решению проблемы визуализации неформализованных текстовых сведений. Первый путь в рамках этого подхода состоит в совершенствовании технологий текст-майнинга, особенно технологий извлечения информации из текстов. Наиболее перспективным здесь выглядит направление извлечения информации под управлением онтологий (пока не получившее широкого распространения в силу своей сложности). Второй путь — создание новых подходов к визуализации слабоструктурированной информации, то есть разработка таких методов визуализации, которые позволят обойти недостатки современных технологий текст-майнинга. Оба этих направления исследуются в рамках настоящего проекта. Ожидается, что такой двусторонний взгляд на проблему позволит найти новые научно-технические решения и расширить функциональные возможности современных систем поддержки принятия решений.
Методы (и реализующие их алгоритмы), которые должны лечь в основу технологии имеют ряд качественных проблем, которые предстоит устранить в рамках проекта. Ключевым моментом в создании технологии будет адаптация существующих методов визуализации данных к работе с сильно фрагментированными сведениями, содержащими ошибки и противоречия, что является следствием современных подходов к извлечению информации из текстов.
Ожидается, что результаты прикладных научных исследований будут соответствовать мировому уровню в данной области.

Назначение и область применения, эффекты от внедрения результатов проекта:
Разрабатываемая технология и решения позволят создать системы поддержки принятия решений в новых проблемных областях, для которых ранее не существовало эффективных способов использования больших массивов текстовой информации при принятии решений. Направленность проекта на обработку текстовой информации позволит интегрировать в разрабатываемую технологию современные высокоточные методы анализа текстовых документов, созданные специально для русского языка, и заместить недостаточно эффективные импортные решения на отечественном рынке систем поддержки принятия решений. В целом создаваемая технология имеет значительный потенциал и может оказать влияние на различные отрасли экономики, так как имеет целью повышение качества управления.
Результаты проекта в комплексе могут найти применение в автоматизированных программных комплексах и системах, обеспечивающих поддержку принятия решений в государственном и коммерческом секторе. Отдельные методы и алгоритмы могут найти применение в широком круге областей, связанных с автоматическим анализом документальной информации, таких как государственное и корпоративное управление, финансовая и военная аналитика, разведка, маркетинг, библиотечное и издательское дело, ведение архивов.
В частности, возможно применение результатов исследований в работах по следующим тематикам:
- информационная поддержка ситуационных центров;
- интеллектуальный анализ информации и информационное моделирование социальных процессов на основе данных из открытых источников;
- выявление персональной информации и построение схем взаимодействия между объектами, на основе анализа переписки, баз сообщений и информации из открытых источников.
В практическом использовании полученных результатов заинтересован индустриальный партнер ЗАО «СТТ груп» и его партнеры по бизнесу. Поскольку одним из основных направлений деятельности компании индустриального партнера является создание специализированных центров обработки информации, то разработанные решения по обработке и визуализации потоков слабоструктурированной текстовой информации будут востребованы при создании информационных систем электронных архивов документов с функциями поддержки принятия решений. Также в использовании результатов проекта заинтересовано ГКОУВПО Академия Федеральной службы охраны Российской Федерации, совместно с которой ИПС им. А.К.Айламазяна РАН уже выполнял разработки в области анализа специализированных информационных потоков. Помимо этого предполагается, что результаты проекта будут востребованы как государственными структурами (органы государственной власти, Министерство обороны, Министерство чрезвычайных ситуаций) при создании ситуационных и ситуационно-аналитических центров, предназначенных для решения задач повышения эффективности управленческой деятельности, так и сторонними разработчиками коммерческих программных систем поддержки принятия решений.

Текущие результаты проекта:
В рамках первого этапа был выполнен аналитической обзор современной научно-технической литературы. Обзор охватывает темы извлечения информации из текстов, нормализации извлеченной из текстов информации, построения и использования многомерных матриц, визуализации информации. В ходе работы над обзором были проанализированы материалы более 150 российских и зарубежных источников. Исследование литературы позволило определить наиболее перспективные направления для дальнейших теоретических и экспериментальных исследований. Проведены патентные и маркетинговые исследования по теме работы. Составлен бизнес-план вовлечения потенциальных результатов проекта в хозяйственный оборот.
На втором этапе проекта проводились теоретические исследования по разработке алгоритмов интерактивной визуализации неформализованных данных разнородной структуры. Проведен анализ существующих алгоритмов раскладки графов и разработан новый алгоритм, одновременно обеспечивающий визуализацию структуры связей между ИО (на основе алгоритмов раскладки графов), представление сводной информации о характеристиках ИО (в виде гистограмм) и интерактивное уточнение проекции многомерной матрицы связей между ИО.
Основные результаты второго этапа – разработанные функциональные модели и алгоритмы для решения подзадач основной задачи исследования.
Новизна предложенного решения для извлечения ИО заключается в использовании двух видов паттернов: для работы как с линейной, так и со структурной разметкой текста. К особенностям функциональной модели и алгоритма извлечения ИО также относится использование ресурса лингвистических и предметных знаний для повышения качества лингво-семантического анализа.
Разработана инфологическая модель многомерной матрицы связей, обеспечивающая представление произвольных типов ИО и связей между ними. Разработаны модель и алгоритм, обеспечивающие интерактивную визуализацию для различных видов сущностей: исходные документы с выделенными метаданными, извлеченные из текстов ИО и связи между ними, события, косвенные связи между сущностями. Обеспечивается возможность подключения различных средств визуализации, в частности позволяющих строить диаграммные структуры, многомерные тренды, древовидные и сетевые структуры, таблицы. Преимущество предложенного подхода заключается в легкости доработки для использования в качестве средства визуализации при анализе социальных сетей.
Третий (текущий) этап проекта посвящен разработке программной документации, отражающей экспериментальную реализацию разработанных научно-технических решений, и составлению программы и методик экспериментальных исследований ЭО ПО ВНД новостных потоков разнородной структуры. Также на этом этапе проводятся мероприятия по обеспечению правовой охраны, освещению и популяризацию промежуточных и окончательных результатов проекта.