Регистрация / Вход
Прислать материал

14.604.21.0138

Аннотация скачать
Постер скачать
Презентация скачать
Общие сведения
Номер
14.604.21.0138
Тематическое направление
Информационно-телекоммуникационные системы
Исполнитель проекта
Федеральное государственное бюджетное учреждение науки Институт программных систем им. А.К. Айламазяна Российской академии наук
Название доклада
Разработка технологии визуализации массивов неформализованных данных разнородной структуры, полученных путем автоматического анализа новостных потоков
Докладчик
Знаменский Сергей Витальевич
Тезисы доклада
Цели и задачи исследования
Проблема, на решение которой направлен проект, – эффективная визуализация данных, содержащихся в массивах и потоках неструктурированных текстов на естественном языке.
Целью проекта является разработка технологии интерактивной визуализации неформализованных данных разнородной структуры для использования в системах поддержки принятия решений на основе мониторинга и анализа новостных потоков, в том числе:
а) разработка функциональных моделей и алгоритмов извлечения информационных объектов (ИО) и связей между ними из новостных потоков;
б) разработка функциональных моделей и алгоритмов предобработки и визуализации ИО и связей, учитывающих их многомерную природу и разнородность;
в) разработка и экспериментальное исследование программной реализации алгоритмов извлечения, предобработки и визуализации ИО и связей;
г) разработка технических требований для создания перспективных систем поддержки принятия решений на основе создаваемой технологии интерактивной визуализации неформализованных данных;
д) создание интерфейсных решений, обеспечивающих интеграцию разрабатываемой технологии визуализации в другие программные системы.
Комплекс научно-технических решений визуализации и обработки массивов данных новостных потоков разнородной структуры предназначается для использования в системах поддержки принятия решений с целью упрощения восприятия больших объемов сложноорганизованной и разнородной информации и получения целостной картины о состоянии объекта управления.
Актуальность и новизна исследования
В настоящее время разработано множество различных технологий визуализации, но в то же время не существует какого-либо универсального способа визуализации, который бы был пригоден для всех задач принятия решений. Во многих практически используемых программных системах поддержки принятия решений доминирует проблемно-ориентированный подход к визуализации. Соответственно, актуальность темы обусловлена тем, что в ее рамках предполагается поиск и исследование методов визуализации, которые могли бы использоваться в как можно большем числе задач принятия решения, а также в задачах, для которых пока не созданы адекватные способы визуализации.
Новизна заключается в том, что используется двусторонний подход к решению проблемы визуализации неформализованных текстовых сведений. Первый путь в рамках этого подхода состоит в совершенствовании технологий текст-майнинга, особенно технологий извлечения информации из текстов. Второй путь — создание новых подходов к визуализации слабоструктурированной информации, то есть разработка таких методов визуализации, которые позволят обойти недостатки современных технологий текст-майнинга. Оба направления исследуются в рамках настоящего проекта. Такой двусторонний взгляд на проблему способствует поиску новых научно-технических решений и позволяет расширить функциональные возможности современных систем поддержки принятия решений.
Описание исследования

В случаях, когда необходимая для принятия решения информация присутствует в неформализованном виде (текстовые документы, изображения, аудио- и видеозаписи), массовое использование этих сведений при принятии решений порождает дополнительную проблему, так как большинство существующих технологий визуализации ориентированы на работу с хорошо структурированной и нормализованной информацией. Исключение составляют лишь отдельные методы визуализации, сфера применения которых ограничена.

Сейчас в связи с массовым внедрением электронного документооборота и ростом интернета приоритет отдается поиску методов, которые позволят использовать при принятии решений сведения, содержащиеся в больших массивах текстовой информации. По различным оценкам, более 80% информации в коммерческих компаниях хранится в форме текстовых документов. Чтобы обеспечить возможность визуализации сведений, содержащихся в массивах текстовой информации, разрабатываются технологии преобразования текста в данные, известные также как технологии получения информации из текстов, или текст-майнинг (text mining). Эти технологии опираются на методы информационного поиска (information retrieval), извлечения информации (information extraction), классификации и кластеризации текстовой информации, выявления тематик документа, отождествления сведений и др.

Методы преобразования текста в данные, в свою очередь, имеют массу ограничений, которые влекут за собой ограничения на способы визуализации. В частности, одним из ключевых ограничений является степень структурированности (гранулярности) получаемой в результате информации. Она должна соответствовать потребностям задачи визуализации, но далеко не всегда существующими методами текст-майнинга удается добиться требуемой гранулярности сведений (по крайней мере, без существенного ущерба для качества структурирования: точности и полноты). Степень структурированности в данном случае является индикатором того, в какой мере происходит приближение к понятию «данные». Второй момент касается точности полученных сведений. Неверная исходная информация может привести к принятию неверных решений, поэтому использование технологий текст-майнинга требует создания механизмов защиты от данных, которые содержат ошибки, возникшие в процессе структурирования.

Для решения задачи извлечения ИО за основу взяты детерминированные алгоритмы на основе конечных преобразователей, работающих над интервальной разметкой, в сочетании с проблемно-ориентированным управляемым анализом синтактико-семантической структуры. Новизна предложенного решения для извлечения ИО заключается в использовании двух видов паттернов: для работы как с линейной, так и со структурной разметкой текста. К особенностям функциональной модели и алгоритма извлечения ИО также относится использование ресурса лингвистических и предметных знаний для повышения качества лингво-семантического анализа.

Разработанные программные решения имеют модульную структуру и позволяют подключать необходимый набор компонентов в зависимости от конкретной задачи анализа и визуализации. Части комплекса, отвечающие за обработку текстовой информации и визуализации, допускают независимое использование. Взаимодействие между ними осуществляется через базу данных, организованную в соответствии с инфологической моделью многомерной матрицы связей, которая обеспечивает представление произвольных типов ИО и связей между ними. Подсистема визуализации предполагает управление через веб-интерфейс (для пользователя) или через REST API (для интеграции в другие программные системы). Также реализован ряд вспомогательных технологических решений, в частности для загрузки новостных потоков, для извлечения текстовых данных, представленных в виде файлов открытых форматов, и для экспорта результатов визуализации в открытые графические форматы.

Результаты исследования

Выполнен аналитический обзор современной научно-технической литературы. Обзор охватывает темы извлечения информации из текстов, нормализации извлеченной из текстов информации, построения и использования многомерных матриц, визуализации информации. В ходе работы над обзором были проанализированы материалы более 150 российских и зарубежных источников. Исследование литературы позволило определить наиболее перспективные направления для дальнейших теоретических и экспериментальных исследований. Проведены патентные и маркетинговые исследования по теме работы. Составлен бизнес-план вовлечения потенциальных результатов проекта в хозяйственный оборот.

Выполнены теоретические исследования по разработке алгоритмов интерактивной визуализации неформализованных данных разнородной структуры. Проведен анализ существующих алгоритмов раскладки графов и разработан новый алгоритм, одновременно обеспечивающий визуализацию структуры связей между ИО (на основе алгоритмов раскладки графов), представление сводной информации о характеристиках ИО (в виде гистограмм) и интерактивное уточнение проекции многомерной матрицы связей между ИО. Разработаны функциональные модели и алгоритмы для решения подзадач основной задачи исследования.

Разработана инфологическая модель многомерной матрицы связей, обеспечивающая представление произвольных типов ИО и связей между ними. Разработаны модель и алгоритм, обеспечивающие интерактивную визуализацию для различных видов сущностей: исходные документы с выделенными метаданными, извлеченные из текстов ИО и связи между ними, события, косвенные связи между сущностями. Обеспечивается возможность подключения различных средств визуализации.

Разработан комплекс научно-технических решений визуализации и обработки массивов данных новостных потоков разнородной структуры. Выполнена программная реализация разработанных моделей и алгоритмов в экспериментальном образце программного обеспечения визуализации неформализованных данных новостных потоков разнородной структуры и успешно проведены экспериментальные исследования экспериментального образца программного обеспечения.

Проведен ряд мероприятий по обеспечению правовой охраны, освещению и популяризации результатов проекта.

Созданный в рамках проекта экспериментальный образец программного обеспечения визуализации неформализованных данных обеспечивает обработку и визуализацию массивов данных новостных потоков разнородной структуры. В частности, он позволяет извлекать из исходных данных ИО и связи между ними по заданным паттернам с применением методов лингво-семантического анализа; нормировать извлеченные ИО; формировать, обрабатывать и визуализировать многомерную матрицу связей между ИО; экспортировать результаты визуализации; а также предоставляет программный интерфейс для  доступа к результатам визуализации из внешних информационных систем.

Практическая значимость исследования
Разработанная технология и решения позволят создавать системы поддержки принятия решений в новых проблемных областях, для которых ранее не существовало эффективных способов использования больших массивов текстовой информации при принятии решений. Направленность проекта на обработку текстовой информации позволит интегрировать в разрабатываемую технологию современные высокоточные методы анализа текстовых документов, созданные специально для русского языка, и заместить недостаточно эффективные импортные решения на отечественном рынке систем поддержки принятия решений. В целом технология имеет значительный потенциал и может оказать влияние на различные отрасли экономики, так как имеет целью повышение качества управления.
Результаты проекта могут найти применение в автоматизированных программных комплексах и системах, обеспечивающих поддержку принятия решений в государственном и коммерческом секторе. Отдельные методы и алгоритмы могут найти применение в широком круге областей, связанных с автоматическим анализом документальной информации, таких как государственное и корпоративное управление, финансовая и военная аналитика, разведка, маркетинг, библиотечное и издательское дело, ведение архивов. Возможно применение результатов исследований в работах по таким тематикам, как информационная поддержка ситуационных центров, интеллектуальный анализ информации и информационное моделирование социальных процессов на основе данных из открытых источников и др.
В практическом использовании полученных результатов заинтересован индустриальный партнер ЗАО «СТТ груп» и его партнеры по бизнесу. Также предполагается, что результаты проекта будут востребованы как государственными структурами при создании ситуационных и ситуационно-аналитических центров, предназначенных для решения задач повышения эффективности управленческой деятельности, так и сторонними разработчиками коммерческих программных систем поддержки принятия решений.
Презентация

Presentation-14.604.21.0138.ppt