Регистрация / Вход
Прислать материал

Разработка технологии интерактивной визуализации неформализованных данных разнородной структуры для использования в системах поддержки принятия решений на основе новостных потоков

Докладчик: Сытник Дмитрий Александрович

Должность: Генеральный директор, кандидат технических наук

Цель проекта:
Основной целью проекта является развитие технологического комплекса страны в области интерактивной визуализации неформализованных данных разнородной структуры для использования в системах поддержки принятия решений на основе новостных потоков. В связи с наблюдающейся тенденцией к увеличению объема накапливаемой и анализируемой информации, связанной с информационными объектами новостных потоков, для решения выявленной проблемы необходимо достижение следующих целей: 1. создание научно-технического задела в области разработки методического, алгоритмического и программного обеспечения визуализации результатов анализа неформализованных данных разнородной структуры; 2. разработка экспериментального образца программного обеспечения, позволяющего осуществлять настройку параметров визуализации (параметров визуального анализа) и визуализацию для объектов, параметры которых имеют произвольную структуру. Полезный эффект применения результатов данного проекта заключается в том, что разработанное программное обеспечение будет способствовать созданию эффективных программных решений в области отечественных информационных технологий и может быть использовано в научной и социальной сфере: - в программных средствах информационно-справочной поддержки и анализа массивов накапливаемой информации; - в качестве информационного обеспечения при анализе связей информационных объектов произвольной природы; - для дальнейших научных исследований и разработок новых программных решений в области визуализации и управления связанными информационными объектами разнотипной структуры в аналитических системах. Функции интерфейса программирования приложений, реализованные в серверной составляющей экспериментального образца программного обеспечения обеспечат разработчикам интеллектуальных систем поддержки принятия решений такие сервисы, как интерактивная визуализация новостных потоков, интерактивная настройка паттернов для извлечения информации из новостных потоков, визуализация структуры объектов и оценок формируемых решений.

Основные планируемые результаты проекта:
1. Основные результаты:
1.1 Методы и алгоритмы визуализации и обработки массивов данных разнородной структуры, получаемых на основе новостных потоков:
а) Методы и алгоритмы извлечения информационных объектов (далее – ИО) и связей между ними из исходных данных по заданным паттернам на основе методов семантического анализа;
б) Методы и алгоритмы обработки ИО: нормирования и понижения размерности ИО, формирования многомерной матрицы связей между ИО;
в) Методы и алгоритмы визуализации и экспорта результатов визуализации связей между ИО;
г) Реализация API для предоставления доступа к результатам визуализации из внешних информационных систем (далее – ИС).
1.2 Программная реализация разработанных алгоритмов и методов
1.3 Рекомендации по использованию результатов ПНИЭР в системах поддержки принятия решений в рамках социальных или экономических процессов, а также в дальнейших исследованиях и разработках.
1.4 Технические требования и предложения по разработке, производству и эксплуатации продукции с учетом технологических возможностей и особенностей индустриального партнера – организации реального сектора экономики.

2. Основные характеристики планируемых результатов:
2.1 Созданные алгоритмы интерактивной визуализации неформализованных данных разнородной структуры для использования в системах поддержки принятия решений должна удовлетворять следующим техническим характеристикам:
2.1.1 Алгоритмы извлечения информационных объектов (далее – ИО) и связей между ними из исходных данных по заданным паттернам на основе методов семантического анализа должны обеспечивать импорт данных из общепринятых открытых форматов файлов, содержащих текстовую информацию (txt, rtf, pdf, docx, xml, html);
2.1.2 Алгоритмы обработки ИО: нормирования и понижения размерности ИО, формирования многомерной матрицы связей между ИО должны обеспечивать:
а) приведение данных к заданному или определяемому автоматически базису (единичному масштабу) с учетом разброса значений по каждому ИО и при этом обеспечивать возможность дальнейшей обработки данных без понижения качества конечного результата;
б) учитывать разнотипность ИО и разнотипность связей между ИО.
2.1.3 Алгоритмы визуализации и экспорта результатов визуализации связей между ИО должны обеспечивать:
а) реализацию сценариев визуализации (обеспечивающих последовательное графическое представление данных разными способами или комбинированное представление результатов одного эксперимента с использованием различных способов - диаграммные структуры, многомерные тренды, древовидные структуры, графовые структуры)
б) экспорт результатов визуализации в открытые графические форматы (jpg, png, tiff, bmp) и в текстовые форматы (csv, xml).
2.1.4 Алгоритмы, реализующие API, должны обеспечивать предоставление доступа к результатам визуализации из внешних информационных систем (далее – ИС) и должны быть ориентированы на стандарты REST.

3. Оценка элементов новизны научных (технологических) решений, применявшихся методик и решений:
Новизна предлагаемого проекта заключается в разработке новых алгоритмов формализации, адаптации и интерактивной визуализации данных разнородной структуры, получаемых из новостных потоков, с последующей разработкой экспериментального образца программного комплекса визуального анализа многомерной информации для использования в системах поддержки принятия решений.
В теоретической части исследований новизна заключается в разработке новых методов формализации и интерактивной визуализации разнородных данных, отличающихся от известных более широким спектром состава и типов входных данных; комплексным применением методов лингво-семантического анализа и data mining; расширенным набором интерактивных элементов визуализации и птимизацией параметров интерактивной визуализации.
Разрабатываемые методы и алгоритмы отличаются от известных адаптивной настройкой параметров визуализации под типы исследуемых объектов и заранее неформализованную структуру данных; реализацией сценариев визуализации (обеспечивающих последовательное графическое представление данных разными способами или комбинированное представление результатов одного эксперимента с использованием различных способов – диаграммные структуры, многомерные тренды, древовидные структуры; интерактивным взаимодействием с системой визуализации в системах поддержки принятия решений. Реализация новых элементов и функций в разрабатываемых методах и алгоритмах обеспечит полноту анализа доступной из новостных потоков информации и сократит время принятия решения.

4. Сопоставление с результатами аналогичных работ, определяющими мировой уровень:
В процессе выполнения данной работы совокупно решаются три задачи: анализа данных и выделения информационных объектов, выявления связей между объектами, а также визуализация полученных результатов. Аналогов, одновременно решающих все три задачи не обнаружено.

5. Пути и способы достижения заявленных результатов, ограничения и риски:
В ходе выполнения работ будет создан экспериментальный образец перспективных пользовательских интерфейсов, реализованных в виде Web-интерфейсов, а также интерфейсов, предназначенных для использования на мобильных устройствах.
Для решения задачи извлечения информационных объектов предполагается разработать метод, основанный на лингво-семантическом анализе текстовых данных новостных потоков. Решение задачи включает четыре этапа. На первом этапе выполняется предварительная обработка накопленного потока текстовой информации в течение заданного интервала времени. Обработка заключается в переработке данных низкого качества: пропущенные значения, дубликаты, шумы; выделении ключевых слов из текстов; вычислении частотных показателей текстовой информации и выделении групп, близких по показателям частотного анализа. Второй этап решения задачи заключается в проведении лингво-семантического анализа элементов новостного потока и формировании групп близких по смыслу текстов. Результаты лингво-семантического анализа каждого текста должны быть представлены в виде структуры, отражающей связи между ключевыми понятиями текста. На основании проведенного анализа с применением методов кластерного анализа и выявления ассоциаций строится граф, отражающий наличие связей между различными текстами, которые ранжируются по типам и интенсивности. Третий этап решения задачи состоит в установлении соответствия между паттернами и выявленными информационными объектами в новостном потоке с применением методов распознавания образов, выявлении новых или не идентифицируемых структур в новостном потоке, выделении формализуемой информации из новостного потока в соответствии с обнаруженными паттернами. Четвертый этап основан на методах data mining для выявления скрытых закономерностей в рамках извлеченного набора информационных объектов и методов самообучения для дополнения набора паттернов новыми элементами. На каждом из этапов предполагается реализовать возможность настройки и повторного проведения расчетов для интерактивного управления процессом расчетов.
Задача нормирования и понижения размерности информационных объектов для обеспечения типизации форматов отображения визуализируемых данных в целях упрощения восприятия информационных объектов (далее – ИО) человеком будет решаться с применением методов факторного анализа, выделения главных компонент и анализа многомерных данных. В рамках решения этой задачи будет проведено исследование иерархии информационных объектов и рассмотрены вопросы оптимизации символьно-графического кодирования разнородных многомерных данных с целью повышения информативности визуализируемых данных о многомерных ИО.
Задача формирования многомерной матрицы связей между информационными объектами и основной проекции из неё решается на основе результатов извлечения информационных объектов из новостных потоков, нормирования и понижения размерности. Для формирования многомерной матрицы связей используются структуры мультиграфов и гиперграфов, при разработке метода формирования многомерной матрицы связей используются методы теории графов.
При решении задачи визуализации многомерной матрицы связей между информационными объектами предполагается использование методов инфографики, когнитивной графики, а также собственных разработок компании по графическому отображению сложных структур данных о взаимосвязанных информационных объектах. Для этого проводится оптимизация способов визуализации сложных многомерных данных по таким способам кодировки, как расположение элементов, их форма, цвет, размер, выбор оптимального варианта кодировки, при котором обеспечивается наиболее лаконичное графическое представление данных.
Для обеспечения интерактивности визуализации осуществляется выбор состава визуальных интерактивных управляющих элементов, интегрированных в визуальное изображение, которые обеспечивают управление проведением расчетов по таким параметрам, как степень агрегирования отображаемых данных, направление проекции отображаемых данных, уровень иерархии и др. За счет реализации интерактивных управляющих элементов, встроенных в изображение обеспечивается визуализация как основной проекции данных, так и проекций, определённых в процессе человеко-машинного взаимодействия. Такое комплексное взаимодействие позволит пользователю корректировать визуализацию в режиме реального времени и находить другие, многовариантные, интерпретации данных.
Решение задачи экспорта результатов визуализации в типовые форматы данных основано на разработке отдельных функций преобразования для каждого формата, учитывающих особенности каждого формата представления графических данных.
Задача разработки реализуемых функций интерфейса программирования приложений (API) для предоставления доступа к результатам визуализации из внешних информационных систем (ИС) основана на декомпозиции разработанного программного обеспечения на отдельные целостные составляющие, анализе состава действий, необходимых для разработчиков информационных систем, систем поддержки принятия решений, систем мониторинга и др., формировании требований к составу функций, входным и выходным параметрам и их реализации на серверной части экспериментального образца.
Подход к решению задач визуализации основан на использовании теории графов в качестве основного инструмента визуализации данных самой разной структуры и предметной области. Выбор графовых структур объясняется тем, что графы являются универсальным средством представления структурированных данных, характеризующихся набором свойств и атрибутов, при этом между объектами возможно существование разнотипных связей, явных и скрытых. В этом случае среди существующих методов визуального представления наилучшим образом подходит специализированный тип диаграммы, позволяющий отображать структуру набора имеющихся данных и связи между его элементами, в виде графа.

Назначение и область применения, эффекты от внедрения результатов проекта:
Результаты ПНИЭР могут быть успешно использованы в различных областях:
- госсектор;
- специальные службы (МВД, ФСБ, МЧС) и другие структуры;
- финансовый сектор;
- реклама и маркетинг;
- исследовательские организации;
- СМИ;
- ИТ-сектор;
Разработанная технология повысит эффективность анализа информации, полученной из новостных потоков, за счет интерактивной визуализации, позволяющей улучшить восприятие большого потока данных, визуально оценивать ее структуру и выделять зависимости и отношения между информационными объектами, получаемыми из этих данных, что дает этой технологии значительное конкурентное преимущество.
Ожидаемый народно-хозяйственный эффект заключается в повышении эффективности планирования, сокращении издержек при принятии управленческих решений, более эффективном использовании больших данных во всех сферах, использующих информацию из новостных потоков.
Прогнозируемый социально-экономический эффект заключается в создании новой технологии анализа данных, снижении издержек, связанных с анализом данных и предоставлением информации конечному пользователю.
Коммерциализация в экономически целесообразных объёмах обуславливается наличием большого круга заинтересованных потребителей как в бизнес сообществе, так и на государственном уровне.


Текущие результаты проекта:
На данный момент работы находятся на первом этапе - "Выбор направления исследований".