Регистрация / Вход
Прислать материал

Разработка технологии интерактивной визуализации неформализованных данных разнородной структуры для использования в системах поддержки принятия решений на основе новостных потоков

Номер контракта: 14.579.21.0088

Руководитель: Сытник Дмитрий Александрович

Должность: Генеральный директор

Аннотация скачать
Постер скачать
Ключевые слова:
визуализация данных, анализ данных, неструктурированные данные, интерактивная визуализация, неформализованные данные, система поддержки принятия решений, математическая модель визуализации, анализ новостных потоков, визуализация новостных потоков, выявление трендов, мониторинг сми, графовые структуры, понижение размерности, извлечение информации, интерактивное взаимодействие

Цель проекта:
В системах поддержки принятия решений объективно существует практическая потребность в агрегировании разнородных исходных данных и результатов их обработки, представлении в понятной, лаконичной, доступной для быстрого восприятия, анализа и оценки форме. Проблема включает несколько аспектов: -для решения задач анализа неформализованных данных разнородной структуры необходима разработка технологий выделения полезной информации из новостного потока; -для принятия решений на основании большого количества информации и учитываемых факторов требуется разработка технологий визуализации результатов анализа с помощью изображений, графиков, схем, таблиц, обеспечивающих наиболее лаконичное представление данных; -для упрощения восприятия информации, полученной в результате анализа неформализованных данных лицами, принимающими решения, необходима разработка технологии интерактивной визуализации данных, позволяющей в реальном времени управлять степенью общности отображаемой информации, составом учитываемых факторов и параметров обработки информации. Цель реализуемого проекта: исследования и разработка научно-технических решений в области интерактивной визуализации неформализованных данных разнородной структуры для использования в системах поддержки принятия решений на основе новостных потоков.

Основные планируемые результаты проекта:
1. Основные результаты:
- Методы и алгоритмы визуализации и обработки массивов данных разнородной структуры, получаемых на основе новостных потоков: извлечения ИО, обработки ИО, отображения и экспорта результатов визуализации связей между ИО;
- Программная реализация разработанных алгоритмов и методов;
- API для предоставления доступа к результатам визуализации из внешних информационных систем;
- Рекомендации по использованию результатов работы в системах поддержки принятия решений, а также в дальнейших исследованиях и разработках;
- Технические требования и предложения по разработке, производству и эксплуатации продукции.
2. Созданная технология интерактивной визуализации неформализованных данных разнородной структуры для использования в системах поддержки принятия решений должна удовлетворять следующим техническим характеристикам:
- импорт данных из общепринятых открытых форматов файлов, содержащих текстовую информацию (txt, rtf, pdf, docx, xml, html);
- экспорт результатов визуализации в открытые графические форматы (jpg, png, tiff, bmp) и в текстовые форматы (csv, xml).
- время выполнения вычислительной задачи по расчету данных для отображения результатов визуализации данных ЭО ПО ВНД на испытательном стенде – не более 10 минут;
- время обработки запроса к ЭО ПО ВНД в режиме on-line – не более 20 секунд;
- математическая модель и алгоритм извлечения ИО и связей между ними из исходных данных должны предусматривать использование в качестве исходных открытых форматов файлов (txt, rtf, pdf, docx, xml, html), содержащих текстовую информацию.

Краткая характеристика создаваемой/созданной научной (научно-технической, инновационной) продукции:
1. Конечным продуктом, создаваемым на основе результатов проекта, должен стать промышленный образец программного обеспечения визуализации неструктурированных данных, получаемых из новостных источников, применяемый в различных областях. Промышленный образец будет являться одним из инструментов решения проблемы аггрегирования разнородных данных и результатов их обработки.
2. Новизна предлагаемого проекта заключается в разработке новых алгоритмов формализации, адаптации и интерактивной визуализации данных разнородной структуры, получаемых из новостных потоков, с последующей разработкой экспериментального образца программного комплекса визуального анализа многомерной информации для использования в системах поддержки принятия решений. В теоретической части исследований новизна заключается в разработке новых методов формализации и интерактивной визуализации разнородных данных, отличающихся от известных более широким спектром состава и типов входных данных; комплексным применением методов лингво-семантического анализа и data mining; расширенным набором интерактивных элементов визуализации и оптимизацией параметров интерактивной визуализации.
Разрабатываемые методы и алгоритмы отличаются от известных адаптивной настройкой параметров визуализации под типы исследуемых объектов и заранее неформализованную структуру данных, а также реализацией сценариев визуализации.
3. На момент начала проекта анализ состояния исследований в РФ в исследуемой предметной области выявил отсутствие аналогов. Окончательное сопоставление с результатами аналогичных работ будет уточнено на окончательном этапе выполнения работ.
4. Ограничения по достигаемым результатам будут уточнены на этапе экспериментальных исследований.

Назначение и область применения, эффекты от внедрения результатов проекта:
1. Результаты ПНИЭР могут быть успешно использованы в различных областях:
- госсектор;
- специальные службы (МВД, ФСБ, МЧС) и другие структуры;
- финансовый сектор;
- реклама и маркетинг;
- исследовательские организации;
- СМИ;
- ИТ-сектор;
2. Разработанная технология повысит эффективность анализа информации, полученной из новостных потоков, за счет интерактивной визуализации, позволяющей улучшить восприятие большого потока данных, визуально оценивать ее структуру и выделять зависимости и отношения между информационными объектами, получаемыми из этих данных, что дает этой технологии значительное конкурентное преимущество.
3. Ожидаемый народно-хозяйственный эффект заключается в повышении эффективности планирования, сокращении издержек при принятии управленческих решений, более эффективном использовании больших данных во всех сферах, использующих информацию из новостных потоков. Прогнозируемый социально-экономический эффект заключается в создании новой технологии анализа данных, снижении издержек, связанных с анализом данных и предоставлением информации конечному пользователю.
4. Оценка или прогноз влияния планируемых результатов на развитие исследований в рамках международного сотрудничества, развитие системы демонстрации и популяризации науки, обеспечение развития материально-технической и информационной инфраструктуры.
Результаты проекта должны оказать положительное влияние на развитие исследований в рамках международного сотрудничества и системы демонстрации и популяризации науки.

Текущие результаты проекта:
Результаты теоретических исследований:
- Для определения отдельных информационных объектов предварительно выбран метод онтологий.
- Визуализация результатов анализа данных ИО новостных потоков с помощью двунаправленных графов.
- Для разработки интерфейсов необходимо использовать библиотеку D3.
- Определены требования к данным: источник информации - новостной поток, состоящий из сообщений преимущественно по тематике предметной области, в виде электронных документов общепринятых открытых текстовых форматов: txt, rtf, pdf, docx, html, xml
- Состав ИО и связей между ними должен быть представлен на формальном языке описания онтологий; данные об ИО должны храниться в виде набора таблиц, содержащих значения атрибутов ИО.
- Разработаны и реализованы алгоритмы извлечения информации из разнородных источников на базе систем, основанные на правилах.
- Разработаны и реализованы методы и алгоритмы обработки ИО: нормирования и понижения размерности ИО, формирования многомерной матрицы связей между ИО.
- Разработана структура стенда экспериментальных исследований.