Регистрация / Вход
Прислать материал

14.607.21.0164

Аннотация скачать
Постер скачать
Общие сведения
Номер
14.607.21.0164
Тематическое направление
Информационно-телекоммуникационные системы
Исполнитель проекта
федеральное государственное бюджетное образовательное учреждение высшего образования "Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича"
Название доклада
Разработка архитектуры, методов и моделей построения программно-аппаратного комплекса семантического анализа слабоструктурированных информационных ресурсов на российской элементной базе
Докладчик
Мошкин Вадим Сергеевич
Тезисы доклада
Цели и задачи исследования
Целью проекта является разработка унифицированных интеллектуальных методов, алгоритмов и моделей семантико-когнитивного анализа текстовой информации для построения интеллектуальной программной среды обработки неструктурированных и слабоструктурированных информационных ресурсов с применением принципов инженерии знаний, реализованной в виде программно-аппаратного комплекса на базе платформы «Эльбрус».
Основной набор задач, решение которых необходимо для достижения поставленной цели:
- разработка алгоритмов извлечения семантико-синтагматических структур из неструктурированных и слабостурктурированных информационных ресурсов в процессе когнитивного анализа текстовой информации с целью выделения ее когнитивной составляющей;
- разработка обучаемых алгоритмов извлечения и унификации знаний из разнородных источников информации с учетом особенностей анализируемой проблемной области;
- разработка моделей представления и хранения больших объемов экспертных знаний в виде графовых семантически-определенных структур;
- разработка методов и алгоритмов интеллектуального информационного поиска знаний о предметной области с учетом нечеткости и размытости образов, представленных структурными единицами естественного языка;
- разработка методов адаптивной динамической генерации знаний в процессе обучения базы знаний с применением механизмов логического вывода;
- разработка архитектуры программно-аппаратного комплекса на базе платформы «Эльбрус», реализующего заявленные методы, модели и алгоритмы.
Актуальность и новизна исследования
В настоящее время деятельность любой коммерческой и государственной организации предполагает работу специалистов проблемной области с большим объемом неструктурированной информации с целью получения и извлечения необходимых знаний. Мощнейшие потоки неструктурированной информации в текстовой форме в виде корпоративной переписки, сообщений в социальных сетях и сервисах обмена сообщениями, запросов к хранилищам знаний и архивам позволяют решать лишь узкоспециализированные ежеминутные задачи, а электронные архивы в виде крупных корпусов текстовой информации сложны в обработке и не приспособлены к семантической структуризации и поиску. Именно поэтому, чем больше компания и информационные потоки в ней, тем больше требуется высококвалифицированных специалистов, выполняющих задачи контроля и организации этих потоков исходя из их семантической составляющей. При этом безопасность процесса обработки больших объемов критической корпоративной информации играет в этих процессах первостепенную роль.
В связи с этим, актуальной является разработка интеллектуальных алгоритмов и методик унифицированной семантической обработки и анализа всего массива внутрикорпоративных слабоструктурированных данных, позволяющих учитывать особенности предметной области, динамически формировать единое хранилище знаний из гетерогенных источников данных, и как следствие, решать широкий круг задач в процессе извлечения знаний из подобных ресурсов и реагировать на эти знания, при этом, алгоритмы должны быть реализованы в единой аппаратной базе, позволяющей обеспечить мобильность применения разработанных интеллектуальных методик, а также полноценную защиту и безопасность критической корпоративной информации.
Описание исследования

«Понимание» интеллектуальной средой смысла информации и донесение её в доступной форме специалисту позволит сократить временные и человеческие затраты на решение поставленных задач. Помимо этого, разработка интеллектуальной механизмов в значительной степени облегчит процесс принятия решений специалистом в режиме временных ограничений благодаря возможности использования единого унифицированного банка экспертных знаний в работе вопросно-ответной системы, а также позволит проводить автоматизированную семантическую верификацию информационных потоков с целью обеспечения информационной безопасности организации, что особенно актуально в нынешней политической ситуации. Реализация же интеллектуальной среды в форме программно-аппаратного комплекса снизит риски отсутствия совместимости, повысит  мобильность использования функционала среды,а также повысит уровень защиты корпоративной информации.

Возможными путями решения поставленных задач является использование следующих интеллектуальных методов и моделей:
- модели и алгоритмы построения базы знаний в форме нечётких предметных FuzzyOWL (Fuzzy Web Ontology Language)-онтологий из внутрикорпоративных вики-ресурсов, а также посредством извлечения базовой терминологии проблемной области из крупных корпусов специализированных текстов;
- модели, методы и алгоритмы унификации разнородной информации из различных источников, её представление и хранение в виде семантически единообразной онтологической структуры;
- модели и методы информационного поиска ответов на сформулированный на естественном языке вопрос посредством реализации механизма динамического формирования синтагматических паттернов словесных конструкций;
- методы и алгоритмы интеграции модели представления онтологических (OWL) форматов знаний и механизма логического вывода продукционных (SWRL – Semantic Web Rule Language) знаний на естественном языке в процессе поддержки принятия решений;
- методики объектно-когнитивного анализа и моделирования при построении интеллектуальной вопросно-ответной системы.

Основные этапы выполнения исследования:

1. Выполнение аналитического обзора современной научно-технической, нормативной, методической литературы, затрагивающей научно-техническую проблему, исследуемую в рамках ПНИЭР, в том числе обзор научных информационных источников .

2. Выполнение патентных исследований в соответствии с ГОСТ 15.011-96.

3. Разработка модели описания базы знаний программной среды и представлений различных видов неструктурированных и слабоструктурированных информационных ресурсов.

4. Разработка методов и алгоритмов автоматизированного процесса обучения базы знаний программной среды.

5. Выбор алгоритмов предобработки различных видов неструктурированных и слабоструктурированных информационных ресурсов в рамках программной среды.

6. Разработка методов семантико-когнитивного анализа различных видов неструктурированных и слабоструктурированных информационных ресурсов с применением подходов обработки естественного языка и инженерии знаний в рамках программной среды.

7. Разработка методов адаптации программной среды к различным проблемным областям посредством процесса автоматизированного обучения базы знаний с применением принципов инженерии знаний.

8. Разработка концептуальной схемы графовой базы данных (базы знаний) программной среды.

9. Проведение оценки качества обучения базы знаний программной среды на основе обучающей выборки данных для определения оптимальных параметров и методов обучения.

10. Разработка архитектуры программно-аппаратного комплекса на базе платформы «Эльбрус», реализующего разработанные унифицированные интеллектуальные методы, алгоритмы и модели семантико-когнитивного анализа текстовой информации для построения интеллектуальной программной среды обработки неструктурированных и слабоструктурированных информационных ресурсов с применением принципов инженерии знаний

11. Разработка экспериментального образца ЭО ПАК.

12. Разработка программ, методик  и проведение экспериментальных исследований экспериментального образца ПАК.

13. Проведение оценки эффективности полученных результатов в сравнении с современным научно-техническим уровнем.

14. Разработка рекомендации по возможности использования результатов проведенных ПНИЭР в реальном секторе экономики.

15. Разработка технического задания на проведение «ОКР по теме: «Разработка программно-аппаратного комплекса семантического анализа слабоструктурированных информационных ресурсов на российской элементной базе».

Результаты исследования

Ожидаемыми результатами исследования являются:
1. новые интеллектуальные методы и алгоритмы извлечения и унификации знаний из разнородных информационных источников (таких, как БД, корпоративные базы знаний, wiki-ресурсы, корпусы специализированных текстов);

2. новая адаптивные методы извлечения семантико-синтагматических структур из текстов на естественном языке с целью выделения их когнитивной составляющей;

3. новая унифицированная графовая модель представления знаний в виде нечеткой онтологии, обеспечивающая интеллектуальный поиск в базе знаний ответа на вопрос, представленный на естественном языке, а также возможность генерации ответа в естественной для человека форме;

4. оригинальный алгоритмы семантико-когнитивного анализа различных видов неструктурированных и слабоструктурированных информационных ресурсов с применением подходов обработки естественного языка и инженерии знаний в рамках программной среды;

5. новый метод адаптации программной среды к различным проблемным областям посредством процесса автоматизированного обучения базы знаний с применением принципов инженерии знаний;

6. набор алгоритмов автоматизированного процесса обучения базы знаний программной среды;

7. новый метод информационного поиска в графовой базе знаний (онтологии) на основе применения механизма синтагматических паттернов;

8. новый подход к логическому выводу найденных в процессе информационного поиска в онтологии знаний с учетом нечеткости в человеческих рассуждениях;

9. архитектура интеллектуальной программной среды, позволяющей решать множество задач, связанных с семантико-когнитивным анализом слабоструктурированных ресурсов:
 - обеспечение информационной безопасности организации посредством верификации  внутрикорпоративных информационных потоков.
 - поддержка принятия управленческих решений с использованием программной среды в качестве экспертной вопросно-ответной системы, работающей с единой унифицированной базой экспертных знаний и позволяющей генерировать ответ в естественной для человека форме на вопрос пользователя, представленный на естественном языке;
 - автоматизация процесса обеспечения внутренней и внешней технической поддержки организации на основе анализа базы прецедентов;
 - автоматизация процесса взаимодействия с клиентами посредством использования механизма автоматизированной генерации ответов в процессе коммерческой переписки через инструменты электронной почты;
- использование интеллектуальной среды в процессе электронного тестирования сотрудников организации для оценки корректности правильных ответов, сформулированных в свободной форме и т. д.

10. архитектура программно-аппаратного комплекса на базе платформы «Эльбрус», содержащего готовый к эксплуатации (с необходимостью предварительной адаптации к особенностям конкретной проблемной области) вариант интеллектуальной программной среды, реализующей унифицированные интеллектуальные методы, алгоритмы и модели семантико-когнитивного анализа текстовой информации 

11. техническое задание на ОКР по теме «Разработка программно-аппаратного комплекса семантического анализа слабоструктурированных информационных ресурсов на российской элементной базе».

Практическая значимость исследования
Возможные направления применения разработанного программно-аппаратного комплекса:
- обеспечение информационной безопасности организации посредством верификации внутрикорпоративных информационных потоков.
- поддержка принятия управленческих решений с использованием программной среды в качестве экспертной вопросно-ответной системы, работающей с единой унифицированной базой экспертных знаний и позволяющей генерировать ответ в естественной для человека форме на вопрос пользователя, представленный на естественном языке;
- автоматизация процесса обеспечения внутренней и внешней технической поддержки организации на основе анализа базы прецедентов;
- автоматизация процесса взаимодействия с клиентами посредством использования механизма автоматизированной генерации ответов в процессе коммерческой переписки через инструменты электронной почты;
- использование интеллектуальной среды в процессе электронного тестирования сотрудников организации для оценки корректности правильных ответов, сформулированных в свободной форме и т.д.
Потребителями результатов могут быть организации, деятельность которых связана с процессом обработки больших объемов знаний и с необходимостью вывода рекомендаций на экспертном уровне и решений на основании базы прецедентов: проектные организации, предприятия в области энергетики и крупного производства, юридические структуры, интернет-провайдеры, мобильные операторы. Помимо этого, реализация данного продукта в форме программно-аппаратного комплекса на отечественной элементной базе (платформа "Эльбрус") позволяет обеспечить мобильность применения разработанных интеллектуальных методик, а также полноценную защиту и безопасность критической информации, что особенно важно, учитывая современную политическую ситуацию. Благодаря этому, разработанный продукт может быть применен в стратегически важных областях хозяйствования, таких как атомная энергетика, военно-промышленный комплекс, авиационно-космическая промышленность, а также в работе органов государственной власти.