Регистрация / Вход
Прислать материал

Разработка методов лингвистического и семантического анализа для интеллектуальной обработки текстов, полученных в результате автоматического распознавания звучащей спонтанной русской речи.

Номер контракта: 14.579.21.0008

Руководитель: Левин Кирилл Евгеньевич

Должность: Научный руководитель работ

Аннотация скачать
Постер скачать
Презентация скачать
Ключевые слова:
семантический анализ, лингвистический анализ, распознавание русской слитной речи, звучащая речь, автоматизация, средства интеллектуального анализа текстов, речевая аналитика

Цель проекта:
Разработка новых методов лингвистического и семантического анализа для интеллектуальной обработки текстов, полученных в результате автоматического распознавания звучащей спонтанной русской речи, обеспечивающих решение аналитических задач, связанных со структурированием, тематизацией и пониманием массивов речевых и текстовых данных.

Основные планируемые результаты проекта:
1. Алгоритмы лингвистического и семантического анализа для интеллектуальной обработки текстов, полученных в результате автоматического распознавания звучащей спонтанной русской речи:
- алгоритмы автоматической кластеризации массивов текстов распознанной речи;
- алгоритмы определения тематики высказывания;
- алгоритмы автоматического выявления ключевых (значащих) слов и семантических связей в тексте распознанной речи;
- алгоритмы выделения связных контекстов слов для именованных сущностей, содержащихся в тексте распознанной речи;
- алгоритмы автоматического аннотирования распознанных текстов;
- алгоритмы поиска и детектирования текстов распознанной речи, нетипичных (аномальных) для данной выборки по типу высказываний, содержащихся в исходной фонограмме;
- алгоритмы визуализации результатов автоматического анализа.
2. Экспериментальный образец программного комплекса (ЭО ПК), реализующий алгоритмы лингвистического и семантического анализа для интеллектуальной обработки текстов, полученных в результате автоматического распознавания звучащей спонтанной русской речи.

Краткая характеристика создаваемой/созданной научной (научно-технической, инновационной) продукции:
Разработанные программные модули предоставляют инструменты для решения следующих задач интеллектуального анализа спонтанной русской речи:
- Структурирование больших массивов необработанных данных методами иерархической кластеризации и тематической классификации. Решение этой задачи позволяет получить представление о составе, структуре и содержании новой, незнакомой аналитику, базы данных. Например, выявить наиболее частые поводы для обращения абонентов в контактный центр, обнаружить связи между этими обращениями, узнать объемы кластеров таких обращений и т.п.
- Поиск в массиве переговоров звукозаписей, нетипичных для конкретной выборки. Например, эта функциональность может быть использована для выявления бытовых разговоров (с родственниками или знакомыми) среди звукозаписей рабочих переговоров.
- Получение автоматических аннотаций переговоров, содержащих извлеченные из диалога смысловые паттерны и семантические связи.
- Выделение связных контекстов слов с использованием синтаксического и семантического парсинга для получения информации о том, в каких контекстах чаще всего употребляются интересующие эксперта персоны, организации, названия и другие именованные сущности.
Экспериментальный образец программного комплекса имеет интерфейс интерактивного взаимодействия с пользователем, обеспечивающий универсальность системы для автоматизации решения широкого спектра аналитических задач и расширение возможностей экспертного участия в процессе анализа.
Разработанные в рамках ПНИ методы и алгоритмы учитывают последние мировые достижения в области речевой аналитики и, в отличие от всех существующих разработок, специфику русского языка и спонтанной диалоговой речи.

Назначение и область применения, эффекты от внедрения результатов проекта:
Основным потенциальным потребителем разработки являются:
1. Крупные контактные центры и службы поддержки пользователей:
- Контроль и оценка качества работы операторов.
- Анализ удовлетворенности клиентов.
- Анализ эффективности маркетинговых кампаний.
- Выявление лучших практик продаж.
2. Службы корпоративной безопасности:
- Предотвращение утечек информации.
- Профилактика и предупреждение инцидентов за счет выявления разговоров по новым и нехарактерным темам.
- Выявление непрофильной нагрузки.
3. Службы государственной безопасности:
- Профилактика и предупреждение инцидентов и преступлений.
- Выявление экстремистских высказываний.
- Анализ реакции граждан на общественно значимые события.
- Выявление событий, вызвавших общественный резонанс.
Разработанные программные модули будут внедрены, в первую очередь, в продукты индустриального партнера ООО «Центр речевых технологий»: систему многоканальной записи «Smart Logger II» и систему речевой аналитики «Speech Analytics Lab». Данные продукты уже имеют внедрения в крупные контактные центры и госслужбы, исходя из растущих потребностей которых и разрабатывались требования к проекту.

Текущие результаты проекта:
1. Разработаны алгоритмы лингвистического и семантического анализа для интеллектуальной обработки текстов, полученных в результате автоматического распознавания звучащей спонтанной русской речи, обеспечивающие решение аналитических задач, связанных со структурированием, тематизацией и пониманием массивов речевых и текстовых данных.
2. Разработан экспериментальный образец программного комплекса интеллектуального анализа спонтанной русской речи, реализующий разработанные алгоритмы.
3. Разрабатывается программная документация и программа экспериментальных исследований ЭО ПК.
В 2015 году по результатам исследований опубликованы две статьи в журналах, индексируемых в базах данных Scopus и WEB of Science:

-«Combining Prosodic And Lexical Classifiers For Two-Pass Punctuation Detection In A Russian ASR System», Olga Khomitsevich, Pavel Chistikov, Tatiana Krivosheeva, Natalia Epimakhova and Irina Chernykh / (рус.) «Объединение просодического и лексического классификаторов для двухпроходного автоматического детектирования пунктуации в результатах распознавания русской речи»

-«Prediction of Speech Recognition Accuracy for Utterance Classification», Maxim L. Korenevsky, Andrey B. Smirnov, Valentin S. Mendelev / (рус.) «Предсказание точности распознавания речи для классификации высказываний»

В Роспатенте зарегистрирована программа для ЭВМ «Программа реализации алгоритмов для определения границ предложений и автоматической расстановки знаков препинания» (PunctuationDetector). Программа входит в состав «Модуля аннотирования» ЭО ПК.