Регистрация / Вход
Прислать материал

14.579.21.0008

Аннотация скачать
Постер скачать
Общие сведения
Номер
14.579.21.0008
Тематическое направление
Информационно-телекоммуникационные системы
Исполнитель проекта
Общество с ограниченной ответственностью "ЦРТ-инновации"
Название доклада
Разработка методов лингвистического и семантического анализа для интеллектуальной обработки текстов, полученных в результате автоматического распознавания звучащей спонтанной русской речи.
Докладчик
Левин Кирилл Евгеньевич
Тезисы доклада
Цели и задачи исследования
Цель исследования - разработка новых методов лингвистического и семантического анализа для интеллектуальной обработки текстов, полученных в результате автоматического распознавания звучащей спонтанной русской речи, обеспечивающих решение аналитических задач, связанных со структурированием, тематизацией и пониманием массивов речевых и текстовых данных.

Основной задачей проводимых исследований является разработка экспериментального образца программного комплекса (ЭО ПК), предоставляющего инструменты для решения задач структурирования, тематизации и понимания массивов текстовых данных, полученных в результате автоматического распознавания спонтанной русской речи.
Актуальность и новизна исследования
Во всем мире прилагаются усилия для решения задачи автоматизации интеллектуального анализа речевых данных. Работающие сервисы имеют существенный недостаток – все они разрабатывались в расчете на конкретное узкое применение. Поэтому распространение технологий речевой аналитики идет очень медленно – каждый разработчик должен, фактически, заново реализовывать все алгоритмы обработки. В какой-то мере эта проблема решается на Западе – там крупные компании (Nuance, Google) предоставляют платформы, подходящие для нескольких применений. Результаты видны уже сейчас – каждый может с минимумом усилий использовать сервисы распознавания, обработки и синтеза речи для решения своих задач. В России до сих пор это могут позволить только крупные компании, способные заказать индивидуальную разработку. Заимствование зарубежных решений не позволяет достичь хороших результатов, так как системы распознавания речи и интеллектуального анализа текстовых данных в значительной степени зависят от языка. До последнего времени отечественные исследования в данной области шли путем копирования зарубежных аналогов. Однако для достижения высоких результатов необходимо учитывать специфику русского языка.

В настоящем исследовании при разработке алгоритмов, использовалось совмещение наиболее успешных современных подходов речевой аналитики (проработанных, в основном, для иностранных языков, но не адаптированных ранее к анализу русского языка) с методами, учитывающими специфику русского языка и спонтанной диалоговой речи.
Описание исследования

В ходе исследований были разработаны следующие алгоритмы лингвистического и семантического анализа:

1. Алгоритмы автоматической кластеризации массивов текстов распознанной речи

  • Применен специально разработанный метод предобработки речевых данных – «извлечение информативных паттернов из диалогов», учитывающий специфику построения спонтанных диалогов в русском языке.
  • Алгоритм кластеризации отличается возможностью автоматической адаптации к новой предметной области за счет возможности авто-обучения списков стоп-слов.
  • Реализован новый метод автоматического определения оптимального результирующего числа кластеров, позволяющий реализовать иерархическую кластеризацию с независимым принятием решения о глубине иерархии в каждой ветви дерева.

2. Алгоритмы определения тематики высказывания

  • Алгоритм адаптирован к особенностям лексического состава спонтанной русской речи за счет обучения взвешенного обобщенного решения (Fusion) по набору классификаторов на больших корпусах речевых данных, содержащих спонтанные тематические диалоги. В составе алгоритма разработан специальный метод обучения классификационных моделей, позволяющий проводить мультитеговую классификацию с надежностью, не ниже надежности однотеговой классификации.
  • За счет применения метода автоматической экстракции предложений из распознанного текста, реализована возможность детектирования точек смены тематики в потоке слитной речи (классификация отдельных предложений и постобработка результатов).

3. Алгоритмы выявления ключевых (значащих) слов и семантических связей в текстах распознанной речи

  • Алгоритм учитывает особенности состава, смысловой нагрузки и особенностей употребления таких лексем русского языка, как служебные слова, вводные слова, междометия и т.п.
  • Применен метод извлечения коллокаций, адаптированный к обработке результатов автоматического распознавания спонтанной русской речи (за счет использования набора морфологических шаблонов, устойчивого к типичным ошибкам распознавания).
  • Результаты работы алгоритма представлены в ЭО ПК в виде интерактивного «облака тегов» с отображением значимости распознанных слов (размер слов в облаке) и семантических связей между ними (расстояния между словами в облаке).

4. Алгоритмы выделения связных контекстов слов и именованных сущностей

  • Алгоритм использует специально разработанный набор правил для выделения контекстов по результату синтаксического разбора распознанного текста, учитывающий видоизменения типичных для русского языка синтаксических и семантических связей, характерные для распознанной спонтанной речи.
  • Для достижения высокой надежности и устойчивости результатов синтаксического разбора текстов распознанной речи применяется метод автоматической экстракции предложений на основе лексических и просодических признаков речи, с возможностью детектирования вопросительных предложений

5. Алгоритмы аннотирования распознанных текстов

  • Алгоритм совмещает в себе наиболее эффективные подходы экстрактивного аннотирования (извлечение из распознанного текста значимых слов с учетом связных контекстов) с элементами «извлечения смысла» (тематическая индикация высказываний, автоформирование заголовков).
  • Для автоматического детектирования границ предложений и синтагм, а также расстановки знаков препинания, используется впервые реализованный для русского языка метод взвешенного объединения лексических и просодических характеристик спонтанной речи (Lexical CRF + Prosodic SVM).

6. Алгоритмы поиска и детектирования нетипичных (аномальных) для данной выборки текстов

  • Для детектирования выбросов применяется алгоритм One-Class SVM, адаптированный к работе с  распознанными текстами в векторном представлении, путем использования методов снижения размерности пространства признаков. При этом выбор наиболее эффективного метода производится автоматически в зависимости от типа подаваемых на вход алгоритма данных.
  • Алгоритм учитывает специфику реального использования технологии в будущих продуктах: по требованиям потенциальных заказчиков добавлена возможность экспертного дообучения алгоритма в части классификации выбросов. Пользователь имеет возможность просмотреть список найденных выбросов и пометить те, которые его интересуют в решаемой задаче (например, выбросы по теме, по длительности, по упоминанию персон или организаций и т.п.). Алгоритм будет автоматически дообучен по данной пользовательской разметке.
Результаты исследования

В результате проведенных исследований был разработан экспериментальный образец "Программного комплекса интеллектуальной обработки текстов, полученных в результате автоматического распознавания спонтанной звучащей русской речи" (ЭО ПК).

Разработанный ЭО ПК предназначен для решения широкого спектра задач интеллектуального анализа речевых данных, таких как:

  • Структурирование больших массивов необработанных данных методами иерархической кластеризации и тематической классификации. Решение этой задачи позволит получить представление о составе, структуре и содержании новой, незнакомой аналитику, базы данных. Например, выявить наиболее частые поводы для обращения абонентов в контактный центр, обнаружить связи между этими обращениями, узнать объемы кластеров таких обращений и т.п.
  • Поиск в массиве переговоров звукозаписей, нетипичных для конкретной выборки. Например, эта функциональность может быть использована для выявления бытовых разговоров (с родственниками или знакомыми) среди звукозаписей рабочих переговоров.
  • Получение автоматических аннотаций переговоров, содержащих извлеченные из диалога смысловые паттерны и семантические связи.
  • Выделение связных контекстов слов с использованием синтаксического и семантического парсинга для получения информации о том, в каких контекстах чаще всего употребляются интересующие эксперта персоны, организации, названия и другие именованные сущности.

Особое внимание при разработке программного комплекса уделяется возможностям визуального отображения результатов анализа речи. ЭО ПК снабжен интерактивным графическим интерфейсом, позволяющим пользователю активно взаимодействовать с системой - выбирать удобный режим исследования, изменять параметры системы, настраивать интерфейс визуализации:

Экспериментальные исследования ЭО ПК показали полное соответствие качественных показателей разработанных алгоритмов требованиям технического задания, составленным с учетом мирового уровня развития технологий.

Практическая значимость исследования
Основным потенциальным потребителем разработки являются:
1. Крупные контактные центры и службы поддержки пользователей:
- Контроль и оценка качества работы операторов.
- Анализ удовлетворенности клиентов.
- Анализ эффективности маркетинговых кампаний.
- Выявление лучших практик продаж.
2. Службы корпоративной безопасности:
- Предотвращение утечек информации.
- Профилактика и предупреждение инцидентов за счет выявления разговоров по новым и нехарактерным темам.
- Выявление непрофильной нагрузки.
3. Службы государственной безопасности:
- Профилактика и предупреждение инцидентов и преступлений.
- Выявление экстремистских высказываний.
- Анализ реакции граждан на общественно значимые события.
- Выявление событий, вызвавших общественный резонанс.
Разработанные программные модули будут внедрены, в первую очередь, в продукты индустриального партнера ООО «Центр речевых технологий»: систему многоканальной записи «Smart Logger II» и систему речевой аналитики «Speech Analytics Lab». Данные продукты уже имеют внедрения в крупные контактные центры и госслужбы, исходя из растущих потребностей которых и разрабатывались требования к проекту.