Регистрация / Вход
Прислать материал

14.579.21.0121

Аннотация скачать
Постер скачать
Общие сведения
Номер
14.579.21.0121
Тематическое направление
Информационно-телекоммуникационные системы
Исполнитель проекта
Общество с ограниченной ответственностью "ЦРТ-инновации"
Название доклада
Разработка системы хранения и обработки аудио- и видеоматериалов с автоматической индексацией речевого контента для обеспечения эффективного быстрого поиска и фильтрации файлов по содержащейся в них речевой информации
Докладчик
Левин Кирилл Евгеньевич
Тезисы доклада
Цели и задачи исследования
Целью исследования является разработка технологий быстрого и эффективного поиска необходимой информации по содержанию, тематике и/или голосу диктора (авторству) в речевом контенте, содержащемся в больших массивах аудио- и видеоматериалов, за счет внедрения автоматических средств, представляющих собой новую технологию сетевой индексации речи. Поиск информации по построенному речевому индексу по точности и скорости должен быть сравним с текстовыми поисковыми системами, работающими в сети Internet (google, yandex и т.д).
Актуальность и новизна исследования
Широкое распространение информационных технологий и систем записи, позволяющих детально протоколировать процессы бизнеса и производства, привело к тому, что в настоящее время в корпоративном фонде многих организаций и предприятий накапливаются огромные архивы аудио- и видеоматериалов, содержащие неструктурированный речевой контент. К ним относятся такие источники, как: звукозаписи совещаний или переговоров на предприятиях; видео-протоколы конференций и заседаний в государственных и образовательных учреждениях; аудио- и видеозаписи передач в архивах теле- и радиовещательных средств массовой информации; видео архивы театральных и кинопостановок в театрах и киностудиях и т.д.
Результатом настоящего исследования станет организация возможности быстрого поиска релевантной информации, связанной с содержанием, тематикой и/или идентификацией голоса диктора (авторством) речевого материала, а также для последующего структурирования и систематизации массивов аудио- и видеоданных на основе извлеченной речевой информации.
Методы, разрабатываемые для реализации алгоритмов индексации аудио контента и поиска речевой информации, обладают научной новизной, ранее исследовались только на фундаментальном уровне за рубежом и будут впервые реализованы на прикладном уровне для русского языка. Комплексное решение по хранению и обработке аудио и видео данных с индексированным поиском речевой информации будет разработано впервые в мире.
Описание исследования

В ходе исследований разработаны и реализованы в виде программного решения методы и алгоритмы сетевой индексации аудио контента и поиска релевантной речевой информации.

  • Технология «сетевой индексации» (СИ) речевых данных, входящая в состав разработанного решения, предполагает автоматическое распознавание слитной речи (LVCSR), содержащейся в обрабатываемых массивах аудио- и видеоданных, с сохранением не только распознанного текста, но и словных сетей, содержащих полный набор акустических гипотез, сгенерированных декодером в процессе распознавания (в компактном формате Confusion Networks). Поиск речевой информации по сетевому индексу позволяет значительно повысить полноту результата за счет возможности обнаружения слов, распознанных с низким уровнем достоверности, и не попавших в текстовый результат распознавания, но сохранившихся в словной сети декодера.

 

  • Также использование СИ позволяет производить поиск «новых», неизвестных LVCSR-системе, (out-of-vocabulary, OOV) слов, за счет специально разработанных методов приближения неизвестных слов к словарным словам с использованием матриц спутывания фонем и расширения словных сетей декодера так называемыми «подсловными единицами» (sub-wordsunits).
  • Высокая скорость СИ-поиска обеспечена за счет внедрения в разрабатываемый экспериментальный образец технологии «глобальной обратной индексации» (ГОИ), традиционно используемой в текстовых поисковиках, работающих в сети Internet. Таким образом, разработанные методы поиска информации, содержащейся в речевых данных, по совокупности показателей точности и скорости значительно превосходят стандартные подходы, такие как: акустический фонемный поиск ключевых слов в потоке речи или текстовый поиск по результату полнотекстового распознавания.
  •  

 

  • Разработка в составе решения технологии тематической категоризации индексированной речи, обеспечивает возможность структурирования массивов аудио- и видеоданных по тематике, содержащейся в них речевой информации.
  • Внедрение в состав разрабатываемой системы технологии автоматической идентификации голоса диктора, позволяет производить поиск речевых материалов, принадлежащих авторству целевого диктора, например, записи программ популярного ведущего (в архивах СМИ) или выступления конкретного сотрудника на корпоративном совещании.
Результаты исследования

В результате проведенных исследований был разработан экспериментальный образец (ЭО ПК) системы хранения и обработки архивов аудио- и видеоисточников с индексацией содержащегося в них речевого контента предназначен для организации возможности быстрого поиска релевантной информации, связанной с содержанием, тематикой и/или идентификацией голоса диктора (авторством) речевого материала, а также для последующего структурирования и систематизации массивов аудио- и видеоданных на основе извлеченной речевой информации.

В составе ЭО ПК разработаны программные модули, реализующие алгоритмы индексации аудио-контента и поиска релевантной речевой информации:

  • Модуль, реализующий алгоритмы построения сетевого индекса речи.
  • Модуль, реализующий алгоритмы поиска ключевых слов и фраз по сетевому индексу речи.
  • Модуль, реализующий алгоритмы построения глобального обратного индекса массива данных.
  • Модуль, реализующий алгоритмы поиска ключевых слов и фраз по глобальному обратному индексу с вероятностным ранжированием результата.
  • Модуль, реализующий алгоритмы поиска несловарных (out-of-vocabulary, OOV) слов.
  • Модуль, реализующий алгоритмы поиска и фильтрации речевых данных по тематике содержащейся в них информации.
  • Модуль, реализующий алгоритмы поиска и фильтрации речевых данных по голосу диктора, которому принадлежит произнесение (авторству).

Также в состав разработанного ЭО ПК входят вспомогательные программные модули, обеспечивающие обработку исходных массивов аудио- и видеоданных данных, взаимодействие с пользователем системы, а также обмен данными между компонентами системы:

  • Модуль локального пользовательского интерфейса системы.
  • Модуль web-интерфейса системы.
  • Модуль управления заданиями.
  • Модуль разделения аудио- и видеодорожек в видеозаписи.
  • Модуль предобработки аудиоданных.
  • Модуль разделения речи дикторов (диаризации).
  • Модуль распознавания слитной речи (LVCSR).

В ходе следующего этапа работ будут проведены теоретические и экспериментальные исследования разработанного ЭО ПК, в результате которых будет выявлено соответствие характеристик системы требованиям, заявленным в техническом задании.

Практическая значимость исследования
Результаты исследования востребованы современным обществом и бизнесом для решения широкого спектра задач, связанных с необходимостью быстрого и эффективного поиска релевантной речевой информации в больших массивах неструктурированных аудио- и видеоданных.
Разработанная система хранения и обработки архивов аудио- и видеоисточников с индексацией содержащегося в них речевого контента обеспечивает ряд практических преимуществ:
• Хранение и анализ больших архивов аудио и видео материалов, содержащих неструктурированный речевой контент: звукозаписи совещаний или переговоров на предприятиях малого и среднего бизнеса; видео-протоколы конференций и заседаний в государственных и образовательных учреждениях; аудио- и видеозаписи передач в архивах теле- и радиовещательных средств массовой информации; видео архивы театральных и кинопостановок в театрах и киностудиях и т.д.
• Быстрый речевой поисковик (скорость и точность сравнима с текстовыми поисковиками google, yandex и т.д).
• Многомодальный поиск: по ключевым словам/фразам, по тематике, по диктору.
• Структурирование и тематизация аудио и видео данных по содержащейся в них речевой информации.
• Удобство работы с системой через web-интерфейс в многопользовательском режиме.