Регистрация / Вход
Прислать материал

Разработка системы хранения и обработки аудио- и видеоматериалов с автоматической индексацией речевого контента для обеспечения эффективного быстрого поиска и фильтрации файлов по содержащейся в них речевой информации

Номер контракта: 14.579.21.0121

Руководитель: Левин Кирилл Евгеньевич

Должность: Научный руководитель работ

Аннотация скачать
Постер скачать
Ключевые слова:
распознавание речи, индексация(индексирование) речевого контента, большие данные, полнотекстовое индексирование, информационный поиск, поиск ключевых слов, обратный индекс (инвертированный индекс), кластеризация, тематическая категоризация, идентификация диктора.

Цель проекта:
Целью выполнения настоящего прикладного научного исследования является: Разработка технологий быстрого и эффективного поиска необходимой информации по содержанию, тематике и/или голосу диктора (авторству) в речевом контенте, содержащемся в больших массивах аудио- и видеоматериалов, за счет внедрения автоматических средств, представляющих собой новую технологию сетевой индексации речи. Поиск информации по построенному речевому индексу по точности и скорости должен быть сравним с текстовыми поисковыми системами, работающими в сети Internet (google, yandex и т.д).

Основные планируемые результаты проекта:
1) Экспериментальный образец Программного комплекса хранения и обработки аудио и видео данных с индексированным поиском речевой информации.

2) Алгоритмы индексации аудио контента и поиска речевой информации:
- Алгоритмы построения сетевого индекса речи.
- Алгоритмы поиска ключевых слов и фраз по сетевому индексу речи.
- Алгоритмы построения глобального обратного индекса массива речевых данных.
- Алгоритмы поиска ключевых слов и фраз по глобальному обратному индексу с вероятностным ранжированием результата.
- Алгоритмы поиска несловарных (out-of-vocabulary, OOV) слов.
- Алгоритмы поиска и фильтрации речевых данных по тематике содержащейся в них информации.
- Алгоритмы поиска и фильтрации речевых данных по голосу диктора, которому принадлежит произнесение (авторству).

Все перечисленные алгоритмы обладают научной новизной, ранее исследовались только на фундаментальном уровне за рубежом и будут впервые реализованы на прикладном уровне, в особенности для русского языка. Комплексное решение по хранению и обработку аудио и видео данных с индексированным поиском речевой информации будет разработано впервые в мире.

Краткая характеристика создаваемой/созданной научной (научно-технической, инновационной) продукции:
Разрабатываемый экспериментальный образец системы хранения и обработки архивов аудио- и видеоисточников с индексацией содержащегося в них речевого контента предназначен для организации возможности быстрого поиска релевантной информации, связанной с содержанием, тематикой и/или идентификацией голоса диктора (авторством) речевого материала, а также для последующего структурирования и систематизации массивов аудио- и видеоданных на основе извлеченной речевой информации.

Основной научно-технической задачей является разработка технологии сетевой индексации речевой информации и последующую ее реализация в виде программных решений адаптированных под различные решения:
- Технология «сетевой индексации» (СИ) речевых данных, входящая в состав разрабатываемого решения, предполагает автоматическое распознавание слитной речи (LVCSR), содержащейся в обрабатываемых массивах аудио- и видеоданных, с сохранением не только распознанного текста, но и словных сетей, содержащих полный набор акустических гипотез, сгенерированных декодером в процессе распознавания (в компактном формате Confusion Networks).
- Поиск речевой информации по сетевому индексу позволит значительно повысить полноту результата за счет возможности обнаружения слов, распознанных с низким уровнем достоверности, и не попавших в текстовый результат распознавания, но сохранившихся в словной сети декодера.
- Также использование СИ позволит производить поиск «новых», неизвестных системе распознавания, (out-of-vocabulary, OOV) слов, за счет специально разработанных методов приближения неизвестных слов к словарным словам с использованием матриц спутывания фонем и расширения словных сетей декодера так называемыми «подсловными единицами» (sub-wordsunits).
- Высокая скорость СИ-поиска будет обеспечена за счет внедрения в разрабатываемый экспериментальный образец технологии «глобальной обратной индексации» (ГОИ), традиционно используемой в текстовых поисковиках, работающих в сети Internet.

Таким образом, разрабатываемые методы поиска информации, содержащейся в речевых данных, по совокупности показателей точности и скорости будут значительно превосходить стандартные подходы, такие как: акустический фонемный поиск ключевых слов в потоке речи или текстовый поиск по результату полнотекстового распознавания.

Назначение и область применения, эффекты от внедрения результатов проекта:
Широкое распространение информационных технологий и систем записи, позволяющих детально протоколировать процессы бизнеса и производства, привело к тому, что в настоящее время в корпоративном фонде многих организаций и предприятий накапливаются огромные архивы аудио- и видеоматериалов, содержащие неструктурированный речевой контент.

Применение разрабатываемых методов и алгоритмов в корпоративном секторе и социальной сфере обеспечит следующие возможности:
1) Хранение и анализ больших архивов аудио и видео материалов, содержащих неструктурированный речевой контент:
- звукозаписи совещаний или переговоров на предприятиях малого и среднего бизнеса;
- видео-протоколы конференций и заседаний в государственных и образовательных учреждениях;
- аудио и видео записи передач в архивах теле- и радиовещательных средств массовой информации;
- видео архивы театральных и кинопостановок в театрах и киностудиях
- и т.д.
2) Быстрый речевой поисковик:
- скорость и точность речевого индексированного поиска сравнима с текстовыми поисковиками, работающими в сети Internet (google, yandex и т.д);
- возможность поиска речевых материалов, принадлежащих голосу конкретного диктора (например, записи программ популярного ведущего (в архивах СМИ) или выступления конкретного сотрудника на корпоративном совещании).
- структурирование и тематизация аудио и видео данных по содержащейся в них речевой информации.
3) Удобство работы с системой через web-интерфейс:
- многопользовательский режим;
- простой интерфейс формулировки поисковых запросов "как в google";
- поддержка регулярных выражений в поисковых запросах;
- многомодальный поиск: по ключевым словам/фразам, по тематике, по диктору.

Текущие результаты проекта:
1) Проведен аналитический обзор современной научно-технической литературы, затрагивающей научно-техническую проблему, исследуемую в рамках ПНИЭР.
2) Проведены патентные исследования по теме проекта.
3) Проведены выбор и обоснование направления исследований:
- разработка возможных направлений проведения исследований.
- сравнительный анализ эффективности возможных направлений исследований и обоснование выбора оптимального варианта направления исследований.
4) В процессе разработки находятся методы автоматической индексации речевого контента для обеспечения эффективного быстрого поиска и фильтрации файлов по содержащейся в них речевой информации.