Регистрация / Вход
Прислать материал

14.575.21.0033

Аннотация скачать
Постер скачать
Презентация скачать
Общие сведения
Номер
14.575.21.0033
Тематическое направление
Информационно-телекоммуникационные системы
Исполнитель проекта
федеральное государственное автономное образовательное учреждение высшего образования "Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики"
Название доклада
Исследование и разработка методов повышения робастности алгоритмов автоматического распознавания русской слитной речи в условиях сложной акустической обстановки в режиме реального времени
Докладчик
Кореневский Максим Львович
Тезисы доклада
Цели и задачи исследования
Целью исследования является повышение научно-технического потенциала отечественной науки в перспективной наукоемкой сфере естественных человеко-машинных интерфейсов и вывод на рынок высококонкурентных инновационных продуктов на основе технологий помехоустойчивого распознавания слитной речи.
Актуальность и новизна исследования
Несмотря на значительные успехи, достигнутые за последнее десятилетие в распознавании чистой речи, распознавание в условиях сложной помеховой обстановки по-прежнему остается актуальной задачей, т.к. в большинстве случаев точность акустических моделей распознавания, обученных по чистой речи, сильно деградирует при наличии в речевом сигнале помех, в особенности нестационарных, а также фонового шума и реверберации. Об актуальности данной задачи говорит факт проведения большого числа международных конкурсов, таких, например, как CHiME, REVERB и ASpIRE Challenge, призванных стимулировать развитие технологий, обеспечивающих устойчивое распознавание речи в сложной помеховой обстановке. В ходе проведенной научно-исследовательской работы разработан ряд новых методов в области шумоочистки речи, компенсации искажений, вызванных неблагоприятными условиями записи, и адаптации системы распознавания речи к условиям ее использования. Описания разработанных методов и результатов их применения изложены в целом ряде статей на международных научных конференциях по речевой тематике, таких как InterSpeech, ASRU, SpeCom и т.д.
Описание исследования

Метод многоканального выравнивания предназначен для повышения отношения сигнал шум и разборчивости речи при обработке сигнала с массива микрофонов. Он позволяет повысить пространственную избирательность массива микрофонов за счет сужения диаграммы направленности и сократить мощность помех, принимаемых по боковым лепесткам диаграммы направленности за счет существенного понижения их уровня.

Метод компенсации искажений акустических признаков на основе векторных рядов Тейлора с учетом фазового слагаемого является обобщением ранее известного алгоритма на случай учета дополнительной корреляции между шумом и сигналом, прошедшим через канал передачи. Учет данного фактора вносит усложнение в процедуру вывода соотношений для оценки параметров чистой речи, шума и канала, однако позволяет сделать компенсацию искажений более точной и, в конечном  счете, существенно повысить точность распознавания.

Метод адаптации DNN-HMM акустических моделей на основе использования GMM-derived признаков позволяет использовать для адаптации моделей на базе DNN (глубоких нейронных сетей) к диктору и окружению подходы, детально разработанные для адаптации моделей на базе GMM (смесей гауссовых распределений). Данный подход прост в практической реализации и позволяет добиться существенного прироста точности распознавания как за счет адаптации в процессе распознавания, так и при использовании дикторо-адаптивного и шумо-адаптивного обучения акустических моделей.

Все разработанные подходы были реализованы в виде модулей в составе экспериментального образца программного обеспечения (ЭО ПО), который использовался для исследования и настройки параметров алгоритмов. Для экспериментов использовались речевые данные, записанные в различных условиях, а также искусственно смоделированные путем добавления шума различной природы и громкости.

Результаты исследования

Разработанные методы были протестированы в ряде прикладных задач и продемонстрировали конкурентоспособные результаты. Так, метод многоканального выравнивания был успешно использован в системе распознавания, построенной для участия в конкурсе CHiME Challenge 2015 (система распознавания заняла 9 место в конкурсе из 25 систем), а после доработки показала результат на уровне 2 места. Метод векторных рядов Тейлора с учетом фазового слагаемого показал заметное повышение точности при распознавании на базе Aurora2. Результаты распознавания с использованием данного метода заметно превосходят результаты, полученные оригинальным методом без учета фазового слагаемого, и находятся на уровне лучших опубликованных результатов на данной задаче. Эффективность метода адаптации DNN-HMM акустических моделей на базе GMM-derived признаков была продемонстрирована не только в наших работах, но и в работах других исследователей, которые применили данный подход для экспериментов на базе Aurora4.

Результаты экспериментов, проведенных с использованием ЭО ПО демонстрируют, что использование разработанных алгоритмов в системе распознавания речи обеспечивает значительное уменьшение ошибки распознавания по сравнению с базовой системой, ориентированной на распознавание лишь достаточно чистой речи с ОСШ не менее 20 дБ. Существенное улучшение наблюдается как при распознавании слитной речи, так и при распознавании по грамматикам.

Практическая значимость исследования
Результаты проекта позволят поднять на качественно новый уровень технологии автоматического распознавания русской слитной речи и будут востребованы в следующих системах интерактивного речевого взаимодействия:
Системы голосового самообслуживания (автоматические контакт центры, предоставление информации по голосовым запросам);
Системы управления и контроль полетом в гражданской и военной авиации посредством голосовых команд;
Голосовое управление различными механизмами;
Системы интерактивного речевого взаимодействия (аватары) для предоставления электронных услуг и информирования лиц с ограниченными возможностями;
Системы автоматического документирования для государственных, медицинских учреждений и коммерческих организаций.
Презентация

Presentation(yak).ppt

Постер

Poster.ppt