Регистрация / Вход
Прислать материал

Исследование и разработка методов повышения робастности алгоритмов автоматического распознавания русской слитной речи в условиях сложной акустической обстановки в режиме реального времени

Аннотация скачать
Постер скачать
Ключевые слова:
помехоустойчивость, робастность, аддитивный шум, распознавание речи, импульсные помехи, речевой сигнал

Цель проекта:
Разработка методов и программно-технических решений автоматического распознавания русской слитной речи в условиях сложной акустической обстановки в режиме реального времени.

Основные планируемые результаты проекта:
1. Методы и алгоритмы повышения помехоустойчивости автоматического распознавания русской слитной речи:
1.1 Методы моделирования изменчивости речевого сигнала под влиянием различных искажений.
1.2 Алгоритмы снижения фоновых шумов в реальном режиме времени и адаптации речевых признаков и акустических моделей речи к изменениям акустической обстановки
1.3 Алгоритмы компенсации потерь информации, вызванных неблагоприятными условиями записи.

2. Программно-технические решения в области разработки программного обеспечения автоматического распознавания русской слитной речи, реализующих методы и алгоритмы повышения помехоустойчивости.

Краткая характеристика создаваемой/созданной научной (научно-технической, инновационной) продукции:
Разрабатываемые в рамках работы модули будут подготовлены для интеграции в продукцию индустриального партнера ООО "ЦРТ".
В рамках выполнения ПНИ:
- предложена оригинальная методика объединения фонограмм речи, записанных на массив микрофонов, для шумоподавления и выделения целевого сигнала с заданного направления (метод многоканального выравнивания).
- предложен новый способ компенсации искажений акустических признаков речи, обобщающий ранее известный метод на основе векторных рядов Тейлора и улучшающий его результаты.
- разработана новая парадигма для быстрой адаптации акустических моделей на основе глубоких нейронных сетей.
Сопоставление полученных результатов будет проведено в рамках экспериментальных исследований. По нашей оценке и оценке независимых экспертов предложенные методы сопоставимы с рядом современных подходов в аналогичных областях, в большинстве случаев методы обеспечивают сравнимые результаты, а в некоторых существенно превосходят известные аналоги.

Назначение и область применения, эффекты от внедрения результатов проекта:
Разрабатываемые алгоритмы предназначены для более качественного получения речевых признаков из речи получаемых в сложных акустических условиях. Целевым направлением применения полученных результатов является повышение точности распознавания речи в сложных акустических условиях. Сопутствующим направлением, является повышение точности идентификации и верификации человека по голосу.
Внедрение результатов позволит поднять на качественно новый уровень технологии автоматического распознавания русской слитной речи и будут востребованы в системах интерактивного речевого взаимодействия для широкого спектра потребителей:
• крупный и средний бизнес (услуги, торговля): системы голосового самообслуживания, автоматические справочные службы, системы поиска информации по запросам;
• интернет- и телеком-проекты: системы интерактивного взаимодействия ("аватары");
• проекты Электронного Правительства: системы интерактивного взаимодействия ("аватары"), автоматические справочные службы;
• внутренние центры обработки вызовов (банки, телеком, торговля, услуги ЖКХ, транспорт): автоматические справочные службы;
• центры обработки вызовов в государственных и муниципальных ведомствах: системы интерактивного речевого взаимодействия, автоматические справочные службы, системы поиска информации по запросам;
• медицинские учреждения: системы автоматического документирования, автоматические справочные службы, системы поиска информации по запросам;
• судебная система: системы автоматического документирования;
• гражданская и военная промышленность: применение систем речевого управления механизмами (с помощью голосовых команд).
• промышленность:

Текущие результаты проекта:
- Разработан алгоритм адаптивного формирования диаграммы направленности массива микрофонов – метод многоканального выравнивания;
- Разработан новый метод компенсации искажений акустических признаков речи на основе векторных рядов Тейлора (VTS), учитывающий распределение фазового слагаемого в модели искажения;
- Разработан способ адаптации нейросетевых акустических моделей на основе признаков, извлекаемых из GMM-постериоров.

- Спроектированы и разработаны основные модули экспериментального образца программного обеспечения (ЭО ПО):
- Модуль предобработки речи (в частности, блок объединения многоканальных фонограмм);
- Модуль извлечения акустических признаков (в частности, блок компенсации искажений);
- Модуль акустических моделей.

- Разработан проект программы и методики испытаний ЭО ПО