Регистрация / Вход
Прислать материал

Разработка технологии преобразования русской речи в транскрипционное представление с метаданными для автоматического распознавания речевых команд в робототехнике и промышленности

Номер контракта: 14.579.21.0057

Руководитель: Затворницкий Александр Петрович

Должность: руководитель отдела

Аннотация скачать
Постер скачать
Презентация скачать
Ключевые слова:
автоматическое распознавание речи, речевая команда, фонема, фонетический алгоритм, голосовое управление, адаптивная настройка, голос диктора

Цель проекта:
1. Разработка нового метода и новых фонетических алгоритмов автоматического распознавания речевых команд в области создания новых технологий работы с мультимедийной информацией, обеспечивающих существенное ослабление актуальной проблемы ложных тревог в условиях действия внешних акустических помех; 2. Создание технологии автоматического распознавания речевых команд с повышенной точностью и надежностью голосового способа управления робототехникой и с использованием типового набора программно-аппаратных средств.

Основные планируемые результаты проекта:
1. Метод автоматического распознавания речевых команд на основе глубоких нейронных сетей, обеспечивающий возможность фонетического декодирования и распознавания речевых команд и возможность программной реализации в автономном режиме без обращения к удаленному серверу.
2. Алгоритм построения контекстно зависимой гибридной акустической модели на основе глубоких нейронных сетей, обеспечивающий повышенную точность и надежность автоматического распознавания речевых команд.
3. Алгоритм адаптивной настройки на голос диктора – субъекта голосового управления, обеспечивающий адаптацию к голосу диктора.
4. Алгоритм автоматического преобразования словаря команд в сеть распознавания, обеспечивающий возможность автоматического формирования словаря команд по текстовому файлу.
5. Алгоритм определения речевой активности диктора на основе нейросетевого классификатора, обеспечивающий выполнение анализа фонетического строя внешних акустических помех и защиту от внешних акустических помех.
6. Алгоритм поиска ключевых слов, обеспечивающий поиск заданной активационной фразы, за которой следует речевая команда, и защиту от внешних акустических помех для решения проблем ложных тревог.
7. Экспериментальный образец программного комплекса (ЭО ПК) для автономного распознавания речевых команд.

Краткая характеристика создаваемой/созданной научной (научно-технической, инновационной) продукции:
Новизна разработанных метода автоматического распознавания речевых команд и алгоритмов заключается:
– в применении акустической модели, построенной с помощью разработанного алгоритма построения контекстно зависимой гибридной акустической модели на основе глубоких нейронных сетей.
Применение акустической модели на основе глубоких нейронных сетей служит для повышения точности и надежности автоматического распознавания речевых команд;
– в предложенном алгоритме адаптации глубоких нейронных сетей к голосу диктора – субъекта голосового управления при наличии малого количества адаптационных данных.
При этом разработанный алгоритм адаптивной настройки на голос диктора – субъекта голосового управления позволяет максимально эффективно использовать информацию, содержащуюся в адаптационной выборке.
Алгоритм является простым в применении и обладает высокой скоростью работы;
– в разработанном алгоритме определения речевой активности, на основе нейросетевого классификатора, анализирующего фонетический строй внешних акустических помех и обеспечивающего надежную работу в условиях действия внешних акустических помех;
– в применении алгоритма акустического поиска ключевых слов для поиска заданной активационной фразы или слова, за которым следует команда, для решения проблемы ложных тревог.
При этом разработанный алгоритм позволяет получить максимально возможный процент верно определенных ключевых слов без увеличения процента ложных срабатываний;
– в обеспечении вычислительной эффективности работы системы автоматического распознавания речевых команд за счет ускорения процесса построения сети распознавания стейтового уровня, применение которой значительно упрощает процесс декодирования, что приводит к высокой скорости распознавания.

Назначение и область применения, эффекты от внедрения результатов проекта:
Потенциальными потребителями результатов проекта являются предприятия различных отраслей промышленности, разработчики сервисных роботов для сегментов B2B и B2C, воздушный, ж/д, автотранспорт, контактные центры, организации и предприятия с высокой ролью и интенсивностью документооборота, конструкторские бюро, исследовательские учреждения и научные группы (институты РАН и вузы).
Полученную технологию, в первую очередь, планируется интегрировать в продукты индустриального партнера ООО «ЦРТ»: система голосового самообслуживания «VoiceNavigator», системы записи «Незабудка», системы оповещения «Рупор», новое решение для преобразования речи в текст VOCO, система распознавания речи в медицине Voice2Med.
Ожидаемыми эффектами от внедрения результатов проекта являются: повышение качества обслуживания населения, увеличение производительности труда в целом (например, одна голосовая команда для управления несколькими механизмами одновременно), повышение эффективности выполнения рутинных операций, снижение расходов и времени на ведение документооборота.


Текущие результаты проекта:
1. Разработаны новый метод и новые фонетические алгоритмы автоматического распознавания речевых команд.
2. Разработан экспериментальный образец для автономного распознавания речевых команд.
3. Разрабатывается программная документация и программа экспериментальных исследований ЭО ПК.
В 2015 году по результатам исследований опубликованы две статьи в журналах, индексируемых в базах данных Scopus и WEB of Science:
-«Improving Acoustic Models For Russian Spontaneous Speech Recognition» Prudnikov A., Medennikov I, Mendelev V., Korenevskiy M., Khokhlov Yu. / (рус.) «Улучшение акустических моделей для распознавания русской спонтанной речи».
-«GMM-derived features for effective unsupervised adaptation of deep neural network acoustic models» Tomashenko N., Khokhlov Yu. / (рус.) «Применение GMM-признаков для эффективной адаптации без учителя акустических моделей на основе глубоких нейронных сетей».
В Роспатенте зарегистрирована программа для ЭВМ «Программа для автоматического преобразования грамматики команд в граф распознавания» (GrammCompiler).