Регистрация / Вход
Прислать материал

14.579.21.0057

Аннотация скачать
Постер скачать
Общие сведения
Номер
14.579.21.0057
Тематическое направление
Информационно-телекоммуникационные системы
Исполнитель проекта
Общество с ограниченной ответственностью "ЦРТ-инновации"
Название доклада
Разработка технологии преобразования русской речи в транскрипционное представление с метаданными для автоматического распознавания речевых команд в робототехнике и промышленности
Докладчик
Затворницкий Александр Петрович
Тезисы доклада
Цели и задачи исследования
1.Разработка нового метода и новых алгоритмов автоматического распознавания речевых команд в области создания новых технологий работы с мультимедийной информацией, обеспечивающих существенное ослабление актуальной проблемы ложных тревог в условиях действия внешних акустических помех.
2. Создание технологии автоматического распознавания речевых команд с повышенной точностью и надежностью голосового способа управления робототехникой и с использованием типового набора программно-аппаратных средств.

Основной задачей проводимых исследований является разработка экспериментального образца программного комплекса (ЭО ПК), предоставляющего инструменты для решения задач автоматического распознавания речевых команд с повышенной точностью и надежностью.
Актуальность и новизна исследования
Задача построения надежных систем голосового управления является одной из важнейших в области речевых технологий. Главная проблема, возникающая при разработке, заключается в вариативном произношении одного и того же слова как разными людьми, так и одним и тем же человеком в различных ситуациях. Кроме того, на входящий речевой сигнал влияют многочисленные факторы, такие как окружающий шум, отражение, эхо и помехи в канале.
Результаты работ ПНИ позволяют создать решения, обеспечивающие автоматическое распознавание речевых команд в различных акустических условиях с адаптивной настройкой на голос диктора и автоматическим формированием словаря команд.
Решенные научно-технические задачи в рамках ПНИ способствуют созданию систем автоматического распознавания речевых команд, функционирующих на различных программно-технических средствах, в том числе на мобильных устройствах (смартфонах, планшетах) без доступа к сети Интернет (офлайн).
В ходе выполнения ПНИ был разработан новый метод быстрой адаптации к голосу диктора, основанный на комбинации GMM-моделей, адаптированных к диктору для получения дикторозависимых GMM-derived-признаков, и акустических моделей на основе глубоких нейронных сетей, обученных в режиме адаптации к диктору для распознавания.
Для решения задачи определения речевой активности диктора был применен нейросетевой классификатор, использующий акустические модели на основе глубоких нейронных сетей с maxout-функцией активации.
Разработан алгоритм автоматического преобразования словаря команд в граф распознавания в формате WFST, оптимизированный по скорости и памяти.
Описание исследования

В ходе выполнения ПНИ для обеспечения повышенной точности и надежности работы системы автоматического распознавания речевых команд  разработаны новый метод автоматического распознавания речевых команд с использованием глубоких нейронных сетей  и алгоритмы:

– алгоритм построения контекстно зависимой гибридной акустической модели на основе глубоких нейронных сетей, обеспечивающий повышенную точность и надежность распознавания речевых команд;

– алгоритм адаптивной настройки на голос диктора – субъекта голосового управления, обеспечивающий адаптацию к голосу диктора;

– алгоритм автоматического формирования словаря команд в сеть распознавания, обеспечивающий возможность автоматического преобразования словаря команд по текстовому файлу;

– алгоритм определения речевой активности диктора на основе нейросетевого классификатора, обеспечивающий выполнение анализа фонетического строя внешних акустических помех и защиту от внешних акустических помех;

– алгоритм поиска ключевых слов, обеспечивающий поиск заданной активационной фразы, за которой следует речевая команда, и защиту от внешних акустических помех для решения проблем ложных тревог.

Ниже представлена схема разработанного метода автоматического распознавания речевых команд

 

 

Результаты исследования

Сопоставление с результатами мирового уровня:

Как правило, разработки мирового уровня, такие как Google (система Google Now), Apple (Siri), функционируют как сетевые приложения. Отличительная особенность разработанного в рамках ПНИ решения заключается в возможности учета специфики русского языка, гарантии высокого качества распознавания речевых команд и в возможности работы на типовых персональных компьютерах и мобильных устройствах в автономном режиме без обращения к удаленному серверу.

Полученные результаты:

В результате  работ в рамках ПНИ был разработан экспериментальный образец "Программного комплекса автоматического распознавания речевых команд" (ЭО ПК), проведены экспериментальные исследования.

ЭО ПК состоит  из следующих программных компонентов:
– «Модуль многопозиционного распознавания речевых команд» реализует алгоритмы: определения речевой активности на основе нейросетевого классификатора, вычисления PNCC-признаков, WFST-декодера, использующего информацию от контекстно зависимых гибридных акустических моделей на основе глубоких нейронных сетей.

– «Модуль формирования словаря команд по текстовому файлу» реализует алгоритмы: оценки теоретико-информационной неопределенности словаря команд, автоматического преобразования грамматики команд в граф распознавания в формате WFST, оптимизированный по скорости и памяти и предназначенный для работы в режимах определения ключевых слов (поиск активационной фразы) и распознавания речевых команд.

– «Модуль настройки на голос диктора» реализует алгоритмы: обучения диктороадаптивной акустической модели, применения адаптации к диктору при распознавании речевых команд.

В структуре ЭО ПК «Модуль многопозиционного распознавания речевых команд» играет роль основного программного компонента.

Ниже представлена структурная схема модуля многопозиционного распознавания речевых команд.

В ходе экспериментальных исследований были получены следующие результаты.
Полученное значение оценки точности:  PWER = 0,075, для речевого сигнала c ОСШ не менее 25 дБ, словаря объемом 20 команд, для акустических моделей, построенных с использованием аппарата глубоких нейронных сетей.

Полученное значение оценки надежности:  PFA = 0,017, для речевого сигнала c ОСШ не менее 25 дБ, словаря объемом 2 команды, для алгоритма определения речевой активности диктора, применяющего нейросетевой классификатор, использующий акустические модели  на основе глубоких нейронных сетей с maxout-функцией активации и алгоритма поиска ключевых слов.

Был разработан новый метод быстрой адаптации к голосу диктора, основанный на комбинации GMM-моделей, адаптированных к диктору для получения дикторозависимых GMM-derived-признаков и акустических моделей на основе глубоких нейронных сетей, обученных в режиме адаптации к диктору. Данный метод позволяет повысить точность и надежность метода автоматического распознавания речевых команд:

Акустические модели

PWER

PFA

Без адаптации

0,075

0,017

С адаптацией к голосу диктора

0,006

0,010

Была показана зависимость точности метода автоматического распознавания речевых команд от уровня акустических помех: для сигнала с ОСШ от 5 до 15 дБ при том же значении PFA  =0,02, значение PWER  увеличилось до 0,55.

Было получено среднее время распознавания голосовой команды 0,4 секунды.

Длительность процедуры адаптивной настройки на голос диктора составила 1 мин. 20 с по речевой базе длительностью 5-6 мин.

Практическая значимость исследования
В качестве основных потребителей продукции проекта выступают производители промышленной и сервисной робототехники и автопроизводители, правительственные организации, системные интеграторы информационных технологий (ИТ), медицинские учреждения, внедрившие МИС в период 2013–2015 гг. или планирующие внедрение в ближайшие 2–3 года, компании - разработчики и интеграторы МИС, реализовавшие проекты на территории Российской Федерации в период 2013–2015 гг. Прорабатывается возможность внедрения результатов ПНИ в технологические решения, предназначенные для телекоммуникационных компаний и контактных центров.
Ожидаемые эффекты от внедрения результатов проекта: повышение эффективности выполнения рутинных операций, снижение финансовых и временных на ведение документооборота, повышение качества обслуживания населения, увеличение производительности труда и эффективности контроля работы сотрудника.