Регистрация / Вход
Прислать материал

Исследование и разработка технологии преобразования русской речи в транскрипционное представление с метаданными для автоматического распознавания речевых команд в робототехнике и промышленности для мобильных и облачных платформ.

Докладчик: Добротворский Алексей Сергеевич

Должность: Руководитель проектов

Цель проекта:
Целью реализации настоящего проекта является получение новых устойчивых к акустическим шумам технологий распознавания речевых команд на русском языке, пригодных для встраивания в речевые интерфейсы бытовых и промышленных робототехнических систем.

Основные планируемые результаты проекта:
В рамках ПНИ будут получены следующие научно-технические результаты:
- новый метод АРРК повышенной точности и надежности с защитой от внешних акустических помех;
- новые фонетические алгоритмы АРРК для систем голосового управления робототехникой повышенной точности и надежности для мобильных и облачных платформ;

Для решения задач ПНИ в части создания новых методов и алгоритмов АРРК предполагается использование HММ (Hidden Markov models - скрытые марковские модели, СММ), поскольку к настоящему времени для таких моделей разработан мощный математический аппарат и существует много алгоритмов, позволяющих значительно улучшить качество распознавания на основе этих моделей, например, алгоритм распознавания по решетке слов. В рамках данной работы предполагается использование собственных наработок ООО "Стэл КС" в области распознавания голосовых команд для повышения надежности и точности. При разработке алгоритмов АРРК на основе HММ будут применены усовершенствованные алгоритмы декодирования и методы моделирования акустической и лингвистической информации, модель сети распознавания на основе преобразователей с конечным числом состояний (finite state transducers, FST), а также наиболее эффективные методы на основе нейронных сетей.

Для повышения быстродействия создаваемых алгоритмов при работе на словарях большого объема предполагается использование подхода, включающего поэтапное распознавание: грубая оценка на первом шаге распознавания, затем уточнение результатов; а также использование алгоритма Витерби, реализованного на основе графических процессоров (GPU, graphics processing unit). При этом предполагается также более эффективное использование метода связывания сходных акустических состояний, который позволяет при заданном числе элементарных акустических единиц использовать меньшее число математических моделей, которые их полностью описывают, что позволит достигнуть необходимого быстродействия на ресурсоограниченных мобильных платформах.

Кроме того, для повышения надежности создаваемых и используемых алгоритмов и осуществления быстрой адаптации АРРК к голосу диктора будет реализована возможность непрерывного обучения АРРК. Практический опыт работы в исследовании дикторонезависимых систем распознавания речи показал, что как бы велика ни была обучающая база данных, найдется пользователь, речь которого система будет распознавать с точностью значительно более низкой, чем средняя точность ее работы. Очевидно, что вариации голоса человека столь разнообразны, что не предоставляется возможности собрать столь содержательную базу данных, способную эти вариации компенсировать. В данных условиях наиболее эффективным решением представляется реализация возможности накопления АРРК собственного речевого опыта. Использование отношения правдоподобия предоставляет возможность проводить предварительное обучение на основе фиксированной базы данных, а затем проводить непрерывное обучение, где в качестве обучающих данных выступают положительные результаты распознавания.

Большинство современных систем распознавания речи используют HMM, имеющие дело с временной изменчивостью речи, и модель гауссовых смесей (Gaussian mixture model, GMM), устанавливающих на сколько хорошо каждое состояние каждой HMM соответствует входным акустическим данным, в качестве которых применяются мел-кепстральные коэффициенты (mel-frequency cepstral coefficients, MFCC), коэффициенты перцептивного предсказания (perceptual linear prediction, PLP). Альтернативным подходом в оценке соответствия являются глубинные нейронные сети (deep neural network, DNN). За последние несколько лет, развитие в области алгоритмов машинного обучения и параллельных вычислений, в частности на графических ускорителях (graphics processing unit, GPU) привело к появлению более эффективных методов обучения глубинных нейронных сетей, содержащих множество скрытых слоев с нелинейными скрытыми узлами и очень большим выходным слоем. Наличие нескольких скрытых слоев с большим количеством узлов дает возможность моделировать сложные и нелинейные зависимости между входными и выходными данными. Большой выходной слой требуется для того, чтобы вмещать большое количество HMM, возникающее при моделировании каждой фонемы разным количеством трифонов. Обучение глубинной нейронной сети проводится в два этапа. На первом этапе выполняется послойное обучение стека генеративных моделей, в качестве которых используются ограниченные машины Больцмана (restricted Boltzmann machine, RBM). Сначала настраивается ограниченная машина Больцмана с непрерывными наблюдаемыми переменными (gaussian restricted Boltzmann machine, GRBM), бинарные переменные скрытого слоя GRBM используются как наблюдаемые переменные для обучения следующей RBM и так далее. При обучении генеративных моделей информация о HMM состояниях не используется, что позволяет задействовать в процессе их настройки неразмеченные данные. На втором этапе параметры, полученные при обучении генеративных моделей, используются для инициализации параметров DNN, после чего происходит финальная настройка выбранным дискриминационным методом. На завершающем этапе используется информация о HMM состояниях, чтобы более точно настроить модель.

Для достижения существенного повышения точности и надежности распознавания команд (и слитной речи) в АРРК будут использованы алгоритмы повышения помехоустойчивости распознавания речи, в том числе:
- Шумоподавляющие автоэнкодеры. Данная технология основана на применении метода глубоких нейронных сетей для получения акустических признаков речевого сигнала. Идея состоит в том, чтобы при помощи тренировки модели на достаточно большом объеме отекстованных речевых данных (не менее 10 часов речи) отобразить исходные речевые признаки, полученные из зашумленного сигнала в аналогичные признаки, как если бы они были получены на чистом сигнале.
- Сверточные нейронные сети. Также используются для получения признаков. Благодаря сверточной структуре входных слоев сети позволяют оценивать параметры фонем с незначительными искажениями на частотно-временной плоскости (например, смещениям формат в связи с нелинейными искажениями канала связи). При правильной настройке на большом объеме размеченных речевых данных сеть может давать эффективный прирост точности распознавания по сравнению с простыми кепстральными подходами.

В условиях нестационарных шумов предполагается использовать метод шумоподавления на основе алгоритма факторизации матриц с линейными ограничениями. В реальных испытаниях на открытой базе данных разработанный метод показал существенное улучшение соотношения сигнал-шум по сравнению с иными подходами к решению задачи повышения качества зашумленного сигнала. Использование этой технологии шумоподавления в задачах получения признаков речевого сигнала для создания моделей показывает эффективность работы в сильно зашумленных условиях, а также в условиях реверберации.
Основной идеей предлагаемого метода является оценка спектральных параметров нестационарного шума и речевого сигнала на основе алгоритма факторизации спектрограммы исходного сигнала. Новизна метода лежит в регуляризации задачи путем введения априорных знаний о внутренней структуре спектра речевого сигнала (напр. такими, как гармоничность), что приводит к существенно более качественным оценкам факторизации, и последующей фильтрации зашумленного сигнала. В отличие от прочих методик повышения устойчивости признаков применяемых в распознавании речи, данная технология обладает рядом преимуществ:
- она не требует дополнительного моделирования на больших объемах данных (как, например, для построения глубоких нейронных сетей);
- поскольку операции проводятся на исходной спектрограмме сигнала, технология не зависит от конкретного вида речевых признаков, а, соответственно, более гибка применительно к различным реализациям предобработок, - кепстральных признаков, автоэнкодеров, сверточных нейронных сетей, т.е. может применяться как отдельно, так и в дополнении к уже существующим методам;
- данная технология проста в реализации, обладает малыми вычислительными затратами (работа в режиме реального времени), а также не ресурсоемка в плане использования памяти.

Назначение и область применения, эффекты от внедрения результатов проекта:
Разрабатываемые в рамках ПНИ технологии АРРК, обладающие повышенной точностью и надежностью, планируется использовать в качестве речевого интерфейса (голосового способа управления, взаимодействия, общения) для широкого спектра робототехнических систем:
1. Системы речевого управления и контроля выполнения различных действий, голосовое управление различными робототехническими механизмами в промышленности.
2. Роботизированные системы интерактивного речевого взаимодействия (interactive voice response, IVR, в том числе и использующиеся в контакт-центрах) для предоставления электронных услуг (государственных, медицинских и др.) и информирования, в том числе лиц с ограниченными возможностями и лиц с социально значимыми заболеваниями.
3. Автоматические справочные службы, обеспечивающие быстрый и точный поиск информации, заданной в произвольном речевом запросе.
4. Роботизированные системы автоматического документирования для государственных учреждений и коммерческих организаций.
5. Системы голосового управления мультимедийными залами, конференц-залами и т.д.
6. Роботизированные системы поиска мультимедийной информации по запросам, сформулированным в произвольной форме.

Текущие результаты проекта:
В данный момент выполняется этап 1 проекта "Выбор направления исследований". В рамках этапа будут получены следующие результаты:
- выполнен обзор современной научно-технической, нормативной, методической литературы, затрагивающей научно-техническую проблему, исследуемую в рамках ПНИ
- выполнен анализ научных разработок, материалов исследований ведущих аналитических агентств, крупных ИТ-компаний и мировых сообществ-разработчиков в области речевых технологий, в том числе методов и алгоритмов АРРК для мобильных и облачных платформ
- обоснован выбор направления исследований и метода ЗАП для АРРК в системах голосового управления робототехникой, функционирующих в условиях мощных помех для мобильных и облачных платформ
- выполнен анализ мобильных, в том числе робототехнических, и облачных платформ, используемых для АРРК
- разработаны предложения по формированию эффективной логики построения голосового общения пользователя и робототехнической системы (в частности, голосового управления) на основе принципов понимания естественного языка (Natural language understanding)