Регистрация / Вход
Прислать материал

Исследование и разработка системы аудиовизуального распознавания речи на базе микрофона и высокоскоростной видеокамеры

Номер контракта: 14.616.21.0056

Руководитель: Карпов Алексей Анатольевич

Должность: Заведующий лабораторией речевых и многомодальных интерфейсов

Аннотация скачать
Постер скачать
Ключевые слова:
автоматическое распознавание речи, аудиовизуальная речь, многомодальная система, объединение информации, речевые технологии

Цель проекта:
Существующие системы автоматического распознавания речи значительно уступают речевым способностям человека, что свидетельствует об их недостаточной адекватности и делает применение речевых технологий малоэффективным. Поэтому, в рамках данного проекта разрабатывается математическое, программное и информационное обеспечение системы аудиовизуального распознавания русской речи нового поколения, которая объединяет методы обработки звучащей речи и автоматического чтения речи по губам диктора. Целью проекта является создание системы аудиовизуального распознавания речи на базе микрофона и высокоскоростной видеокамеры для повышения точности автоматического распознавания речи и речевых команд на русском языке, а также повышения робастности к различным акустическим шумам.

Основные планируемые результаты проекта:
- Аналитический обзор современной научно-технической, нормативной, методической литературы и патентные исследования.
- Усовершенствованные методы и алгоритмы определения границ речи в аудиовизуальном сигнале, параметрического представления аудио- и видеосигналов для многомодального распознавания речи, аудиовизуального распознавания речи на основе вероятностных моделей акустических и визуальных единиц речи.
- Программное обеспечение системы аудиовизуального распознавания слитной русской речи и программное обеспечение для записи аудиовизуального корпуса речи.
- Многодикторный аудиовизуальный корпус (база данных) слитной русской речи для обучения системы.
- Автоматическая система (программно-аппаратный комплекс) аудиовизуального распознавания русской речи на базе цифрового микрофона Октава и высокоскоростной видеокамеры JAI Pulnix (обеспечивает до 200 кадров в сек. при оптическом разрешении 640x480 пикселей).

Краткая характеристика создаваемой/созданной научной (научно-технической, инновационной) продукции:
Разрабатываемая система аудиовизуального распознавания русской речи будет функционировать на базе цифрового микрофона Октава и высокоскоростной видеокамеры JAI Pulnix. Автоматическая система должна позволять автоматически распознавать русскую речь в диалоговых приложениях с малым и средним словарем (до тысячи речевых команд) с высокой точностью распознавания русской речи (не менее 95%) и скоростью обработки, близкой к реальному масштабу времени. Впервые в мире будет разработана система аудиовизуального распознавания речи, которая использует высокоскоростную видеокамеру для чтения речи по губам диктора.
Создаваемый аудиовизуальный корпус слитной русской речи (речевая база данных) должен содержать записи нескольких десятков дикторов-носителей русского языка. Он будет записан с применением разработанного программного обеспечения, и будет содержать видеофайлы без сжатия (с оптическим разрешением 640x480 пикселей при 100-200 кадрах в секунду, цветность – 24 бита на пиксель), аудиофайлы без сжатия (в формате PCM WAV с частотой дискретизации 16 КГц, 16 бит на цифровой отсчет, моно формат, отношение сигнал/шум SNR - не менее 30 дБ), а также текстовые файлы временной сегментации обучающей части корпуса на фразы, слова, фонемы и виземы.

Назначение и область применения, эффекты от внедрения результатов проекта:
Разрабатываемые решения по аудиовизуальному распознаванию русской речи предназначены для использования отечественными государственными и коммерческими компаниями, в том числе специальными службами (в частности, ФСО и ФСБ, российскими военными структурами). Применение разрабатываемой системы аудиовизуального распознавания речи в ближайшем будущем может дать возможность пользователям осуществлять эффективный вербальный диалог с информационно-справочными системами массового обслуживания (информационные терминалы и инфокиоски в аэропортах, авто- и железнодорожных станциях, метро и т.д.). Актуально применение системы аудиовизуального распознавания речи в интеллектуальных информационных киосках, которые, как правило, устанавливаются в довольно многолюдных местах (вестибюлях, залах и т.д.), где невозможно соблюдать хорошие акустические условия. Также возможно использование системы распознавания для автоматического создания телетекста телевизионных передач (например, новостных программ), что актуально для людей с ограниченными возможностями по слуху. Возможной областью применения системы также является интеллектуальное управление робототехническими системами и комплексами, снабженными аудио- и видеосенсорами.

Текущие результаты проекта:
Проект начался в ноябре 2015 года.
В настоящее время выполняется аналитический обзор современной научно-технической, нормативной, методической литературы, затрагивающей научно-техническую проблему, исследуемую в рамках работ, и проводятся патентные исследования.
Анализ более 150 зарубежных и отечественных научных источников, из которых 60 опубликовано в период 2010-2015 гг., показал, что задача распознавания речи остается пока нерешенной, а предлагаемый подход и разрабатываемая система аудиовизуального распознавания русской речи являются оригинальными.