Регистрация / Вход
Прислать материал

14.616.21.0056

Аннотация скачать
Постер скачать
Общие сведения
Номер
14.616.21.0056
Тематическое направление
Информационно-телекоммуникационные системы
Исполнитель проекта
Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук
Название доклада
Исследование и разработка системы аудиовизуального распознавания речи на базе микрофона и высокоскоростной видеокамеры
Докладчик
Карпов Алексей Анатольевич
Тезисы доклада
Цели и задачи исследования
Научно-исследовательской целью проекта является создание новой системы аудиовизуального распознавания речи на базе микрофона и высокоскоростной видеокамеры для повышения точности автоматического распознавания речи и речевых команд на русском языке, а также повышения робастности системы к различным акустическим шумам.
Основными задачам исследований являются разработка и исследование необходимого математического обеспечения, программного и информационного обеспечения системы аудиовизуального распознавания русской речи на базе методов цифровой обработки аудиосигналов и методов компьютерного зрения для автоматического чтения речи по губам диктора. В ходе исследований планируется получить ряд принципиально новых научно-технических результатов (модели, методы, система, база данных и т.д.) по аудиовизуальному распознаванию речи, предназначенных для цифровой обработки речи не только на русском языке.
Проект выполняется с участием научно-исследовательских организаций и университетов стран-членов ЕС в рамках двустороннего научно-технического сотрудничества со странами-членами ЕС. Иностранным партнером проекта выступает Западночешский университет (University of West Bohemia, www.zcu.cz), г. Пльзень, Чешская Республика. Соруководителем проекта с чешской стороны является зам. декана факультета прикладных наук Западночешского университета, проф. Милош Железны.
Актуальность и новизна исследования
Системы распознавания речи уже используются в некоторых практических приложениях, однако качество и надежность распознавания речи в реальных условиях функционирования остаются недостаточно высокими, что определяет значимую научно-техническую проблему машинного преобразования разговорной речи в текст. В ряде условий функционирования (низкое качество звукового сигнала, присутствие внешних акустических шумов, посторонних разговоров и т.д.) системы распознавания речи не могут обеспечить приемлемое качество работы даже при применении различных методов фильтрации, шумоподавления и адаптации.
При этом естественная человеческая речь является результатом согласованной работы органов речеобразования (голосовых связок, гортани, легких, губ и языка), и устная речь передается одновременно по звуковому и визуальному каналам-модальностям. Междисциплинарные исследования показывают, что визуальная информация важна для лучшего восприятия и понимания произносимой речи, например, глядя в лицо собеседнику, нам легче понимать его речь. Также известно, что слабослышащие и пожилые люди, а также неносители языка в большей степени опираются на визуальную информацию, выражаемую движениями губ (артикуляция) и органами лица (мимика). Поэтому сейчас во многих странах мира активно ведутся исследования и разработки систем аудиовизуальной распознавания речи для основных мировых языков, что и определяет актуальность и новизну такого исследования и для русской речи.
Описание исследования

Двумя основными направлениями исследования и научно-техническими результатами проекта являются: 1) создание нового многодикторного аудиовизуального корпуса слитной русской речи; 2) разработка и исследование автоматической системы аудиовизуального распознавания русской речи.

Созданный в ходе проекта аудиовизуальный корпус слитной русской речи (база данных HAVRUS - High-Speed Recordings of Audio-Visual Russian Speech) содержит записи более 20 дикторов-носителей русского языка. Аудиовизуальная речевая база данных записана с применением разработанного программного обеспечения, и содержит видеофайлы (без сжатия с формате AVI, с оптическим разрешением 640x480 пикселей при 200 кадрах в секунду, цветность – 24 бита на пиксель), аудиофайлы (без сжатия в формате PCM WAV, частота дискретизации – 44050 Гц, 16 бит на цифровой отсчет, формат моно, отношение сигнал/шум SNR > 30 дБ), а также текстовые файлы c полуавтоматически выполненной сегментацией данных обучающей части корпуса на уровнях фраз, слов, фонем и визем. Для записи и аудио- и видеоданных дикторов было разработанного прикладное программное обеспечение AVSpeechDB Record, которое уже получило государственную регистрацию в Роспатенте № 2016613811 от 06.04.2016, и применяется высокоскоростная видеокамера JAI Pulnix и цифровые динамические микрофоны Октава МК-012.

Разрабатываемая в проекте автоматическая система аудиовизуального распознавания русской речи функционирует на базе цифрового микрофона и высокоскоростной видеокамеры (семейства JAI). Впервые в мире создается система аудиовизуального распознавания речи, которая использует высокоскоростную видеокамеру для чтения речи по губам диктора. Для системы распознавания были усовершенствованы современные методы и компьютерные алгоритмы определения границ речи в аудиовизуальном сигнале, параметрического представления аудио- и видеосигналов для многомодального распознавания речи, аудиовизуального распознавания речи на основе вероятностных моделей акустических, визуальных и аудиовизуальных единиц речи. Вероятностное моделирование в системе основано на различных разновидностях скрытых марковских моделей (СММ), таких, например, как сдвоенные скрытые марковские модели (ССММ, Coupled Hidden Markov Models) и смесях гауссовских распределений (GMM). Создаваемая автоматическая система позволить автоматически распознавать русскую речь в диалоговых приложениях с малым и средним словарем (десятки и сотни слов) с высокой точностью распознавания слитной русской речи (уровень ошибки не должен быть более 5%) и скоростью обработки, близкой к реальному масштабу времени.

Результаты исследования

Полученными и ожидаемыми результатами исследования являются:

- Аналитический обзор современной научно-технической, нормативной, методической литературы, содержащий более 120 ссылок на современные публикации по теме проекта.

- Результаты патентных исследований в форме патентных отчетов.

- Усовершенствованные методы и компьютерные алгоритмы определения границ речи в аудиовизуальном сигнале, параметрического представления аудио- и видеосигналов для многомодального распознавания речи, аудиовизуального распознавания речи на основе вероятностных моделей акустических и визуальных единиц речи.

- Программное обеспечение для записи аудиовизуального корпуса речи (разработано на языке программирования C++).

- Комплекс программного обеспечения (на языке программирования С/C++/C# для операционной системы семейства Microsoft Windows 64 bit) системы аудиовизуального распознавания слитной русской речи.

- Многодикторный аудиовизуальный корпус (база данных HAVRUS) слитной русской речи для обучения вероятностных моделей системы распознавания речи, содержащая аудио- и видеозаписи речи 20 дикторов-носителей русского языка.

- Автоматическая система (программно-аппаратный комплекс) для аудиовизуального распознавания русской речи на базе высокоскоростной видеокамеры JAI Pulnix (обеспечивает 200 кадров в секунду при разрешении 640x480 пикселей) и цифрового микрофона.

Научные результаты соответствуют передовому мировому уровню. К научным результатам проекта также следует отнести:

- Цикл публикаций по результатам проекта в международных изданиях, индексируемых в базах данных Scopus и Web of Science: 1) Karpov A., Ronzhin Al., Kipyatkova I., Ronzhin A., Verkhodanova V., Saveliev A., Zelezny M. Bimodal Speech Recognition Fusing Audio-Visual Modalities // Lecture Notes in Computer Science, Springer, vol. 9732, 2016, pp. 170-179.; 2) Verkhodanova V., Ronzhin Al., Kipyatkova I., Ivanko D., Karpov A., Železný M. HAVRUS Corpus: High-Speed Recordings of Audio-Visual Russian Speech // Lecture Notes in Computer Science, Springer, vol. 9811, 2016, pp. 338-345.; 3) Ronzhin A., Vatamaniuk I., Zelezny M. Implementation of Face Recognition Methods as a First Step for Human Behaviour Analysis in Intelligent Room // In Proc. 24th International Conference in Central Europe on Computer Graphics, Visualization and Computer Vision WSCG-2016 (poster), Pilsen, Czech Republic, 2016, pp. 61-64.

- Участие с докладами в международных научных конференциях и апробация результатов исследований: устный доклад «Bimodal Speech Recognition Fusing Audio-Visual Modalities» на 18-й международной конференции по человеко-машинному взаимодействию HCI International 2016 (Торонто, июль 2016); устный доклад «HAVRUS Corpus: High-Speed Recordings of Audio-Visual Russian Speech» на 18-й международной конференции «Речь и Компьютер» SPECOM-2016 (Будапешт, август 2016); стендовый доклад «Implementation of Face Recognition Methods as a First Step for Human Behaviour Analysis in Intelligent Room» на 24-й международной конференции по компьютерной графике, визуализации и компьютерному зрению WSCG-2016 (Пльзень, май 2016).

- Государственная регистрация РИД в Роспатенте: программа для ЭВМ «Программное обеспечение для записи дикторов-носителей с применением высокоскоростной видеокамеры и цифрового микрофона (AVSpeechDB Record)», свидетельство о государственной регистрации № 2016613811 от 06.04.2016, правообладатель – СПИИРАН.

Практическая значимость исследования
Разрабатываемые решения по аудиовизуальному распознаванию русской речи предназначены для использования отечественными коммерческими индустриальными компаниями и государственными организациями, в том числе специального назначения. Применение разрабатываемой системы аудиовизуального распознавания речи в ближайшем будущем может дать возможность пользователям осуществлять эффективный вербальный диалог с информационно-справочными системами массового обслуживания (информационные терминалы и инфокиоски в аэропортах, авто- и железнодорожных станциях, метро и т.д.). Актуально применение системы аудиовизуального распознавания речи в интеллектуальных информационных киосках, которые, как правило, устанавливаются в довольно многолюдных местах (вестибюлях, залах и т.д.), где невозможно соблюдать хорошие акустические условия. Возможной областью применения системы также является интеллектуальное управление робототехническими системами и комплексами, снабженными аудио- и видеосенсорами. В дальнейшем также предполагается разработка системы бимодального распознавания слитной русской речи с расширенным словарем для автоматического создания телетекста телевизионных передач, что актуально для людей с ограниченными возможностями по слуху.