Регистрация / Вход
Прислать материал

Исследование и разработка технологии преобразования русской речи в транскрипционное представление с метаданными для автоматического распознавания речевых команд в робототехнике и промышленности для мобильных и облачных платформ.

Номер контракта: 14.579.21.0058

Руководитель: Балакин Александр Владимирович

Должность руководителя: научный сотрудник

Докладчик: Балакин Александр Владимирович, заместитель директора по научной работе

Аннотация скачать
Постер скачать
Презентация скачать
Ключевые слова:
распознавание речевых команд, робототехника, обработка естественного языка, понимание естественного языка, помехоустойчивое распознавание речи, шумоочистка, голосовое управление, транскрипционное представление, метаданные.

Цель проекта:
• Разработка нового метода и новых алгоритмов автоматического распознавания речевых команд (АРРК) в области создания новых технологий работы с мультимедийной информацией, обеспечивающих существенное ослабление актуальной проблемы ложных тревог в условиях действия внешних акустических помех; • Создание технологии автоматического распознавания речевых команд с повышенной точностью и надежностью голосового способа управления робототехникой и с использованием типового набора программно-аппаратных средств.

Основные планируемые результаты проекта:
• Новый метод защиты от акустических помех для повышения точности и надежности распознавания речевых команд;

• Новые алгоритмы распознавания речевых команд для:
- Облачной платформы;
- Мобильной платформы (автономное распознавание);

• Проект ТЗ на ОКР.

Краткая характеристика создаваемой/созданной научной (научно-технической, инновационной) продукции:
• Глубокие нейронные сети (DNN), сверточные нейронные сети (CNN) – повышение устойчивости к шуму и лучшее быстродействие;

• Ресурсоэффективные методы шумоподавления для использования на мобильных платформах на основе алгоритма факторизации матриц с линейными ограничениями;

• Графические ускорители – аппаратное ускорение и параллелизация вычислений на основе технологии Nvidia CUDA – скорость распознавания в 2-3 раза выше в сравнении с обычными серверными процессорами.

Назначение и область применения, эффекты от внедрения результатов проекта:
Эффекты от внедрения результатов проекта:

• Планируемые к созданию новые метод и алгоритмы преобразования русской речи в транскрипционное представление с метаданными для автоматического распознавания речевых команд позволят повысить точность и надежность работы систем автоматического распознавания речевых команд (АРРК);

• Промышленное освоение результатов проекта позволит повысить производительность труда и качество жизни за счет распространения применения речевых человеко-машинных интерфейсов в промышленных и бытовых роботах во многих сферах жизнедеятельности человека.

Перспективы коммерциализации:

• В мобильных устройствах;
• В роботах;
• Облачный сервис.

Текущие результаты проекта:
• Проведены теоретические исследования и теоретико-информационное обоснование новых алгоритмов АРРК повышенной точности и надежности, в которых решается проблема ложных тревог за счет применения специальных средств защиты от акустических помех;

• Разработан алгоритм автоматического распознавания речевых команд для мобильных платформ (АРРК МП) предназначен для автоматического распознавания речевых команд в автономном режиме на процессорах с пониженным энергопотреблением;

• Разработан алгоритм автоматического распознавания речевых команд для облачных вычислений (АРРК ОВ) предназначен для автоматического распознавания речевых команд в режиме непрерывной работы как облачного сервиса, поддерживающего масштабируемую и распределенную архитектуру;

• Разработан метод защиты от акустических помех (ЗАП) предназначен для повышения точности и надежности АРРК в системах голосового управления робототехникой;

• Разработана методика адаптивной настройки на голос диктора (АНГД) предназначена для адаптации алгоритмов АРРК на голос конкретного диктора с целью повышения точности и надежности голосового управления робототехникой.