Регистрация / Вход
Прислать материал

Преобразование звукового сигнала в набор мел-частотных кепстральных коэффициентов в задачах распознавания речевых команд

Фамилия
Левицкий
Имя
Владислав
Отчество
Алексеевич
Номинация
Информационные технологии
Институт
Институт информационных технологий и автоматизированных систем управления (ИТАСУ)
Кафедра
Инженерной кибернетики
Академическая группа
ММ-14-2
Научный руководитель
д. к.т.н. Курочкин И.И.
Название тезиса
Преобразование звукового сигнала в набор мел-частотных кепстральных коэффициентов в задачах распознавания речевых команд
Тезис

При решении задачи распознавания речевых команд возникает необходимость в представлении сигналов и сравнении звуковых последовательностей с образцами наиболее оптимальным способом. Методы, основанные на спектрально-временных признаках, не могут гарантировать хорошего результата.

Для наиболее точной характеристики звукового сигнала используются кепстральные признаки. Их главная задача — описание эмоциональной окраски речи, например фон или высота звука. Кепстральные признаки основаны на эмпирическом восприятии звука человеческим органом слуха [1]. Мел — это психофизическая единица высоты звука. Частота звука, измеряемая в герцах, может быть преобразована в высоту звука по формуле:

  \(m = 1127,01048 ln (1+f/700)\), где \(f\)— частота звука (герц), \(m\)— высота звука (мел).

Набор мел-частотных кепстральных коэффициентов является более точным отображением звукового сигнала в цифровом виде. Они описывают мощность спектра и выделяют важные для распознавания фрагменты. Преимуществами данного метода являются сжатие и фильтрация ненужных данных [2].

Рассмотрен алгоритм, реализованный в [3]. Алгоритм состоит из следующих этапов:

1. Применение для сигнала преобразование Фурье (свёртка).

2. Применение набора фильтров, основанных на оконных функциях.

3. Вычисление мел-частотных спектральных коэффициентов.

4. Применение дискретного косинусного преобразования для получения готовых коэффициентов.

 

Будет разработана программа, реализующая данный алгоритм. Результаты могут быть использованы для оценки эмоциональной окраски речи.

 

Литература:

1. Харкевич А. А. Спектры и анализ М: Физматгиз,1963

2. Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, Spoken Language Processing: A Guide to Theory, Algorithm, and System Development, Prentice Hall, 2001

3. Мел-кепстральные коэффициенты (MFCC) и распознавание речи

https://habrahabr.ru/post/226143/