Регистрация / Вход
Прислать материал

Реализация предсказателей кодеков речи на основе нейронных сетей

Сведения об участнике
ФИО
Сазонова Екатерина Сергеевна
Вуз
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Рязанский государственный радиотехнический университет"
Тезисы (информация о проекте)
Область наук
Информационные технологии и вычислительные системы
Раздел области наук
Информационные технологии
Тема
Реализация предсказателей кодеков речи на основе нейронных сетей
Резюме
Предложена реализация алгоритма предсказания речевых сигналов в кодерах речи на основе искусственных нейронных сетей (ИНС). Показаны преимущества реализации предсказателей на базе ИНС по сравнению с известными предсказателями на основе нерекурсивных КИХ-фильтров. Доказана возможность уменьшения порядка предсказания от 10% до 60% при той же ошибке, и снижение ошибки предсказания от 15% до 70% при том же порядке при реализации предсказателей на основе ИНС. Достигнуто увеличение субъективной оценки качества РС по шкале MOS.
Ключевые слова
искусственные нейронные сети, персептрон, линейная регрессионная сеть, нерекурсивный КИХ-фильтр, предсказатель, речевые сигналы.
Цели и задачи
Целью работы является анализ возможности предсказателей РС в кодерах речи на базе ИНС. Задачей работы является реализация предсказателей кодеков речевых сигналов на базе ИНС
Введение

 Предсказатели являются одной из основных частей современных кодеров источника информации в виде речевых сигналов (РС) [1-4]. Для увеличения точности предсказания могут быть использованы искусственные нейронные сети (ИНС). ИНС представляют собой весьма перспективную вычислительную технологию, дающую новые подходы к исследованию различных динамических задач [5, 6].  Способность к моделированию нелинейных процессов, работе с зашумленными данными и адаптивность дают возможности по применению ИНС при решении широкого класса задач [7]. Помимо этого, ИНС применяются в ситуациях, когда невозможно точно установить зависимость между входными и выходными данными, как, например, при задаче предсказания отсчетов РС. 

Методы и материалы

Известно, что для задач регрессии рекомендуется использовать такие типы архитектур ИНС, как многослойный персептрон, и линейную сеть [8].

Модель нейрона имеет сходство с адаптивным линейным сумматором что позволяет сделать вывод, о возможности применения ИНС для реализации предсказателя РС.

В данном исследовании были рассмотрены архитектуры нейронных сетей типа многослойный персептрон,и линейная регрессионная сеть, рекомендованные в [8] в качестве предсказаетлей.

Многослойный персептрон является классической многослойной сетью с полными последовательными связями нейронов с сигмоидальной функцией активации.

Линейная регрессионная сеть является частным случаем персептрона, где в качестве активационной функции используется линейная функция с ограничениями, определяемые минимальными и максимальными значениями массива выходных данных. Для обеспечения динамики ИНС между скрытыми слоями добавлены обратные связи, позволяющие более точно устанавливать зависимости между входными и выходными данными.

Описание и обсуждение результатов

После обучения ИНС типа многослойный персепрон был проведен эксперимент, который соответствует неадаптивному методу кодирования РС ДИКМ без передачи коэффициентов предсказания. Рассматривалось два варианта реализации предсказателя на приемной стороне:

- с обучением ИНС как на передающей так и на принимающей стороне, значения векторов смещения и весов ИНС-предсказателей на приёмной и передающей сторонах различны.

- с обучением ИНС только на передающей стороне, значения векторов смещения и весов ИНС-предсказателя на приёмной стороне полностью соответствуют  значениям векторов смещения и весов ИНС-предсказателя на передающей;

Полученные результаты позволили сделать вывод, что существенных различий между схемами с обучением и без обучения ИНС-предсказателя на приемной стороне не наблюдается. Таким образом, можно использовать схему без обучения на приемной стороне, чтобы не усложнять нейросетевую реализацию предсказателя. Так же очевидно преимущество предсказателя, спроектированного на базе ИНС типа многослойный персептрон, перед известным нерекурсивным КИХ-фильтром предсказателем, так возможно уменьшить порядок предсказателя от 20% до 50% при той же ошибке предсказания.

В отличии от многослойного персептрона линейная регрессионная сеть не нуждается в обучении, так как самоорганизуется и адаптируется в зависимости от исходных входных и выходных массивов данных. Таким образом данная сеть может быть использована для реализации адаптивного предсказателя. В данном случае для реализации схемы эксперимента с помощью предсказателя  на основе нерекурсивного КИХ-фильтра необходимо создать низкоскоростной канал для передачи коэффициентов предсказания. В связи с этим было рассмотрено две реализации организации предсказателя на базе линейно-регрессионной ИНС:

- с передачей коэффициентов весов и векторов смещения ИНС после адаптации на передающей стороне;

- с адаптацией ИНС на приемной стороне.

На основе результатов эксперимента был сделан вывод, что адаптивный ИНС-предсказатель обеспечивает более высокие результаты по сравнению с известным предсказателем на основе нерекурсивного КИХ-фильтра при этом не требуя организации дополнительного низкоскоростного канала для передачи коэффициентов предсказания, что является его существенным преимуществом. Ошибка предсказания линейной регрессионной сети существенно зависит от количества отсчетов по которым происходит адаптация. Наилучшие результаты достигнуты при адаптации по 1000 отсчетам, что при частоте дискретизации 8 кГц составляет 125 мс. Таким образом, можно сделать вывод, что линейная регрессионная сеть может быть применена в качестве адаптивного предсказателя. Помимо этого ИНС данной архитектуры при условии адаптации на приёмной стороне позволяет снизить ошибку предсказания от 15% до 70% при том же порядке или уменьшить порядок предсказания на 10%  60% при той же ошибке. 

Используемые источники
1. Кириллов С.Н., Стукалов Д.Н. Цифровые системы обработки речевых сигналов/
2. ITU-T Recommendation G.726. 40, 32, 24, 16 kbit/s
3. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов.
4. Кагановский Ю. Д. Применение модели линейного предсказания для анализа стохастических сигналов
5. Данилин С.Н., Макаров М.В., Щаников С.А. Проектирование технических средств с нейросетевой архитектурой при искажении шумами входной информации.
6. Кириллов С.Н., Попова Е.С. Нейросетевая реализация кодера речевых сигналов адаптивного к уров-ню акустических шумов. /
7. Осовский С.Нейронные сети для обработки информации
8. Строгонов А Использование нейронных сетей для прогнозирования деградации выходных параметров ТТЛ ИС в системе MATLAB/Simulink.
9. Дьяконов В. П., Абраменкова И. В., Круглов В. В. MATLAB 5.3.1 с пакетами расширений.
Information about the project
Surname Name
Sazonova Ekaterina Sergeevna
Project title
NEURAL NETWORKS PREDICTOR SPEECH SIGNALS.
Summary of the project
The theoretical and practical aspects of design and optimization structures of neural network implementations predictors of speech signals. Justify bath implementation advantages predictors based on artificial neural networks compared with known predictors based on non-recursive FIR filters. In proved possible to reduce the prediction order of 10% to 60% at the same error, and the prediction error reduction from 15% to 70% at the same manner.
Keywords
artificial neural network, perceptron, linear regression network, FIR filter, predictor, voice signals.