Регистрация / Вход
Прислать материал

Идентификация диктора по голосу на основе расчета MFCC и искусственных нейронных сетей

Сведения об участнике
ФИО
Красавин Никита Сергеевич
Вуз
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Рязанский государственный радиотехнический университет"
Тезисы (информация о проекте)
Область наук
Информационные технологии и вычислительные системы
Раздел области наук
Информационные технологии
Тема
Идентификация диктора по голосу на основе расчета MFCC и искусственных нейронных сетей
Резюме
В рамках данной научной работы разрабатывается система идентификации диктора по голосу на основе расчета мел-частотных кепстральных коэффициентов, которые выбраны в качестве признаков речи диктора. Также используется технология искусственных нейронных сетей. Создаваемая система реализует текстозависимую идентификацию диктора. На вход системы поступают конечные по времени выборки речевых сигналов. На выходе определяется идентификатор диктора, поставленный в соответствие входному речевому отрезку. В ходе работы система тестируется на наличие ошибок идентификации.
Ключевые слова
идентификация диктора; MFCC; нейронные сети; биометрия; защита информации
Цели и задачи
В рамках данной научной работы необходимо разработать и провести тестирование системы идентификации диктора по голосу на основе MFCC и искусственной нейронной сети.
Введение

В настоящее время для защиты информации, содержащейся в информационных системах, используются всё более разнообразные как программные, так и аппаратные средства защиты. Особое внимание уделяется биометрическим средствам защиты, технологии которых основываются на уникальности биологических характеристик каждого отдельно взятого человека. Одной из таких характеристик является голос. В связи с тем, что все люди имеют разные размеры голосовых связок, разную структуру резонирующих органов, произнесённые ими звуки и слова также обладают различными акустическими свойствами. Таким образом, записанный образец человеческой речи даёт возможность однозначно идентифицировать своего владельца – диктора.

Методы и материалы

Метод формирования вектора признаков на основе расчета мел-кепстральных частотных коэффициентов (MFCC – Mel-frequency cepstral coefficients) широко применяется для решения задач, связанных с выделением уникальных частотных свойств аудио сигналов. С помощью него также можно сформировать набор данных, описывающих речь диктора.

Для записи речевых выборок на компьютер и для расчета вектора признаков MFCC в рамках данной работы написано приложение, реализованное на языке C# с использованием среды MS Visual Studio 2013.

Полученный вектор признаков необходимо отнести к одному из классов, т.е. привязать к конкретному диктору. Такие задачи, как правило, решаются с помощью технологий машинного обучения. В данной области широко применяются искусственные нейронные сети. Для решения задачи классификации необходимо определить параметры нейронной сети и построить её топологию, а также выбрать подходящий метод её обучения.

Для создания, обучения и тестирования искусственной нейронной сети в рамках данной работы используется встроенный интерфейс NNTool среды Matlab R2016a.

В обучении и тестировании нейронной сети для оценки качества работы данной системы участвуют 5 дикторов: 4 из них мужского пола, 1 – женского.

Для записи речевых образцов дикторов в данной работе используется следующее аппаратное обеспечение: ноутбук на базе ОС Windows 10, внешняя звуковая карта Steinberg UR21 и конденсаторный микрофон AKG C3000.

Описание и обсуждение результатов

Как известно, много информации об аудио сигнале можно получить из его частотного спектрального представления. Речь каждого человека в силу уникального строения голосового аппарата имеет отличительные свойства, в частности частотные. Именно поэтому в рамках данной работы решено выбрать метод выделения признаков, основанный на частотном анализе полученного образца речи диктора.

Полученный вектор признаков необходимо отнести к одному из классов, т.е. привязать к конкретному диктору. Такие задачи, как правило, решаются с помощью технологий машинного обучения. В данной области широко применяются искусственные нейронные сети. Данная технология обладает высокой гибкостью и скоростью работы. Для программной реализации нейронной сети на данный момент существует ряд программ-нейроимитаторов, а также готовых библиотек и классов для построения и обучения нейронных сетей с помощью языков программирования. По вышеуказанным причинам в научной работе было решено использовать нейросетевой метод классификации.

Процесс обучения нейронной сети заключается в предоставлении готовых входных векторов признаков и заведомо верных для данных признаков результирующих значений. Выбранное количество обучающих выборок для каждого диктора равно 20. В сумме для обучения на вход нейронной сети подается 100 выборок, на выход – также 100 соответствующих им кодовых значений.

Все дикторы при записи обучающих и тестирующих выборок произносили одну и ту же фразу: «Один, два, три». Перед системой идентификации стоит задача распознавания диктора, который её произнёс. Таким образом реализуется технология текстозависимой идентификации диктора.

Запись всех речевых выборок на компьютер производилась с помощью разработанного в рамках данной научной работы приложения. С помощью него были сформированы векторы признаков MFCC для каждой выборки.

Созданная программно свёрточная нейронная сеть была обучена за 9 эпох.

Для тестирования нейронной сети используем по 5 векторов признаков MFCC речевых выборок дикторов. Для каждого диктора формируем массив из 5 векторов MFCC и тестируем обученную нейронную сеть. Результаты тестирования показали, что при данных условиях нейронная сеть распознаёт дикторов без ошибок.

Проведённое научное исследование показало, что система, построенная на технологии идентификации диктора на основе расчёта MFCC и искусственной нейронной сети, безошибочно классифицирует речевые выборки небольшого количества дикторов. Следовательно, данную технологию можно использовать в качестве дополнительного средства защиты в программных системах разграничения доступа. В совокупности с другими средствами защиты рассмотренный метод позволит уменьшить вероятность несанкционированного доступа к защищаемой информации.

Используемые источники
1) Ручай А.Н. Текстозависимая верификация диктора. Разработка, исследование и реализация биометрической системы разграничения прав доступа - LAP LAMBERT Academic Publishing, 2012, – 144с.
2) Ульянов Д.В. Исследование и разработка метода автоматической верификации личности на основе искусственных нейронных сетей – Московский государственный университет имени М.В. Ломоносова, Москва, 2015, – 37с.
3) Козлов А.В. Система идентификации дикторов по голосу для конкурса NIST SRE 2012 / Кудашев О.Ю. и др. // Труды СПИИРАН. – 2013. – №2(55). – С. 350–370.
4) Коновалов А. Ю. Программный комплекс для анализа и распознавания речевых сигналов с применением вейвлет-преобразования / А. Ю. Коновалов, С. А. Запрягаев // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии – 2009. – No 1. – С. 199–107.

Information about the project
Surname Name
Krasavin Nikita
Project title
Speaker identification using MFCC calculation and artifical neural networks
Summary of the project
This research contains developing of a speaker identification system based on the calculation mel-frequency cepstral coefficients. Also used artificial neural networks technology. Neural network technology provides flexibility and high work speed. Thats why this technology used in the research in purpose of solving classification problems. The created system implements text-dependent speaker identification. The system takes speech sample to the input and returns ID of recognized speaker. During operation, the system is tested for the presence of identification errors.
Keywords
speaker identification; MFCC; neural networks; biometrics; information security