Регистрация / Вход
Прислать материал

Разработка методики обнаружения речевых cпуфинг-атак на основе метода гауссовых смесей

Сведения об участнике
ФИО
Филин Яков Александрович
Вуз
Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Алтайский государственный университет"
Тезисы (информация о проекте)
Область наук
Информационные технологии и вычислительные системы
Раздел области наук
Информационные технологии
Тема
Разработка методики обнаружения речевых cпуфинг-атак на основе метода гауссовых смесей
Резюме
Современные системы голосовой аутентификации имеют потенциальную уязвимость, связанную с использованием злоумышленниками речевых подделок, созданных тем или иным способом. Поэтому особую актуальность приобретает задача повышения качества не только самих биометрических методов аутентификации, но и создание новых подходов к обнаружению поддельных сообщений. Данная работа посвящена созданию методики выявления голосовых подделок, основанной на автоматической классификации речевых фрагментов при помощи моделирования дикторов методом гауссовых смесей и байесовского подхода к принятию решений.
Ключевые слова
система голосовой верификации, голосовые подделки, спуфинг, гауссовы смеси, классификация, байесовские методы
Цели и задачи
Целью научной работы является разработка новой методики выявления голосовых подделок, основанной на классификации речевых сообщений с помощью смесей гауссовых распределений.
Решались задачи:
• Изучение современных методов создания голосовых подделок;
• Обзор существующих методов защиты от спуфинг-атак;
• Выбор оптимального вектора признаков для описания речевых сообщений;
• Создание обобщенных моделей голоса легитимных дикторов и поддельных речевых сообщений злоумышленников для классификации речевых сообщений;
• Оценка качества работы предложенной методики.
Введение

Технологии автоматической верификации диктора на основе речи как биометрической характеристики активно применяются в современных информационных системах. Их преимуществом традиционно считается сложность создания подделок, то есть моделированных речевых образцов, имеющих высокую степень схожести с речью оригинального диктора. Но к настоящему моменту уже существует несколько эффективных технологий синтеза и преобразования речи, способных поставить под угрозу безопасность систем речевой аутентификации. В настоящей работе предлагается методика распознавания речевых подделок, в основе которой лежит создание моделей легитимных дикторов и поддельных речевых сообщений на основе гауссовых смесей

Методы и материалы

В качестве вектора признаков речевого сигнала используются мел-частотные кепстральные коэффициенты (MFCC).  Они позволяют детально и компактно представить спектральные характеристики сигнала в виде набора числовых коэффициентов. При моделирования речевого образца используем 20 коэффициентов.

Для решения задачи моделирования дикторов применялись смеси гауссовых распределений (Gaussian Mixture Models = GMM). GMM стремится аппроксимировать условную вероятность значений вектора признаков для описываемого класса, используя смесь простых гауссовых распределений и представляется взвешенной суммой M нормальных компонент. Для определения класса принадлежности диктора использовался байесовский подход.

Для апробации предложенной методики определения класса злоумышленник/легитимный пользователь модель обучалась с помощью итеративного алгоритма Expectation Maximization на данных речевой базы ASVSpoof Database. В этой базе содержится набор речевых сообщений легитимных пользователей и злоумышленников. Голосовые подделки сгенерированы различными спуфинг-алгоритмами для всех 106 дикторов (45 мужчин и 61 женщин).

При реализации данного алгоритма использовался язык python с применением библиотеки машинного обучения“scikit-learn”. Для вычисления мел-частотных кепстральных коэффициентов использовался пакет python-speech-features.

Описание и обсуждение результатов

Для выбора оптимальных параметров алгоритма проводилось разбиение обучающей выборки на тренировочный (для построения моделей пользователя и злоумышленника) и тестовый (для оценки качества работы) наборы данных.

Варьируемыми параметрами при настройке алгоритма являются типы матриц ковариации (spherical, tied, diag, full) и число ядер гаусса в модели GMM. Критерием качества является точность предсказания класса (легитимный пользователь или злоумышленник), а также ошибки первого (FRR = False Reject Rate) и второго (FAR = False Accept Rate) рода.

Согласно результатам, можно сказать, что оптимальными для применения являются модели, обученные с применением «tied» (17 гауссовых ядер, качеством определения класса 87,8% для тренировочного набора и 87,1% для тестового, FRR = 4,28%, FAR = 7,91%) и «full» (7 ядер гаусса с качеством 91,8% для тренировочного и 90,4% для тестового набора, FRR = 2,08%, FAR = 6,14%) матриц ковариации. Они обладают наибольшей точностью предсказания на тренировочном и тестовом множествах (соответственно и минимальными ошибками первого и второго рода).

С точки зрения практического применения рекомендуется использовать тип ковариации «tied», т.к. по сравнению с «full» он требует меньших вычислительных затрат при небольшом отличии в точности предсказания.

Преимуществом разрабатываемого метода является моделирование большого чиста информативных признаков за счет использования относительно простой GMM-модели с небольшим числом компонент.

Данная разработка может использоваться как средство биометрического подтверждения личности и применяться в системах контроля доступа к секретной информации: в качестве средства защиты мобильных устройств и информации, организации допуска к секретным объектам или объектам с ограниченным доступом и т.д.

Развитие данной работы может быть направлено на подбор более информативного вектора признаков (использование супер-векторов и т.д.), и оптимизацию методов принятия решений (например, комбинирование различных классификаторов).

Используемые источники
1. Reynolds D. A., Quatieri T. F., Dunn R. B. Speaker verification using adapted Gaussian mixture models //Digital signal processing. – 2000. – Т. 10. – №. 1. – С. 19-41.
2. Moon T. K. The expectation-maximization algorithm //Signal processing magazine, IEEE. – 1996. – Т. 13. – №. 6. – С. 47-60.
3. Z. Wu, N. Evans, T. Kinnunen, J. Yamagishi, F. Alegre, and H. Li, “Spoofing and countermeasures for speaker verification: A survey,” Speech Communication, Vol. 66, no. 0, pp. 130– 153, 2015.
4. Филин Я.А., Лепендин А.А.. Применение модели гауссовых смесей для верификации диктора по произвольной речи и противодействия спуфинг-атакам / Многоядерные процессоры, параллельное программирование, ПЛИС, системы обработки сигналов // Сборник статей Международной научно-практической конференции. – Барнаул: Изд-во Алт. Ун-та. 2016. – С. 64-66
Information about the project
Surname Name
Filin Jacob
Project title
Development of the speech spoofing attacks detection method using the gaussian mixture models
Summary of the project
The modern voice authentication systems have a potential vulnerability related to the use of speech intruders fakes created by different methods. Therefore particularly urgent task of improving the quality of biometric authentication methods and the creation of new approaches to the detection of counterfeit messages. This work is dedicated to the creation of methods to identify fakes voice based on automatic classification of speech fragments with speaker’s simulation method of Gaussian mixtures and the Bayesian approach to decision making
Keywords
voice verification system, voice fakes, spoofing, Gaussian mixtures, classification, Bayesian methods