Регистрация / Вход
Прислать материал

Разработка технологии автоматической кластеризации голосов дикторов в массивах неразмеченных данных для решения задач голосовой биометрии

Номер контракта: 14.578.21.0126

Руководитель: Матвеев Юрий Николаевич

Должность: Доцент

Организация: федеральное государственное автономное образовательное учреждение высшего образования "Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики"
Организация докладчика: Федеральное государственное автономное образовательное учреждение высшего образования "Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики"

Аннотация скачать
Постер скачать
Ключевые слова:
голосовая биометрия, голосовая модель, пространство полной изменчивости, идентификация личности, кластеризация дикторов по голосу, вероятностный анализ, дискриминантный анализ, фонограмма, автоматизация, эталон, речевые сигналы

Цель проекта:
Большинство известных к настоящему моменту способов, устройств и систем текстонезависимой идентификации личности по голосу не обеспечивают решения задач с высоким уровнем качества в полностью автоматическом режиме. Однако потенциальный рынок, в котором востребованы результаты настоящей работы, постоянно растет: это колл-центры самообслуживания, биометрические документы, защищенный доступ к корпоративным ресурсам, потребности органов безопасности. Цель исследования заключается в разработке новых и эффективных методов автоматической кластеризации голосов дикторов в массивах неразмеченных данных для дальнейшей идентификации личности. Предлагаемые методы кластеризации голосов дикторов позволят сделать существенный скачок в объеме данных, используемых для обучения систем идентификации по голосу, и, как следствие, повысить надежность голосовой биометрии.

Основные планируемые результаты проекта:
В ходе выполнения ПНИЭР должны быть проведен обзор и анализ современной научно-технической, нормативной, методической литературы, проведены патентные исследования, а также разработаны группы алгоритмов: кластеризации дикторов по голосу на неразмеченных массивах фонограмм, обучения «без учителя» систем автоматической идентификации по голосу, оценки мультисессионной голосовой модели диктора, в том числе по кластеризованным речевым данным, автоматического выделения голоса абонента в массивах записей его телефонных переговоров, сегментации и определения количества дикторов на фонограмме.
Основные характеристики планируемых результатов:
реализованные алгоритмы автоматической кластеризации должны обрабатывать массивы размером до 100000 фонограмм;
алгоритмы автоматического создания модели голоса диктора должны обеспечить создание мультисессионных моделей, которые обеспечивают уровень равновероятной ошибки идентификации по голосу не более 7%;
разработанный в ходе НИР алгоритм выделения голоса абонента в массивах записей его телефонных переговоров должен показывать значение Purity не менее 85%;
Алгоритмы сегментации и определения количества дикторов на фонограмме должны иметь уровень ошибки разделения дикторов не более 10%.

Краткая характеристика создаваемой/созданной научной (научно-технической, инновационной) продукции:
В качестве конечного продукта, создаваемого с использованием результатов выполнения проекта, планируется платформа биометрической идентификации, предоставляющая следующие возможности: автоматическое построение образцов голоса клиента колл-центра для высоконадежной идентификации; поиск повторяющихся голосов разных клиентов (мошенников) в массивах записей разговоров государственных учреждений, андеррайтинговых агентств и отделов банков, бюро кредитных историй (БКИ); автоматическое построение речевого образца объекта идентификации в системах безопасности; кластеризация дикторов в массивах фонограмм для оценки их количества, гендерного, возрастного распределения и иных статистических данных.
В данной работе решается новая научно-инновационная задача, которая до сих пор никем не решена на российском рынке.
Предлагаемый подход соответствует генеральному направлению данной тематики, его особенностью являются направленность разрабатываемых методов и алгоритмов на улучшение идентификации личности по голосу, в том числе:
- использование больших корпусов баз записей голосов дикторов при разработке и обучении алгоритмов идентификации;
- использование акустической предобработки речевых данных, удаление участков сигнала содержащих искажения и помехи, автоматическое выделение из общей структуры диалога участков речи, принадлежащих разным дикторам.
Предлагаемые алгоритмы кластеризации голосов дикторов в массивах неразмеченных данных аппробировались в рамках международного конкурса голосовых биометрических систем, организованного Национальным Институтом Стандартов и Технологий США в 2014 году NIST i-vector challenge. Система идентификации, обученная с использованием указанных алгоритмов заняла абсолютное первое место в числе более 140 участников из различных стран мира, что подтверждает высокий научный и технический уровень предлагаемого решения.
В процессе выполнения проекта необходимо учитывать многочисленные риски: нерациональный выбор научно-технической концепции и приоритетов задач; снижение научно-технического потенциала: утечка мозгов, старение кадров, угроза несанкционированного использования разрабатываемой технологии, риск невозможности создания конечного продукта по заявленным технологиям.
Риски нивелируются соответствующими мерами противодействия как то участием в проекте ведущих специалистов в исследуемом научно-техническом направлении, опытных менеджеров, правильно выстроенной системой мотивации и привлечением сторонних исполнителей, своевременным патентованием новых решений. Риск невозможности создания конечного продукта по заявленным технологиям минимален, поскольку все базовые результаты, лежащие в основе проекта, теоретически и экспериментально обоснованы и прошли многократную проверку.

Назначение и область применения, эффекты от внедрения результатов проекта:
Результаты работ по проекту позволят создать решения на основе программных платформ, обеспечивающих:
-автоматическое построение образцов голоса оператора колл-центра с целью дальнейшего автоматического выделения речи клиента на моно-записях диалогов;
-автоматическое построение образцов голоса клиента колл-центра для высоконадежной идентификации;
-поиск повторяющихся голосов разных клиентов (мошенников) в массивах записей разговоров государственных учреждений, андеррайтинговых агентств и отделов банков, бюро кредитных историй;
-автоматическое построение речевого образца объекта идентификации в системах безопасности;
-кластеризация дикторов в массивах фонограмм для оценки их количества, гендерного, возрастного распределения и иных статистических данных.
Результаты реализации проекта смогут в дальнейшем помочь в развитии инновационных биометрических технологий, в частности:
-развитие технологий голосовой биометрии: повышение надежности текстонезависимой идентификации и автоматизация процессов создания образцов эталонов голоса;
-создание условий для развития конкурентоспособной отечественной индустрии биометрических технологий: создаваемая программные средства не имеют аналогов ни на отечественном рынке, ни на международном, их реализация позволит говорить о лидерстве отечественных разработчиков в области голосовой биометрии;
-стимулирование использования биометрических технологий на федеральном и региональном уровнях: на базе разрабатываемой программной платформы планируется создание решений для автоматического фоноучета и авторизации пользователей на основе применения голосовой биометрии.
Перечисленные задачи являются актуальными не только в России, но и во всем мире. Интеграция речевых технологий, механизмов биометрического анализа речевых данных, представляется тем направлением, в котором планируется развитие мирового рынка речевых технологий.
Предлагаемый проект позволит обеспечить лидерство Российской Федерации в инновационной сфере голосовой биометрии. Выбранный вариант решения задач совершенствования голосовой биометрии направлен на разработку новых методов кластеризации и вероятностного анализа речи для автоматизации средств создания биометрических голосовых образцов в больших объемах данных, обеспечивающих увеличение объема услуг, предоставляемых автоматическими системами.

Текущие результаты проекта:
Основная деятельность в рамках ПНИЭР в 2015 году посвящена выбору направления исследований. Результаты проекта на текущий момент следующие:
1. Проведен аналитический обзор научно-технической, нормативной и методической литературы, затрагивающей научно-техническую проблему, в частности, статьи и монографии последних лет, посвященные исследованию методов и алгоритмов кластеризации дикторов по голосу. Основное внимание уделено публикациям в журналах Pattern Recognition, сборникам конференций Interspeech и Speecom.
2. Проведены патентные исследования. Основное внимание уделено заявкам на патенты в области голосовых биометрических систем от таких известных компаний как Nuance, Agnitio, Google.
3. Разработаны возможные направления исследований. В частности, произведен сравнительный анализ различных подходов к задаче сегментации фонограмм по голосам дикторов на основе вариационного байесовского и вероятностного линейного дискриминантного анализа. Произведена оценка надежности идентификации по голосу на основе широко используемого подхода с применением универсальной фоновой модели и новейшего метода с использованием т.наз. «глубоких» нейронных сетей.