Регистрация / Вход
Прислать материал

14.578.21.0126

Аннотация скачать
Постер скачать
Общие сведения
Номер
14.578.21.0126
Тематическое направление
Информационно-телекоммуникационные системы
Исполнитель проекта
федеральное государственное автономное образовательное учреждение высшего образования "Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики"
Название доклада
Разработка технологии автоматической кластеризации голосов дикторов в массивах неразмеченных данных для решения задач голосовой биометрии
Докладчик
Симончик Константин Константинович
Тезисы доклада
Цели и задачи исследования
Цель исследования заключается в разработке новых и эффективных методов автоматической кластеризации голосов дикторов в массивах неразмеченных данных для дальнейшей идентификации личности. Большинство известных к настоящему моменту способов, устройств и систем текстонезависимой идентификации личности по голосу не обеспечивают решения задач с высоким уровнем качества в полностью автоматическом режиме. Однако потенциальный рынок, в котором востребованы результаты настоящей работы, постоянно растет: это колл-центры самообслуживания, биометрические документы, защищенный доступ к корпоративным ресурсам, потребности органов безопасности.

Внедрение новых методов и средств в большие объемы речевых данных приведет к увеличению объемов и качества услуг, предоставляемых автоматическими системами. С точки зрения стимулирования экономики реализация результатов данной научно-исследовательской работы позволит вывести на рынок новую научно-техническую продукцию, что, в свою очередь, позволит обеспечить промышленность и население новыми видами информационных услуг и создаст благоприятные условия для появления новых импортозамещающих производств.
Актуальность и новизна исследования
Предлагаемые методы кластеризации голосов дикторов позволят сделать существенный скачок в объеме данных, используемых для обучения систем идентификации по голосу, и, как следствие, повысить надежность голосовой биометрии. Разрабатываемая в рамках проекта технология позволит решить научно-технические задачи кластеризации голосов дикторов и создания качественной модели голоса в полностью автоматическом режиме.
Методы выделения сегментов с голосом целевого диктора в массиве фонограмм его телефонных переговоров позволят оценить его голосовую модель и, в дальнейшем, произвести эффективную идентификацию. Голосовая модель, построенная таким образом, будет отличаться высокой надежностью, т.к. для ее построения использовано большое количество обучающих данных.
Сценарии применения предлагаемого подхода включают такие возможности как:
1. Автоматическое построение образцов голоса оператора колл-центра с целью дальнейшего автоматического выделения речи клиента на моно-записях диалогов;
2. Автоматическое построение образцов голоса клиента колл-центра для высоконадежной идентификации;
3. Поиск повторяющихся голосов разных клиентов (мошенников) в массивах записей разговоров государственных учреждений, андеррайтинговых агентств и отделов банков, бюро кредитных историй (БКИ);
4. Автоматическое построение речевого образца объекта идентификации в системах безопасности;
5. Кластеризация дикторов в массивах фонограмм для оценки их количества, гендерного, возрастного распределения и иных статистических данных.
Описание исследования

Основная деятельность в рамках ПНИЭР в 2016 году посвящена теоретическим исследованиям: разработке методов, алгоритмов и программной реализации автоматической кластеризации  голосов  дикторов в массивах неразмеченных данных. Результаты проекта на текущий момент следующие
- Разработаны методы автоматической кластеризации голосов дикторов в массивах неразмеченных данных. Методы основаны на использовании i-вектор пространства для проведения кластеризации дикторов по голосу. Использован подход mean-shift (сдвига среднего), в качестве метрики сравнения i-векторов использована косинусная метрика. Для расчёта i-векторов использован подход обработки речи с применением т.наз. «глубоких» нейронных сетей, который обеспечивает лидирующие показатели надежности в задачах верификации по голосу.

- Разработаны алгоритмы автоматической кластеризации  голосов  дикторов в массивах неразмеченных данных.
1) алгоритм, реализующий метод автоматической кластеризации голосов дикторов, записанных в виде неразмеченных массивов фонограмм;
2) алгоритм, реализующий метод обучения «без учителя» систем автоматической идентификации по голосу;
3) алгоритм, реализующий метод создания мультисессионной голосовой модели диктора, в том числе по кластеризованным речевым данным;
4) алгоритм, реализующий метод выделения голоса абонента в массивах записей его телефонных переговоров;
5) алгоритм, реализующий метод сегментации и определения количества дикторов на фонограмме.

 Произведены исследования с целью установления требуемых показателей надежности алгоритмов:
- уровень равновероятной ошибки идентификации по голосу
- надежность алгоритма выделения голоса абонента в массивах записей его телефонных переговоров показывает (значение Purity)
- уровень ошибки разделения дикторов алгоритма сегментации и определения количества дикторов на фонограмме

- Выполнена программная реализация разработанных алгоритмов в виде ЭО ПК
- Разработана программная документации на ЭО ПК
- Разработана Программа и методики экспериментальных исследований ЭО ПК
- Проведены патентные исследования по теме работы

Результаты исследования

Методы и алгоритмы для биометрической кластеризации и идентификации:
    - Метод и алгоритм сегментации и определения количества дикторов на фонограмме
    - Метод и алгоритм кластеризации дикторов по голосу в массивах неразмеченных данных
    - Метод и алгоритм обучения «без учителя» систем автоматической идентификации по голосу
    - Метод и алгоритм создания голосовой модели диктора по кластеризованным речевым данным с целью его эффективной идентификации*
    - Метод и алгоритм выделения голоса абонента в массивах записей его телефонных переговоров.
 Результаты исследований показали принципиальную возможность использования данных алгоритмов на практике. Достигнуты следующие уровни надежности:
- уровень равновероятной ошибки идентификации по голосу не более 7%
- алгоритм выделения голоса абонента в массивах записей его телефонных переговоров показывает значение Purity более 85%
- алгоритм сегментации и определения количества дикторов на фонограмме имеет уровень ошибки разделения дикторов менее 10%

- программная реализация разработанных алгоритмов в виде ЭО ПК
- программная документации на ЭО ПК
- Программа и методики экспериментальных исследований ЭО ПК
- патентные исследования по теме работы. Согласно патентным исследованиям предложенные средства автоматической кластеризации личности по голосовым признакам синтеза речи обладают признаками, не известными из уровня техники, которые обеспечивают технический результат, заключающийся в улучшении качества кластеризации

*Предлагаемые алгоритмы кластеризации голосов дикторов в массивах неразмеченных данных аппробировались в рамках международного конкурса голосовых биометрических систем, организованного Национальным Институтом Стандартов и Технологий США в 2014 году NIST i-vector challenge. Система идентификации, обученная с использованием указанных алгоритмов, заняла абсолютное первое место в числе более 140 участников из различных стран мира, что подтверждает высокий научный и технический уровень предлагаемого решения.

Практическая значимость исследования
Результаты работ по проекту позволят создать решения на основе программных платформ, обеспечивающих:
- автоматическое построение образцов голоса клиента колл-центра для высоконадежной идентификации;
- поиск повторяющихся голосов разных клиентов (мошенников) в массивах записей разговоров государственных учреждений, андеррайтинговых агентств и БКИ;
- автоматическое построение речевого образца объекта идентификации в системах безопасности;
- кластеризация дикторов в массивах фонограмм для оценки их количества, гендерного, возрастного распределения и иных статистических данных.

Результаты реализации проекта смогут в дальнейшем помочь в развитии инновационных технологий, в частности, конкурентоспособной отечественной индустрии биометрических технологий: создаваемая программные средства не имеют аналогов ни на отечественном рынке, ни на международном, их реализация позволит говорить о лидерстве России в области голосовой биометрии; стимулирования использования биометрических технологий на федеральном и региональном уровнях: на базе разрабатываемой программной платформы планируется создание решений для автоматического фоноучета и авторизации пользователей на основе применения голосовой биометрии.