Система идентификации диктора по голосу на основе GMM-UBM подхода | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 30 ноября, печатный экземпляр отправим 4 декабря.

Опубликовать статью в журнале

Библиографическое описание:

Система идентификации диктора по голосу на основе GMM-UBM подхода / В. С. Костыренко, А. В. Мазова, И. А. Власов [и др.]. — Текст : непосредственный // Молодой ученый. — 2019. — № 25 (263). — С. 27-31. — URL: https://moluch.ru/archive/263/61028/ (дата обращения: 16.11.2024).



Статья посвящена задаче текстонезависимой идентификации диктора по голосу. Рассматривается наиболее подходящий алгоритм, основанный на GMM-UBM системе, применимый к малым объемам голосовых данных, что наиболее часто встречается на практике. Проводится тестирование и оценка системы.

Ключевые слова: GMM, UBM, MFCC, идентификация по голосу.

Задача идентификации по голосу изучается уже больше 40 лет. Поиск наиболее эффективного решения этой задачи имеет большую важность для таких сфер деятельности, как, например, банковское дело и криминалистика. В первом случае технология распознавания по голосу позволит отойти от таких старых методов, как кодовые слова, и не заставит прерывать беседу между клиентом и работником банка. Во втором случае эта технология может применяться для идентификации подозреваемых по записи.

Обычно нет возможности получить достаточно много голосовых данных для одного человека, чтобы использовать системы с высокой точностью, такие как нейронные сети, поскольку приходилось бы растягивать разговор, что было бы неудобно, например, для клиента банка. Поэтому делается акцент на разработке системы, применимой к малому объему исходных данных.

Процесс идентификации можно разделить на три этапа:

  1. Предварительная обработка данных;
  2. Вычисление голосовых признаков;
  3. Применение алгоритма идентификации и верификации.

Каждый этап играет большую роль во всей системе идентификации.

При предварительной обработке данных с записи необходимо удалить те участки, на которых отсутствует голос диктора, что позволить сократить влияние шума на результат идентификации (рисунок 1).

Рис. 1. Сигнал до и после удаления шумов и пауз

Наиболее эффективными являются методы, основанные на энергии или на статистических данных шума. Все эти методы основаны на том, что в начале записи, когда человек еще не успел ничего сказать, присутствует только шум, который можно проанализировать.

Весь сигнал делится на отдельные равные участки, называемые фреймами. Затем, в случае с энергией, высчитывается энергия Ei каждого фрейма и среднее значение энергии для всей записи E. Если Ei < k * E, где k < 1, то на этом фрейме тишина. Значение k подбирается экспериментально [1].

Следующий этап — это превратить обработанную запись голоса в вектора признаков, которые будут в дальнейшем использоваться для обучения или идентификации.

Наиболее популярным выбором при работе со звуком являются мел-частотные кепстральные коэффициенты MFCC (Mel-Frequency Cepstral Coefficients) [2]. Особенностью данного подхода является полученного вектора характеристик от длины исходного сигнала и учет в нем разброса индивидуальных особенностей, говорящего. Схема расчета коэффициентов MFCC представлен на рисунке 2.

Рис. 2. Вычисление коэффициентов MFCC

  1. разбиваем на пересекающиеся фреймы;
  2. получаем спектр сигнала, применив к нему преобразование Фурье;
  3. раскладываем спектр по мел-шкале с помощью треугольных фильтров;
  4. возводим полученные значения в квадрат и логарифмируем — таким образом спектр будет больше соответствовать тому, как человек воспринимает звук;
  5. применяем к полученному набору коэффициентов дискретное косинусное преобразование, в результате чего получаем вектор MFСС.
  6. к вектору MFCC дополнительно высчитываем энергию, дельта и двойные дельта значения для каждого фрейма

После получения векторов признаков необходимо применить алгоритм идентификации и верификации. При идентификации мы находим диктора, наиболее близкого к тестовой записи, а при верификации принимаем решение, принадлежит ли тестовая запись группе дикторов, участвующих в обучении. Практическая интерпретация верификации заключается, например, в определении, зарегистрирован пользователь или нет.

Для реализации алгоритма идентификации используется GMM-UBM система. GMM (Gaussian Mixture Model) — это модель гауссовых смесей, которая будет представлять собой модель диктора. При таком подходе исходные данные представляются в виде кластеров, описываемых гауссианами (рисунок 3).

https://hsto.org/webt/ni/je/-m/nije-mrfqiykrrfykphnafbyr5w.png

Рис. 3. Модель гауссовых смесей

Модель гауссовых смесей определяется векторами математического ожидания , ковариационной матрицей ∑, векторами весов и количеством компонент смеси M. Для определения первых трех значений используется обучение с помощью алгоритмов k-средних и EM (Expectation Maximization) методом максимального правдоподобия [3].

UBM (Universal Background Model) — это GMM, обученная на относительно большом количестве голосовых данных. При GMM-UBM подходе модели отдельных дикторов обучаются с помощью MAP адаптации (Maximum A-Posteriori Adaptation) [4]. При таком подходе смещаются математические ожидания в сторону новых данных. Преимуществом UBM является быстрая адаптация новых дикторов и требования небольшого количества данных для этого.

Для идентификации диктора сначала необходимо найти модель, наиболее близкую к тесовой записи.

Здесь — соответственно значения весов, математических ожиданий и ковариационных матриц модели, а в качестве обозначается модель, — вектор признаков. М — количество компонент гауссовой смеси, D — размерность вектора признаков.

После нахождения наиболее близкой модели необходимо отнести запись к зарегистрированному или незарегистрированному пользователю. Для этого рассчитывается следующий показатель:

На основе сравнения этого значения с порогом и принимается решение о тестируемом дикторе.

Для тестирования построенной системы идентификации был собран набор из 100 дикторов. С помощью метода скользящего контроля были получены следующие метрики оценки качества системы.

Для этого определим следующую матрицу ошибок (таблица 1):

Таблица 1

Матрица ошибок

Зарегистрированные

Незарегистрированные

Приняты системой

TP (true positives) = 95

FN (false negatives) = 44

Не приняты системой

FP (false positives) = 5

TN (true negative) = 356

Пусть P = TP + FN, N = TN + FP, P' = TP + FP, N' = FN + TN. Тогда, на основе этих значений можно получить значения следующих мер качества:

− Точность (accuracy)

− Полнота (recall)

− Точность (precision)

− F — мера

Построенная система позволяет достаточно точно идентифицировать зарегистрированного диктора, однако допускает ошибки при принятии решения о незарегистрированном. Для дальнейшего улучшения системы необходимо рассмотреть и другие методы предобработки, вычисления голосовых признаков и построения модели дикторов, применимых к малому объему данных.

Литература:

  1. Verteletskaya, E., and Sakhnov, K. Voice activity detection for speech enhancement applications // Acta Polytechnica. 2010. № 50, 4.
  2. S. Davis, P. Mermelstein Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. // IEEE transactions on acoustics, speech, and signal processing. 1980. № 28, 4. С. 357–366.
  3. Jeff A. Bilmes A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models // International Computer Science Institute Berkeley CA. 1998. С. 7–13.
  4. Reynolds, D. A., Quatieri, T. F., Dunn, R. B. Speaker verification using adapted gaussian mixture models // Digital signal processing. 2000. № 10, 1. С. 19–41.
Основные термины (генерируются автоматически): MFCC, GMM, GMM-UBM, UBM, MAP, алгоритм идентификации, вектор признаков, идентификация диктора, предварительная обработка данных, тестовая запись.


Ключевые слова

GMM, UBM, MFCC, идентификация по голосу

Похожие статьи

Алгоритм обновления биометрического шаблона с применением нейронной сети

Биометрическое распознавание человека является очень актуальной темой в современном мире. Существует множество уникальных характеристик человека, по которым можно проводить распознавание. Такими характеристиками, например, являются лицо, радужная обо...

Векторизация слов для нечеткого поиска в вопросно-ответных системах

В статье автор исследует применение векторизации слов для нечеткого поиска в вопросно-ответных системах, путем улучшения точности через современные подходы к векторизации слов и поиск семантически близких слов.

Модель системы передачи данных с использованием помехоустойчивых кодов LT в среде Simulink для каналов со стираниями пакетов

Представлены основные теоретические аспекты построения LT-кодов. Разработана имитационная система передачи данных с использованием помехоустойчивых кодов LT, позволяющая оценить возможности использования данной идеологии. Представлены основные резуль...

Анализ скорости обнаружения лица в сложных условиях: MobileNetV2, InceptionV3 и EfficientNetV2M

В этой статье автор предоставил оценку скорости обнаружения лица в сложных условиях, на примере трех известных моделей глубокого обучения для обнаружения объектов (в данном случае производится обнаружение лица): MobileNetV2 [1], InceptionV3 [2] и Eff...

Сравнительный анализ методов поиска особых точек и дескрипторов при группировке изображений по схожему содержанию

В данной работе проводится сравнительный анализ методов ORB, BRISK, AKAZE, обнаруживающих особые точки и описывающих их дескрипторы на изображении. Разработан алгоритм, который на основе работы данных методов группирует фотографии по степени сходства...

Разработка и оптимизация программного пакета для определения подлинности подписи в почерковедческой экспертизе

В данной работе рассматривается разработка программного обеспечения для перспективного метода идентификации подписи, основанного на изучении ее фрактальной размерности.

Идентификация и аутентификация пользователей для автоматизированных систем высших учебных заведений

Статья посвящена организации идентификации и аутентификации пользователей в автоматизированной системе вуза. Показано, что результаты, достигнутые на текущий момент в решении задач интеллектуального анализа данных идентификации и аутентификации польз...

Классификация заявок пользователей с помощью нейросети

В статье рассмотрен вариант решения классификации задач, поступающих от пользователей системы, на основе текстовой информации. Инструментом классификации выступает нейронная сеть. В статье рассмотрены этапы построения нейросети, а также процесс подго...

Повышение эффективности размещения элементов БИС на основе алгоритмов машинного обучения

В данной статье рассматривается целесообразность применения возможностей современного искусственного интеллекта в сфере проектирования микросхем, представлен метод размещения элементов БИС с использованием глубокого обучения с подкреплением на графов...

Алгоритм работы с QR-кодами на занятиях по иностранному языку

Статья посвящена изучению особенностей построения образовательных занятий на основе технологии QR-код. В статье рассматривается основные алгоритмы работы и особенности построения занятий при помощи технологии QR-код для в современной теоретико-методи...

Похожие статьи

Алгоритм обновления биометрического шаблона с применением нейронной сети

Биометрическое распознавание человека является очень актуальной темой в современном мире. Существует множество уникальных характеристик человека, по которым можно проводить распознавание. Такими характеристиками, например, являются лицо, радужная обо...

Векторизация слов для нечеткого поиска в вопросно-ответных системах

В статье автор исследует применение векторизации слов для нечеткого поиска в вопросно-ответных системах, путем улучшения точности через современные подходы к векторизации слов и поиск семантически близких слов.

Модель системы передачи данных с использованием помехоустойчивых кодов LT в среде Simulink для каналов со стираниями пакетов

Представлены основные теоретические аспекты построения LT-кодов. Разработана имитационная система передачи данных с использованием помехоустойчивых кодов LT, позволяющая оценить возможности использования данной идеологии. Представлены основные резуль...

Анализ скорости обнаружения лица в сложных условиях: MobileNetV2, InceptionV3 и EfficientNetV2M

В этой статье автор предоставил оценку скорости обнаружения лица в сложных условиях, на примере трех известных моделей глубокого обучения для обнаружения объектов (в данном случае производится обнаружение лица): MobileNetV2 [1], InceptionV3 [2] и Eff...

Сравнительный анализ методов поиска особых точек и дескрипторов при группировке изображений по схожему содержанию

В данной работе проводится сравнительный анализ методов ORB, BRISK, AKAZE, обнаруживающих особые точки и описывающих их дескрипторы на изображении. Разработан алгоритм, который на основе работы данных методов группирует фотографии по степени сходства...

Разработка и оптимизация программного пакета для определения подлинности подписи в почерковедческой экспертизе

В данной работе рассматривается разработка программного обеспечения для перспективного метода идентификации подписи, основанного на изучении ее фрактальной размерности.

Идентификация и аутентификация пользователей для автоматизированных систем высших учебных заведений

Статья посвящена организации идентификации и аутентификации пользователей в автоматизированной системе вуза. Показано, что результаты, достигнутые на текущий момент в решении задач интеллектуального анализа данных идентификации и аутентификации польз...

Классификация заявок пользователей с помощью нейросети

В статье рассмотрен вариант решения классификации задач, поступающих от пользователей системы, на основе текстовой информации. Инструментом классификации выступает нейронная сеть. В статье рассмотрены этапы построения нейросети, а также процесс подго...

Повышение эффективности размещения элементов БИС на основе алгоритмов машинного обучения

В данной статье рассматривается целесообразность применения возможностей современного искусственного интеллекта в сфере проектирования микросхем, представлен метод размещения элементов БИС с использованием глубокого обучения с подкреплением на графов...

Алгоритм работы с QR-кодами на занятиях по иностранному языку

Статья посвящена изучению особенностей построения образовательных занятий на основе технологии QR-код. В статье рассматривается основные алгоритмы работы и особенности построения занятий при помощи технологии QR-код для в современной теоретико-методи...

Задать вопрос