Подходы к выделению речи из исходного сигнала для системы обработки речи | Статья в журнале «Молодой ученый»

Авторы: ,

Рубрика: Технические науки

Опубликовано в Молодой учёный №5 (28) май 2011 г.

Статья просмотрена: 1392 раза

Библиографическое описание:

Ле Н. В., Панченко Д. Подходы к выделению речи из исходного сигнала для системы обработки речи // Молодой ученый. — 2011. — №5. Т.1. — С. 77-79. — URL https://moluch.ru/archive/28/3172/ (дата обращения: 18.07.2018).

Предварительная обработка речевых сигналов служит различным целям в системах обработки речи. Она включает в себя выделение речи из сигнала, предварительный фильтр сигнала, нарезку сигнала перекрывающимися кадрами, обработку сигнала в окне, спектральное преобразование сигнала и т.д. Из них выделение границы речевого сигнала является важным шагом для таких систем. В работе представлены два метода удаления паузы из речевого сигнала. В первом методе используется уровень кратковременной энергии и число нулей интенсивности сигнала. А второй метод применяется на основе нормального (гауссово) распределения значения отчетов сигнала.

Введение

Выделение речи из исходного сигнала является важным шагом предварительной обработки речевых сигналов. Для вычленения из входного сигнала участков, содержащих только речь, используются следующие характеристики речевого сигнала:

  • кратковременная энергия речевого сигнала;

  • число нулей интенсивности (мгновенная частота);

  • плотность распределения значения отчетов паузы.

Рассмотрим два метода выделения речи на основе этих характеристик.

Кратковременная энергия речевого сигнала и число нулей интенсивности (мгновенная частота)

Кратковременная энергия речевого сигнала и число нулей интенсивности являются основными параметрами речевого сигнала. Параметры речевого сигнала, как правило, быстро меняются с течением времени, поэтому принято снимать их при нарезке речевого сигнала неперекрывающимися кадрами длиной 10–20 мс. Считаем, что сигнал на таком отрезке примерно стационарен (постоянен).

Кратковременная энергия речевого сигнала определяется следующей формулой:

Где N –количество отчетов речевого сигнала,

– значение i-го отсчета.

Число нулей интенсивности (мгновенная частота) речевого сигнала определяется следующей формулой:

Где .

Кратковременная энергия речевого сигнала и число нулей интенсивности одновременно используются для удаления пауз из входного сигнала. При записи звука первые 150–200 мс речевого сигнала являются паузой. Необходимо вычислить пороги кратковременной энергии и числа нулей интенсивности на отрезке с паузой для сравнения с остальными участками сигнала. Пороги кратковременной энергии и числа нулей интенсивности вычисляются по следующим формулам:

Где M – количество первых кадров паузы.

Выполнить вычисление кратковременной энергии и числа нулей интенсивности всех кадров остального участка речевого сигнала. Если эти значения превышают пороги, то кадр соответствует паузе, необходимо удалить его из речевого сигнала. После удаления всех пауз получается результат сигнала без паузы.

Рассмотрим следующий алгоритм.

Шаг 1: Нарезать первые 150 мс речевого сигнала неперекрывающимися кадрами размером 120 (длина кадра 15 мс, количество кадров 10).

Шаг 2: Вычислить кратковременную энергию и число нулей интенсивности всех кадров по формулам.

Шаг 3: Вычислить пороги для кратковременной энергии и числа нулей интенсивности по формулам.

Шаг 4: Накопить следующие отчеты из речевого сигнала в кадр размером 120.

Шаг 5: Вычисление кратковременной энергии и числа нулей интенсивности кадра.

Шаг 6: Если кратковременная энергия больше порога и числа нулей интенсивности меньше порога, то добавить отчеты кадра в результатный сигнал, иначе обновить пороги для кратковременной энергии и числа нулей интенсивности.

Шаг 7: Если конец речевого сигнала, то переход на шаг 8, иначе переход на шаг 4.

Шаг 8: Получить результатный сигнал.

На рис. 1 и 2 показаны исходный и результатный сигнал слова “one” первым методом.

Рис. 1 – Исходный речевой сигнал слова “one”

Рис.2 – Результатный речевой сигналслова “one”первым методом


Нормальное (гауссово) распределение случайной величины

Случайная величина x имеет нормальное распределение, если её плотность распределения определяется зависимостью:

где μ – среднее значение случайной величины,

σ – нормальное распределение случайной величины.

Среднее значение случайной величины определяется следующей формулой:

Где N – количество случайной величины,

- случайная величина.

Нормальное распределение случайной величины определяется следующей формулой:

При записи звука первые 200 мс речевого сигнала являются паузой. Значение отчетов паузы оказывается случайной величиной. Плотность распределения значения отчетов паузы используется для выделения речи из входного сигнала. Рассмотрим алгоритм выделения границы речевого сигнала на основе нормального распределения.

Шаг 1: Вычислить среднее значение и нормальное распределение значения первых 1600 отчетов (первые200 мс речевого сигнала)по соответствующим формулам.

Шаг 2: Накопить следующие отчеты из речевого сигнала в кадр размером 80.

Шаг 3: Создать одновременный массив размером 80.

Шаг 4: Вычислить расстояние Махаланобиса от каждого отчета кадра до среднего значения по следующей формуле.

Шаг 5:Если расстояние больше 3, то добавить единицу в массив (отчет соответствует речи), иначе добавить нуль в массив.

Шаг 6: Вычислить количество нулей и единиц в массиве.

Шаг 6: Если количество единиц больше количества нулей, то добавить единичные отчеты в результатный сигнал, иначе обновить среднее значение и нормальное распределение нулевым отчетом.

Шаг 7: Если конец речевого сигнала, то переход на шаг 8, иначе переход на шаг 2.

Шаг 8: Получить результатный сигнал.

На рис. 3 показан результатный сигнал слова “one” вторым методом.

Рис 3 – Результатный речевой сигнал слова “one” вторым методом

Результаты экспериментальных исследований

В качестве анализируемых использовались речевые сигналы, содержащие числа английского языка. Для оценивания предложен процент правильного выделения речи (ППВ). ППВ вычисляется по следующей формуле:

Где – количество отчетов исходного речевого сигнала,

–количество отчетов результатного речевого сигнала.

Для экспериментальных исследований была надиктована база из 5 слов (числа от “one” до “five”) с произношением диктора.

В таблице 1 показан результат выделения речи двумя методами.

Таблица 1

Результаты экспериментальных исследований


Первый метод

Второй метод

“one”

54,24 %

41,26 %

“two”

57,77 %

32,31 %

“three”

не выделено

40,27 %

“four”

не выделено

54,90 %

“five”

59,55 %

44,42 %

Из таблицы видно, что метод выделения речи на основе нормального распределения обладает более высоким качеством, чем метод, использующий кратковременную энергию речевого сигнала и число нулей интенсивности.

Заключение

Таким образом, предложена реализация двух алгоритмов к задаче выделения речи из исходного сигнала и проведено её экспериментальное исследование. В результате работы был реализован лучший алгоритм выделения речи – алгоритм на основе нормального распределения.


Литература:

  1. Компьютерное распознавание и порождение речи. [Электронный ресурс]. – Режим доступа: http://speech-text.narod.ru/chap3.html

  2. Корицкий, Д.В. Система распознавания речевых команд. [Электронный ресурс]. – Режим доступа: http://www.nsc.ru/ws/show_abstract.dhtml?ru+130+9365

  3. Нормальное распределение [Электронный ресурс]. – Режим доступа: http://ru.wikipedia.org/wiki/Нормальное_распределение

  4. G. Saha, Sandipan Chakroborty, Suman Senapati, A New Silence Removal and Endpoint Detection Algorithm for Speech and Speaker Recognition Applications.

Основные термины (генерируются автоматически): речевой сигнал, кратковременная энергия, число нулей интенсивности, случайная величина, шаг, нормальное распределение, результатный сигнал, мгновенная частота, выделение речи, кадр размером.


Похожие статьи

Предварительная обработка речевых сигналов для системы...

кратковременная энергия речевого сигнала

Кратковременная энергия звукового сигнала и число нулей интенсивности одновременно используются для выделения речи из входного сигнала.

Выделение границ фонем речевого сигнала с помощью...

Вычисление мел-частотных кепстральных коэффициентов включает в себя следующие шаги: Необходимо разделить исходный сигнал на кадры. Их размер обычно выбирается от 10 до 40 мс, так как считается, что речевой сигнал на этом промежутке можно принять как...

Базовые принципы построения системы синтеза речи

речевой сигнал, баз данных, синтез речи, сигнал, основной тон, знак препинания, волна, система синтеза речи, кратковременная энергия, звуковой сигнал.

Модель сингулярного эстиматора частоты основного тона речи

Разработана модель сингулярного эстиматора мгновенной частоты основного тона речи.

В процессах исследования речевых сигналов, обычно используется математические аппараты спектрального анализа Фурье или вейвлет-анализ (wavelet-analysis).

Построение концептуальной модели сингулярного эстиматора...

Таким образом для определения частоты основного тона речи формулируются две задачи: 1) Разложение исходного речевого сигнала в спектр квазигармонических компонент (задача 1)

где m — число переходов через нуль; f0m — мгновенная частота тона.

Сегментация, шумоподавление и фонетический анализ в задаче...

В статье рассматривается алгоритм сегментации и шумоочистки речевого сигнала, основанный на вычислении кратковременной энергии и

Существуют различные алгоритмы сегментации сигнала [2; 3]. Общей их чертой является разбиение сигнала на кадры и их анализ.

Вычисление дисперсии оценки временного положения...

Вычислим энергию сигнала: Тогда нормированная вторая производная АКФ сигнала в нуле равна.

Формула (1), на основании которой получено выражение (7), выводится при условии, что ошибка измерения имеет нормальный закон распределения вероятностей.

Определение оптимального разложения речевого сигнала...

Речевой сигнал оцифрован с частотой дискретизации 8кГц и разрядностью отсчетов 16 бит и рассматривается как набор неперекрывающихся кадров длительностью в 128

Выделение границ фонем речевого сигнала с помощью мел-частотных спектральных коэффициентов.

Устранение полосового шума и зарисовывание пропущенных...

где — число итерации, размер шага.

Хотя такое случайное распределение «плохих» пикселей не очень хорошо знакомо многим пользователям дистанционного зондирования, это часто встречается в

Применение вейвлет-анализа для очистки речевого сигнала от шума.

Обсуждение

Социальные комментарии Cackle

Похожие статьи

Предварительная обработка речевых сигналов для системы...

кратковременная энергия речевого сигнала

Кратковременная энергия звукового сигнала и число нулей интенсивности одновременно используются для выделения речи из входного сигнала.

Выделение границ фонем речевого сигнала с помощью...

Вычисление мел-частотных кепстральных коэффициентов включает в себя следующие шаги: Необходимо разделить исходный сигнал на кадры. Их размер обычно выбирается от 10 до 40 мс, так как считается, что речевой сигнал на этом промежутке можно принять как...

Базовые принципы построения системы синтеза речи

речевой сигнал, баз данных, синтез речи, сигнал, основной тон, знак препинания, волна, система синтеза речи, кратковременная энергия, звуковой сигнал.

Модель сингулярного эстиматора частоты основного тона речи

Разработана модель сингулярного эстиматора мгновенной частоты основного тона речи.

В процессах исследования речевых сигналов, обычно используется математические аппараты спектрального анализа Фурье или вейвлет-анализ (wavelet-analysis).

Построение концептуальной модели сингулярного эстиматора...

Таким образом для определения частоты основного тона речи формулируются две задачи: 1) Разложение исходного речевого сигнала в спектр квазигармонических компонент (задача 1)

где m — число переходов через нуль; f0m — мгновенная частота тона.

Сегментация, шумоподавление и фонетический анализ в задаче...

В статье рассматривается алгоритм сегментации и шумоочистки речевого сигнала, основанный на вычислении кратковременной энергии и

Существуют различные алгоритмы сегментации сигнала [2; 3]. Общей их чертой является разбиение сигнала на кадры и их анализ.

Вычисление дисперсии оценки временного положения...

Вычислим энергию сигнала: Тогда нормированная вторая производная АКФ сигнала в нуле равна.

Формула (1), на основании которой получено выражение (7), выводится при условии, что ошибка измерения имеет нормальный закон распределения вероятностей.

Определение оптимального разложения речевого сигнала...

Речевой сигнал оцифрован с частотой дискретизации 8кГц и разрядностью отсчетов 16 бит и рассматривается как набор неперекрывающихся кадров длительностью в 128

Выделение границ фонем речевого сигнала с помощью мел-частотных спектральных коэффициентов.

Устранение полосового шума и зарисовывание пропущенных...

где — число итерации, размер шага.

Хотя такое случайное распределение «плохих» пикселей не очень хорошо знакомо многим пользователям дистанционного зондирования, это часто встречается в

Применение вейвлет-анализа для очистки речевого сигнала от шума.

Задать вопрос