Предварительная обработка речевых сигналов для системы распознавания речи | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 30 марта, печатный экземпляр отправим 3 апреля.

Опубликовать статью в журнале

Авторы: ,

Рубрика: Технические науки

Опубликовано в Молодой учёный №5 (28) май 2011 г.

Статья просмотрена: 5763 раза

Библиографическое описание:

Ле, Нгуен Виен. Предварительная обработка речевых сигналов для системы распознавания речи / Нгуен Виен Ле, Д. П. Панченко. — Текст : непосредственный // Молодой ученый. — 2011. — № 5 (28). — Т. 1. — С. 74-76. — URL: https://moluch.ru/archive/28/3171/ (дата обращения: 19.03.2024).

Данная работа посвящена исследованию в области речевой технологий. В работе представлено описание программной оболочки для предварительной обработки речевых сигналов с использованием дискретного преобразование Фурье. Данная программная оболочка имеет целью создание инструмента для изучения различных алгоритмов и методов обработки данных, содержащихся в речевых сигналах. В настоящей работе на основе системы распознавания исследуются условия применимости дискретного преобразование Фурье в качестве инструмента при выделении акустических характеристик речевых сигналов.

Введение

Создание естественных для человека средств общения с компьютером является в настоящее время важнейшей задачей современной науки, при этом речевой ввод информации осуществляется наиболее удобным для пользователя способом. Распознавание речи является задачей классификации образов акустических характеристик речевых сигналов. В системах распознавания речи на основе нейронной сети выделяются две основные подсистемы:

  • подсистема предварительной обработки речевых сигналов, предназначенная для выделения информативных акустических характеристик речевого сигнала и формирования акустического образа, сигнала как набора характеристик;

  • подсистема классификации акустических образов с помощью нейронных сетей.

В настоящей работе представлено описание дополнений программной оболочки для анализа речевых сигналов с использованием быстрого преобразования Фурье. Данная программная оболочка имеет целью формирование инструмента для изучения различных методов и алгоритмов анализа данных, содержащихся в речевых сигналах.

Подсистема предварительной обработки речевых сигналов

Предварительная обработка речевого сигнала включает в себя следующие этапы:

  • процесс ввода речевого сигнала;

  • выделение границы речевого сигнала;

  • цифровая фильтрация;

  • нарезка речевого сигнала перекрывающимися кадрами;

  • обработка сигнала в окне;

  • спектральное преобразование;

  • нормирование частотного спектра.

Рассмотрим подробно этапы.

Процесс ввода речевого сигнала

Ввод звука осуществляется в реальном времени через звуковую карту или через файлы формата WAV в кодировке PCM. Частота дискретизации 8 КГц и квантование 16 бит являются типовыми параметрами в системах передачи, хранения и обработки речевой информации. Работа с файлами была предусмотрена, чтобы облегчить многократное повторение обработки нейронной сети, что особенно важно при обучении.

Выделение границы речевого сигнала

Для вычленения из входного сигнала участков, содержащих только речь, используются следующие характеристики речевого сигнала:

  • кратковременная энергия речевого сигнала;

  • число нулей интенсивности (мгновенная частота);

  • плотность распределения значения отчетов паузы.

Кратковременная энергия звукового сигнала и число нулей интенсивности одновременно используются для выделения речи из входного сигнала. Кроме того, можно удалить паузу из выходного сигнала методом на основе нормального (гауссова) распределения.

Цифровая фильтрация

Вместе с полезным сигналом обычно попадают различные шумы. Шум оказывает отрицательное воздействие на качество работы систем распознавания речи, поэтому с ним приходится бороться. Для снижения уровня шума в подсистеме применяются два типа цифрового фильтра:

  • пропускающий полосовой фильтр;

  • предварительный фильтр.

Пропускающий полосовой фильтр можно представить себе в виде комбинации фильтра нижних и верхних частот. Такой фильтр задерживает все частоты, ниже так называемой нижней частоты пропускания, а также выше верхней частоты пропускания.

Предварительная фильтрация представляется для снижения влияния локальных искажений на характерные признаки, которые в дальнейшем будут использоваться для распознавания. Для спектрального выравнивания речевого сигнала его следует пропустить через взвешивающий низкочастотный фильтр.

Нарезка речевого сигнала перекрывающимися кадрами

Для того чтобы получить векторы признаков одинаковой длины, нужно нарезать речевой сигнал на равные части, а затем выполнять преобразования внутри каждого кадра. Перекрытие используется для предотвращения потери информации о сигнале на границе.

Чем меньше перекрытие, тем меньшей размерностью в итоге будет обладать вектор свойств, характерный для рассматриваемого участка. Перекрытие иногда пропускается по причине экономии вычислительных ресурсов, поскольку он существенно замедляет скорость обработки данных. Обычно выбирается длина сегментов, соответствующая временному интервалу в 20-30мс.

Обработка сигнала в окне

Обработка сигнала в окне представляется для снижения граничных эффектов, возникающих в результате сегментации. Для подавления нежелательных граничных эффектов принято умножать сигнал на оконную функцию. Существует 4 типа оконных функций:

  • прямоугольное окно;

  • окно Ханна;

  • окно Хемминга;

  • окно Блэкмана.

В качестве функции использовано окно Хэмминга.

Спектральное преобразование

Информации об амплитуде и форме огибающей речевого сигнала не достаточно для выделения из речи лексических элементов. В зависимости от различных обстоятельств форма огибающей речевого сигнала может меняться в широких пределах. Для решения задачи распознавания необходимо выделить первичные признаки речи, которые будут использованы на последующих этапах процесса распознавания. Первичные признаки выделяются посредством анализа спектральных характеристик речевого сигнала. Для получения частотного спектра речевого сигнала используется быстрое преобразование Фурье (БПФ). БПФ представляется для получения амплитудного спектра и информации о фазе сигнала (в реальных и мнимых коэффициентах). Информация о фазе сигнала отбрасывается и вычисляются амплитудные спектры. При этом чаще используется логарифм этого значения.

Где –амплитудный спектр i-ой частоты,

–реальный коэффициент,

–мнимый коэффициент,

N – размер БПФ,

– размер информативной части спектра.

Так как звуковые данные не содержат мнимой части, то по свойству БПФ результат получается симметричным, т.е. . Таким образом, размер информативной части спектра NS равен N/2.

Нормирование частотного спектра

Все вычисления в нейронных сетях производятся над числами с плавающей точкой. Поэтому значения параметров объектов, классифицируемых с помощью нейронных сетей, ограничены диапазоном [0.0, 1.0]. Для выполнения обработки спектра нейронной сетью полученный спектр нормируется на 1.0. Для этого каждый компонент вектора делится на его максимальный компонент.

Программная оболочка для предварительной обработки речевых сигналов

Программная оболочка реализована на языке программирования C#. На вход попадает звуковой файл форматом WAV. На экране отображаются сигналы, соответствующие этапы обработки, а также параметры преобразования. Пользователь может менять параметры, чтобы получить результаты различных алгоритмов и методов обработки данных. На выход программной оболочки попадает массив кадров. Каждый кадр соответствует набору чисел равного размера, характеризующих амплитудные спектры речевого сигнала.

На рис. 1 показано применение программной оболочки для изучения предварительной обработки речевых сигналов.

Рис. 1 –Применение программной оболочки к речевому сигналу


Заключение

В результате проделанной работы предложена программная оболочка для предварительной обработки речевых сигналов для системы распознавания речи с использованием дискретного преобразование Фурье. Планируется разработать систему автоматического распознавания речи на основе нейронной сети с выходом предварительной обработки речевых сигналов.


Литература:

  1. Компьютерное распознавание и порождение речи. [Электронный ресурс]. – Режим доступа:

http://speech-text.narod.ru/chap3.html

  1. Корицкий, Д.В. Система распознавания речевых команд. [Электронный ресурс]. – Режим доступа:

http://www.nsc.ru/ws/show_abstract.dhtml?ru+130+9365

  1. Оконное преобразование Фурье [Электронный ресурс]. – Режим доступа:

http://ru.wikipedia.org/wiki/Оконное_преобразование_Фурье

  1. Фролов, А.В. Синтез и распознавание речи. Современные решения. / А.В. Фролов, Г.В. Фролов. – 186 с.

Основные термины (генерируются автоматически): речевой сигнал, программная оболочка, предварительная обработка, сигнал, WAV, нейронная сеть, Обработка сигнала, частотный спектр, амплитудный спектр, быстрое преобразование.


Похожие статьи

Исследование процесса цифровой обработки сигнала при работе...

Ключевые слова: дискретное Преобразование Фурье, спектр сигнала, белый шум, импульс.

Быстрое преобразование Фурье (БПФ, FFT) — алгоритм быстрого вычисления дискретного преобразования Фурье (ДПФ).

Распознавание речи на основе искусственных нейронных сетей

Пусть речевой сигнал как входные данные нейронной сети. После обработки звуковых данных получен массив сегментов сигналов. Каждый сегмент соответствует набору чисел, характеризующих амплитудные спектры сигнала.

Выделение границ фонем речевого сигнала с помощью...

Речевой сигнал конечен и не является периодическим, поэтому из-за разрывов на его концах при применении преобразования Фурье проявляется эффект утечки.

К каждому кадру применяется преобразование Фурье — получаем спектр сигнала.

Сегментация, шумоподавление и фонетический анализ в задаче...

При обработке речевых сигналов, как правило, оперируют не с исходным речевым сигналом, а с его

Ниже приведена программная реализация вычисления энергии сигнала в среде MATLAB

Предварительная обработка речевых сигналов для системы распознавания речи.

Использование преобразования Гильберта-Хуанга для...

Основные термины (генерируются автоматически): MATLAB, преобразование Гильберта-Хуанга, IMF, функция, нейронная сеть, речевой сигнал, NET, сигнал, EMD, оконное

Предварительная обработка речевых сигналов для системы распознавания речи.

Методы распознавания речи | Статья в журнале «Молодой ученый»

Предварительная обработка. На этапе предварительной обработки исходный сигнал преобразуется в векторы признаков, на основе которых затем будет

преобразование сигнала из аналоговой формы в цифровую; – применение фильтров для подавления шумов

Алгоритмы преобразования Фурье и их применение при анализе...

Спектр сигнала — это результат разложения сигнала на более простые в базисе ортогональных функций.

Быстрое преобразование Фурье. Когда не хватает ресурсов для вычисления ДФП, переходят к быстрому преобразованию Фурье.

Исследование принципов работы программ распознавания...

Для этого сигнал подвергается преобразованию Фурье. Дальнейшей целью разработчика является определение частотных характеристик сигналов. Оптимальным алгоритмом вычисления преобразования Фурье дискретное является быстрое преобразование Фурье...

Построение концептуальной модели сингулярного эстиматора...

1) Разложение исходного речевого сигнала в спектр квазигармонических компонент (задача 1); 2) Выбор квазигармонической составляющей соответствующей частоте основного тона речи (задача 2).

Похожие статьи

Исследование процесса цифровой обработки сигнала при работе...

Ключевые слова: дискретное Преобразование Фурье, спектр сигнала, белый шум, импульс.

Быстрое преобразование Фурье (БПФ, FFT) — алгоритм быстрого вычисления дискретного преобразования Фурье (ДПФ).

Распознавание речи на основе искусственных нейронных сетей

Пусть речевой сигнал как входные данные нейронной сети. После обработки звуковых данных получен массив сегментов сигналов. Каждый сегмент соответствует набору чисел, характеризующих амплитудные спектры сигнала.

Выделение границ фонем речевого сигнала с помощью...

Речевой сигнал конечен и не является периодическим, поэтому из-за разрывов на его концах при применении преобразования Фурье проявляется эффект утечки.

К каждому кадру применяется преобразование Фурье — получаем спектр сигнала.

Сегментация, шумоподавление и фонетический анализ в задаче...

При обработке речевых сигналов, как правило, оперируют не с исходным речевым сигналом, а с его

Ниже приведена программная реализация вычисления энергии сигнала в среде MATLAB

Предварительная обработка речевых сигналов для системы распознавания речи.

Использование преобразования Гильберта-Хуанга для...

Основные термины (генерируются автоматически): MATLAB, преобразование Гильберта-Хуанга, IMF, функция, нейронная сеть, речевой сигнал, NET, сигнал, EMD, оконное

Предварительная обработка речевых сигналов для системы распознавания речи.

Методы распознавания речи | Статья в журнале «Молодой ученый»

Предварительная обработка. На этапе предварительной обработки исходный сигнал преобразуется в векторы признаков, на основе которых затем будет

преобразование сигнала из аналоговой формы в цифровую; – применение фильтров для подавления шумов

Алгоритмы преобразования Фурье и их применение при анализе...

Спектр сигнала — это результат разложения сигнала на более простые в базисе ортогональных функций.

Быстрое преобразование Фурье. Когда не хватает ресурсов для вычисления ДФП, переходят к быстрому преобразованию Фурье.

Исследование принципов работы программ распознавания...

Для этого сигнал подвергается преобразованию Фурье. Дальнейшей целью разработчика является определение частотных характеристик сигналов. Оптимальным алгоритмом вычисления преобразования Фурье дискретное является быстрое преобразование Фурье...

Построение концептуальной модели сингулярного эстиматора...

1) Разложение исходного речевого сигнала в спектр квазигармонических компонент (задача 1); 2) Выбор квазигармонической составляющей соответствующей частоте основного тона речи (задача 2).

Задать вопрос