Данная работа посвящена исследованию в области речевой технологий. В работе представлено описание программной оболочки для предварительной обработки речевых сигналов с использованием дискретного преобразование Фурье. Данная программная оболочка имеет целью создание инструмента для изучения различных алгоритмов и методов обработки данных, содержащихся в речевых сигналах. В настоящей работе на основе системы распознавания исследуются условия применимости дискретного преобразование Фурье в качестве инструмента при выделении акустических характеристик речевых сигналов.
Введение
Создание естественных для человека средств общения с компьютером является в настоящее время важнейшей задачей современной науки, при этом речевой ввод информации осуществляется наиболее удобным для пользователя способом. Распознавание речи является задачей классификации образов акустических характеристик речевых сигналов. В системах распознавания речи на основе нейронной сети выделяются две основные подсистемы:
подсистема предварительной обработки речевых сигналов, предназначенная для выделения информативных акустических характеристик речевого сигнала и формирования акустического образа, сигнала как набора характеристик;
подсистема классификации акустических образов с помощью нейронных сетей.
В настоящей работе представлено описание дополнений программной оболочки для анализа речевых сигналов с использованием быстрого преобразования Фурье. Данная программная оболочка имеет целью формирование инструмента для изучения различных методов и алгоритмов анализа данных, содержащихся в речевых сигналах.
Подсистема предварительной обработки речевых сигналов
Предварительная обработка речевого сигнала включает в себя следующие этапы:
процесс ввода речевого сигнала;
выделение границы речевого сигнала;
цифровая фильтрация;
нарезка речевого сигнала перекрывающимися кадрами;
обработка сигнала в окне;
спектральное преобразование;
нормирование частотного спектра.
Рассмотрим подробно этапы.
Процесс ввода речевого сигнала
Ввод звука осуществляется в реальном времени через звуковую карту или через файлы формата WAV в кодировке PCM. Частота дискретизации 8 КГц и квантование 16 бит являются типовыми параметрами в системах передачи, хранения и обработки речевой информации. Работа с файлами была предусмотрена, чтобы облегчить многократное повторение обработки нейронной сети, что особенно важно при обучении.
Выделение границы речевого сигнала
Для вычленения из входного сигнала участков, содержащих только речь, используются следующие характеристики речевого сигнала:
кратковременная энергия речевого сигнала;
число нулей интенсивности (мгновенная частота);
плотность распределения значения отчетов паузы.
Кратковременная энергия звукового сигнала и число нулей интенсивности одновременно используются для выделения речи из входного сигнала. Кроме того, можно удалить паузу из выходного сигнала методом на основе нормального (гауссова) распределения.
Цифровая фильтрация
Вместе с полезным сигналом обычно попадают различные шумы. Шум оказывает отрицательное воздействие на качество работы систем распознавания речи, поэтому с ним приходится бороться. Для снижения уровня шума в подсистеме применяются два типа цифрового фильтра:
пропускающий полосовой фильтр;
предварительный фильтр.
Пропускающий полосовой фильтр можно представить себе в виде комбинации фильтра нижних и верхних частот. Такой фильтр задерживает все частоты, ниже так называемой нижней частоты пропускания, а также выше верхней частоты пропускания.
Предварительная фильтрация представляется для снижения влияния локальных искажений на характерные признаки, которые в дальнейшем будут использоваться для распознавания. Для спектрального выравнивания речевого сигнала его следует пропустить через взвешивающий низкочастотный фильтр.
Нарезка речевого сигнала перекрывающимися кадрами
Для того чтобы получить векторы признаков одинаковой длины, нужно нарезать речевой сигнал на равные части, а затем выполнять преобразования внутри каждого кадра. Перекрытие используется для предотвращения потери информации о сигнале на границе.
Чем меньше перекрытие, тем меньшей размерностью в итоге будет обладать вектор свойств, характерный для рассматриваемого участка. Перекрытие иногда пропускается по причине экономии вычислительных ресурсов, поскольку он существенно замедляет скорость обработки данных. Обычно выбирается длина сегментов, соответствующая временному интервалу в 20-30мс.
Обработка сигнала в окне
Обработка сигнала в окне представляется для снижения граничных эффектов, возникающих в результате сегментации. Для подавления нежелательных граничных эффектов принято умножать сигнал на оконную функцию. Существует 4 типа оконных функций:
прямоугольное окно;
окно Ханна;
окно Хемминга;
окно Блэкмана.
В качестве функции использовано окно Хэмминга.
Спектральное преобразование
Информации об амплитуде и форме огибающей речевого сигнала не достаточно для выделения из речи лексических элементов. В зависимости от различных обстоятельств форма огибающей речевого сигнала может меняться в широких пределах. Для решения задачи распознавания необходимо выделить первичные признаки речи, которые будут использованы на последующих этапах процесса распознавания. Первичные признаки выделяются посредством анализа спектральных характеристик речевого сигнала. Для получения частотного спектра речевого сигнала используется быстрое преобразование Фурье (БПФ). БПФ представляется для получения амплитудного спектра и информации о фазе сигнала (в реальных и мнимых коэффициентах). Информация о фазе сигнала отбрасывается и вычисляются амплитудные спектры. При этом чаще используется логарифм этого значения.
Где –амплитудный спектр i-ой частоты,
N – размер БПФ,
– размер информативной части спектра.
Так как звуковые данные не содержат мнимой части, то по свойству БПФ результат получается симметричным, т.е. . Таким образом, размер информативной части спектра NS равен N/2.
Нормирование частотного спектра
Все вычисления в нейронных сетях производятся над числами с плавающей точкой. Поэтому значения параметров объектов, классифицируемых с помощью нейронных сетей, ограничены диапазоном [0.0, 1.0]. Для выполнения обработки спектра нейронной сетью полученный спектр нормируется на 1.0. Для этого каждый компонент вектора делится на его максимальный компонент.
Программная оболочка для предварительной обработки речевых сигналов
Программная оболочка реализована на языке программирования C#. На вход попадает звуковой файл форматом WAV. На экране отображаются сигналы, соответствующие этапы обработки, а также параметры преобразования. Пользователь может менять параметры, чтобы получить результаты различных алгоритмов и методов обработки данных. На выход программной оболочки попадает массив кадров. Каждый кадр соответствует набору чисел равного размера, характеризующих амплитудные спектры речевого сигнала.
На рис. 1 показано применение программной оболочки для изучения предварительной обработки речевых сигналов.
Рис. 1 –Применение программной оболочки к речевому сигналу
Заключение
В результате проделанной работы предложена программная оболочка для предварительной обработки речевых сигналов для системы распознавания речи с использованием дискретного преобразование Фурье. Планируется разработать систему автоматического распознавания речи на основе нейронной сети с выходом предварительной обработки речевых сигналов.
Литература:
Компьютерное распознавание и порождение речи. [Электронный ресурс]. – Режим доступа:
Корицкий, Д.В. Система распознавания речевых команд. [Электронный ресурс]. – Режим доступа:
http://www.nsc.ru/ws/show_abstract.dhtml?ru+130+9365
Оконное преобразование Фурье [Электронный ресурс]. – Режим доступа:
http://ru.wikipedia.org/wiki/Оконное_преобразование_Фурье
Фролов, А.В. Синтез и распознавание речи. Современные решения. / А.В. Фролов, Г.В. Фролов. – 186 с.