Предварительная обработка речевых сигналов для системы распознавания речи | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 30 ноября, печатный экземпляр отправим 4 декабря.

Опубликовать статью в журнале

Авторы: ,

Рубрика: Технические науки

Опубликовано в Молодой учёный №5 (28) май 2011 г.

Статья просмотрена: 7168 раз

Библиографическое описание:

Ле, Нгуен Виен. Предварительная обработка речевых сигналов для системы распознавания речи / Нгуен Виен Ле, Д. П. Панченко. — Текст : непосредственный // Молодой ученый. — 2011. — № 5 (28). — Т. 1. — С. 74-76. — URL: https://moluch.ru/archive/28/3171/ (дата обращения: 16.11.2024).

Данная работа посвящена исследованию в области речевой технологий. В работе представлено описание программной оболочки для предварительной обработки речевых сигналов с использованием дискретного преобразование Фурье. Данная программная оболочка имеет целью создание инструмента для изучения различных алгоритмов и методов обработки данных, содержащихся в речевых сигналах. В настоящей работе на основе системы распознавания исследуются условия применимости дискретного преобразование Фурье в качестве инструмента при выделении акустических характеристик речевых сигналов.

Введение

Создание естественных для человека средств общения с компьютером является в настоящее время важнейшей задачей современной науки, при этом речевой ввод информации осуществляется наиболее удобным для пользователя способом. Распознавание речи является задачей классификации образов акустических характеристик речевых сигналов. В системах распознавания речи на основе нейронной сети выделяются две основные подсистемы:

  • подсистема предварительной обработки речевых сигналов, предназначенная для выделения информативных акустических характеристик речевого сигнала и формирования акустического образа, сигнала как набора характеристик;

  • подсистема классификации акустических образов с помощью нейронных сетей.

В настоящей работе представлено описание дополнений программной оболочки для анализа речевых сигналов с использованием быстрого преобразования Фурье. Данная программная оболочка имеет целью формирование инструмента для изучения различных методов и алгоритмов анализа данных, содержащихся в речевых сигналах.

Подсистема предварительной обработки речевых сигналов

Предварительная обработка речевого сигнала включает в себя следующие этапы:

  • процесс ввода речевого сигнала;

  • выделение границы речевого сигнала;

  • цифровая фильтрация;

  • нарезка речевого сигнала перекрывающимися кадрами;

  • обработка сигнала в окне;

  • спектральное преобразование;

  • нормирование частотного спектра.

Рассмотрим подробно этапы.

Процесс ввода речевого сигнала

Ввод звука осуществляется в реальном времени через звуковую карту или через файлы формата WAV в кодировке PCM. Частота дискретизации 8 КГц и квантование 16 бит являются типовыми параметрами в системах передачи, хранения и обработки речевой информации. Работа с файлами была предусмотрена, чтобы облегчить многократное повторение обработки нейронной сети, что особенно важно при обучении.

Выделение границы речевого сигнала

Для вычленения из входного сигнала участков, содержащих только речь, используются следующие характеристики речевого сигнала:

  • кратковременная энергия речевого сигнала;

  • число нулей интенсивности (мгновенная частота);

  • плотность распределения значения отчетов паузы.

Кратковременная энергия звукового сигнала и число нулей интенсивности одновременно используются для выделения речи из входного сигнала. Кроме того, можно удалить паузу из выходного сигнала методом на основе нормального (гауссова) распределения.

Цифровая фильтрация

Вместе с полезным сигналом обычно попадают различные шумы. Шум оказывает отрицательное воздействие на качество работы систем распознавания речи, поэтому с ним приходится бороться. Для снижения уровня шума в подсистеме применяются два типа цифрового фильтра:

  • пропускающий полосовой фильтр;

  • предварительный фильтр.

Пропускающий полосовой фильтр можно представить себе в виде комбинации фильтра нижних и верхних частот. Такой фильтр задерживает все частоты, ниже так называемой нижней частоты пропускания, а также выше верхней частоты пропускания.

Предварительная фильтрация представляется для снижения влияния локальных искажений на характерные признаки, которые в дальнейшем будут использоваться для распознавания. Для спектрального выравнивания речевого сигнала его следует пропустить через взвешивающий низкочастотный фильтр.

Нарезка речевого сигнала перекрывающимися кадрами

Для того чтобы получить векторы признаков одинаковой длины, нужно нарезать речевой сигнал на равные части, а затем выполнять преобразования внутри каждого кадра. Перекрытие используется для предотвращения потери информации о сигнале на границе.

Чем меньше перекрытие, тем меньшей размерностью в итоге будет обладать вектор свойств, характерный для рассматриваемого участка. Перекрытие иногда пропускается по причине экономии вычислительных ресурсов, поскольку он существенно замедляет скорость обработки данных. Обычно выбирается длина сегментов, соответствующая временному интервалу в 20-30мс.

Обработка сигнала в окне

Обработка сигнала в окне представляется для снижения граничных эффектов, возникающих в результате сегментации. Для подавления нежелательных граничных эффектов принято умножать сигнал на оконную функцию. Существует 4 типа оконных функций:

  • прямоугольное окно;

  • окно Ханна;

  • окно Хемминга;

  • окно Блэкмана.

В качестве функции использовано окно Хэмминга.

Спектральное преобразование

Информации об амплитуде и форме огибающей речевого сигнала не достаточно для выделения из речи лексических элементов. В зависимости от различных обстоятельств форма огибающей речевого сигнала может меняться в широких пределах. Для решения задачи распознавания необходимо выделить первичные признаки речи, которые будут использованы на последующих этапах процесса распознавания. Первичные признаки выделяются посредством анализа спектральных характеристик речевого сигнала. Для получения частотного спектра речевого сигнала используется быстрое преобразование Фурье (БПФ). БПФ представляется для получения амплитудного спектра и информации о фазе сигнала (в реальных и мнимых коэффициентах). Информация о фазе сигнала отбрасывается и вычисляются амплитудные спектры. При этом чаще используется логарифм этого значения.

Где –амплитудный спектр i-ой частоты,

–реальный коэффициент,

–мнимый коэффициент,

N – размер БПФ,

– размер информативной части спектра.

Так как звуковые данные не содержат мнимой части, то по свойству БПФ результат получается симметричным, т.е. . Таким образом, размер информативной части спектра NS равен N/2.

Нормирование частотного спектра

Все вычисления в нейронных сетях производятся над числами с плавающей точкой. Поэтому значения параметров объектов, классифицируемых с помощью нейронных сетей, ограничены диапазоном [0.0, 1.0]. Для выполнения обработки спектра нейронной сетью полученный спектр нормируется на 1.0. Для этого каждый компонент вектора делится на его максимальный компонент.

Программная оболочка для предварительной обработки речевых сигналов

Программная оболочка реализована на языке программирования C#. На вход попадает звуковой файл форматом WAV. На экране отображаются сигналы, соответствующие этапы обработки, а также параметры преобразования. Пользователь может менять параметры, чтобы получить результаты различных алгоритмов и методов обработки данных. На выход программной оболочки попадает массив кадров. Каждый кадр соответствует набору чисел равного размера, характеризующих амплитудные спектры речевого сигнала.

На рис. 1 показано применение программной оболочки для изучения предварительной обработки речевых сигналов.

Рис. 1 –Применение программной оболочки к речевому сигналу


Заключение

В результате проделанной работы предложена программная оболочка для предварительной обработки речевых сигналов для системы распознавания речи с использованием дискретного преобразование Фурье. Планируется разработать систему автоматического распознавания речи на основе нейронной сети с выходом предварительной обработки речевых сигналов.


Литература:

  1. Компьютерное распознавание и порождение речи. [Электронный ресурс]. – Режим доступа:

http://speech-text.narod.ru/chap3.html

  1. Корицкий, Д.В. Система распознавания речевых команд. [Электронный ресурс]. – Режим доступа:

http://www.nsc.ru/ws/show_abstract.dhtml?ru+130+9365

  1. Оконное преобразование Фурье [Электронный ресурс]. – Режим доступа:

http://ru.wikipedia.org/wiki/Оконное_преобразование_Фурье

  1. Фролов, А.В. Синтез и распознавание речи. Современные решения. / А.В. Фролов, Г.В. Фролов. – 186 с.

Основные термины (генерируются автоматически): речевой сигнал, программная оболочка, предварительная обработка, сигнал, WAV, нейронная сеть, Обработка сигнала, частотный спектр, амплитудный спектр, быстрое преобразование.


Похожие статьи

Реализация и верификация модели цифрового фильтра устройства синхронизированных векторных измерений

Исследование вопроса применения синхронизированных векторных измерений (СВИ), зафиксированных во время быстропротекающих электромагнитных процессов, для решения различных задач требует наличия либо данных от реальных устройств СВИ (УСВИ), либо моделе...

Формирование облика навигационной системы для подвижного наземного объекта

Рассматривается формирование облика навигационной системы подвижного наземного объекта, предлагается состав системы с описанием его элементов. В качестве алгоритма обработки информации предлагается использование алгоритма обработки информации позволя...

Разработка и анализ алгоритма биометрической аутентификации по рисунку кровеносных сосудов пользователя

Разработка систем биометрической аутентификации — приоритетное направление в сфере информационной безопасности. Целью статьи является формирование общих представлений о процедуре биометрической аутентификации по рисунку кровеносной системы пользовате...

Разработка системы контроля и управления доступом с применением биометрических методов идентификации

В статье рассмотрены биометрические методы идентификации, применяемые в системах контроля и управления доступом, приведена классификация методов идентификации и основные параметры оценки представленных систем. В качестве базовой технологии выступает ...

Контроль и оценка умений монологического высказывания на уроках английского языка в 9-м классе

В статье рассматриваются вопросы контроля и оценки умений монологического высказывания на уроках английского языка в 9 классе. Исследование основано на анализе внутренней и внешней структуры монологической речи, требованиях Федерального государственн...

Применение метода морфологического анализа при разработке веб-проектов

При разработке веб-проектов этап прототипирования интерфейса является неотъемлемой и важной частью модели жизненного цикла всего интернет-проекта. Актуальной проблемой при проектировании прототипов является генерирование всех возможных вариантов реше...

Обучение моделей распознавания Tesseract с использованием языковых моделей типа GPT и программной роботизации

Цель работы — исследовать, разработать и популяризировать решение обучения оптического распознавания текста на русском языке, с использованием машинного обучения, нейронных сетей и программной роботизации. В статье описывается проблематика использов...

Анализ и моделирование бизнес-процессов для разработки информационной системы в логистической компании

В данной статье представлен анализ и моделирование бизнес-процессов логистической компании с целью разработки информационной системы (ИС), способной оптимизировать операционные процессы. Проведенный анализ выявил ключевые этапы логистических операций...

Анализ клавиатурного почерка в процессах аутентификации, идентификации и обнаружения подмены оператора

В статье клавиатурный почерк рассматривается в качестве одной из динамических поведенческих биометрических характеристик человека. Развитие новых моделей, методов, алгоритмов распознавания клавиатурного почерка на основе анализа существующих эксперим...

Макромедиа: анализ мультимедиа информации. M-Lang

Данная статья посвящена общей проблематике использования и разработки макромедиа технологий. Опираясь на известные принципы и методы анализа и обработки информации, автор поставил перед собой цель определить основные понятия и правила, необходимые дл...

Похожие статьи

Реализация и верификация модели цифрового фильтра устройства синхронизированных векторных измерений

Исследование вопроса применения синхронизированных векторных измерений (СВИ), зафиксированных во время быстропротекающих электромагнитных процессов, для решения различных задач требует наличия либо данных от реальных устройств СВИ (УСВИ), либо моделе...

Формирование облика навигационной системы для подвижного наземного объекта

Рассматривается формирование облика навигационной системы подвижного наземного объекта, предлагается состав системы с описанием его элементов. В качестве алгоритма обработки информации предлагается использование алгоритма обработки информации позволя...

Разработка и анализ алгоритма биометрической аутентификации по рисунку кровеносных сосудов пользователя

Разработка систем биометрической аутентификации — приоритетное направление в сфере информационной безопасности. Целью статьи является формирование общих представлений о процедуре биометрической аутентификации по рисунку кровеносной системы пользовате...

Разработка системы контроля и управления доступом с применением биометрических методов идентификации

В статье рассмотрены биометрические методы идентификации, применяемые в системах контроля и управления доступом, приведена классификация методов идентификации и основные параметры оценки представленных систем. В качестве базовой технологии выступает ...

Контроль и оценка умений монологического высказывания на уроках английского языка в 9-м классе

В статье рассматриваются вопросы контроля и оценки умений монологического высказывания на уроках английского языка в 9 классе. Исследование основано на анализе внутренней и внешней структуры монологической речи, требованиях Федерального государственн...

Применение метода морфологического анализа при разработке веб-проектов

При разработке веб-проектов этап прототипирования интерфейса является неотъемлемой и важной частью модели жизненного цикла всего интернет-проекта. Актуальной проблемой при проектировании прототипов является генерирование всех возможных вариантов реше...

Обучение моделей распознавания Tesseract с использованием языковых моделей типа GPT и программной роботизации

Цель работы — исследовать, разработать и популяризировать решение обучения оптического распознавания текста на русском языке, с использованием машинного обучения, нейронных сетей и программной роботизации. В статье описывается проблематика использов...

Анализ и моделирование бизнес-процессов для разработки информационной системы в логистической компании

В данной статье представлен анализ и моделирование бизнес-процессов логистической компании с целью разработки информационной системы (ИС), способной оптимизировать операционные процессы. Проведенный анализ выявил ключевые этапы логистических операций...

Анализ клавиатурного почерка в процессах аутентификации, идентификации и обнаружения подмены оператора

В статье клавиатурный почерк рассматривается в качестве одной из динамических поведенческих биометрических характеристик человека. Развитие новых моделей, методов, алгоритмов распознавания клавиатурного почерка на основе анализа существующих эксперим...

Макромедиа: анализ мультимедиа информации. M-Lang

Данная статья посвящена общей проблематике использования и разработки макромедиа технологий. Опираясь на известные принципы и методы анализа и обработки информации, автор поставил перед собой цель определить основные понятия и правила, необходимые дл...

Задать вопрос