Сөзді тану жүйесінде сөйлеу сигналдарын өңдеу әдістеріне шолу және жіктеу

Жаксылык, Абылайхан Ермаханулы; Нургалиев, Азамат Аскарулы; Несипбек, Ернур Талгатулы; Кузеков, Асхат Сайпиевич

Сөзді тану жүйесінде сөйлеу сигналдарын өңдеу әдістеріне шолу және жіктеу

Авторы: Нургалиев Азамат Аскарулы, Несипбек Ернур Талгатулы, Жаксылык Абылайхан Ермаханулы

Научный руководитель: Кузеков Асхат Сайпиевич

Рубрика: Молодой ученый Қазақстан

Опубликовано в Молодой учёный №13 (355) март 2021 г.

Дата публикации: 29.03.2021 2021-03-29

Статья просмотрена: 37 раз

Скачать электронную версию

Скачать Часть 4 (pdf)

Библиографическое описание:

Нургалиев, Азамат Аскарулы. Сөзді тану жүйесінде сөйлеу сигналдарын өңдеу әдістеріне шолу және жіктеу / Азамат Аскарулы Нургалиев, Ернур Талгатулы Несипбек, Абылайхан Ермаханулы Жаксылык. — Текст : непосредственный // Молодой ученый. — 2021. — № 13 (355). — С. 302-305. — URL: https://moluch.ru/archive/355/79566/ (дата обращения: 27.07.2024).

Сөйлеу сигналдарын өңдеу саласындағы жұмыс өте белсенді. Сөйлеуді тану жүйелерінде қолданылатын қолданыстағы өңдеу әдістеріне аналитикалық шолу және жіктеу ұсынылған. Материалдар мен әдістер. Шолу сөйлеу сигналдарын талдаудың әртүрлі түрлерін қолдана отырып, өңдеу әдістерін аналитикалық зерттеу негізінде жасалады. Нәтижелері. Сүзу, сегменттеу, сөйлеу сигналдарын анықтау және тану есептерінде қолданылатын жиілік, уақыт және жиілік-уақыт салаларында өңдеу әдістерінің жіктелуі ұсынылған. Тұжырымдар. Жүргізілген шолу және ұсынылған жіктеу өңдеудің қолданыстағы әдістерінің мүмкіндіктерін объективті бағалауға; сөйлеуді тану жүйелерінде сөйлеу сигналдарын өңдеу есептерінде Жаңа математикалық аппараттарды қолдану мүмкіндігін алдын ала бағалауға мүмкіндік береді.

Очень активна работа в области обработки речевых сигналов. Представлен аналитический обзор и классификация существующих методов обработки, используемых в системах распознавания речи. Материалы и методы. Обзор составляется на основе аналитического исследования методов обработки с использованием различных видов анализа речевых сигналов. Результаты. Предложена классификация методов обработки в частотной, временной и частотно-временной областях, используемых в задачах фильтрации, сегментации, обнаружения и распознавания речевых сигналов. Выводы. Проведенный обзор и предложенная классификация позволяют объективно оценить возможности существующих методов обработки; предварительно оценить возможность применения нового математического аппарата в задачах обработки речевых сигналов в системах распознавания речи.

Кіріспе. ХХ ғасырдың аяғы мен XXI ғасырдың басы сөйлеу технологиясының даму тарихының басталуымен ерекшеленді, онда сөйлеуді тану жүйелері маңызды рөл алды. Бұл салада ең танымал келесі авторлардың еңбектері: Б. М. Лобанов, т. к. Винцюк, а. в. Фролов, Л. Р. Рабинер, Р. В. Шафер, В. А. Ли, Д. х. Клетт, Xuedong D. Huang, Hsiao-Wuen Hon, Alexa Acero. Бұл кезең сөйлеу сигналдарын өңдеу саласындағы көптеген іргелі және қолданбалы мәселелерді шешу үшін маңызды болды — шетелдік және ресейлік ғалымдардың еңбектерінің толық тізіміне сілтеме жасау жеткілікті. Алайда, бұл қызығушылықтың төмендеуіне себеп болған жоқ және сөйлеу сигналдарын өңдеу саласындағы жұмыс қазіргі уақытта да белсенді жүргізілуде.

Бұл мақала аналитикалық шолуға және сөйлеуді тану жүйелерінде қолданылатын сөйлеу сигналдарын өңдеудің қолданыстағы әдістерін жіктеуге арналған және авторлардың бұрын жарияланған жұмыстарының жалғасы болып табылады.

Сөйлеуді тану жүйелерінде сөйлеу сигналдарын өңдеу. Сөйлеу сигналдарын өңдеу-бұл ақпаратты сүзу, күшейту және алу, кодтау, қысу және қалпына келтіру жүзеге асырылатын ғылым саласы. Сөйлеуді тану жүйелерінде өңдеу келесі тапсырмаларды қамтиды:

— сүзу және шуды басу;

— ақпараттық бөлімдерге сегменттеу;

— ақпараттық параметрлерді анықтау;

— тану.

Сөйлеу сигналдарын өңдеудің әрбір міндеті белгілі бір әдістерді қолдану арқылы ғана жүзеге асырылуы мүмкін. Өңдеу аймағына байланысты әдістерді үш аймаққа бөлу керек: жиілік, уақыт және жиілік-уақыт.

Уақытша аймақтағы өңдеу әдістері сөйлеу сигналының сипаттамалық нүктелерін анықтау, содан кейін оларды талдау үшін пайдалану болып табылады. Техникалық іске асыру тұрғысынан айқын максимумдар (минимумдар) және сигнал функциясы арқылы уақыттың нөлдік осінің қиылысу моменттері тән нүктелер ретінде таңдалуы мүмкін. Уақыт аймағындағы өңдеу әдістерінің басты кемшілігі — Шу мен нөлдік деңгейдің ығысуынан туындаған сипаттамалық нүктелердің бөлінуінің анық еместігі.

Жиілік аймағында өңдеу әдістері сөйлеу сигналында тіркелген барлық деректерді санауды қолданудан тұрады. Көптеген сөйлеу сигналдары белгілі бір жиілік құрамына ие және тән спектрлік аймақтарды алады. Жиілік аймағында әдістерді қолдану сөйлеу сигналдарын өте жоғары дәлдікпен өңдеуге мүмкіндік береді. Жиілік аймағында өңдеудің кемшіліктері сигналдардың жергілікті қасиеттеріне төмен бейімделуді, жеткіліксіз жоғары спектрлік ажыратымдылықты және салыстырмалы түрде үлкен есептеу шығындарын қамтиды.

Жиілік-уақыт аймағында өңдеу әдістері-бұл кемшіліктердің минималды көріністері бар уақыт пен жиілікті талдаудың барлық артықшылықтарын қамтитын әдістер.

Сөйлеу сигналдарын өңдеу әдістері

Сөйлеу сигналдарын өңдеудің белгілі әдістеріне және өз зерттеулеріне жүргізілген шолу өңдеуге байланысты әдістерді әртүрлі талдау түрлерімен жүзеге асырылатын топтарға бөлу керек екенін анықтады:

— Фурье түрлендіруді қолдану (ФТ);

— вейвлет-түрлендіруді (ВТ) пайдалана отырып);

— эмпирикалық режимдерге (ДЭМ) декомпозицияны және Гильберт-Хуангтың (ГХ) қайта құрылуын пайдалану арқылы);

— кепстрды пайдалана отырып (кепстралды талдау);

— сызықтық болжауды (СБ) қолдану);

— корреляциялық функцияны қолдану (корреляциялық талдау-КрА);

— нейрондық желілерді (НЖ) пайдалану);

— жасырын Марков модельдерін қолдану (СММ);

— уақытты динамикалық түрлендіруді (DTV) қолдана отырып.

Талдаудың әртүрлі түрлерімен өңдеу әдістерін толығырақ қарастырайық.

Фурье түрлендіруін қолдана отырып талдау. ФТ ғылымның көптеген салаларында, соның ішінде сөйлеу технологиясында қолданылады. Сөйлеу сигналдарын өңдеу саласында ФТ сигналды уақыт аймағынан жиілік аймағына түрлендіру және оны жиілік компоненттеріне бөлу ретінде қарастырылады:

$C:\Users\User\Desktop\ДИПЛОМ\Диссертация\Статья\формула скрин 1.png$

Мұндағы, S (ώ) — жиілік саласындағы сигнал; s(t) — уақытша аймақтағы сигнал; j-қиялдағы бірлік.

Сандық өңдеу тапсырмаларында Дискретті Фурье түрлендіруі жиі қолданылады, өйткені сөйлеу сигналы көбінесе гармоникалық қосылыстардың қосындысы ретінде дискретті түрде ұсынылады:

$C:\Users\e.nesipbek\AppData\Local\Microsoft\Windows\INetCache\Content.Word\Снимок.jpg$

Мұндағы , k – гармоника нөмірі; - бірінші гармониканың жиілігі; 0 < n < N – дискретті уақыт есептері; Т - іріктеу жиілігінің кезеңі.

Дискретті Фурье түрлендіруді қолдана отырып спектр құру сөйлеу сигналы туралы ақпаратты ықшам және көрнекі түрде ұсынуға мүмкіндік береді. Алайда, спектрлік түрде қысқа мерзімді жергілікті ерекшеліктерді егжей-тегжейлі талдау мүмкін емес, бұл Дискретті Фурье түрлендіруінің маңызды кемшілігі болып табылады [11].

Толқындық түрлендіруді қолдана отырып талдау. Фурье түрлендіруінің кең практикалық танымалдылығына қарамастан, жақында сөйлеу сигналдарын өңдеу саласындағы көптеген міндеттер толқындық түрлендіруді қолдану арқылы жүзеге асырылды. Толқын (аналық толқын) — бұл уақытша және жиілік аймағында жақсы локализацияланған кейбір функция (яғни, белгілі бір нүктенің кішкентай маңында шоғырланған және ол жойылған кезде нөлге дейін күрт төмендейді). Аналық Толқынға екі операция қолданылады: ығысу (локализация аймағын уақыт бойынша жылжыту) және масштабтау (созылу немесе қысу, яғни оның локализация аймағын жиілік бойынша ауыстыру):

$C:\Users\e.nesipbek\AppData\Local\Microsoft\Windows\INetCache\Content.Word\Снимок.jpg$

Мұндағы , u , s — ығысу параметрлері.

Толқындық түрлендірудің мәні — сигналды аналық толқынның масштабталған және уақыт осі бойынша жылжытылған нұсқаларына бөлу және бастапқы сигналдың бөлімдері мен толқындық нұсқалардың корреляция коэффициенттерін берілген масштабта есептеу. Нәтиже — белгілі бір уақытта сигналдың әрекеті белгілі бір масштабтағы толқынның мінез-құлқына қаншалықты ұқсас екенін көрсететін коэффициенттер жиынтығы, яғни толқын коэффициенттері сигналдың берілген масштабтағы Толқынға жақындығын көрсетеді. Талданатын сигналдың түрі осы сәттің айналасында толқын түріне неғұрлым жақын болса, соғұрлым тиісті коэффициент абсолютті мәнге ие болады.

Эмпирикалық режимдер мен Гильберт — Хуанг түрлендірулерінің ыдырауын қолдана отырып талдау. Толқындық түрлендіруді қолдана отырып, сөйлеу сигналдарын адаптивті талдау үшін априорлық ақпаратты-аналық толқындық функцияны қолдану қажет екендігі белгілі. Талданған сигналдың сипаттамаларына негізделген толқынның тиісті функциясын таңдау мәселесі әрдайым бірдей бола бермейді. Бейімделу мәселесін шешу үшін Гильберт — Хуангты түрлендіруге негізделген жаңа өңдеу әдісі қолданылады. Бұл әдістің басты артықшылығы — жоғары бейімделу, ол дыбысты шығару кезінде қолданылатын негізгі функциялар тікелей бастапқы сигналдан алынады және тек өзіне тән ерекшеліктерді үйретуге мүмкіндік береді.

Гилберт — Хуангтың түрлендірулеріне екі негізгі кезең кіреді:

1. Сигналдың компоненттерге ыдырауы — эмпирикалық режимдерге ыдырау [12, 13]:

Мұндағы , imfi ( t ) – эмпирикалық мод(ЭМ); rI ( t ) - ыдырау қалдығы; i  1, 2, ..., I – ЭМ нөмері.

2. Гильберт спектрінің алынған эмпирикалық режимдерінің қалыптасуы [14]:

$C:\Users\e.nesipbek\AppData\Local\Microsoft\Windows\INetCache\Content.Word\Снимок.jpg$

Мұндағы , $C:\Users\e.nesipbek\AppData\Local\Microsoft\Windows\INetCache\Content.Word\Снимок.jpg$ - әрбір эмпирикалық режимнің сигнал амплитудасының лездік мәні модулі; imf ( t ) – эмпирикалық мод сигналы; сигнал фазасына пропорционалды уақыт ығысуы; ( t )  2 fj - әр эмпирикалық режимнің циклдік жиілігі; j - қиялдағы бірлік.

a ( t ) және ( t ) мәндері әр эмпирикалық режимнің Zi ( t )  imfi  t   jIMFi  t  аналитикалық сигналынан анықталады.

Қорытынды

Аналитикалық шолу негізінде сөйлеуді тану жүйелерінде қолданылатын сөйлеу сигналдарын өңдеудің қолданыстағы әдістерінің жіктелуі келтірілген. Бұл жіктеу сөйлеу сигналдарын өңдеудің қолданыстағы әдістерінің мүмкіндіктерін объективті бағалауға және сөйлеуді тану жүйелерінде сөйлеу сигналдарын өңдеу есептерінде жаңа математикалық құрылғыларды қолдану мүмкіндігін алдын-ала бағалауға мүмкіндік береді.

Әдебиет:

Алимурадов, А. К. Параметры и классификация систем распознавания речи / А. К. Алимурадов // Модели, системы, сети в экономике, технике, природе и обществе. — 2013. — № 1 (9). — С. 79–84.
Алимурадов, А. К. Обработка речевых команд в системах голосового управления / А. К. Алимурадов // Измерение. Мониторинг. Управление. Контроль. — 2014. — № 1 (7). — С. 50–57.
Лобанов, Б. М. Анализ и синтез речи: сб. науч. тр. / Б. М. Лобанов. — Минск: АН БССР, 1991. — 47 с.
Винцюк, Т. К. Анализ, распознавание и интерпретация речевых сигналов / Т. К. Вин- тюк. — Киев: Наукова думка, 1987. — 264 с.
Фролов, А. В. Синтез и распознавание речи. Современные решения / Г. В. Фролов. – М.: Связь, 2003. — 216 с.
Рабинер, Л. Р. Цифровая обработка речевых сигналов: пер. с англ. / Л. Р. Рабинер, Р. В. Шафер. — М.: Радио и связь, 1981. — 496 с.
Михайлов, В. Г. Измерение параметров речи / В. Г. Михайлов, Л. В. Златоусова; под ред. М. А. Сапожникова. — М.: Радио и связь, 1987. — 168 с.

Основные термины (генерируются автоматически): сигнал, DTV, Михайлов, система распознавания речи, существующий метод обработки.

Похожие статьи

Методы распознавания речи | Статья в журнале «Молодой...»

Распознавание речи включает в себя два основных этапа: предварительную обработку сигнала и его классификацию. Предварительная обработка. На этапе предварительной обработки исходный сигнал преобразуется в векторы признаков, на основе которых затем будет произведена классификация. Этот этап может включать в себя следующие шаги: – преобразование сигнала из аналоговой формы в цифровую

– выделение границ речи; – выделение признаков сигнала. Наиболее распространенные методы выделения признаков — это метод мел-частотных кепстральных коэффициентов и метод кепстральных коэффициентов на основе линейного предсказания. Мел-частотные кепстральные коэффициенты (MFCC).

Предварительная обработка речевых сигналов для системы...

Распознавание речи является задачей классификации образов акустических характеристик речевых сигналов. В системах распознавания речи на основе нейронной сети выделяются две основные подсистемы: подсистема предварительной обработки речевых сигналов, предназначенная для выделения информативных акустических характеристик речевого сигнала и

Обработка сигнала в окне представляется для снижения граничных эффектов, возникающих в результате сегментации. Для подавления нежелательных граничных эффектов принято умножать сигнал на оконную функцию. Существует 4 типа оконных функций

При обработке речевых сигналов, как правило, оперируют не с исходным речевым сигналом, а с его. Ниже приведена программная реализация вычисления энергии сигнала в среде MATLAB. Предварительная обработка речевых сигналов для системы распознавания речи.

Методы распознавания речи, современные речевые технологии

Современные системы распознавания речи дают возможность пользователям диктовать слова (фразы) в обычной разговорной манере. Однако процесс непрерывного распознавания речи, дающий до 95 % качества распознавания при оптимальных условиях, все-таки дает на 100 знаков 4–5 ошибок. Около 200 ошибок на странице формата A4 — слишком много для профессиональной работы.

В ближайшее десятилетие задача распознавания и понимания естественной речи вне зависимости от языка и диктора будет занимать центральное место в речевых технологиях. В настоящее время в ХНУРЭ разрабатывается новый метод автоматического распознавания речевых сигналов в реальном масштабе времени, основанный на бионическом принципе анализа сигналов.

Распознавание голоса в сфере информационных технологий

Ключевые слова: распознавание голоса, распознавание речи, информационные системы, искусственный интеллект. В настоящее время прогресс в области информационных технологий достиг немыслимых границ и продолжает стремительно развиваться пропорционально тому, насколько возрастает роль информации в обществе.

Распознавание речи — технология, использующая естественный для человека речевой интерфейс при взаимодействии с компьютерными системами. Большинство современных методов, позволяющих осуществлять распознавание речи... Задача распознавания речи и выбор оптимального сервиса для...

В статье рассматривается задача распознавания речи, классификация систем распознавания речи. Рассматриваются основные достоинства и недостатки существующих решений с открытым и с закрытым исходным кодом.

Речевые технологии — следующий уровень сервиса

Распознавание речи — системы, которые позволяют преобразовывать в компьютерную форму, представленную слитную проблемно-ориентированную человеческую речь. В настоящее время разработаны системы, которые могут разобрать ограниченное количество слов.

Предварительная обработка речевых сигналов для системы... Распознавание речи является задачей классификации образов акустических характеристик речевых сигналов. В системах распознавания речи на основе нейронной сети выделяются две основные подсистемы.

Распознавание речи на основе искусственных нейронных сетей

Предварительная обработка речевых сигналов для системы... Распознавание речи является задачей классификации образов акустических. Рис. 1 - Схема предварительной обработки речевых сигналов Модель распознавания речи на основе искусственных нейронных сетей.

Похожие статьи. Методы распознавания речи | Статья в журнале «Молодой...» нейронная сеть, набор чисел, шаг, речевой сигнал, генетический алгоритм, предварительная обработка, модель распознавания речи, скрытый слой, хромосома, линейное предсказание. Предварительная обработка речевых сигналов для системы... речевой сигнал, программная оболочка, предварительная обработка, сигнал, нейронная сеть, WAV, частотный спектр, Обработка сигнала, амплитудный спектр, быстрое преобразование.

Сегментация, шумоподавление и фонетический анализ в задаче...

Разработан метод формирования грамматической формы слова на основе его фонетическо-го представления с использованием метрик Левенштейна и Дамерау-Левенштейна. По результатам распознавания можно заключить, что алгоритм Дамерау-Левенштейна лучше всего подходит для получения грамматической формы слова.

Для повышения точности вычисления речевых признаков и уменьшения числа операций по обработке сигнала необходимо отделить «полезную» информацию от пауз. Существуют различные алгоритмы сегментации сигнала [2; 3]. Общей их чертой является разбиение сигнала на кадры и их анализ.

Алгоритмы нечеткого поиска (также известные как поиск по сходству) являются основой систем проверки орфографии, а также полноценных поисковых систем (вроде Google или Yandex). Помимо этого, они применимы для получения конечной грамматической формы слова при распознавании речи.

Использование преобразования Гильберта-Хуанга для...

Конечной целью создания систем распознавания речи является способность машины распознавать слова в акустическом сигнале с эффективностью, не меньшей по сравнению с аналогичной способностью человека. В ходе истории разработок наблюдался значительный прогресс: размер словаря вырос до нескольких миллионов слов, а сами системы эволюционировали от дикторозависимых к дикторонезависимым.

В связи с этим актуальность разработки новых устойчивых и универсальных методов формирования речевых признаков очевидна. При создании системы преобразования речи в текст одна из самых важных задач — выбор единицы распознавания.Рассмотрим основные подходы, используемые в системах распознавания речи для формирования речевых признаков — моделей фонем.

Система идентификации диктора по голосу на основе GMM-UBM...

При предварительной обработке данных с записи необходимо удалить те участки, на которых отсутствует голос диктора, что позволить сократить влияние шума на результат идентификации (рисунок 1). Рис. 1. Сигнал до и после удаления шумов и пауз. Наиболее эффективными являются методы, основанные на энергии или на статистических данных шума. Все эти методы основаны на том, что в начале записи, когда человек еще не успел ничего сказать, присутствует только шум, который можно проанализировать. Весь сигнал делится на отдельные равные участки, называемые фреймами. Затем, в случае с энергией, высчитывается энергия Ei каждого фрейма и среднее значение энергии для всей записи E. Если Ei < k * E, где k < 1, то на этом фрейме тишина.

Сөзді тану жүйесінде сөйлеу сигналдарын өңдеу әдістеріне шолу және жіктеу

Библиографическое описание:

Похожие статьи

Похожие статьи

Ответим на ваш вопрос!