Разработка модуля голосовой идентификации пользователя | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 11 мая, печатный экземпляр отправим 15 мая.

Опубликовать статью в журнале

Автор:

Научный руководитель:

Рубрика: Технические науки

Опубликовано в Молодой учёный №43 (438) октябрь 2022 г.

Дата публикации: 27.10.2022

Статья просмотрена: 29 раз

Библиографическое описание:

Рзаева, Г. М. Разработка модуля голосовой идентификации пользователя / Г. М. Рзаева. — Текст : непосредственный // Молодой ученый. — 2022. — № 43 (438). — С. 18-20. — URL: https://moluch.ru/archive/438/95330/ (дата обращения: 02.05.2024).



В работе описывается возможность применения и улучшения задачи разработки программного обеспечения при использовании средств голосового интерфейса и технологий распознания речи, а также цели и задачи будущей магистерской диссертации.

Ключевые слова : голосовой интерфейс, распознавание речи, разработка программного обеспечения.

Идентификация диктора — процесс, выявляющий личность по образцу голоса путём сравнения данного образца с образцами, сохранёнными в базе. Результатом процесса идентификации является список кандидатов. Выполняющая система может выдать список фиксированного размера либо приять решение о включении пользователя в список кандидатов на основании заданного критерия. Если предусмотрена возможность того, что в процессе идентификации участвует пользователь, не зарегистрированный в системе, то говорят об идентификации на открытом множестве. Если все пользователи, которые проходят процедуру идентификации, зарегистрированы в системе, то говорят об идентификации на замкнутом множестве.

Создание интерфейсов, поддерживающих и предлагающих более эргономичные и естественные формы диалога между пользователями и компьютерной техникой, движется и ускоряется внедрением информационных технологий в след растущим потребностям профессиональной и повседневной деятельности человека.

В области информационных технологий (ИТ) средства взаимодействия пользователя с технической системой принято называть интерфейсом. Интерфейсы бывают разные и реализуются разными средствами и методами. Одной из важнейших задач разработки современных технических систем является обеспечение наиболее интуитивного и естественного интерфейса с пользователем, то есть современные компьютерные приложения ориентированы на пользователя.

Одной из естественных форм взаимодействия для человека является речь. Голосовой интерфейс может улучшить существующий пользовательский интерфейс — он обеспечивает более удобный и менее ограниченный способ взаимодействия человека с компьютером. Качественный голосовой интерфейс помогает преодолевать неприятие технологии пользователями, так как для его использования не нужно овладевать новыми навыками. Голосовой интерфейс качественным образом изменяет способ, а, следовательно, и эффективность взаимодействия пользователя с системой.

Дикторозaвисимая система предназначена для использования одним пользователем, в то время как дикторонезависимая система предназначена

для работы с разными дикторами. Дикторонезaвисимость — труднодостижимая цель, так как при обучении системы, она настраивается на параметры того диктора, на примере которого обучается. Частота ошибок распознавания таких систем обычно в 3–5 раз больше, чем частота ошибок дикторозaвисимых систем.

Целью работы является — разработка специализированных средств голосового интерфейса и применение технологий распознания речи для разработки программного обеспечения.

Для достижения цели сформулированы и поставлены следующие задачи:

– изучение текущего состояния голосовых интерфейсов и соответственно области распознавания речи;

– произвести анализ предметных областей, обозначить существующие проблемы, трудности и недостатки применения не специализированных средств голосового интерфейса;

– разработать концептуальную архитектуру системы;

– разработать прототип программной реализации системы, имеющую модульную архитектуру с возможностями интеграции, учитывая условия и современные тенденции отрасли информационных технологий;

– разработать базовый набор средств голосового интерфейса для разработки программного обеспечения.

Объектом исследования являются средства голосового интерфейса, технологии распознавания речи и задача разработки программного обеспечения.

Предмет исследования — возможность применения и улучшения задачи разработки программного обеспечения при использовании средств голосового интерфейса и технологий распознания речи.

Из доступных на рынке и в отрасли инструментов разработки программного обеспечения, по критериям доступности, наличия и полноты документации, условиям лицензирования и стоимости, были выбраны следующие инструменты и приведены их описание и основные особенности.

Simplified Wrapper and Interface Generator (SWIG) — свободный инструмент для связывания программ и библиотек написанных на C/C++ со скриптовыми языками, такими как Tcl, Perl, Python, Ruby, PHP или другими языками (Java, C#, Scheme или OcamlP). SWIG можно использовать, модифицировать и распространять практически без ограничений, для коммерческих и некоммерческих целей. Основная цель — достигнуть связи с минимальными усилиями. В файлы заголовка программы добавляется небольшое количество указаний, по которым SWIG генерирует исходный код для связывания C/C++ и нужного языка.

Qt Software Development Kit (SDK) включает в себя инструменты, необходимые для сборки десктопа, встроенных и мобильных приложений с Qt.

В качестве плaтформы для иccледовaний и рaзрaботки модуля голосовой идентификации дикторa был выбрaн пaкет MATLAB. Данный выбор объясняется следующим:

MATLAB — пaкет приклaдных прогрaмм для решения задач сложных техничеcких вычиcлений, а тaкже иcпользуемый в этом пaкете язык программировaния. MATLAB иcпользуют более 1 000 000 научных и инженерных рaботников, он рaботает на большинстве cовременных оперaционных cистем, включaя GNU/Linux, Mac OS, Solaris и Microsoft Windows.

Язык MATLAB является высокоуровневым интерпретируемым языком программирования, включающим основанные на матрицах структуры данных, широкий спектр функций, интегрированную среду разработки, объектно-ориентированные возможности и интерфейсы к программам, написанным на других языках программирования.

В пакет MATLAB входят различные интерфейсы для получения доступа к внешним подпрограммам, написанным на других языках программирования, данным, клиентам и серверам, общающимся через технологии Component Object Model или Dynamic Data Exchange, а также периферийным устройствам, которые взаимодействуют напрямую с MATLAB. Многие из этих возможностей известны под названием MATLAB API.

Система Matlab предоставляет мощный язык программирования, ориентированный на математические преобразования, который превосходит по возможности и скорости вычислений традиционные языки программирования.

Литература:

  1. Возможности по распознанию речи Силаев А. В. Орёл ГТУ, научный руководитель Абашин В. Г.
  2. Жожикашвили В. А. и др. Применение распознавания речи в автоматизированных системах массового обслуживания// Автоматизация и современные технологии, 2020, No11, с.
  3. Воэльо, Л. П. Построение систем машинного обучения на языке Python / Воэльо Л. П., Ричарт В. — 2-е изд.: пер. с англ. Слинкин А. А. — М.: ДМК Пресс, 2016–302 с.: ил.
  4. Винцюк Т. К. Анализ, распознавание и интерпретация речевых сигналов. Киев: Наукова думка, 2019.
  5. http://www.speechpro.ru/ — Центр речевых технологии.
  6. http://www.tiobe.com/index.php/content/paperinfo/tpci/index.html
Основные термины (генерируются автоматически): MATLAB, голосовой интерфейс, программное обеспечение, SWIG, система, технология распознания речи, язык программирования, API, GNU, PHP.


Похожие статьи

Методы распознавания речи, современные речевые технологии

Программа выполняет сложный анализ речи, сравнивая аудиофрагменты с записанными в память

В основе модели лежит понятие фонемы — наименьшей акустической единицы языка.

Основными областями применения систем распознавания речи я выделил: 1. Автоматизированный пользовательский интерфейс. На сегодняшний день для многих людей...

Предварительная обработка речевых сигналов для системы...

Данная работа посвящена исследованию в области речевой технологий.

Программная оболочка для предварительной обработки речевых сигналов. Программная оболочка реализована на языке программирования C#.

Планируется разработать систему автоматического распознавания речи на основе нейронной сети с выходом предварительной...

Речевые технологии — следующий уровень сервиса

В 60-х годах СССР опережал другие страны в разработках в области речевых технологий.

В качестве примера можно привести голосовой интерфейс — информационную систему

Основные проблемы, которые возникли перед разработчиками систем речевых технологий

Технологии распознания голоса требуют больших инвестиционных вложений.

Система управления устройствами «умного дома»...

Ключевые слова: естественный интерфейс (natural user interface), распознавание речи

Такой речевой пользовательский интерфейс может быть использован в системах Умного дома для

Распознавание речитехнология, использующая естественный для человека речевой

На сегодняшний день существует большое количество программного обеспечения...

Обзор популярных языков программирования

Являясь одним из старейших языков программирования, C по-прежнему остается одним из лучших языков программирования, благодаря своей функции переносимости и раннему внедрению технологическими гигантами, включая Microsoft, Oracle и Apple.

Использование преобразования Гильберта-Хуанга для...

Пользовательский интерфейс приложения для распознавания речи представлен на рис. 6.

Windows Forms представляет собой технологию, используемую в Visual C# для создания

Для языка программирования C# используется библиотека базовых типов среды.NET.

Выбор был обусловлен тем, что среда MATLAB включает язык программирования высокого уровня...

Построение логических схем с использованием Matlab/Simulink...

Рис. 2. Программа «Анализ и синтез логических систем управления» [1].

К таким программам можно отнести Simulink (приложение Matlab) и Xcos (приложение Scilab).

Рис. 5. Схемы логических систем в Matlab/Simulink.

Function Block Diagram — диаграмма функциональных блоков) — представляет собой графический язык для программирования схем.

Обзор методов интеграции информационных систем, их...

‒ Интеграция на уровне интерфейсов (физических, программных и пользовательских).

интерфейс приложения, Открытый интерфейс прикладного программирования).

интерфейсов (API) и специализированного связующего программного обеспечения (ПО).

Основные термины (генерируются автоматически): NPM, JIT, приложение, API, PHP, WEB.

Распознавание речи на основе искусственных нейронных сетей

Разработка технологии распознавания речи ученые начали с освоения методики

В системах распознавания речи выделяются две основные подсистемы

Рис. 1 - Схема предварительной обработки речевых сигналов Модель распознавания речи на основе искусственных нейронных сетей.

И слово, распознанное нейронной сетью, является результатом распознания.

Похожие статьи

Методы распознавания речи, современные речевые технологии

Программа выполняет сложный анализ речи, сравнивая аудиофрагменты с записанными в память

В основе модели лежит понятие фонемы — наименьшей акустической единицы языка.

Основными областями применения систем распознавания речи я выделил: 1. Автоматизированный пользовательский интерфейс. На сегодняшний день для многих людей...

Предварительная обработка речевых сигналов для системы...

Данная работа посвящена исследованию в области речевой технологий.

Программная оболочка для предварительной обработки речевых сигналов. Программная оболочка реализована на языке программирования C#.

Планируется разработать систему автоматического распознавания речи на основе нейронной сети с выходом предварительной...

Речевые технологии — следующий уровень сервиса

В 60-х годах СССР опережал другие страны в разработках в области речевых технологий.

В качестве примера можно привести голосовой интерфейс — информационную систему

Основные проблемы, которые возникли перед разработчиками систем речевых технологий

Технологии распознания голоса требуют больших инвестиционных вложений.

Система управления устройствами «умного дома»...

Ключевые слова: естественный интерфейс (natural user interface), распознавание речи

Такой речевой пользовательский интерфейс может быть использован в системах Умного дома для

Распознавание речитехнология, использующая естественный для человека речевой

На сегодняшний день существует большое количество программного обеспечения...

Обзор популярных языков программирования

Являясь одним из старейших языков программирования, C по-прежнему остается одним из лучших языков программирования, благодаря своей функции переносимости и раннему внедрению технологическими гигантами, включая Microsoft, Oracle и Apple.

Использование преобразования Гильберта-Хуанга для...

Пользовательский интерфейс приложения для распознавания речи представлен на рис. 6.

Windows Forms представляет собой технологию, используемую в Visual C# для создания

Для языка программирования C# используется библиотека базовых типов среды.NET.

Выбор был обусловлен тем, что среда MATLAB включает язык программирования высокого уровня...

Построение логических схем с использованием Matlab/Simulink...

Рис. 2. Программа «Анализ и синтез логических систем управления» [1].

К таким программам можно отнести Simulink (приложение Matlab) и Xcos (приложение Scilab).

Рис. 5. Схемы логических систем в Matlab/Simulink.

Function Block Diagram — диаграмма функциональных блоков) — представляет собой графический язык для программирования схем.

Обзор методов интеграции информационных систем, их...

‒ Интеграция на уровне интерфейсов (физических, программных и пользовательских).

интерфейс приложения, Открытый интерфейс прикладного программирования).

интерфейсов (API) и специализированного связующего программного обеспечения (ПО).

Основные термины (генерируются автоматически): NPM, JIT, приложение, API, PHP, WEB.

Распознавание речи на основе искусственных нейронных сетей

Разработка технологии распознавания речи ученые начали с освоения методики

В системах распознавания речи выделяются две основные подсистемы

Рис. 1 - Схема предварительной обработки речевых сигналов Модель распознавания речи на основе искусственных нейронных сетей.

И слово, распознанное нейронной сетью, является результатом распознания.

Задать вопрос