Разработка модуля голосовой идентификации пользователя

Самохвалова, Светлана Геннадьевна; Рзаева, Гюльнар Мушвиг-кызы

Разработка модуля голосовой идентификации пользователя

Автор: Рзаева Гюльнар Мушвиг-кызы

Научный руководитель: Самохвалова Светлана Геннадьевна

Рубрика: Технические науки

Опубликовано в Молодой учёный №43 (438) октябрь 2022 г.

Дата публикации: 27.10.2022 2022-10-27

Статья просмотрена: 29 раз

Скачать электронную версию

Скачать Часть 1 (pdf)

Библиографическое описание:

Рзаева, Г. М. Разработка модуля голосовой идентификации пользователя / Г. М. Рзаева. — Текст : непосредственный // Молодой ученый. — 2022. — № 43 (438). — С. 18-20. — URL: https://moluch.ru/archive/438/95330/ (дата обращения: 02.05.2024).

В работе описывается возможность применения и улучшения задачи разработки программного обеспечения при использовании средств голосового интерфейса и технологий распознания речи, а также цели и задачи будущей магистерской диссертации.

Ключевые слова : голосовой интерфейс, распознавание речи, разработка программного обеспечения.

Идентификация диктора — процесс, выявляющий личность по образцу голоса путём сравнения данного образца с образцами, сохранёнными в базе. Результатом процесса идентификации является список кандидатов. Выполняющая система может выдать список фиксированного размера либо приять решение о включении пользователя в список кандидатов на основании заданного критерия. Если предусмотрена возможность того, что в процессе идентификации участвует пользователь, не зарегистрированный в системе, то говорят об идентификации на открытом множестве. Если все пользователи, которые проходят процедуру идентификации, зарегистрированы в системе, то говорят об идентификации на замкнутом множестве.

Создание интерфейсов, поддерживающих и предлагающих более эргономичные и естественные формы диалога между пользователями и компьютерной техникой, движется и ускоряется внедрением информационных технологий в след растущим потребностям профессиональной и повседневной деятельности человека.

В области информационных технологий (ИТ) средства взаимодействия пользователя с технической системой принято называть интерфейсом. Интерфейсы бывают разные и реализуются разными средствами и методами. Одной из важнейших задач разработки современных технических систем является обеспечение наиболее интуитивного и естественного интерфейса с пользователем, то есть современные компьютерные приложения ориентированы на пользователя.

Одной из естественных форм взаимодействия для человека является речь. Голосовой интерфейс может улучшить существующий пользовательский интерфейс — он обеспечивает более удобный и менее ограниченный способ взаимодействия человека с компьютером. Качественный голосовой интерфейс помогает преодолевать неприятие технологии пользователями, так как для его использования не нужно овладевать новыми навыками. Голосовой интерфейс качественным образом изменяет способ, а, следовательно, и эффективность взаимодействия пользователя с системой.

Дикторозaвисимая система предназначена для использования одним пользователем, в то время как дикторонезависимая система предназначена

для работы с разными дикторами. Дикторонезaвисимость — труднодостижимая цель, так как при обучении системы, она настраивается на параметры того диктора, на примере которого обучается. Частота ошибок распознавания таких систем обычно в 3–5 раз больше, чем частота ошибок дикторозaвисимых систем.

Целью работы является — разработка специализированных средств голосового интерфейса и применение технологий распознания речи для разработки программного обеспечения.

Для достижения цели сформулированы и поставлены следующие задачи:

– изучение текущего состояния голосовых интерфейсов и соответственно области распознавания речи;

– произвести анализ предметных областей, обозначить существующие проблемы, трудности и недостатки применения не специализированных средств голосового интерфейса;

– разработать концептуальную архитектуру системы;

– разработать прототип программной реализации системы, имеющую модульную архитектуру с возможностями интеграции, учитывая условия и современные тенденции отрасли информационных технологий;

– разработать базовый набор средств голосового интерфейса для разработки программного обеспечения.

Объектом исследования являются средства голосового интерфейса, технологии распознавания речи и задача разработки программного обеспечения.

Предмет исследования — возможность применения и улучшения задачи разработки программного обеспечения при использовании средств голосового интерфейса и технологий распознания речи.

Из доступных на рынке и в отрасли инструментов разработки программного обеспечения, по критериям доступности, наличия и полноты документации, условиям лицензирования и стоимости, были выбраны следующие инструменты и приведены их описание и основные особенности.

Simplified Wrapper and Interface Generator (SWIG) — свободный инструмент для связывания программ и библиотек написанных на C/C++ со скриптовыми языками, такими как Tcl, Perl, Python, Ruby, PHP или другими языками (Java, C#, Scheme или OcamlP). SWIG можно использовать, модифицировать и распространять практически без ограничений, для коммерческих и некоммерческих целей. Основная цель — достигнуть связи с минимальными усилиями. В файлы заголовка программы добавляется небольшое количество указаний, по которым SWIG генерирует исходный код для связывания C/C++ и нужного языка.

Qt Software Development Kit (SDK) включает в себя инструменты, необходимые для сборки десктопа, встроенных и мобильных приложений с Qt.

В качестве плaтформы для иccледовaний и рaзрaботки модуля голосовой идентификации дикторa был выбрaн пaкет MATLAB. Данный выбор объясняется следующим:

MATLAB — пaкет приклaдных прогрaмм для решения задач сложных техничеcких вычиcлений, а тaкже иcпользуемый в этом пaкете язык программировaния. MATLAB иcпользуют более 1 000 000 научных и инженерных рaботников, он рaботает на большинстве cовременных оперaционных cистем, включaя GNU/Linux, Mac OS, Solaris и Microsoft Windows.

Язык MATLAB является высокоуровневым интерпретируемым языком программирования, включающим основанные на матрицах структуры данных, широкий спектр функций, интегрированную среду разработки, объектно-ориентированные возможности и интерфейсы к программам, написанным на других языках программирования.

В пакет MATLAB входят различные интерфейсы для получения доступа к внешним подпрограммам, написанным на других языках программирования, данным, клиентам и серверам, общающимся через технологии Component Object Model или Dynamic Data Exchange, а также периферийным устройствам, которые взаимодействуют напрямую с MATLAB. Многие из этих возможностей известны под названием MATLAB API.

Система Matlab предоставляет мощный язык программирования, ориентированный на математические преобразования, который превосходит по возможности и скорости вычислений традиционные языки программирования.

Литература:

Возможности по распознанию речи Силаев А. В. Орёл ГТУ, научный руководитель Абашин В. Г.
Жожикашвили В. А. и др. Применение распознавания речи в автоматизированных системах массового обслуживания// Автоматизация и современные технологии, 2020, No11, с.
Воэльо, Л. П. Построение систем машинного обучения на языке Python / Воэльо Л. П., Ричарт В. — 2-е изд.: пер. с англ. Слинкин А. А. — М.: ДМК Пресс, 2016–302 с.: ил.
Винцюк Т. К. Анализ, распознавание и интерпретация речевых сигналов. Киев: Наукова думка, 2019.
http://www.speechpro.ru/ — Центр речевых технологии.
http://www.tiobe.com/index.php/content/paperinfo/tpci/index.html

Основные термины (генерируются автоматически): MATLAB, голосовой интерфейс, программное обеспечение, SWIG, система, технология распознания речи, язык программирования, API, GNU, PHP.

Ключевые слова

разработка программного обеспечения, распознавание речи, голосовой интерфейс

голосовой интерфейс, распознавание речи, разработка программного обеспечения

Разработка модуля голосовой идентификации пользователя

Библиографическое описание:

Ключевые слова

Похожие статьи

Методы распознавания речи, современные речевые технологии

Предварительная обработка речевых сигналов для системы...

Речевые технологии — следующий уровень сервиса

Система управления устройствами «умного дома»...

Обзор популярных языков программирования

Использование преобразования Гильберта-Хуанга для...

Построение логических схем с использованием Matlab/Simulink...

Обзор методов интеграции информационных систем, их...

Распознавание речи на основе искусственных нейронных сетей

Похожие статьи

Методы распознавания речи, современные речевые технологии

Предварительная обработка речевых сигналов для системы...

Речевые технологии — следующий уровень сервиса

Система управления устройствами «умного дома»...

Обзор популярных языков программирования

Использование преобразования Гильберта-Хуанга для...

Построение логических схем с использованием Matlab/Simulink...

Обзор методов интеграции информационных систем, их...

Распознавание речи на основе искусственных нейронных сетей

Ответим на ваш вопрос!