Отправьте статью сегодня! Журнал выйдет 19 июля, печатный экземпляр отправим 23 июля
Опубликовать статью

Молодой учёный

Разработка модуля голосовой идентификации пользователя

Технические науки
27.10.2022
81
Поделиться
Библиографическое описание
Рзаева, Г. М. Разработка модуля голосовой идентификации пользователя / Г. М. Рзаева. — Текст : непосредственный // Молодой ученый. — 2022. — № 43 (438). — С. 18-20. — URL: https://moluch.ru/archive/438/95330/.


В работе описывается возможность применения и улучшения задачи разработки программного обеспечения при использовании средств голосового интерфейса и технологий распознания речи, а также цели и задачи будущей магистерской диссертации.

Ключевые слова : голосовой интерфейс, распознавание речи, разработка программного обеспечения.

Идентификация диктора — процесс, выявляющий личность по образцу голоса путём сравнения данного образца с образцами, сохранёнными в базе. Результатом процесса идентификации является список кандидатов. Выполняющая система может выдать список фиксированного размера либо приять решение о включении пользователя в список кандидатов на основании заданного критерия. Если предусмотрена возможность того, что в процессе идентификации участвует пользователь, не зарегистрированный в системе, то говорят об идентификации на открытом множестве. Если все пользователи, которые проходят процедуру идентификации, зарегистрированы в системе, то говорят об идентификации на замкнутом множестве.

Создание интерфейсов, поддерживающих и предлагающих более эргономичные и естественные формы диалога между пользователями и компьютерной техникой, движется и ускоряется внедрением информационных технологий в след растущим потребностям профессиональной и повседневной деятельности человека.

В области информационных технологий (ИТ) средства взаимодействия пользователя с технической системой принято называть интерфейсом. Интерфейсы бывают разные и реализуются разными средствами и методами. Одной из важнейших задач разработки современных технических систем является обеспечение наиболее интуитивного и естественного интерфейса с пользователем, то есть современные компьютерные приложения ориентированы на пользователя.

Одной из естественных форм взаимодействия для человека является речь. Голосовой интерфейс может улучшить существующий пользовательский интерфейс — он обеспечивает более удобный и менее ограниченный способ взаимодействия человека с компьютером. Качественный голосовой интерфейс помогает преодолевать неприятие технологии пользователями, так как для его использования не нужно овладевать новыми навыками. Голосовой интерфейс качественным образом изменяет способ, а, следовательно, и эффективность взаимодействия пользователя с системой.

Дикторозaвисимая система предназначена для использования одним пользователем, в то время как дикторонезависимая система предназначена

для работы с разными дикторами. Дикторонезaвисимость — труднодостижимая цель, так как при обучении системы, она настраивается на параметры того диктора, на примере которого обучается. Частота ошибок распознавания таких систем обычно в 3–5 раз больше, чем частота ошибок дикторозaвисимых систем.

Целью работы является — разработка специализированных средств голосового интерфейса и применение технологий распознания речи для разработки программного обеспечения.

Для достижения цели сформулированы и поставлены следующие задачи:

– изучение текущего состояния голосовых интерфейсов и соответственно области распознавания речи;

– произвести анализ предметных областей, обозначить существующие проблемы, трудности и недостатки применения не специализированных средств голосового интерфейса;

– разработать концептуальную архитектуру системы;

– разработать прототип программной реализации системы, имеющую модульную архитектуру с возможностями интеграции, учитывая условия и современные тенденции отрасли информационных технологий;

– разработать базовый набор средств голосового интерфейса для разработки программного обеспечения.

Объектом исследования являются средства голосового интерфейса, технологии распознавания речи и задача разработки программного обеспечения.

Предмет исследования — возможность применения и улучшения задачи разработки программного обеспечения при использовании средств голосового интерфейса и технологий распознания речи.

Из доступных на рынке и в отрасли инструментов разработки программного обеспечения, по критериям доступности, наличия и полноты документации, условиям лицензирования и стоимости, были выбраны следующие инструменты и приведены их описание и основные особенности.

Simplified Wrapper and Interface Generator (SWIG) — свободный инструмент для связывания программ и библиотек написанных на C/C++ со скриптовыми языками, такими как Tcl, Perl, Python, Ruby, PHP или другими языками (Java, C#, Scheme или OcamlP). SWIG можно использовать, модифицировать и распространять практически без ограничений, для коммерческих и некоммерческих целей. Основная цель — достигнуть связи с минимальными усилиями. В файлы заголовка программы добавляется небольшое количество указаний, по которым SWIG генерирует исходный код для связывания C/C++ и нужного языка.

Qt Software Development Kit (SDK) включает в себя инструменты, необходимые для сборки десктопа, встроенных и мобильных приложений с Qt.

В качестве плaтформы для иccледовaний и рaзрaботки модуля голосовой идентификации дикторa был выбрaн пaкет MATLAB. Данный выбор объясняется следующим:

MATLAB — пaкет приклaдных прогрaмм для решения задач сложных техничеcких вычиcлений, а тaкже иcпользуемый в этом пaкете язык программировaния. MATLAB иcпользуют более 1 000 000 научных и инженерных рaботников, он рaботает на большинстве cовременных оперaционных cистем, включaя GNU/Linux, Mac OS, Solaris и Microsoft Windows.

Язык MATLAB является высокоуровневым интерпретируемым языком программирования, включающим основанные на матрицах структуры данных, широкий спектр функций, интегрированную среду разработки, объектно-ориентированные возможности и интерфейсы к программам, написанным на других языках программирования.

В пакет MATLAB входят различные интерфейсы для получения доступа к внешним подпрограммам, написанным на других языках программирования, данным, клиентам и серверам, общающимся через технологии Component Object Model или Dynamic Data Exchange, а также периферийным устройствам, которые взаимодействуют напрямую с MATLAB. Многие из этих возможностей известны под названием MATLAB API.

Система Matlab предоставляет мощный язык программирования, ориентированный на математические преобразования, который превосходит по возможности и скорости вычислений традиционные языки программирования.

Литература:

  1. Возможности по распознанию речи Силаев А. В. Орёл ГТУ, научный руководитель Абашин В. Г.
  2. Жожикашвили В. А. и др. Применение распознавания речи в автоматизированных системах массового обслуживания// Автоматизация и современные технологии, 2020, No11, с.
  3. Воэльо, Л. П. Построение систем машинного обучения на языке Python / Воэльо Л. П., Ричарт В. — 2-е изд.: пер. с англ. Слинкин А. А. — М.: ДМК Пресс, 2016–302 с.: ил.
  4. Винцюк Т. К. Анализ, распознавание и интерпретация речевых сигналов. Киев: Наукова думка, 2019.
  5. http://www.speechpro.ru/ — Центр речевых технологии.
  6. http://www.tiobe.com/index.php/content/paperinfo/tpci/index.html
Можно быстро и просто опубликовать свою научную статью в журнале «Молодой Ученый». Сразу предоставляем препринт и справку о публикации.
Опубликовать статью
Ключевые слова
голосовой интерфейс
распознавание речи
разработка программного обеспечения
Молодой учёный №43 (438) октябрь 2022 г.
Скачать часть журнала с этой статьей(стр. 18-20):
Часть 1 (стр. 1-65)
Расположение в файле:
стр. 1стр. 18-20стр. 65

Молодой учёный