В работе описывается возможность применения и улучшения задачи разработки программного обеспечения при использовании средств голосового интерфейса и технологий распознания речи, а также цели и задачи будущей магистерской диссертации.
Ключевые слова : голосовой интерфейс, распознавание речи, разработка программного обеспечения.
Идентификация диктора — процесс, выявляющий личность по образцу голоса путём сравнения данного образца с образцами, сохранёнными в базе. Результатом процесса идентификации является список кандидатов. Выполняющая система может выдать список фиксированного размера либо приять решение о включении пользователя в список кандидатов на основании заданного критерия. Если предусмотрена возможность того, что в процессе идентификации участвует пользователь, не зарегистрированный в системе, то говорят об идентификации на открытом множестве. Если все пользователи, которые проходят процедуру идентификации, зарегистрированы в системе, то говорят об идентификации на замкнутом множестве.
Создание интерфейсов, поддерживающих и предлагающих более эргономичные и естественные формы диалога между пользователями и компьютерной техникой, движется и ускоряется внедрением информационных технологий в след растущим потребностям профессиональной и повседневной деятельности человека.
В области информационных технологий (ИТ) средства взаимодействия пользователя с технической системой принято называть интерфейсом. Интерфейсы бывают разные и реализуются разными средствами и методами. Одной из важнейших задач разработки современных технических систем является обеспечение наиболее интуитивного и естественного интерфейса с пользователем, то есть современные компьютерные приложения ориентированы на пользователя.
Одной из естественных форм взаимодействия для человека является речь. Голосовой интерфейс может улучшить существующий пользовательский интерфейс — он обеспечивает более удобный и менее ограниченный способ взаимодействия человека с компьютером. Качественный голосовой интерфейс помогает преодолевать неприятие технологии пользователями, так как для его использования не нужно овладевать новыми навыками. Голосовой интерфейс качественным образом изменяет способ, а, следовательно, и эффективность взаимодействия пользователя с системой.
Дикторозaвисимая система предназначена для использования одним пользователем, в то время как дикторонезависимая система предназначена
для работы с разными дикторами. Дикторонезaвисимость — труднодостижимая цель, так как при обучении системы, она настраивается на параметры того диктора, на примере которого обучается. Частота ошибок распознавания таких систем обычно в 3–5 раз больше, чем частота ошибок дикторозaвисимых систем.
Целью работы является — разработка специализированных средств голосового интерфейса и применение технологий распознания речи для разработки программного обеспечения.
Для достижения цели сформулированы и поставлены следующие задачи:
– изучение текущего состояния голосовых интерфейсов и соответственно области распознавания речи;
– произвести анализ предметных областей, обозначить существующие проблемы, трудности и недостатки применения не специализированных средств голосового интерфейса;
– разработать концептуальную архитектуру системы;
– разработать прототип программной реализации системы, имеющую модульную архитектуру с возможностями интеграции, учитывая условия и современные тенденции отрасли информационных технологий;
– разработать базовый набор средств голосового интерфейса для разработки программного обеспечения.
Объектом исследования являются средства голосового интерфейса, технологии распознавания речи и задача разработки программного обеспечения.
Предмет исследования — возможность применения и улучшения задачи разработки программного обеспечения при использовании средств голосового интерфейса и технологий распознания речи.
Из доступных на рынке и в отрасли инструментов разработки программного обеспечения, по критериям доступности, наличия и полноты документации, условиям лицензирования и стоимости, были выбраны следующие инструменты и приведены их описание и основные особенности.
Simplified Wrapper and Interface Generator (SWIG) — свободный инструмент для связывания программ и библиотек написанных на C/C++ со скриптовыми языками, такими как Tcl, Perl, Python, Ruby, PHP или другими языками (Java, C#, Scheme или OcamlP). SWIG можно использовать, модифицировать и распространять практически без ограничений, для коммерческих и некоммерческих целей. Основная цель — достигнуть связи с минимальными усилиями. В файлы заголовка программы добавляется небольшое количество указаний, по которым SWIG генерирует исходный код для связывания C/C++ и нужного языка.
Qt Software Development Kit (SDK) включает в себя инструменты, необходимые для сборки десктопа, встроенных и мобильных приложений с Qt.
В качестве плaтформы для иccледовaний и рaзрaботки модуля голосовой идентификации дикторa был выбрaн пaкет MATLAB. Данный выбор объясняется следующим:
MATLAB — пaкет приклaдных прогрaмм для решения задач сложных техничеcких вычиcлений, а тaкже иcпользуемый в этом пaкете язык программировaния. MATLAB иcпользуют более 1 000 000 научных и инженерных рaботников, он рaботает на большинстве cовременных оперaционных cистем, включaя GNU/Linux, Mac OS, Solaris и Microsoft Windows.
Язык MATLAB является высокоуровневым интерпретируемым языком программирования, включающим основанные на матрицах структуры данных, широкий спектр функций, интегрированную среду разработки, объектно-ориентированные возможности и интерфейсы к программам, написанным на других языках программирования.
В пакет MATLAB входят различные интерфейсы для получения доступа к внешним подпрограммам, написанным на других языках программирования, данным, клиентам и серверам, общающимся через технологии Component Object Model или Dynamic Data Exchange, а также периферийным устройствам, которые взаимодействуют напрямую с MATLAB. Многие из этих возможностей известны под названием MATLAB API.
Система Matlab предоставляет мощный язык программирования, ориентированный на математические преобразования, который превосходит по возможности и скорости вычислений традиционные языки программирования.
Литература:
- Возможности по распознанию речи Силаев А. В. Орёл ГТУ, научный руководитель Абашин В. Г.
- Жожикашвили В. А. и др. Применение распознавания речи в автоматизированных системах массового обслуживания// Автоматизация и современные технологии, 2020, No11, с.
- Воэльо, Л. П. Построение систем машинного обучения на языке Python / Воэльо Л. П., Ричарт В. — 2-е изд.: пер. с англ. Слинкин А. А. — М.: ДМК Пресс, 2016–302 с.: ил.
- Винцюк Т. К. Анализ, распознавание и интерпретация речевых сигналов. Киев: Наукова думка, 2019.
- http://www.speechpro.ru/ — Центр речевых технологии.
- http://www.tiobe.com/index.php/content/paperinfo/tpci/index.html