Распознавание голоса в сфере информационных технологий

Шпаков Дмитрий Викторович

В данной статье рассматривается технология распознавания голоса, как одного из направлений искусственного интеллекта. Особое внимание уделено методам распознавания голоса, предпосылкам и перспективам развития данной области.

Ключевые слова: распознавание голоса, распознавание речи, информационные системы, искусственный интеллект

В настоящее время прогресс в области информационных технологий достиг немыслимых границ и продолжает стремительно развиваться пропорционально тому, насколько возрастает роль информации в обществе. В конце XX века, в информационной сфере произошел резкий скачок в области взаимоотношения человека с информационными система. Процессы сбора, накопления, хранения, использования и продуцирования информации вышли на новый уровень благодаря современным средствам микропроцессорной и вычислительной техники. Данный скачок напрямую связан с развитием сети Интернет. Интернет, как катализатор, способствовал быстрому росту и популяризации сферы информационных технологий. На сегодняшний день, развитие информационного общества достигло такого прогресса, который позволяет перейти на новый этап. Новый этап развития предполагает использование не просто информационных систем, в которых человек занимает особое место, управляя процессами сбора, хранения, обработки и передачи данных, а систему, в которой человек играет второстепенную роль. С развитием ИС участие человека приобретает формальный характер и его роль сводится к тому, чтобы контролировать процессы, а не участвовать в них напрямую.

В последние годы специалисты в различных сферах информационных технологий работают над созданием и усовершенствованием искусственного интеллекта. Именно данная область информационных технологий отвечает за модернизацию и переход к новому этапу, где машинный интеллект будет выполнять творческие функции, традиционно считающимися прерогативой человека. Под искусственным интеллектом будем понимать одно из направлений информатики, целью которого является разработка аппаратно-программных средств, позволяющих пользователю — не программисту ставить и решать свои, традиционно считающиеся интеллектуальными, задачи, общаясь с компьютером на ограниченном подмножестве естественного языка. [1]

Развитие искусственного интеллекта происходит в трех направлениях. В первом направлении, объектом исследования рассматривается структура и механизмы работы мозга человека. Целью этого направления является построение моделей интеллектуальной деятельности человека на основе психофизиологических данных. Во втором направлении речь идет о моделировании интеллектуальной деятельности с помощью вычислительных машин, т. е. работа над созданием системы, которая могла бы решать интеллектуальные задачи, присущие человеку. Третье направление отвечает за организацию семантически безупречного диалога между человеком и интеллектуальной системой. Целью и главной задачей этого направления является решение проблемы естественно-языковой коммуникации.

Проблема коммуникации человека с информационной системой насчитывает несколько десятилетий и является одним из самых приоритетных направление в области информационных технологий. Исследования в данной сфере привлекает большое количество специалистов по всему миру, а также множество желающих, готовы инвестировать денежные средства в эту область. Зачастую именно эти факторы играют решающую роль и предопределяют успехи специалистов.

На сегодняшний день существует множество трудов, гипотез и концепций, которые затрагивают тему коммуникации человека и информационной системы, но только в последнее десятилетие был сделан гигантский скачок в этой области, который ознаменовался появлением информационных систем, обладающих искусственным интеллектом с естественно-языковым интерфейсом.

Естественно-языковой интерфейс — это трансляция естественных конструкций языка на внутримашинный уровень представления знаний. Иначе говоря, это использования голоса, в качестве команды для информационной системы. Этот процесс очень важен для виртуальной реальности, поскольку он обеспечивает естественный и интуитивный способ управления системой, позволяя рукам пользователя оставаться свободными. Данный метод управления стал возможен благодаря автоматическим системам распознавания голоса.

Автоматическое распознавание голоса является динамично развивающимся направлением в области искусственного интеллекта. В середине XX века ученые установили, что в контексте виртуальной среды пользователь будет ощущать себя частью единого механизма, если он сможет использовать свою наиболее распространенную форму общения — голос. Трудность использования голоса в качестве входного параметра заключается в фундаментальных различиях между человеческой речью и более традиционными формами ввода информации в компьютер. В то время как программы обычно рассчитаны на получение точного и четко определенного ответа при получении надлежащего (и столь же точного) ввода, то человеческий голос и произнесенные слова не являются точными. Голос каждого человека индивидуален, и идентичные слова могут иметь разные значения, если говорить с различной интонацией или в разных контекстах. Для преодоления этих трудностей было предпринято несколько попыток с разной степенью успеха.

Среди наиболее распространенных подходов к распознаванию голоса можно выбелить два класса: «сопоставление шаблонов» и «анализ функций». Сопоставление шаблонов — это самый простой метод, имеющий самую высокую точность при правильном использовании, но он также имеет ряд ограничений. Как и при любом подходе к распознаванию речи, первым шагом является произнесение пользователем слова или фразы в микрофон. Электрический сигнал от микрофона оцифровывается «аналого-цифровым (A / D) преобразователем» и сохраняется в памяти. Чтобы определить «смысл» этого голосового ввода, компьютер пытается сопоставить ввод с оцифрованным голосовым образцом или шаблоном, который имеет известное значение.

Поскольку голос каждого человека индивидуален, программа не может содержать шаблон для каждого потенциального пользователя поэтому, сначала необходимо «обучить» информационную систему до того, как она сможет распознать голос пользователя. Во время обучения пользователь несколько раз говорит определённое слово или фразу в микрофон. Программа вычисляет статистическое среднее из нескольких выборок одного и того же слова и сохраняет усредненный образец в качестве шаблона в структуре данных программы. При таком подходе к распознаванию голоса программа имеет «словарь», который ограничен словами или фразами, используемыми в учебной сессии, а его пользовательская база также ограничена теми пользователями, которые обучили программу. Данные метод характеризуется наличием словаря, объемом порядка нескольких сотен слов и коротких фраз, а точность распознавания может составлять около 98 процентов.

Более общая форма распознавания голоса доступна с помощью анализа функций, и этот метод обычно приводит к «независимому от динамиков» распознаванию голоса. Вместо того, чтобы пытаться найти точное или приближенное к точному совпадению между фактическим голосовым вводом и ранее сохраненным голосовым шаблоном, этот метод сначала обрабатывает голосовой ввод, используя «преобразования Фурье» или «линейное предсказательное кодирование (LPC)», а затем пытается найти характерные сходства между ожидаемым и оцифрованным голосовым вводом. Эти сходства будут присутствовать, несмотря на интонацию, скорость произношения, высоту голоса и акцент, поэтому нет необходимости в обучении системы. Распознавание речи, которое не зависит от говорящего, оказалось очень сложным, и одной из самых трудно решаемых проблем было разнообразие акцентов и интонации, используемые ораторами разных национальностей. Точность распознавания голоса с помощью анализа функций несколько меньше, чем в предыдущем методе и обычно составляет от 90 до 95 процентов. [2]

Для решения общих задач распознавания речи были привлечены профессионалы различных направлений: лингвисты, математики, программисты и даже философы внесли свой вклад. Несмотря на проблемы и сложности распознавания голоса, данная технология получила широкое распространение в мире информационных технологий. Такие крупные компании как Google, Apple, Nuance Communications и Microsoft имеют огромный опыт разработки уникальных интеллектуальных систем и вкладывают огромные финансовые ресурсы в данное направление. Результаты трудов данных компаний можно наблюдать в мобильных устройствах (сервис Siri), в браузерах (сервис поиска с помощью голоса) и специальных программных продуктов серии Cortana и Speech Kit от Microsoft и Yandex соответственно.

Основным преимуществом систем с распознаванием голоса является более дружественный к пользователю интерфейс. Именно естественно-языковой интерфейс призван избавить конечного пользователя от необходимости использования сенсорных и иных методов ввода данных и команд.

Успешными примерами использования технологии распознавания речи является облачный персональный помощник Siri, который входит в состав Ios, watchOs, macOs. В мобильных приложениях Яндекс.Карты и Яндекс.Навигатор — ввод адреса голосом и наконец, голосовой поиск Google Now от компании Google.

Помимо мобильных приложений, технология распознавания речи нашла широкое применение в различных сферах бизнеса:

‒ телефония: использование автоматизированных голосовых систем для проведения опросов, анкетирования, сбора информации и информирования;

‒ голосовой интерфейс управления системами «Умный дом»;

‒ бытовая техника и роботы: голосовой интерфейс электронных роботов и голосовое управление бытовой техникой и т. д;

‒ автомобили: голосовое управление в салоне автомобиля — например, навигационной системой;

‒ социальные сервисы для людей с ограниченными возможностями. [3]

На основании всего вышесказанного мы можем сделать вывод о том, что технологии распознавания речи развиваются гигантскими темпами и являются одним из самых актуальных направлений в области искусственного интеллекта. Данная технология в XXI веке выходит на новый уровень и будет продолжать развиваться. Буду улучшаться алгоритмы и методы распознавания речи, создаваться абсолютно новые подходы к изучению и усовершенствованию трансляции естественного языка человека на машинный уровень. Данная область получает огромное финансирование на исследовательские работы, что в свою очередь способствует привлечению большого количества специалистов из разных областей. Этот факт подтверждается тем, что крупные компании, лидеры своих бизнес-сегментов на рынке, активно внедряют и используют технологии распознавания речи в своих продуктах начиная от операционных систем и заканчивая бытовой техникой.

Литература:

Остроух А. В. Интеллектуальные системы. — Красноярск: Научно-инновационный центр, 2015. — 110 с.
Voice Recognition // Human Interface Technology Laboratory URL: http://www.hitl.washington.edu/research/knowledge_base/virtual-worlds/EVE/I.D.2.d.VoiceRecognition.html (дата обращения: 09.06.2017).
Применение и использование систем по распознаванию речи // Инфоурок URL: https://infourok.ru/primenenie-i-ispolzovanie-sistem-po-raspoznavaniyu-rechi-1178539.html (дата обращения: 10.06.2017).

Молодой учёный

Распознавание голоса в сфере информационных технологий

Распознавание голоса в сфере информационных технологий

Молодой учёный