Распознавание голоса в сфере информационных технологий | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 26 октября, печатный экземпляр отправим 30 октября.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №29 (163) июль 2017 г.

Дата публикации: 25.07.2017

Статья просмотрена: 2407 раз

Библиографическое описание:

Шпаков, Д. В. Распознавание голоса в сфере информационных технологий / Д. В. Шпаков. — Текст : непосредственный // Молодой ученый. — 2017. — № 29 (163). — С. 8-11. — URL: https://moluch.ru/archive/163/45163/ (дата обращения: 16.10.2024).



В данной статье рассматривается технология распознавания голоса, как одного из направлений искусственного интеллекта. Особое внимание уделено методам распознавания голоса, предпосылкам и перспективам развития данной области.

Ключевые слова: распознавание голоса, распознавание речи, информационные системы, искусственный интеллект

В настоящее время прогресс в области информационных технологий достиг немыслимых границ и продолжает стремительно развиваться пропорционально тому, насколько возрастает роль информации в обществе. В конце XX века, в информационной сфере произошел резкий скачок в области взаимоотношения человека с информационными система. Процессы сбора, накопления, хранения, использования и продуцирования информации вышли на новый уровень благодаря современным средствам микропроцессорной и вычислительной техники. Данный скачок напрямую связан с развитием сети Интернет. Интернет, как катализатор, способствовал быстрому росту и популяризации сферы информационных технологий. На сегодняшний день, развитие информационного общества достигло такого прогресса, который позволяет перейти на новый этап. Новый этап развития предполагает использование не просто информационных систем, в которых человек занимает особое место, управляя процессами сбора, хранения, обработки и передачи данных, а систему, в которой человек играет второстепенную роль. С развитием ИС участие человека приобретает формальный характер и его роль сводится к тому, чтобы контролировать процессы, а не участвовать в них напрямую.

В последние годы специалисты в различных сферах информационных технологий работают над созданием и усовершенствованием искусственного интеллекта. Именно данная область информационных технологий отвечает за модернизацию и переход к новому этапу, где машинный интеллект будет выполнять творческие функции, традиционно считающимися прерогативой человека. Под искусственным интеллектом будем понимать одно из направлений информатики, целью которого является разработка аппаратно-программных средств, позволяющих пользователю — не программисту ставить и решать свои, традиционно считающиеся интеллектуальными, задачи, общаясь с компьютером на ограниченном подмножестве естественного языка. [1]

Развитие искусственного интеллекта происходит в трех направлениях. В первом направлении, объектом исследования рассматривается структура и механизмы работы мозга человека. Целью этого направления является построение моделей интеллектуальной деятельности человека на основе психофизиологических данных. Во втором направлении речь идет о моделировании интеллектуальной деятельности с помощью вычислительных машин, т. е. работа над созданием системы, которая могла бы решать интеллектуальные задачи, присущие человеку. Третье направление отвечает за организацию семантически безупречного диалога между человеком и интеллектуальной системой. Целью и главной задачей этого направления является решение проблемы естественно-языковой коммуникации.

Проблема коммуникации человека с информационной системой насчитывает несколько десятилетий и является одним из самых приоритетных направление в области информационных технологий. Исследования в данной сфере привлекает большое количество специалистов по всему миру, а также множество желающих, готовы инвестировать денежные средства в эту область. Зачастую именно эти факторы играют решающую роль и предопределяют успехи специалистов.

На сегодняшний день существует множество трудов, гипотез и концепций, которые затрагивают тему коммуникации человека и информационной системы, но только в последнее десятилетие был сделан гигантский скачок в этой области, который ознаменовался появлением информационных систем, обладающих искусственным интеллектом с естественно-языковым интерфейсом.

Естественно-языковой интерфейс — это трансляция естественных конструкций языка на внутримашинный уровень представления знаний. Иначе говоря, это использования голоса, в качестве команды для информационной системы. Этот процесс очень важен для виртуальной реальности, поскольку он обеспечивает естественный и интуитивный способ управления системой, позволяя рукам пользователя оставаться свободными. Данный метод управления стал возможен благодаря автоматическим системам распознавания голоса.

Автоматическое распознавание голоса является динамично развивающимся направлением в области искусственного интеллекта. В середине XX века ученые установили, что в контексте виртуальной среды пользователь будет ощущать себя частью единого механизма, если он сможет использовать свою наиболее распространенную форму общения — голос. Трудность использования голоса в качестве входного параметра заключается в фундаментальных различиях между человеческой речью и более традиционными формами ввода информации в компьютер. В то время как программы обычно рассчитаны на получение точного и четко определенного ответа при получении надлежащего (и столь же точного) ввода, то человеческий голос и произнесенные слова не являются точными. Голос каждого человека индивидуален, и идентичные слова могут иметь разные значения, если говорить с различной интонацией или в разных контекстах. Для преодоления этих трудностей было предпринято несколько попыток с разной степенью успеха.

Среди наиболее распространенных подходов к распознаванию голоса можно выбелить два класса: «сопоставление шаблонов» и «анализ функций». Сопоставление шаблонов — это самый простой метод, имеющий самую высокую точность при правильном использовании, но он также имеет ряд ограничений. Как и при любом подходе к распознаванию речи, первым шагом является произнесение пользователем слова или фразы в микрофон. Электрический сигнал от микрофона оцифровывается «аналого-цифровым (A / D) преобразователем» и сохраняется в памяти. Чтобы определить «смысл» этого голосового ввода, компьютер пытается сопоставить ввод с оцифрованным голосовым образцом или шаблоном, который имеет известное значение.

Поскольку голос каждого человека индивидуален, программа не может содержать шаблон для каждого потенциального пользователя поэтому, сначала необходимо «обучить» информационную систему до того, как она сможет распознать голос пользователя. Во время обучения пользователь несколько раз говорит определённое слово или фразу в микрофон. Программа вычисляет статистическое среднее из нескольких выборок одного и того же слова и сохраняет усредненный образец в качестве шаблона в структуре данных программы. При таком подходе к распознаванию голоса программа имеет «словарь», который ограничен словами или фразами, используемыми в учебной сессии, а его пользовательская база также ограничена теми пользователями, которые обучили программу. Данные метод характеризуется наличием словаря, объемом порядка нескольких сотен слов и коротких фраз, а точность распознавания может составлять около 98 процентов.

Более общая форма распознавания голоса доступна с помощью анализа функций, и этот метод обычно приводит к «независимому от динамиков» распознаванию голоса. Вместо того, чтобы пытаться найти точное или приближенное к точному совпадению между фактическим голосовым вводом и ранее сохраненным голосовым шаблоном, этот метод сначала обрабатывает голосовой ввод, используя «преобразования Фурье» или «линейное предсказательное кодирование (LPC)», а затем пытается найти характерные сходства между ожидаемым и оцифрованным голосовым вводом. Эти сходства будут присутствовать, несмотря на интонацию, скорость произношения, высоту голоса и акцент, поэтому нет необходимости в обучении системы. Распознавание речи, которое не зависит от говорящего, оказалось очень сложным, и одной из самых трудно решаемых проблем было разнообразие акцентов и интонации, используемые ораторами разных национальностей. Точность распознавания голоса с помощью анализа функций несколько меньше, чем в предыдущем методе и обычно составляет от 90 до 95 процентов. [2]

Для решения общих задач распознавания речи были привлечены профессионалы различных направлений: лингвисты, математики, программисты и даже философы внесли свой вклад. Несмотря на проблемы и сложности распознавания голоса, данная технология получила широкое распространение в мире информационных технологий. Такие крупные компании как Google, Apple, Nuance Communications и Microsoft имеют огромный опыт разработки уникальных интеллектуальных систем и вкладывают огромные финансовые ресурсы в данное направление. Результаты трудов данных компаний можно наблюдать в мобильных устройствах (сервис Siri), в браузерах (сервис поиска с помощью голоса) и специальных программных продуктов серии Cortana и Speech Kit от Microsoft и Yandex соответственно.

Основным преимуществом систем с распознаванием голоса является более дружественный к пользователю интерфейс. Именно естественно-языковой интерфейс призван избавить конечного пользователя от необходимости использования сенсорных и иных методов ввода данных и команд.

Успешными примерами использования технологии распознавания речи является облачный персональный помощник Siri, который входит в состав Ios, watchOs, macOs. В мобильных приложениях Яндекс.Карты и Яндекс.Навигатор — ввод адреса голосом и наконец, голосовой поиск Google Now от компании Google.

Помимо мобильных приложений, технология распознавания речи нашла широкое применение в различных сферах бизнеса:

‒ телефония: использование автоматизированных голосовых систем для проведения опросов, анкетирования, сбора информации и информирования;

‒ голосовой интерфейс управления системами «Умный дом»;

‒ бытовая техника и роботы: голосовой интерфейс электронных роботов и голосовое управление бытовой техникой и т. д;

‒ автомобили: голосовое управление в салоне автомобиля — например, навигационной системой;

‒ социальные сервисы для людей с ограниченными возможностями. [3]

На основании всего вышесказанного мы можем сделать вывод о том, что технологии распознавания речи развиваются гигантскими темпами и являются одним из самых актуальных направлений в области искусственного интеллекта. Данная технология в XXI веке выходит на новый уровень и будет продолжать развиваться. Буду улучшаться алгоритмы и методы распознавания речи, создаваться абсолютно новые подходы к изучению и усовершенствованию трансляции естественного языка человека на машинный уровень. Данная область получает огромное финансирование на исследовательские работы, что в свою очередь способствует привлечению большого количества специалистов из разных областей. Этот факт подтверждается тем, что крупные компании, лидеры своих бизнес-сегментов на рынке, активно внедряют и используют технологии распознавания речи в своих продуктах начиная от операционных систем и заканчивая бытовой техникой.

Литература:

  1. Остроух А. В. Интеллектуальные системы. — Красноярск: Научно-инновационный центр, 2015. — 110 с.
  2. Voice Recognition // Human Interface Technology Laboratory URL: http://www.hitl.washington.edu/research/knowledge_base/virtual-worlds/EVE/I.D.2.d.VoiceRecognition.html (дата обращения: 09.06.2017).
  3. Применение и использование систем по распознаванию речи // Инфоурок URL: https://infourok.ru/primenenie-i-ispolzovanie-sistem-po-raspoznavaniyu-rechi-1178539.html (дата обращения: 10.06.2017).
Основные термины (генерируются автоматически): искусственный интеллект, распознавание голоса, информационная система, направление, бытовая техника, естественно-языковой интерфейс, область, распознавание речи, система, технология распознавания речи.


Похожие статьи

Применение нейросетевого анализа в процессах управления персоналом

В статье рассматриваются возможности применения искусственных нейронных сетей как одного из методов интеллектуального анализа данных в целях упрощения и повышения эффективности некоторых процессов управления персоналом.

Информационные технологии и перспективы их развития

В статье раскрыты основные аспекты развития информационных технологий в различных сферах общественной жизни. Освещены течения и направления, возникшие в результате эволюции информационных технологий.

Алгоритмы распознавания объектов

В данной статье рассмотрены алгоритмы распознавания объектов на изображении, проведен анализ методов, применяемых при обработке изображений, а также описано использование средств машинного обучения в рамках работы с изображениями

Использование информационных технологий в обучении иностранным языкам

В данной статье рассматриваются особенности развития информационных технологий в обучении иностранному языку. Проведен перекрестный и сравнительный анализ влияния технологий и различных методик на развитие лингвистики.

Использование современных информационных технологий в сфере образования

В статье рассматриваются особенности использования современных информационных технологий для эффективного обучения, указаны виды компьютерных технологий, необходимые человеку для осуществления поиска и передачи информации, приведены примеры использов...

Важность математических знаний в науке о данных

В современном цифровом мире наука о данных становится все более важной для понимания и анализа больших объемов информации. В данной статье рассматривается важность математических знаний в развитии этой области. Описывается, как математические концепц...

Особенности применения искусственного интеллекта в сфере труда

В статье автор исследует особенности применения искусственного интеллекта в сфере труда, рассматривает нормативно-правовое регулирование данной категории и изучает проблемы, связанные с использованием нейронной сети в трудовых правоотношениях.

Оптимизация бизнес-процессов предприятия с помощью искусственного интеллекта

В статье рассматриваются вопросы использования искусственного интеллекта для целей организации в части оптимизации бизнес-процессов. Также уделено внимание подходам к определению понятия и сущности искусственного интеллекта, представлены примеры внед...

Роль информационных технологий в изучении иностранных языков

Статья посвящена использованию информационных технологий в обучении иностранным языкам. По сравнению с традиционными методами, использованными в предыдущих исследованиях, описано, что обучение с использованием информационных технологий имеет ряд преи...

Теоретические аспекты инженерии знаний

Статья посвящена важным теоретическим проблемам в области исследования искусственного интеллекта, а именно теоретическим аспектам инженерии знаний, связанным с получением и структурированием знаний специалистов некоторой предметной области для их пос...

Похожие статьи

Применение нейросетевого анализа в процессах управления персоналом

В статье рассматриваются возможности применения искусственных нейронных сетей как одного из методов интеллектуального анализа данных в целях упрощения и повышения эффективности некоторых процессов управления персоналом.

Информационные технологии и перспективы их развития

В статье раскрыты основные аспекты развития информационных технологий в различных сферах общественной жизни. Освещены течения и направления, возникшие в результате эволюции информационных технологий.

Алгоритмы распознавания объектов

В данной статье рассмотрены алгоритмы распознавания объектов на изображении, проведен анализ методов, применяемых при обработке изображений, а также описано использование средств машинного обучения в рамках работы с изображениями

Использование информационных технологий в обучении иностранным языкам

В данной статье рассматриваются особенности развития информационных технологий в обучении иностранному языку. Проведен перекрестный и сравнительный анализ влияния технологий и различных методик на развитие лингвистики.

Использование современных информационных технологий в сфере образования

В статье рассматриваются особенности использования современных информационных технологий для эффективного обучения, указаны виды компьютерных технологий, необходимые человеку для осуществления поиска и передачи информации, приведены примеры использов...

Важность математических знаний в науке о данных

В современном цифровом мире наука о данных становится все более важной для понимания и анализа больших объемов информации. В данной статье рассматривается важность математических знаний в развитии этой области. Описывается, как математические концепц...

Особенности применения искусственного интеллекта в сфере труда

В статье автор исследует особенности применения искусственного интеллекта в сфере труда, рассматривает нормативно-правовое регулирование данной категории и изучает проблемы, связанные с использованием нейронной сети в трудовых правоотношениях.

Оптимизация бизнес-процессов предприятия с помощью искусственного интеллекта

В статье рассматриваются вопросы использования искусственного интеллекта для целей организации в части оптимизации бизнес-процессов. Также уделено внимание подходам к определению понятия и сущности искусственного интеллекта, представлены примеры внед...

Роль информационных технологий в изучении иностранных языков

Статья посвящена использованию информационных технологий в обучении иностранным языкам. По сравнению с традиционными методами, использованными в предыдущих исследованиях, описано, что обучение с использованием информационных технологий имеет ряд преи...

Теоретические аспекты инженерии знаний

Статья посвящена важным теоретическим проблемам в области исследования искусственного интеллекта, а именно теоретическим аспектам инженерии знаний, связанным с получением и структурированием знаний специалистов некоторой предметной области для их пос...

Задать вопрос