Библиографическое описание:

Молчанова А. А., Петрушенко Р. В. Речевые технологии — следующий уровень сервиса [Текст] // Технические науки в России и за рубежом: материалы V междунар. науч. конф. (г. Москва, январь 2016 г.). — М.: Буки-Веди, 2016. — С. 6-8.



 

В данной статье речь пойдет о новой распространяющейся технологии управления голосом. Будет рассказана история возникновения, тенденции развития речевых систем, основные принципы работы технологий управления голосом, проблемы. Описаны сферы применения в повседневной жизни, бизнесе и медицине.

Ключевые слова: речевые технологии, управление голосом, голосовые технологии, синтез речи, сегментация, распознавание речи, обработка речи.

 

Введение

Создание систем автоматического распознавания речи достаточно актуальное направление в сфере развития информационных технологий. Мало кто задумывается о том, на сколько эти технологии уже распространены в нашей жизни. Но многие разработчики считают, что эра помощников с голосовым управлением уже не за горами.

Речевые технологии — это новейшие технологии XXI века, благодаря которым появилась возможность с помощью голоса управлять компьютерами, автомобилями, бытовой техникой.

История возникновения

В 1939 году была продемонстрирована первая в мире система автоматического распознавания речи в Ленинградском Государственном Университете Мясниковым.

Работы по компрессии и по автоматическому распознаванию речи шли еще в 50-х годах XX века.

В 60-х годах СССР опережал другие страны в разработках в области речевых технологий. С 70-х годов в разработке речевых систем США начали выходить на лидирующий план, но до середины 80-х уровень теоретических и прикладных разработок в СССР и США оставались приблизительно одинаковыми.

В 80-х годах прекратилось финансирование этого направления в СССР, в следствии чего разработка речевых систем резко прекратилась.

В настоящее время в области речевых технологий активно работают страны: США, Япония, Канада, Австралия.

Идеи и тенденции

Можно рассматривать голосовые технологии через три основные составляющие.

Первая — система синтеза речи.

Синтез речи — это технология, которая дает возможность воспроизвести текст, как можно более похожим естественным человеческим голосом. Чтобы синтезированная речь звучала натурально, следует решать такие задачи, как плавность звучания, интонации, правильная расстановка ударения, расшифровка сокращений. Примером синтеза речи может служить вся дискография, радио.

Вторая — система распознавания речи.

Распознавание речи — системы, которые позволяют преобразовывать в компьютерную форму, представленную слитную проблемно-ориентированную человеческую речь. В настоящее время разработаны системы, которые могут разобрать ограниченное количество слов. Задача, распознавания произвольного слитного устного текста, все еще не решена. В пример разбора речи информационными системами можно привести новый голосовой поиск от Google, так же и его ближайшего конкурента Яндекс, который запустил подобный сервис.

Третья — интерфейсная система.

Для совместного использования синтеза и распознавания речи нужно иметь некоторую систему, которая должна понимать, когда следует синтезировать, а когда распознавать полученную извне информацию. Иными словами, интерфейс. Речевому интерфейсу уделялось, мало внимания, поскольку многие разработчики считали, что для начала активного использования такой системы, будет достаточно создать хорошую программу распознавания речи. В качестве примера можно привести голосовой интерфейс — информационную систему дистанционного управления объектом GLASIS.

Основные принципы работы технологий управления голосом

Голосовое управление — это способ взаимодействия с устройствами при помощи голоса. Считается, что это следующая стадия управления техникой, после сенсорного ввода информации. Преимуществами голосового управления можно считать возможность удаленного и интерактивного взаимодействия с устройством, а также отсутствие с ним тактильного контакта. Голосовое управление происходит по следующим этапам — сегментация, распознавание речи, отклик на требуемую задачу.

Обработка речи начинается с определения уровня помех и искажений, полученного речевого сигнала. Далее в сигнале выделяются участки, которые содержат речь, и происходит оценка информации о формах слов. Этот этап называется сегментацией.

Далее параметры речи поступают в декодер, где сопоставляются входные речевые потоки информации с потоками, хранящимися в акустических и языковых моделях устройства. Там же определяется некоторая наиболее вероятная последовательность слов, которая в итоге будет являться результатом. Это этап распознавания речи.

Последнее — отклик на требуемую задачу. На этом этапе процессор, встроенный в используемое устройство, обрабатывает полученную команду. И если она совпадает с той, что хранится в его встроенной базе данных, то устройство выполняет требуемую задачу, если же команда отсутствует, то используемое оборудование оповестит о невозможности ее выполнения.

Проблемы развития речевых технологий

Основные проблемы, которые возникли перед разработчиками систем речевых технологий:

Невозможность полностью подавить внешний шум. Системы очень чувствительны к шуму окружающей среды. И любые внешние помехи препятствуют правильному распознанию речи.

Повышение точности распознания слитной речи. Поскольку сама система распознавания речи — это сложный процесс согласования данных, то любая, даже незначительная ошибка, может привести к получению неверного результата.

Чувствительность систем к речевым оборотам диктора. От дикции человека зависит очень многое, но так как система направлена на широкое использование, то функционал программы, отвечающий за распознавание речи, должен быть очень гибким.

Стоимость приложений. Технологии распознания голоса требуют больших инвестиционных вложений. Здесь необходимы крупные вложения, как в аппаратную часть, так и в средства разработки программного обеспечения.

Проблема идентификации пользователя по голосу. На данный момент системы распознания речи слишком неточны. В итоге, чем выше скорость отклика программы, тем выше шанс, что человек получит несанкционированный доступ к информации.

Разработки речевых технологий в России и за рубежом

В России одной из ведущих компаний по разработке речевых технологий является «Центр речевых технологий» (ЦРТ). В настоящее время ЦРТ является ведущими разработчиками инновационных систем в сферах синтеза и распознавания речи. За последние месяцы компания выпустила VOCO (новое решение для преобразования речи в текст), представила программный комплекс интеллектуального анализа спонтанной речи, повысила эффективность управления аэропортом «Шереметьево», а также приняла участие в крупнейшей Российской выставке технологий «Интерполитех-2015».

Аналогом ЦРТ, а также мировым лидером в области развития речевых технологий является корпорация NuanceCommunication. Это производитель программного обеспечения, штаб которой расположен в США. Компания разрабатывает приложения распознания речи в веб сервисах и системы автоматизированной обработки звонков.

Последние из разработок Nuance:

IVRCallerVerification технология с большим функционалом, позволяющая оценивать эффективность сотрудников, настраивать переадресацию входящих звонков, идентификацию пользователей и многое другое в полностью автоматическом режиме.

FreeSpeech — эта система позволяет идентифицировать абонента в ходе естественного разговора, извлекая необходимые голосовые характеристики (например, тон голоса или акцент).

VocalPassword — это двух шаговая идентификация по голосу пользователя и какому-любо паролю. Для защиты пользователя от взлома при помощи записи голоса, пароль повторяется несколько раз, и результаты должны различаться. Минус этого подхода затраты времени на повторение пароля и анализ данных программой.

Сферы применения голосового управления

Речевые технологии охотно используются в медицине, например, для коррекционно-развивающей работы с людьми, у которых имеются нарушения звукопроизношения и/или слуха.

Речевые системы так же внедрены и эффективно работают в банковских организациях. Они используют технологии голосового самообслуживания и обеспечивают быстрый доступ абонентов к запрашиваемой информации.

Новым шагом авиационных компаний стало использовании технологий распознавания естественной речи, что позволило значительно улучшить качество обслуживания пассажиров, а также сократить расходы.

Голосовые системы самообслуживания помогли операторам телекоммуникационной связи улучшить процесс обслуживания абонентов, поскольку ускорилась обработка звонков, уменьшилось количество ошибочных соединений, усовершенствовалась защита персональных данных клиентов.

Организация голосовых центров самообслуживания в компаниях, которые работают в различных сферах страховой деятельности, также помогла повысить качество обслуживания клиентов, обратившихся в контактный центр и сократить расходы.

Так же в последнее время речевые технологии популяризовались и в повседневной жизни, быту. Например, в помощь молодым родителям производят «электро-няню», на сегодняшний день она уже имеет и звук, и видео, и обратную связь.

Системы голосового управления помогают обеспечить контроль над некоторыми функциями автомобиля. Эти технологии позволяют водителям, не отвлекаясь, вести автомобили, тем самым обеспечивая безопасность движения на дороге.

Заключение

На данный момент применение речевых технологий в бизнесе связано с большими затратами на оборудование и сопутствующее программное обеспечение. Однако, несмотря на экономическую дороговизну этой новинки, она уже окупает себя. И постепенно внедряется все большим числом предприятий.

Технологии не стоят на месте и суммы инвестирования в область речевых технологий, только растут. Со временем обязательно появятся недорогие аналоги, которые все больше будут заменять человека в обслуживании звонков и заказов. На данный момент, уже есть наработки гидов для музеев и других голосовых помощников.

Конечно, сейчас это больше утопия, поскольку компьютер еще не способен разговаривать с интонацией, а полноценное распознавание слитной устной человеческой речи — невозможно. Но факты говорят о том, что эра голосовых помощников не за горами.

 

Литература:

 

  1.                А. В. Фролов, Г. В. Фролов Синтез и распознание речи. Современные решения. 2012
  2.                Б. М. Лобанов, Л. И. Цирюльник «Компьютерный синтез и клонирование речи», Минск «Белорусская Наука», 2008.
  3.                Матвеев Ю. Н. Технологии биометрической идентификации личности по голосу и другим модальностям // Вестник МГТУ им. Н. Э. Баумана 2012.
  4.                ЦРТ [Электронный ресурс] режим доступа http://www.speechpro.ru/
  5.                NuanceCommunication. [Электронный ресурс] режим доступа http://www.nuance.co.uk/

Обсуждение

Социальные комментарии Cackle