Классификация аудиосигналов с помощью нейронных сетей | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 7 марта, печатный экземпляр отправим 11 марта.

Опубликовать статью в журнале

Авторы: ,

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №48 (286) ноябрь 2019 г.

Дата публикации: 27.11.2019

Статья просмотрена: 85 раз

Библиографическое описание:

Игнатенко Г. С., Ламчановский А. Г. Классификация аудиосигналов с помощью нейронных сетей // Молодой ученый. — 2019. — №48. — С. 23-25. — URL https://moluch.ru/archive/286/64455/ (дата обращения: 24.02.2020).



В статье дано краткое описание существующих подходов к классификации аудио сигналов с помощью нейронных сетей, приводятся ссылки на смежные исследования, описаны детали подготовки нейронной сети, а также проблемы, которые могут возникнуть в процессе обучения.

Ключевые слова: нейронная сеть, свёрточная нейронная сеть, классификация сигналов, обработка сигналов.

Исследование применимости нейронных сетей является новой областью в эпоху глобализации, которая полностью основана на концепции технологий мягких вычислений. В наши дни нейронная сеть с ее многомерным подходом дают возможность для решения стека проблем, связанных с неточностью и неопределенностью в больших и сложных пространствах поиска.

В последние годы классификация изображений становится все более популярной задачей машинного обучения, используемой в крупномасштабных приложениях, таких как Google Photos и теги Facebook. Успех этих сетей в области классификации изображений поднимает вопрос о их применимости к другим областям, где существуют скрытые объекты. Одной из таких областей является прослушивание, где могут содержаться скрытые звуковые сигнатуры. Как можно заметить, это аналогично распознаванию изображений, когда в пространстве существуют скрытые объекты. Таким образом, можно сделать вывод, что это идеальный домен для изучения.

Существующие исследования

Проблема классификации аудио сигналов была затронута научным сообществом в различных исследованиях, которые посвящены таким областям, как аугментация данных классификации звуков среды [1], распознавание акустических событий с использованием глубоких нейронных сетей [2], классификация звуков среды с помощью сверточных нейронных сетей [3], классификация звуковых сцен с глубокой рекуррентной нейронной сетью [4], обучение и анализ глубоких рекуррентных нейронных сетей [5].

Методы и прикладные области этих исследований различны, но имеют общую архитектуру, основанную на глубокой сверточной или рекуррентной нейронной сети. Каждый слой такой сети является рекуррентным, т. е. получает скрытое состояние предыдущего слоя в качестве входных данных. Эта архитектура позволяет выполнять иерархическую обработку сложных временных задач и более естественно фиксировать структуру временных рядов. Такие сети в различных интерпретациях оказались мощными моделями для решения таких задач, как распознавание речи и распознавание рукописных цифр.

Структура решения

Существует несколько основных шагов в разработке решения для классификации аудиосигналов. Первый — это предварительная обработка, используемая для фильтрации сигнала, может включать нормализацию амплитуды, кадрирование, блокировку кадров и оконное управление. Второй — это извлечение признаков, которые выделяются из каждого кадра отдельно, чтобы представить аудиоданные упрощенным набором акустических признаков. Из-за присутствия бесшумных кадров из каждого аудиофайла выбирается фиксированное число наиболее энергоемких(громких) кадров, отбрасывая остальные. Количество кадров, приходящих из каждого файла, независимо от длины файла при таком подходе остается неизменным. Для моделирования динамических свойств звуков также учитываются смежные кадры. Количество признаков, представляющих каждый кадр, увеличивается путем объединения признаков текущего кадра с определенным количеством соседних (левого и правого) кадров. Затем данные делятся на три отдельных набора, а именно: набор для обучения, проверки и тестирования. Учебный комплект используется для обучения классифицирующей нейросети в первую очередь без учителя. Затем следует обучение с учителем, которое проводится путем загрузки размеченных примеров в сеть. Набор валидации используется для настройки параметров обучения нейронной сети и для настройки ее топологии. Он также играет важную роль в принятии решения о прекращении обучения контролируемой нейронной сети. Наконец, набор тестов просто используется для оценки производительности обученного нейросетевого классификатора.

В статье [2] приведена следующая схема:

Рис. 1. Схема системы классификации акустических событий

Аугментация данных

Необходимо отметить, что глубокие нейронные сети, с высокой производительностью модели, особенно зависят от доступности большого количества обучающих данных для изучения нелинейной функции от входа к выходу, которая хорошо обобщает и дает высокую классификацию точность по скрытым объектам. Возможным объяснением ограничений исследования сверточной нейронной сети научным сообществом и сложности усовершенствования простых моделей является относительный дефицит маркированных данных для классификации звуков окружающей среды. Хотя в последние годы было выпущено несколько новых наборов данных, они все еще значительно меньше, чем наборы данных, доступные для исследования, например, по классификации изображений.

Элегантным решением этой проблемы является аугментация данных — применение одной или нескольких деформаций к коллекции аннотированных обучающих данных, которые приводят к новым, дополнительным обучающим данным. Ключевая концепция аугментации данных заключается в том, что деформации, применяемые к помеченным данным, не изменяют семантического значения меток. Если взять пример из компьютерного зрения, повернутое, переведенное, зеркальное или масштабированное изображение автомобиля все равно будет согласованным изображением автомобиля, и, таким образом, можно применять эти деформации для получения дополнительных данных обучения при сохранении семантической достоверности меток. Обучая сеть дополнительными искаженными данными, можно надеяться, что сеть станет нечувствительной к этим деформациям и сможет лучше обобщить скрытые данные.

Деформации, сохраняющие семантику, также были предложены для звуковой области, и было показано, что они повышают точность модели для задач классификации музыки. Тем не менее, в случае классификации звуков окружающей среды применение дополнения данных было относительно ограниченным, поскольку авторы, которые использовали случайные комбинации сдвига во времени, коррекцию высоты тона и деформации длительности сигнала для аугментации данных, сообщали, что «простые методы дополнения оказались неудовлетворительными для набора данных UrbanSound8K, учитывая значительное увеличение времени обучения, которое они произвели, и незначительное влияние на точность модели».

Заключение

Не смотря на бурный рост популярности нейронных сетей, некоторые области их использования до сих пор слабо изучены, также существуют проблемы в виде дефицита размеченных данных для обучения сети. Автоматическая классификация звуков окружающей среды событий может быть полезна в поиске информации, имея приложения для мультимедиа контент-анализа, контекстно-зависимые устройства и устройства аудио-наблюдения и мониторинга. Также эффективная классификация звуков среды может помочь решить проблему фильтрации посторонних шумов при обработке сигнала, несущего информацию.

Литература:

  1. Deep Convolutional Neural Networks and Data Augmentation for Environmental Sound Classification, Justin Salamon and Juan Pablo Bello, IEEE Signal processing letters;
  2. Recognition of acoustic events using deep neural networks, Oguzhan Gencoglu, Tuomas Virtanen, Heikki Huttunen, Department of Signal Processing, Tampere University of Technology, 33720 Tampere, Finland;
  3. Environmental sound classification with convolutional neural networks, Karol J. Piczak, Institute of Electronic Systems Warsaw University of Technology, 2015 IEEE International workshop on machine learning for signal processing, sept. 17–20, 2015, Boston, USA;
  4. Audio Scene Classification with Deep Recurrent Neural Networks, Huy Phan, Philipp Koch, Fabrice Katzberg, Marco Maass, Radoslaw Mazur and Alfred Mertins;
  5. Training and Analyzing Deep Recurrent Neural Networks, Michiel Hermans, Benjamin Schrauwen, Ghent University, ELIS departement Sint Pietersnieuwstraat 41, 9000 Ghent, Belgium.
Основные термины (генерируются автоматически): нейронная сеть, данные, сеть, набор данных, аугментация данных, окружающая среда, классификация изображений, научное сообщество, кадр, деформация.


Похожие статьи

Решение задачи бинарной классификации при помощи...

Конкретно задачу классификации изображений решают при помощи свёрточных нейронных сетей. Свёрточная нейронная сеть (англ

Исходный набор данных нужно подготовить перед обработкой, так, все изображения нужно сделать серыми и уменьшить до размера 70х70...

Математическое моделирование систем распознавания...

Входные данные для осуществления распознавания — это изображения, которые были получены в результате процессов предварительной обработки и сегментации.

Построить нейронную сеть с входами и выходами, которые помечены как символы алфавита.

Распознавание речи на основе искусственных нейронных сетей

Пусть речевой сигнал как входные данные нейронной сети. После обработки звуковых данных получен массив сегментов сигналов. Каждый сегмент соответствует набору чисел, характеризующих амплитудные спектры сигнала. Для подготовки к вычислению для сигнала...

Виды архитектур нейронных сетей | Статья в журнале...

В искусственных нейронных сетях присутствует разнообразный набор таких активационных функций.

Эта архитектура является наиболее подходящей для распознавания изображений и их

Основные термины (генерируются автоматически): нейронная сеть, сеть, эта, нейрон...

Применение технологий нейронных сетей для обработки данных...

В современном мире технологии анализа данных набирают все большую популярность. Разделяют два основных направления, первое основывается на теории автоматов и алгоритмов, второе включает в себя приближенные методы решения задач.

Сравнительный анализ алгоритмов нейронной сети и деревьев...

В качестве исходных данных мы используем набор данных из базы ВУЗа. И на основе успеваемости и социальной активности студента

После выявления и исключения входных нейронов, соответствующих незначимым параметрам, качество нейронной сети улучшается...

Использование кодеков в подготовке исходных данных для...

Классификация — методы категоризации новых данных на основе принципов, ранее применённых к

Смешение и интеграция данныхнабор техник, позволяющих интегрировать разнородные

Первые попытки работы с искусственными нейронными сетями впервые были...

Обзор методов распознавания изображений | Статья в сборнике...

Свёрточная нейронная сеть (Convolutional neural network или CNN) — специальная архитектура нейронных сетей, предложенная в 1988 году и предназначенная для распознавания изображений. Архитектура вдохновлена некоторыми особенностями коры головного мозга, в...

Распознавание ключевых точек лица на изображении человека

Детектирование ключевых точек на изображении лица человека производится в 2 шага.

Они основываются на идее, что за счет обобщающих способностей обученная нейронная сеть применяет полученный в процессе обучения опыт на неизвестные объекты.

Похожие статьи

Решение задачи бинарной классификации при помощи...

Конкретно задачу классификации изображений решают при помощи свёрточных нейронных сетей. Свёрточная нейронная сеть (англ

Исходный набор данных нужно подготовить перед обработкой, так, все изображения нужно сделать серыми и уменьшить до размера 70х70...

Математическое моделирование систем распознавания...

Входные данные для осуществления распознавания — это изображения, которые были получены в результате процессов предварительной обработки и сегментации.

Построить нейронную сеть с входами и выходами, которые помечены как символы алфавита.

Распознавание речи на основе искусственных нейронных сетей

Пусть речевой сигнал как входные данные нейронной сети. После обработки звуковых данных получен массив сегментов сигналов. Каждый сегмент соответствует набору чисел, характеризующих амплитудные спектры сигнала. Для подготовки к вычислению для сигнала...

Виды архитектур нейронных сетей | Статья в журнале...

В искусственных нейронных сетях присутствует разнообразный набор таких активационных функций.

Эта архитектура является наиболее подходящей для распознавания изображений и их

Основные термины (генерируются автоматически): нейронная сеть, сеть, эта, нейрон...

Применение технологий нейронных сетей для обработки данных...

В современном мире технологии анализа данных набирают все большую популярность. Разделяют два основных направления, первое основывается на теории автоматов и алгоритмов, второе включает в себя приближенные методы решения задач.

Сравнительный анализ алгоритмов нейронной сети и деревьев...

В качестве исходных данных мы используем набор данных из базы ВУЗа. И на основе успеваемости и социальной активности студента

После выявления и исключения входных нейронов, соответствующих незначимым параметрам, качество нейронной сети улучшается...

Использование кодеков в подготовке исходных данных для...

Классификация — методы категоризации новых данных на основе принципов, ранее применённых к

Смешение и интеграция данныхнабор техник, позволяющих интегрировать разнородные

Первые попытки работы с искусственными нейронными сетями впервые были...

Обзор методов распознавания изображений | Статья в сборнике...

Свёрточная нейронная сеть (Convolutional neural network или CNN) — специальная архитектура нейронных сетей, предложенная в 1988 году и предназначенная для распознавания изображений. Архитектура вдохновлена некоторыми особенностями коры головного мозга, в...

Распознавание ключевых точек лица на изображении человека

Детектирование ключевых точек на изображении лица человека производится в 2 шага.

Они основываются на идее, что за счет обобщающих способностей обученная нейронная сеть применяет полученный в процессе обучения опыт на неизвестные объекты.

Задать вопрос