Классификация аудиосигналов с помощью нейронных сетей

В статье дано краткое описание существующих подходов к классификации аудио сигналов с помощью нейронных сетей, приводятся ссылки на смежные исследования, описаны детали подготовки нейронной сети, а также проблемы, которые могут возникнуть в процессе обучения.

Ключевые слова: нейронная сеть, свёрточная нейронная сеть, классификация сигналов, обработка сигналов.

Исследование применимости нейронных сетей является новой областью в эпоху глобализации, которая полностью основана на концепции технологий мягких вычислений. В наши дни нейронная сеть с ее многомерным подходом дают возможность для решения стека проблем, связанных с неточностью и неопределенностью в больших и сложных пространствах поиска.

В последние годы классификация изображений становится все более популярной задачей машинного обучения, используемой в крупномасштабных приложениях, таких как Google Photos и теги Facebook. Успех этих сетей в области классификации изображений поднимает вопрос о их применимости к другим областям, где существуют скрытые объекты. Одной из таких областей является прослушивание, где могут содержаться скрытые звуковые сигнатуры. Как можно заметить, это аналогично распознаванию изображений, когда в пространстве существуют скрытые объекты. Таким образом, можно сделать вывод, что это идеальный домен для изучения.

Существующие исследования

Проблема классификации аудио сигналов была затронута научным сообществом в различных исследованиях, которые посвящены таким областям, как аугментация данных классификации звуков среды [1], распознавание акустических событий с использованием глубоких нейронных сетей [2], классификация звуков среды с помощью сверточных нейронных сетей [3], классификация звуковых сцен с глубокой рекуррентной нейронной сетью [4], обучение и анализ глубоких рекуррентных нейронных сетей [5].

Методы и прикладные области этих исследований различны, но имеют общую архитектуру, основанную на глубокой сверточной или рекуррентной нейронной сети. Каждый слой такой сети является рекуррентным, т. е. получает скрытое состояние предыдущего слоя в качестве входных данных. Эта архитектура позволяет выполнять иерархическую обработку сложных временных задач и более естественно фиксировать структуру временных рядов. Такие сети в различных интерпретациях оказались мощными моделями для решения таких задач, как распознавание речи и распознавание рукописных цифр.

Структура решения

Существует несколько основных шагов в разработке решения для классификации аудиосигналов. Первый — это предварительная обработка, используемая для фильтрации сигнала, может включать нормализацию амплитуды, кадрирование, блокировку кадров и оконное управление. Второй — это извлечение признаков, которые выделяются из каждого кадра отдельно, чтобы представить аудиоданные упрощенным набором акустических признаков. Из-за присутствия бесшумных кадров из каждого аудиофайла выбирается фиксированное число наиболее энергоемких(громких) кадров, отбрасывая остальные. Количество кадров, приходящих из каждого файла, независимо от длины файла при таком подходе остается неизменным. Для моделирования динамических свойств звуков также учитываются смежные кадры. Количество признаков, представляющих каждый кадр, увеличивается путем объединения признаков текущего кадра с определенным количеством соседних (левого и правого) кадров. Затем данные делятся на три отдельных набора, а именно: набор для обучения, проверки и тестирования. Учебный комплект используется для обучения классифицирующей нейросети в первую очередь без учителя. Затем следует обучение с учителем, которое проводится путем загрузки размеченных примеров в сеть. Набор валидации используется для настройки параметров обучения нейронной сети и для настройки ее топологии. Он также играет важную роль в принятии решения о прекращении обучения контролируемой нейронной сети. Наконец, набор тестов просто используется для оценки производительности обученного нейросетевого классификатора.

В статье [2] приведена следующая схема:

Рис. 1. Схема системы классификации акустических событий

Аугментация данных

Необходимо отметить, что глубокие нейронные сети, с высокой производительностью модели, особенно зависят от доступности большого количества обучающих данных для изучения нелинейной функции от входа к выходу, которая хорошо обобщает и дает высокую классификацию точность по скрытым объектам. Возможным объяснением ограничений исследования сверточной нейронной сети научным сообществом и сложности усовершенствования простых моделей является относительный дефицит маркированных данных для классификации звуков окружающей среды. Хотя в последние годы было выпущено несколько новых наборов данных, они все еще значительно меньше, чем наборы данных, доступные для исследования, например, по классификации изображений.

Элегантным решением этой проблемы является аугментация данных — применение одной или нескольких деформаций к коллекции аннотированных обучающих данных, которые приводят к новым, дополнительным обучающим данным. Ключевая концепция аугментации данных заключается в том, что деформации, применяемые к помеченным данным, не изменяют семантического значения меток. Если взять пример из компьютерного зрения, повернутое, переведенное, зеркальное или масштабированное изображение автомобиля все равно будет согласованным изображением автомобиля, и, таким образом, можно применять эти деформации для получения дополнительных данных обучения при сохранении семантической достоверности меток. Обучая сеть дополнительными искаженными данными, можно надеяться, что сеть станет нечувствительной к этим деформациям и сможет лучше обобщить скрытые данные.

Деформации, сохраняющие семантику, также были предложены для звуковой области, и было показано, что они повышают точность модели для задач классификации музыки. Тем не менее, в случае классификации звуков окружающей среды применение дополнения данных было относительно ограниченным, поскольку авторы, которые использовали случайные комбинации сдвига во времени, коррекцию высоты тона и деформации длительности сигнала для аугментации данных, сообщали, что «простые методы дополнения оказались неудовлетворительными для набора данных UrbanSound8K, учитывая значительное увеличение времени обучения, которое они произвели, и незначительное влияние на точность модели».

Заключение

Не смотря на бурный рост популярности нейронных сетей, некоторые области их использования до сих пор слабо изучены, также существуют проблемы в виде дефицита размеченных данных для обучения сети. Автоматическая классификация звуков окружающей среды событий может быть полезна в поиске информации, имея приложения для мультимедиа контент-анализа, контекстно-зависимые устройства и устройства аудио-наблюдения и мониторинга. Также эффективная классификация звуков среды может помочь решить проблему фильтрации посторонних шумов при обработке сигнала, несущего информацию.

Литература:

Deep Convolutional Neural Networks and Data Augmentation for Environmental Sound Classification, Justin Salamon and Juan Pablo Bello, IEEE Signal processing letters;
Recognition of acoustic events using deep neural networks, Oguzhan Gencoglu, Tuomas Virtanen, Heikki Huttunen, Department of Signal Processing, Tampere University of Technology, 33720 Tampere, Finland;
Environmental sound classification with convolutional neural networks, Karol J. Piczak, Institute of Electronic Systems Warsaw University of Technology, 2015 IEEE International workshop on machine learning for signal processing, sept. 17–20, 2015, Boston, USA;
Audio Scene Classification with Deep Recurrent Neural Networks, Huy Phan, Philipp Koch, Fabrice Katzberg, Marco Maass, Radoslaw Mazur and Alfred Mertins;
Training and Analyzing Deep Recurrent Neural Networks, Michiel Hermans, Benjamin Schrauwen, Ghent University, ELIS departement Sint Pietersnieuwstraat 41, 9000 Ghent, Belgium.

Молодой учёный

Классификация аудиосигналов с помощью нейронных сетей

Классификация аудиосигналов с помощью нейронных сетей

Молодой учёный