Цель данной статьи — описание существующих подходов для оценки влияния звуков на эмоциональное состояние человека, что будет являться первым шагом к созданию модели для анализа влияния звуков на эмоциональное состояние человека на основе теории дискретных эмоций. Формирование значений для эмоциональной оценки звуков. Описание архитектуры приложения для проведения эксперимента в будущем.
Ключевые слова: эмоции, звуки, распознавание эмоций, обработка звуков, оценка эмоционального состояния, теория дискретных эмоций.
Введение
Эмоциональная информация существует в любом звуке, она может восприниматься по-разному в зависимости от объекта, на которое оказывается влияние. Не только человеческая речь, но и музыкальные произведения и окружающие звуки содержат эмоциональную информацию. Таким образом, понятие эмоции, которое мы рассматриваем в этой статье, является результатом влияния звука на человека, т. е. его впечатления.
Эмоциональные реакции на биологически значимые события необходимы для выживания человека. У человеческих эмоций законно отслеживают изменения в акустической среде. Изменения акустических атрибутов, которые хорошо знакомы с человеческими эмоциями в речи и музыке, также вызывают систематические эмоциональные реакции, когда они происходят в звуках окружающей среды, включая звуки действий человека, животных, механизмы или природные явления, такие как ветер и дождь. Результаты показывают, что человеческие эмоции настроены на изменения акустической среды и данный факт подтверждает гипотезу Чарльза Дарвина о том, что речь и музыка происходят из общей системы эмоциональных сигналов, основанной на подражании и модификации звуков окружающей среды.
Подходы к оценке эмоций
В этой главе рассматривается вопрос о том, какой тип модели следует применять для дифференциации эмоций: дискретный (категориальный) или размерный. Эти подходы весьма взаимодополняют друг друга. Общеизвестно, что дискретные эмоции в пространстве высших измерений можно условно отобразить в более низкое пространство измерений. Чаще всего выбираются валентность и возбуждение двух измерений, хотя можно показать, что пространство влияния лучше всего структурировано четырьмя измерениями — добавление силы и новизны в валентность и возбуждение [1]. Выбор категориального или размерного подхода, зависит от соответствующего контекста исследования и конкретных целей. В большинстве исследований связанных с оценкой эмоций, используется размерные модели, они получили самое большое распространение в исследованиях Б. Шуллера [2] и К. Дроссоса [3]. В данном исследовании используется дискретная модель, т. к. целью является определение влияния конкретных параметров звука на эмоциональное состояние человека. Если в размерных моделях человек сам выставляет оценки валентности и возбуждения и уже на основе данных значений слушателя анализируется и определяется эмоция, то в нашем случае, это будут значения параметров звука, таких как частота, тон, тембр, громкость.
Эмоциональная модель
В теории дискретных эмоций все люди, как полагают, имеют врожденный набор основных эмоций, которые являются кросс-культурно узнаваемыми. Эти основные эмоции описываются как «дискретные», потому что они, как полагают, отличаются различием лицевого выражения человека и биологических процессов [4]. Теоретики провели исследования, чтобы определить, какие эмоции являются основными. Популярным примером является Пол Экман и кросс-культурное исследование его коллег 1992 года, в котором они пришли к выводу, что шесть основных эмоций — это гнев, отвращение, страх, счастье, печаль и удивление, Экман объясняет, что к каждой из этих эмоций привязаны особые характеристики, позволяющие им выражаться в той или иной степени. Каждая эмоция действует как дискретная категория, а не индивидуальное эмоциональное состояние [5].
Предложенная эмоциональная модель будет придерживаться теории дискретных эмоций, и будет содержать более широкий набор конкретных эмоций в категории. Значения для оценки эмоционального состояния приведены в таблице 1, значениями оценки будут являться как категории, так и сами значения.
Для первоначальной оценки звуков, будет создан вебсайт с загруженными звуками из разных категорий. Пользователям будет представлены варианты оценки звука из таблицы 1, далее в зависимости от их восприятия нужно будет выбрать соответствующую оценку. Будет сделан акцент на объективную оценку, т. е. любая из предложенных композиций должна оцениваться без привязки к конкретному случаю из жизни слушателя. Данный факт позволит более корректно оценить влияние звуков на эмоциональное состояние.
Предложенные звуки, их параметры, проставленные оценки и сами пользователи будут храниться в базе данных, для дальнейшего анализа композиций, не участвовавших в эксперименте. Физическая модель базы данных с основными таблицами, атрибутами и х связями представлена на рисунке 1. В процессе разработки веб сайта возможно расширение и уточнение структуры базы данных. Основные сущности необходимые для хранения оценок:
1) Mark — эмоциональные оценки, доступные для пользователей;
2) User — пользователи и их параметры
3) Sounds — звуки и их характеристики
Таблица 1
Категории Эмоции |
Счастье |
Удивление |
Отвращение |
Гнев |
Печаль |
Страх |
Презрение |
1 |
Восторг |
Ошеломление |
Омерзение |
Ярость |
Грусть |
Растерянность |
Пренебрежение |
2 |
Надежда |
Неожиданность |
Отторжение |
Злость |
Скорбь |
Тревога |
Ненависть |
3 |
Нежность |
Замешательство |
Брезгливость |
- |
Несчастье |
Напряженность |
- |
4 |
Благодарность |
- |
- |
- |
Одиночества |
Волнение |
- |
5 |
Восхищение |
- |
- |
- |
- |
Беспокойство |
- |
6 |
Любовь |
- |
- |
- |
- |
- |
- |
7 |
Умиление |
- |
- |
- |
- |
- |
- |
8 |
Симпатия |
- |
- |
- |
- |
- |
- |
9 |
Радость |
- |
- |
- |
- |
- |
- |
Рис. 1. Физическая модель базы данных
База данных эмоциональных звуков будет основана на онлайн-доступном двигателе FindSounds.com. Она будет состоят из 390 выбранных вручную звуковых файлов из более чем 10000. Чтобы обеспечить набор с сбалансированным распределением эмоциональных коннотаций, было решено использовать следующие восемь категорий, взятых с FindSounds.com: животные, музыкальные инструменты, природа, голосовые звуки, люди, спорт, инструменты и транспортные средства. При таком выборе база данных представляет собой широкий спектр часто встречающихся звуков в повседневной среде.
Для сбора информации и проведения эксперимента всем слушателям будет предложено принять решение в соответствии с предложенным списком эмоций из таблицы 1 для конкретной композиции.
На основе полученных ответов и сформированной базы данных, планируется обучить комбинированную нейронную сеть, состоящую из рекуррентной и сверточной нейронных сетей. Архитектура программы для эмоциональной оценки звука на этапе обучения и анализа приведена на рисунке 2.
Рис. 2 Архитектура приложения
Заключение
В данный статье представлены подходы к эмоциональной оценке звуков. Описана эмоциональная модель на основе дискретной теории эмоций, конкретизированы категории эмоций для дальнейшего использования в эксперименте для эмоциональной оценки звуков. Представлена структура реляционной базы данных и взаимосвязи между таблицами для хранения звуков с их параметрами и эмоциональной оценкой пользователя. Также проиллюстрирована архитектура разрабатываемого приложения, на основе данных которого будет обучаться предложенная модель.
Литература:
- JR. Fontaine, KR. Scherer, EB. Roesch, PC. Ellsworth. The world of emotions is not two-dimensional. Psychological Science. 18 (12): 1050–1057.
- B. Schuller, A. Batliner, S. Steidl, D. Seppi. Recognising realistic emotions and affect in speech: state of the art and lessons learnt from the first challenge. Speech Commun. 53, 1062–1087.
- K. Drossos, A. Floros, N. Kanellopoulos. Affective acoustic ecology: towards emotionally enhanced sound events. In Proceedings of the 7th Audio Mostly Conference: A Conference on Interaction with Sound (New York, NY: ACM), 109–116.
- P. Ekman, Basic Emotions. In T. Dalgleish and T. Power (Eds.).
- P. Ekman, An Argument for Basic Emotions. Cognition and Emotion. 6 (3/4): 169–200.