Работа посвящена исследованию и разработке методов и алгоритмов, которые автоматизируют и поддерживают процесс технического творчества, с точки зрения автоматического создания музыкальных композиций. Метод основан на совместном использовании основных музыкальных правил для создания музыкальных композиций, эмоциональных и интуитивных подходов, теории цветовой музыки, а также методов машинного обучения. В работе реализованы компоненты для извлечения характеристик из изображения (анализа изображений), сопоставления художественных характеристик с музыкальными, а также средства для «предсказания» композиции через нейронные сети.
Ключевые слова : рекуррентная нейронная сеть, теория легкой музыки, автоматическое генерирование музыки, схемы соотношения цветов и нот, музыка и эмоции.
Введение
В настоящее время публикуется все больше и больше статей, направленных на автоматизацию процесса создания музыкальных композиций, однако этот процесс является творческим, зависит от многих факторов, начиная от опыта и настроения композитора, заканчивая областью проживания и другими внешними факторами, поэтому музыку нельзя создавать автоматически. Поскольку роль пользователя-композитора очень высока, мы можем говорить только об автоматизации этого процесса. Эмоциональность, которую передают музыка и живопись, трудно распознаваема [1]. Хотя процесс создания музыки основан на четко определенных музыкальных правилах, он не может быть полностью формализован. Чтобы уменьшить роль пользователя в процессе выбора характеристик музыкальной композиции, а также учесть эмоциональную составляющую (например, эмоциональное состояние пользователя-композитора), в данной работе она предполагается получить характеристики композиции из изображения. В рамках данной работы предполагается автоматизация процесса создания музыки с помощью автоматической генерации звуков по изображению. Другими словами, генерация звуков из изображения — это процесс преобразования изображения в одну или несколько последовательностей нот с определенным фундаментальным тоном и длительностью [2].
Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 20–37–90004.
Анализ изображений
Алгоритм анализа изображения позволяет получить музыкальные характеристики изображения — определить характер получаемой музыкальной композиции. Для этого, во-первых, необходимо преобразовать исходное изображение в цветовое пространство HSV. Это преобразование позволяет легко получить общую характеристику каждого пикселя из изображения — оттенок, насыщенность и яркость [3]. Вторая часть анализа изображения — определение преобладающего цвета. Преобладающий цвет позволит получить тональность результирующей музыкальной композиции. Для этой задачи мы используем алгоритм кластеризации K-средних, поскольку он имеет следующие преимущества:
— относительно высокая эффективность при простоте реализации;
— высокое качество кластеризация;
— возможность распараллеливания;
— существование множества модификаций.
Кластеризации K-средних — это неконтролируемый метод обучения. Если в образцах наборов данных есть метки, мы предпочитаем использовать контролируемый метод, но в реальном мире, как правило, у нас нет меток, и поэтому мы предпочитаем методы кластеризации, которые известны как неконтролируемые методы. Цель этого алгоритма состоит в том, чтобы найти группы в данных с количеством групп, представленных переменной K [4]. Алгоритм работает итеративно, чтобы назначить каждую точку данных одной из K групп на основе предоставленных функций. Точки данных сгруппированы на основе сходства признаков. Результаты алгоритма кластеризации K-средних [5]:
— центроиды кластеров K, которые можно использовать для маркировки новых данных;
— метки для обучающих данных (каждая точка данных назначается одному кластеру).
Сначала считаем данные изображения, используя функцию cv2.imread из OpenCV. После того, как изображение прочитано с использованием cv2, наш цветной канал изображения становится нам Blue-Green-Red. Но мы хотим, чтобы в качестве цветового канала изображения использовался красный-зеленый-синий, поэтому мы преобразуем его в нужный канал с помощью функции cv2.cvtcolor (). Теперь имеем трехмерные параметры в данных изображения: номер строки X, номер столбца X и номер цветового канала. Но нам не нужна отдельная информация о строках и столбцах. Кроме того, с 3D-матрицей трудно иметь дело, поэтому мы меняем изображение и делаем его данными 2D-матрицы. Так как мы будем импортировать K-Means, мы можем легко использовать его, указав только n_clusters, который изначально представляет номер кластера. После этого будем использовать функцию fit(), чтобы применить алгоритм кластеризации K-Means к нашим предварительно обработанным данным изображения, и результат вернется к объектам clt. Используем функцию find_histogram(), чтобы ограничить количество гистограмм желаемым количеством кластеров. Поскольку нет необходимости находить гистограмму для всех пикселей и всей цветовой палитры, нужно ограничить ее требуемым количеством кластеров.
Соотнесение цветовых и музыкальных характеристик
Во-первых, необходимо определить соотношение цветовых и музыкальных характеристик [6]:
— оттенок (красный, синий, желтый...) соотносится с нотой (C, C#, D...);
— цветовая группа (теплая / холодная) связана с музыкальным ладом (мажор / минор);
— яркость цвета связана с октавой ноты;
— насыщенность связана с продолжительностью ноты.
По теории Афанасьева В. В. невозможно постоянно привязывать какую-либо ноту к определенному цвету из-за их различной природы; поэтому необходимо соотнести звуки и цвета в зависимости от того, в какой плоскости они представлены: мелодия, гармония или тональность [7]. Другими словами, одна и та же нота в произведении может быть окрашена в разные цвета. Первым шагом является анализ всего изображения. На этом этапе определяется преобладающий цвет и последовательность цветов с характеристиками. Затем, в соответствии с преобладающим цветом и одной из пяти схем соотнесения между цветами и нотами, определяется тональность результирующей композиции. Максимальное родство цветов определяется между двумя смежными хроматическими цветами, а степень тонального родства находится между звуками, расположенными на расстоянии семи полутонов друг от друга, и отражается в квинтовом круге тональностей. Таким образом, совмещая хроматический цветовой круг и квинтовый круг тональностей, получим необходимую последовательность для модуляций. Например, пусть красный будет выбран в качестве предпочтительного цвета. По схеме Ньютона это соответствует ноте С. Второй шаг — сравнение цветовой гаммы тоник с цветовым кругом. На этом этапе получается соответствие нот и цветов для мелодической части композиции. Третий шаг — определение соответствия цветов и нот для построения гармонии музыкальной композиции. В музыке существуют функциональные отношения (тоника — субдоминант — доминанта), а в науке о цвете это соответствует принципу взаимодополняемости цветов (красный — синий — желтый). То есть основные цвета в принятом основном, например, красный, являются дополнительными — желтый и синий, основные триады в музыке — тонические, субдоминантные и доминантные. На предыдущих шагах были получены тональность будущей композиции, необходимая последовательность для модуляций, соответствие цветов и нот для мелодического части, а также последовательность гармонии. Итак, последний шаг — преобразование результирующего набора цветов в набор нот.
Метод получения композиции по изображению
Согласно методу соотнесения между цветовыми и музыкальными характеристиками, необходимо получить тональность произведения и последовательность первых 20 % нот, прочитанных с изображения. Далее, согласно полученной последовательности, необходимо спрогнозировать продолжение композиции с использованием обученной модели и нейронной сети. В соответствии с итоговой последовательностью нот и тональности, согласно методу соотнесения цветовых и музыкальных характеристик, строим гармоническую часть произведения. Последний шаг — получить гармонию. Для этого, необходимо найти гамму по тональности. После этого необходимо найти в гамме тонику, доминанту и субдоминанту, чтобы построить аккорды на этих ступенях. Затем необходимо добавить их в результирующий массив аккордов в соответствии со следующим правилом: пока не будет превышено количество тактов, добавьте 4 тонических аккорда, 4 доминантных и 8 субдоминантных аккордов.
Эмоциональные аспекты композиции
Для изучения эмоционального влияния музыки существует отдельная область, которую условно можно назвать «музыка и эмоции». Эта область направлена на изучение психологической связи между реакцией человека и музыкой. Этот раздел психологии музыки включает в себя многочисленные области изучения: в том числе природу эмоциональных реакций на музыку, то, как характеристики слушателя могут определять эмоции, и какие компоненты музыкального произведения или исполнения могут вызывать определенные реакции. Область основана и имеет большое значение для таких областей, как философия, музыковедение, музыкальная терапия, теория музыки и эстетика, а также сочинение и исполнение музыки. Разработкой и исследованием этого направления проводились двумя наиболее влиятельными философами в эстетике музыки — Стивеном Дэвисом и Джерролдом Левинсоном [8]. Дэвис называет свой взгляд на выразительность эмоций в музыке «эмоциональностью проявления», согласно которой музыка выражает эмоции, не ощущая их. Объекты могут передавать эмоции, потому что их структуры могут содержать определенные характеристики, которые напоминают эмоциональное выражение. «Сходство, которое наиболее важно для выразительности музыки... лежит между динамично развивающейся динамической структурой музыки и конфигурациями человеческого поведения, связанными с выражением эмоций». [9] Наблюдатель может отметить зависимость эмоций от позы, походки, жестов, отношения и поведения слушателя [9]. Какие музыкальные особенности чаще всего связаны с конкретными эмоциями, является предметом изучения музыкальной психологии. Дэвис утверждает, что выразительность является объективным свойством музыки, а не субъективным в том смысле, что слушатель проецирует ее на музыку. Выразительность музыки, конечно же, зависит от реакции, она реализуется через суждение слушателя. Квалифицированные слушатели очень точно приписывают эмоциональную выразительность определенному музыкальному произведению, тем самым указывая, по словам Дэвиса, на то, что выразительность музыки является несколько объективной, потому что если в музыке недостаточно выразительности, то никакое выражение не может быть спроецировано, как реакция на музыку [9].
Философ Дженефер Робинсон [10] предполагает существование взаимосвязи между познанием и идентификацией в своей теорией «эмоции как процесс, музыка как процесс» (или теория процесса). Робинсон утверждает, что процесс эмоционального возбуждения начинается с «автоматического немедленного ответа, который инициирует двигательную и вегетативную активность и подготавливает нас к возможным действиям», запуская когнитивный процесс, который может позволить слушателям «назвать» ощущаемую эмоцию. Эта серия событий постоянно обменивается с новой, поступающей информацией. Робинсон утверждает, что эмоции могут превращаться друг в друга, вызывая замешательство, конфликт и двусмысленность, что затрудняет однозначно описать эмоциональное состояние, которое человек испытывает в определенный момент; вместо этого внутренние чувства лучше воспринимаются как продукт многих эмоциональных «потоков». Робинсон утверждает, что музыка представляет собой серию одновременных процессов, и поэтому она является идеальной средой для отражения таких «когнитивных» аспектов эмоций, как «желаемое» разрешение музыкальных тем или процессов памяти, которые отражают лейтмотив. Эти одновременные музыкальные процессы могут усиливаться или конфликтовать друг с другом и, таким образом, также выражать то, как одна эмоция «со временем превращается в другую» [10].
Известно, что способность воспринимать эмоции в музыке развивается в раннем детстве и значительно улучшается на протяжении всего развития [11]. На способность воспринимать эмоции в музыке также влияет культура, и в межкультурных исследованиях есть сходства и различия в восприятии эмоций [12]. Эмпирические исследования показали, какие эмоции можно передать, а также какие структурные факторы в музыке помогают воспринимать эмоциональное выражение. Есть две мысли о том, как мы интерпретируем эмоции в музыке. Когнитивный подход утверждает, что музыка просто отражает эмоции, но не учитывает личный опыт эмоций слушателя. Эмотивисты утверждают, что музыка вызывает у слушателя реальные эмоциональные реакции [13].
Структурные особенности делятся на две части: сегментарные и супрасегментальные. Сегментальные особенности — это отдельные звуки или тоны, из которых состоит музыка; сюда входят акустические структуры, такие как длительность, амплитуда и высота звука [11]. Супрасегментальные особенности являются основными структурами композиции, такими как мелодия, темп и ритм.
В итоге, было предложено следующее соотношение структурных особенностей музыки с вызываемыми ими эмоциями [12]:
— темп (скорость музыкального произведения) — быстрый темп; счастье, волнение, гнев; медленный темп: грусть, безмятежность;
— громкость (сила и амплитуда звука) — интенсивность, сила или злость;
— мелодия (линейная последовательность музыкальных тонов, которую слушатель воспринимает как целое) — дополняющая гармонии: счастье, расслабление, безмятежность; конфликтующие гармонии: возбуждение, гнев;
— ритм (регулярно повторяющийся паттерн или ритм песни) — ровный / последовательный ритм: счастье, покой; грубый / нерегулярный ритм: беспокойство; разнообразный ритм: радость;
Чтобы учесть эмоциональную составляющую при генерации композиции, используется получение характеристик произведения из изображения — темное изображение связано с медленной мелодией; яркое и цветное — с быстрой композицией.
Автоматизированная генерация композиции
В качестве языка программирования был выбран язык Python. Важной особенностью этого языка является кроссплатформенность, а также ориентация на повышение производительности труда разработчиков и читаемости кода.
Для разработки веб-сайта для создания музыкальной последовательности была предложена и реализована следующая архитектура:
— модуль анализа изображения: содержит блок для непосредственного извлечения художественных характеристик из исходного изображения; блок преобразования художественных характеристик в музыкальные;
— модуль работы с нейронной сетью: блок выбора модели (используется для определения наиболее подходящей модели для генерации композиции); блок прогнозирования композиции (используется для построения мелодической последовательности на основе входных музыкальных характеристик, а также обученной модели); вспомогательный блок для обучения и сохранения моделей в базе данных;
— модуль генерации звуков: содержит блок для генерации мелодического компонента (синтез мелодического компонента в формате mp3 из входящего текста в музыкальной нотации); синтез гармонической составляющей; блок окончательного синтеза композиции. Также в этом модуле находится база музыкальных образцов для синтеза.
Литература:
1. Розалиев, В. Л. Methods and Models for Identifying Human Emotions by Recognition Gestures and Motion / Розалиев В. Л., Заболеева-Зотова А. В. // The 2013 2nd International Symposium on Computer, Communication, Control and Automation 3CA 2013, December 1–2, 2013, Singapore: Papers. — [Amsterdam — Beijing — Paris]: Atlantis Press, 2013. — P. 67–71.
2. Xiaoying Wu. A study on image-based music generation. Master’s thesis. Simon Fraser University, Burnaby, 2008.
3. Szeliski R. Computer Vision: Algorithms and Applications / R. Szeliski. — Springer, 2010. — 979 p.
4. Li Y., Wu H. A Clustering Method Based on K-Means Algorithm / Y. Li, H. Wu // Physics Procedia, 2012. — Vol. 26. — P. 1104–1109.
5. Oyelade O., Oladipupo O., Obagbuwa I. Application of k-Means Clustering algorithm for prediction of Students Academic Performance. / O. Oyelade, O. Oladipupo, I. Obagbuwa // International Journal of Computer Science and Information Security, 2010. — Vol. 7. — № 1. — P. 292–295
6. Caivano J. L., Colour and sound: Physical and Psychophysical Relations /J. L. Caivano // Colour Research and Application, 1994. — № 12(2). — pp. 126–132
7. Афанасьев, В. В. Светозвуковой музыкальный строй. Элементарная теория аудиовизуальных стимулов / В. В. Афанасьев. — М.: Музыка, 2002. — 70 с.
8. Kania, A. The philosophy of music. [Электронный ресурс]. — 2007. — Режим доступа: https://plato.stanford.edu/entries/music/ (Дата обращения: 02.12.2019).
9. Davies, S. Artistic Expression and the Hard Case of Pure Music. // Kieran, M. (Ed.), Contemporary Debates in Aesthetics and the Philosophy of Art. — 2005. — pp. 179–91.
10. Robinson, J. Deeper than Reason: Emotion and its Role in Literature //Music, and Art. –Oxford: Oxford University Press. — 2005. — pp. 310–13
11. Gabrielle, A., Stromboli, E. The influence of musical structure on emotional expression. //Music and Emotion: Theory and Research. — 2001. — pp. 223–243.
12. Susino, M., Schubert, S. Cross-cultural anger communication in music: Towards a stereotype theory of emotion in music. //Musicae Scientiae. — 2017. — pp. 60–74.
13. Scherer, K. R., Zentner, M. R. Emotional effects of music: production rules. //Music and Emotion: Theory and Research. — 2001. — pp. 361–387.