Метод мультиагентного глубокого обучения в решении социальных дилемм | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 29 января, печатный экземпляр отправим 2 февраля.

Опубликовать статью в журнале

Автор:

Рубрика: Информационные технологии

Опубликовано в Молодой учёный №21 (363) май 2021 г.

Дата публикации: 18.05.2021

Статья просмотрена: 31 раз

Библиографическое описание:

Чебан, О. П. Метод мультиагентного глубокого обучения в решении социальных дилемм / О. П. Чебан. — Текст : непосредственный // Молодой ученый. — 2021. — № 21 (363). — С. 125-127. — URL: https://moluch.ru/archive/363/81120/ (дата обращения: 18.01.2022).



В статье автор предлагает метод мультиагентного глубокого обучения для изучения сотрудничества, который позволит приблизиться к решению социальных дилемм.

Ключевые слова: социальные дилеммы, обучение с подкреплением, машинное обучение, мультиагентное обучение, искусственный интеллект, сотрудничество.

Социальные дилеммы возникают, когда происходит столкновение с приоритетом либо краткосрочных эгоистических интересов, либо долгосрочных интересов группы, организации или общества. Многие из самых сложных проблем, от межличностных отношений до межгрупповых, лежат в основе их социальных дилемм. Загрязнение, истощение природных ресурсов и межгрупповые конфликты можно охарактеризовать как примеры социальных дилемм, которые требуют незамедлительного решения. Социальные дилеммы охватывают большую область научных интересов. К примеру, авторы статьи [1] показали, что область социальных дилемм растет и процветает с точки зрения теории, междисциплинарного сотрудничества и применимости, предлагая идеи, которые являются новыми, воспроизводимыми и применимыми ко многим социальным дилеммам.

Социальные дилеммы сложились исходя из обстоятельств, в которых присутствует эгоистичный интерес и общее благо. Наиболее распространёнными социальными дилеммами являются «Дилемма заключенного», «Дилемма общественного блага» и «Трагедия общин».

Теория игр предполагает, что люди являются рациональными субъектами, стремящимися максимизировать свою выгоду. А согласно теории эгоистичных генов, люди могут следовать, казалось бы, иррациональной стратегии сотрудничества, если это способствует выживанию их генов. В дополнение к этому существует теория взаимности, которая предлагает иное объяснение эволюции сотрудничества. В повторяющихся играх с социальной дилеммой между одними и теми же людьми может возникнуть сотрудничество, потому что люди могут наказывать партнера за отказ сотрудничать. Это случай прямой взаимности, она работает лучше всего в паре, и, следовательно, в маленьких группах. Также существует непрямая взаимность, которая объясняет значение репутации в сотрудничестве больших групп. При прямой взаимности репутация играет большое значение, а вот в непрямой это неочевидно. До некоторого времени решение непрямой взаимности вызывала другие дилеммы. Автор статьи [2] решает дилеммы, которые возникают при решении непрямой взаимности, используя репутацию, доказывая тем самым какую большую роль она играет. Также были рассмотрены психологические модели: теория взаимозависимости и модель уместности.

Существует три класса решений социальных дилемм: мотивационные, стратегические и структурные. Мотивационные решения часто предполагают, что люди не заинтересованы исключительно в своих интересах, но могут иметь и другие предпочтения. Сюда входят концепция социальной ценностной организации и социальная идентичность. Любопытно, то, что в концепции социальной ценностной организации многие механизмы способствуют сотрудничеству между людьми, облегчая или даже разрешая социальную дилемму. Один класс механизмов, который недостаточно изучен — это распространение опыта, полученного в различных средах. В одном лабораторном эксперименте участники играли в повторяющиеся игры с общественными благами, в которых раунды чередовались между позитивными взаимодействиями и взаимодействиями с социальной дилеммой. Результатом эксперимента было то, что вместо поощрения просоциального поведения наличие позитивных взаимодействий снизило уровень сотрудничества при взаимодействии с социальной дилеммой. Данный эксперимент показывает, что высокая отдача, получаемая от положительных взаимодействий, задает ориентир, который подчеркивает восприятие участниками того, что участие в взаимодействиях с социальной дилеммой является плохим вложением. Одним из стратегических решений социальных дилемм является использование взаимности (пример «Око за око»). Структурные решения меняют правила игры, либо изменяя социальную дилемму, либо полностью устраняя дилемму: изменение структуры социальной дилеммы, уменьшение размера группы, устранение социальной составляющей путём приватизации. Все эти решения требуют подробного изучения. В частности, методы глубокого обучения с подкреплением позволяют моделировать социальные дилеммы и применять, на текущий момент, сильно упрощённые версии данных решений, поскольку в основе этих решений лежат природные, психологические процессы, которые мы сегодня не настолько хорошо можем моделировать.

Исходя из проведённого исследования, было выяснено, что в основе решения социальных дилемм лежит сотрудничество. В последнее время мы видим, что сотрудничество становится более важным компонентом сценариев мультиагентного обучения с подкреплением, что позволяет говорить о том, что мы всё больше приближаемся к пониманию сотрудничества, и впоследствии к решению социальных дилемм. В изучении и использовании сотрудничества имеет значительные успехи методы глубокого мультиагентного обучения с подкреплением, например, как метод MADDPG, разработанный исследователями OpenAI [3]. Авторы разработали метод, который сочетает в себе централизованное обучение с децентрализованным исполнением, позволяя при разработке стратегии использовать дополнительную информацию для облегчения обучения. Агенты учатся не только на своих собственных действиях, но также и на действиях других агентов в среде путём прогнозирования этих действий. Это позволяет лучше проанализировать поведение других и разработать свою стратегию, что для социальных дилемм очень важно, поэтому такие методы следует использовать в основе исследования и решения социальных дилемм. Также исследователями [4] был представлен пример практического использования мультиагентного решения социальной дилеммы для систем с общими ресурсами, в частности, системы управления водными ресурсами для жилого комплекса, что в очередной раз доказывает, насколько важна данная тема для разрешения разных сложных задач и как методы мультиагентного обучения могут в этом помочь.

В качестве заключения можно сделать однозначный вывод, что социальные дилеммы сложны, многогранны и что современные методы глубокого мультиагентного обучения могут предложить способы изучения сотрудничества, что положительно повлияет на решение таких сложных задач как социальные дилеммы.

В данной статье были рассмотрены социальные дилеммы, их типы, возможности решения и один из способов развития в решении социальных дилемм. В качестве метода был представлен современный алгоритм мультиагентного глубокого обучения [3], который обучает агентов сотрудничать, причём агенты используют как свой предыдущий опыт, так и предсказания поведения других агентов, что позволяет лучше понимать основу сотрудничества, что в свою очередь помогает в решении социальных дилемм.

Литература:

  1. Paul A. M. Van Lange, Jeff Joireman, Craig D. Parks, Eric Van Dijk. The psychology of social dilemmas: A review. // Organizational Behavior and Human Decision Processes Volume 120, Issue 2, 2013, Pages 125–141. DOI: 10.1016/j.obhdp.2012.11.003.
  2. Okada, I. Two ways to overcome the three social dilemmas of indirect reciprocity. // Sci Rep 10, 16799, 2020. DOI:10.1038/s41598–020–73564–5.
  3. Ryan Lowe, Yi Wu, Aviv Tamar, Jean Harb, Pieter Abbeel, Igor Mordatch. Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments. // arXiv:1706.02275v4, 2020. Режим доступа: https://arxiv.org/pdf/1706.02275.pdf.
  4. Arnu Pretorius, Scott Cameron, Elan van Biljon, Tom Makkink, Shahil Mawjee, Jeremy du Plessis, Jonathan Shock, Alexandre Laterre, Karim Beguir. A game-theoretic analysis of networked system control for common-pool resource management using multi-agent reinforcement learning. // Neural Information Processing Systems (NeurIPS) conference, 2020, DOI:arXiv:2010.07777v1.
Основные термины (генерируются автоматически): дилемма, социальная дилемма, решение, глубокое обучение, непрямая взаимность, MADDPG, агент, взаимодействие, прямая взаимность, социальная ценностная организация.


Ключевые слова

сотрудничество, искусственный интеллект, машинное обучение, социальные дилеммы, обучение с подкреплением, мультиагентное обучение
Задать вопрос