Библиографическое описание:

Демин А. В. Модель адаптивной системы управления и ее применение для управления движением виртуального робота // Молодой ученый. — 2012. — №11. — С. 114-119.

Введение

В последнее время постоянно увеличивается число задач, для решения которых оказывается целесообразно или необходимо использовать автономные адаптивные системы управления. Однако в сложившихся условиях постоянной тенденции к увеличению сложности и разнообразия задач управления, существующие подходы к построению адаптивных систем управления уже не способны обеспечить необходимый уровень управления и адаптации. Анализ текущего состояния дел в области разработки автономных адаптивных систем управления позволяет выделить следующие основные проблемы, с которыми сталкиваются разработчики подобных систем:

  • Проблема координации различных форм поведения и организации взаимодействия между ними.

  • Проблема планирования действий. Система управления должна не просто реагировать на текущую ситуацию, но и прогнозировать последовательность действий, которые должны привести к намеченной цели.

  • Проблема обучения на опыте своего взаимодействия с внешней средой. Данная проблема включает не только вопросы обучения отдельной форме поведения, но вопросы обучения взаимодействию между различными формами поведения.

  • Проблема формирования новых типов поведения. Система управления должна уметь самостоятельно формировать новые типы поведения, направленные на достижение новых целей, и включать их в общую структуру контроля.

  • Проблема универсальности. Системы управления различными объектами должны следовать единым принципам управления и основываться на единой модели.

Существующие на данный момент подходы к построению систем управления решают только некоторые из вышеперечисленных проблем. Какие-либо общие и достаточно универсальные модели, которые бы решали все указанные проблемы, в настоящее время так и не предложены.

Сейчас большинство исследователей сходиться во мнениях, что создание адаптивных системы управления целесообразно проводить, отталкиваясь от общих концептуальных теорий и схем. Одной из таких общих концепций является теория функциональных систем, разработанная в 1930-70-х годах советским нейрофизиологом П.К. Анохиным [1]. Несмотря на то, что изначально эта теория была введена для описания общей схемы управления поведением живых организмов, на ее основе можно предложить общую кибернетическую модель управления целенаправленным адаптивным поведением.

В данной работе предлагается модель адаптивной системы управления, основанная на формализации основных идей теории функциональных систем П.К. Анохина и использующая логико-вероятностные методы извлечения знаний для обучения на опыте своего взаимодействия с окружающей средой. Предложенная модель успешно использовалась для создания адаптивной системы управления 3D-моделью робота, обучающегося способам передвижения в виртуальной среде, моделирующей законы механики реального мира.


1. Теория функциональных систем

Архитектура предложенной нами системы управления основана на теории функциональных систем, разработанной в 1930-1970 годах известным русским нейрофизиологом П.К. Анохиным [1]. Согласно этой теории единицей деятельности организма является функциональная система, формирующаяся для достижения полезных для организма результатов (например, удовлетворение потребностей). Организация функциональных систем при целенаправленном поведении, осу­щест­вляется в соответствии с двумя правилами: последовательностью и иерархией результатов. Последовательность результатов выстраивается по принципу «доминанты»: доминирующая потребность возбуждает доминирующую функциональную систему и строит поведенческий акт, направленный на ее удовлетворение. По отношению к доминирующей функциональной системе все остальные функциональные системы выстраиваются в иерархию по принципу «иерархии результатов»: когда результат деятельности одной функциональной системы входит в качестве компонента в результат деятельности другой.

Центральные механизмы функциональных систем, обеспечивающих целенаправленные поведенческие акты, имеют однотипную архитектуру. Начальную стадию поведенческого акта любой степени сложности составляет афферентный синтез, включающий в себя синтез мотивационного возбуждения, памяти и информации об окружающей среде. В результате афферентного синтеза из памяти извлекаются все возможные способы достижения цели в данной ситуации. На стадии принятия решений в соответствии с исходной потребностью выбирается только один конкретный способ действий. Для обеспечения достижения результата еще перед началом действий формируется акцептор результатов действий, представляющий собой модель параметров ожидаемого результата. Выполнение каждого действия постоянно сопровождается сигнализацией о получение результата, называемой обратной афферентацией. Действия по достижению цели продолжаются до тех пор, пока параметры результата действия, поступающие в центральную нервную систему в форме соответствующей обратной афферентации, не будут полностью соответствовать свойствам акцептора результатов действия.

Отдельная ветвь общей теории функциональных систем – теория системогенеза, изучающая закономерности формирования функциональных систем. В данной работе мы также рассмотрим механизм формирования новых функциональных систем на основе выявления подцелей.


2. Модель системы управления

Предполагается, что система управления функционирует в дискретном времени, имеет некоторый набор сенсоров и набор возможных действий . Информации об окружающей среде подается в систему управления в виде набора сенсорных предикатов , описывающих текущее состояние сенсоров.

Архитектура системы управления представляет собой иерархию функциональных систем, при которой функциональные системы верхнего уровня ставят цели системам нижнего уровня. Отдельная функциональная система определяется следующим набором: .

– предикат-цель, описывающий цель, достижение которой является задачей данной функциональной системы, , .

– множество предикатов-целей, соответствующих функциональным системам, подчиненным данной системе.

– множество закономерностей, принадлежащих данной функциональной системе и имеющих вид:

,

где , , . Эти закономерности предсказывают, что если из ситуации достичь цели , и затем последовательно выполнить действия , переходя после выполнения каждого действия в соответствующую ситуацию, указанную в правиле, то с некоторой вероятностью будет достигнута вышестоящая цель .

Рассмотрим, каким образом происходит работа иерархии функциональных систем.

Предположим, что в некоторый момент времени перед функциональной системой ставится цель . Цель ставится в виде запроса к функциональной системе – достичь эту цель. На вход функциональной системы подается также информация об окружающей среде в виде набора значений сенсорных предикатов , описывающих текущую ситуацию.

В процессе принятия решения функциональная система отбирает из множества закономерностей все закономерности, применимые в текущей ситуации. Т.е. отбираются все закономерности вида , у которых набор сенсорных предикатов выполнен в текущей ситуации. Далее, для каждой извлеченной из памяти закономерности рассчитывается оценка вероятности достижения цели по формуле:

,

где – условная вероятность данной закономерности; – оценка вероятности достижения подцели из текущей ситуации; – оценка вероятности достижения подцели после достижения подцели .

Расчет оценок ,,…, осуществляется рекурсивно путем отправки аналогичных запросов соответствующим функциональным системам, находящимся ниже по иерархии и реализующим эти подцели. Эти запросы активирует в подчиненных функциональных системах аналогичные процессы принятия решений в той же ситуации, которые, в свою очередь, могут потребовать достижения ещё более низких по иерархии целей и т.д. Если какая-то из подцелей не может быть выполнена в данной ситуации (нет закономерностей предсказывающих достижение подцели в данной ситуации), то в ответ на запрос возвращается отказ и закономерность, инициировавшая запрос, будет исключена из рассмотрения.

На основании полученных оценок выбирается закономерность , имеющая максимальную оценку вероятности, которая и будет определять оптимальные действия по достижению цели. Далее, соответствующая серия действий, указанная в закономерности запускается на выполнение. Если закономерность содержит подцели, которые необходимо достичь, то сначала управление передается соответствующим функциональным системам, реализующим достижение этих подцелей.

Кроме того, после выполнения каждого действия из закономерности осуществляется проверка, что система перешла именно в ту ситуацию, которая была указана в закономерности. Если это не так, то выполнение серии действий прерывается и запускается поиск нового способа достижения цели.

В начальной стадии обучения, когда множество закономерностей еще пусто, либо нет ни одного правила применимого в данной ситуации, действие соответствующей функциональной системы выбирается случайным образом из арсенала имеющихся действий.

После совершения действия обновляются показания сенсоров, оценивается результат действия и уточняется множество закономерностей .


3. Метод обучения

Самообучение системы управления заключается в обнаружении для каждой функциональной системы множества закономерностей на множестве данных истории деятельности системы. Для обнаружения множества закономерностей был разработан алгоритм, позволяющий выводить способ достижение цели, последовательно наращивая правила вида , начиная с правила, содержащего один переход в ситуацию-цель , и последовательно добавляя в правило новые переходы между ситуациями.

Для нахождения всех способов перехода между ситуациями используется алгоритм семантического вероятностного вывода, описанный в работах [2-3]. Семантический вероятностный вывод позволяет на множестве данных истории деятельности системы обнаружить все статистически значимые закономерности вида , предсказывающие переход системы из ситуации в ситуацию при выполнении действия . Последовательно применяя семантический вероятностный вывод для нахождения цепочек переходов между ситуациями, можно получить правила вида , описывающие различные способы достижения конечной цели .

Основное преимущество подобной генерации правил заключается в значительно более высокой скорости обучения и адаптации системы управления, поскольку таким образом могут генерироваться цепочки переходов, которые ни разу ранее не встречались в опыте системы.


4. Обнаружение подцелей и генерация новых функциональных систем

Изначально система управления имеет заданную априори иерархию функциональных систем. В простейшем случае она может состоять всего из одной функциональной системы. Однако для успешной работы в процессе своей деятельности система управления должна уметь автоматически выявлять новые подцели и порождать соответствующие функциональные системы. Для реализации данной возможности был разработан метод, позволяющий обнаруживать новые подцели путем анализа закономерностей, принадлежащих функциональным системам.

Определим подцель как ситуацию, достижение которой значительно увеличивает вероятность достижения вышестоящей цели, и последующие действия из этой ситуации не могут быть определены однозначно.

Для выявления подцелей у каждой функциональной системы анализируется множество ее правил . Перебираются различные ситуации, входящие в условия закономерностей из . Ситуация, описываемая предикатами , будет являться подцелью, если выполнены следующие условия:

1) Вероятность любого правила, содержащего данную ситуацию, должна быть больше вероятности любого своего подправила, не содержащего данную ситуацию, более чем на некоторый порог . Т.е. для любого правила , , такого, что , и для любого правила , , такого, что – подправило , и , выполнено условие .

2) Должно существовать хотя бы два правила, содержащие данную ситуацию, но имеющие различные варианты действий из данной ситуации. Т.е. существуют правила , , и , , такие, что , и .

Первое условие говорит о том, что добавление данной ситуации в условную часть правил должно значительно увеличивать оценку условной вероятности правил (более чем на , где – некоторый порог, например = 0.2), это означает, что достижение такой ситуации значительно увеличивает вероятность достижения вышестоящей цели. Второе условие говорит о том, что после достижения данной ситуации возможны различные дальнейшие действия.

Таким образом, у каждой функциональной системы анализируется множество ее правил и выявляются новые подцели. Для каждой новой обнаруженной подцели создается новая функциональная система , находящаяся ниже по иерархии системы и реализующая достижение этой подцели. Для созданной функциональной системы порождается множество закономерностей . Для этого просмат­ривается все множество данных истории деятельности системы и выявляются случаи, когда в прошлом достигалась подцель . Для всех функциональных систем, находящихся на один уровень выше , набор предикатов-целей обогащается еще одним предикатом и генерируются новые правила. Тем самым, множества закономерностей этих функциональных систем обогащаются закономерностями, содержащими новую подцель .

Подробно алгоритм и эксперименты по автоматическому обнаружению подцелей описаны в работах [3-5].


5. Эксперименты

С разработанной моделью были проведены эксперименты с созданием адаптивной системы управления для 3D-модели робота. Для этого была разработана программная система (рис. 1), представляющая собой симулятор модели робота, функционирующего в трехмерной среде с физическими законами. Основное назначение программы – проведение экспериментов по управлению роботами в среде, приближенной к реальному миру. Программа обладает возможностями визуализации виртуальной среды и записью экспериментов в видео-файл. При помощи созданной программы был смоделирован робот и проведены эксперименты по обучению способу передвижения данного робота в виртуальной среде.


Рис. 1. 3D-симулятор модели робота


Морфология робота представляет собой тело в виде коробки и подвижного рычага-«руки» (рис. 1). Рука состоит из двух сочленений: «плечо» и «локоть». Плечо соединяется с телом посредство плечевого сустава, имеющего две степени свободы, что дает возможность поворачивать руку относительно точки сочленения вправо-влево в горизонтальной плоскости и вверх-вниз в вертикальной плоскости. Локоть соединяется с плечом посредством локтевого сустава, имеющего одну степень свободы, позволяющую сгибать-разгибать руку в локтевом суставе. Робот может управлять рукой, прилагая усилия в суставах. В качестве сенсорной информации робот получает данные об углах сгибов в суставах в соответствующих плоскостях.

Задачей робота являлось обнаружение эффективного способа передвижения в окружающей среде. Для этого роботу ставилась основная цель – добраться до целевой точки на плоскости. Когда он достигает целевой точки, она случайным образом перемещается в новое место. Таким образом, чтобы решать основную задачу, робот должен научиться эффективно решать подзадачи: двигаться вперед, поворачивать налево и направо.

Изначально система управления роботом еще не имеет правил функционирования и совершает действия случайным образом. После накопления определенной статистики система управления начинает извлекать закономерности из опыта своего взаимодействия с окружающей средой, формируя таким образом свое поведение.

Как показывают проведенные эксперименты, системе управления удается стабильно обнаруживать эффективные способы передвижения, включая движение вперед и повороты налево и направо, в среднем за 1000 шагов. Если же ограничить задачу только обнаружением эффективного способа движения вперед, то системе удается решить задачу всего за 100 шагов. На рисунках 3 и 4 приведены найденные системой в ходе обучения оптимальные последовательности движений при перемещении вперед (рис. 2) и повороте налево (рис.3).


Рис. 2. Последовательность движений при перемещении вперед


Рис. 3. Последовательность движений при повороте налево


Таким образом, проведенные эксперименты позволяют сделать вывод, что предложенная модель адаптивной системы управления является работоспособной и обладает достаточно высокой скоростью обучения.


Литература:

  1. Анохин П.К. Принципиальные вопросы общей теории функциональных систем // Принципы системной организации функций. – М.: Наука, 1973. – С. 5-61.

  2. Витяев Е.Е. Извлечение знаний из данных. Компьютерное познание. Модели когнитивных процессов. – Новосибирск: НГУ, 2006. – 293 с.

  3. Демин А.В., Витяев Е.Е. Логическая модель адаптивной системы управления // Нейроинформатика. – 2008. – Т. 3. – № 1. – С. 79-107.

  4. Evgenii E. Vityaev, Alexander V. Demin Recursive subgoals discovery based on the Functional Systems Theory // Biologically Inspired Cognitive Architectures 2011, IOS Press, 2011. – p. 425-430.

  5. Demin A.V., Vityaev E.E., Animat control system based on semantic probabilistic inference // Bull. Nov. Comp. Center, Computer Science, 24 (2006), NCC Publisher, 2006. – p. 57-72.

Обсуждение

Социальные комментарии Cackle