Библиографическое описание:

Банникова А. В., Михов Е. Д. О непараметрическом алгоритме управления макрообъектом // Молодой ученый. — 2014. — №1. — С. 18-27.

Введение. Внастоящие время, при управлении дискретными непрерывными процессами в разных отраслях промышленности, часто используют стандартные типовые законы регулирования (П, ПИ, ПИД регуляторы). В частности, они эффективно используются при управлении хорошо контролируемыми техническими объектами, в частности, плавильными печами, реакторами, турбинами и др. Совершенно ясно, что качество регулирования различного рода зависит от настроек соответствующих регуляторов, и в ряде случаев оказывается недостаточно эффективными. Отметим еще одно обстоятельство, что типовые регуляторы, используемые в промышленности, не являются обучающими (адаптивными). Это значит, что при повторном переводе объекта из одного состояния в другое, регулятор функционирует таким же образом, как и ранее.

Предметом исследования настоящей статьи является построение обучающегося, адаптивного управляющегося устройства, которое в процессе функционирования, улучшает рабочие свойства управляющей системы. На этом пути естественно использование теории адаптивных управляющих систем [1], но параметрическая теория адаптивных систем предполагает предварительную параметризацию объекта. В случае недостатка априорной информации об исследуемом объекте, часто не представляется возможным обоснованно выбрать параметрическую структуру модели. В этом случае, исследователь вынужден, обрабатывая имеющиеся выборки «входных-выходных» переменных, «добывать» дополнительную априорную информацию, которая позволит более обоснованно определиться с параметрической структурой модели.

В случае, когда априорной информации недостаточно, чтобы выбрать параметрическую структуру модели исследуемого процесса, естественно использовать теорию непараметрической системы управления [2, 3]. Непараметрическая теория, в отличие от предыдущей, предполагает, что известны только качественные характеристики системы. Это означает, что использование непараметрической теории позволяет полностью уйти от вопроса определения параметрической структуры объекта.

В настоящей статье сделан акцент на исследование непараметрического алгоритма дуального управления дискретными непрерывными процессами.

Уровни априорной информации. Рассмотрим системы с различным уровнем априорной информации:

-                   системы с полной информацией. В этом случае оператор процесса известен точно, а случайные помехи, действующие на объект и в каналах связи, отсутствуют.

При решении задач идентификации и управления могут быть использованы методы математической теории оптимальных процессов, а также другие методы.

-                   системы с неполной информацией. Это системы с независимым (пассивным) накоплением информации. В этом случае, влияние входного воздействия  воспринимается как просто случайное воздействие. Помехи это обычно предполагаемое в теории стохастических систем случайное воздействие на объект. Кроме того, класс операторов не известен точно, но необходимы предположения о плотности распределения всех случайных факторов. Обычно плотности вероятности случайных факторов, действующих на объект и в каналах измерения переменных, предполагаются нормальными и аддитивными. Ясно, что в этом случае необходимо наличие выборки «входных-выходных» переменных объекта.

-                   системы с активным накоплением информации. Особенность этого уровня априорной информации состоит в том, что задачи идентификации и задачи управления здесь могут быть объединены. Элементы выборки измерений поступают последовательно в обучающую модель и систему управления. Таким образом, в случае объединения этих задач выработка управляющих воздействий носит двойственный характер — они должны быть одновременно и изучающими, и управляющими, т. е. носить дуальный характер [4]. Однако, если помехи, действующие на процесс, аддитивны и в каналах измерения, то в целом система дуального управления может быть приведена к разомкнутой, т. е. темп накопления информации оказывается независимым от значений входных переменных. Такие системы называют приводимыми к разомкнутым или нейтральными. Но существует класс не нейтральных систем, т. е. класс неприводимых.

-                   системы с параметрической неопределенностью. Параметрический уровень априорной информации предполагает наличие параметрической структуры модели и некоторых характеристик случайных помех, обычными из них являются нулевое математическое ожидание и ограниченная дисперсия. Для оценивания параметров используются чаще всего разнообразные итеративные вероятностные процедуры. При этих условиях также решается задача идентификации в узком смысле, как и во всех предыдущих случаях.

-                   системы с непараметрической неопределенностью. Непараметрический уровень априорной информации не предполагает наличие модели, но требует наличие некоторых сведений качественного характера о процессе, например, однозначность, либо неоднозначность его характеристик, линейность для динамических процессов либо характер его нелинейности. Для решения задач идентификации на этом уровне априорной информации (идентификация в «широком смысле» [5]) применяются методы непараметрической статистики.

-                   системы с параметрической и непараметрической неопределенностью. Важными с точки зрения практики являются задачи идентификации многосвязных систем в условиях, когда объем исходной информации не соответствует ни одному из вышеописанных типов. Например, для отдельных характеристик многосвязного процесса на основании физико-химических закономерностей, энергетических, закона сохранения массы, балансовых соотношений могут быть выведены параметрические закономерности, а для других нет. Таким образом, мы находимся в ситуации, когда задача идентификации формулируется в условиях и параметрической, и непараметрической априорной информации. Тогда и модели представляют собой взаимосвязанную систему параметрических и непараметрических соотношений.

Постановка задачи. Для изложения дальнейшего нам понадобится анализ следующей блок-схемы (рис.1).

Рис. 1

Где x(t) –выходная переменная процесса, u(t) –входное управляющее воздействие, x*(t) — задающее воздействие регулятора,x**(t) — задающее воздействие программируемого устройства, (t)– непрерывное время. Контроль переменных (x,u) осуществляется через интервал времени , т. е.  — выборка измерений переменных процесса, s — объем выборки.

Примечательно, что в выше описанной схеме, что встроенный в систему управления типовой регулятор сохранен, но добавлен внешний контур управления, несущий в себе черты обучаемости и дуализма. Для него объект и регулятор являются своеобразным макрообъектом.

Очевидно, что управляющие устройство является внешним контуром управления, который позволяет улучшить качество управления объекта. При этом замена типовых регуляторов, которые находятся в производстве (П, ПИ, ПИД), не предполагается. Это связанно с тем, что стандартные регуляторы — аналоговые, и часто более надежные в работе, чем цифровые, которые в большей степени подвержены воздействию внешней среды (резкий перепад температур, вибрации, агрессивной среды, воздействия различного рода излучениям).

Непараметрическая оценка плотности вероятности. Пусть ,  статически независимые наблюдения случайной величины , распределенной с неизвестной плотностью вероятности . Естественно связать с каждой точкой ,  дельта функцию , тогда статистика

,                                                                                            (1)

оказывается несмещенной оценкой  .

Но оценка типа (1) не может быть использована в конкретных расчетах, поэтому естественно δ-функцию «размазать» в окрестности точки

,                                                                                         (2)

где  уже не дельта-функция, но обращается в последнюю при n→∞. Далее, в качестве  мы будем рассматривать следующий тип колоколобразных функций

.                                                                                   (3)

Тогда оценка  примет вид

                                                                               (4)

где интегрируемая с квадратом функция  такова, что ,

,                                                                                       (5)

, , а параметр  (коэффициент размытости) удовлетворяет условиям:

,  ,                                                       (6)

Может быть рассмотрена и иная оценка плотности вероятности, а именно

,                                                                        (7)

допускающая рекуррентный вариант записи

                                      (8)

Если  — вектор размерности k, т. е. , то в качестве непараметрических оценок использованы статистики

                                            (9)

        (10)

                                  (11)

Интегрируемые с квадратом функции  в (9)-(11) удовлетворяют условиям типа (8), последовательности  также удовлетворяет условиям (6) кроме последнего предельного соотношения, которое в многомерном случае примет вид

.                                                                                                  (12)

Выполнение условий (5), (6), (12), накладываемых на функции  и последовательности , в дальнейшем изложении предполагаются всюду. Поэтому, далее, специально это отмечаться не будет.

Непараметрические оценки кривой регрессии. Пусть имеется статически независимые наблюдения двух случайных величин , распределенных с неизвестной плотностью вероятности . Предполагается, что . При аппроксимации неизвестных стохастических зависимостей  от  часто используют регрессию  по :

,                                                    (13)

непараметрическая оценка которой, как известно, имеет вид:

                                    (14)

Оценку (29) можно получить из (2) подстановкой в нее непараметрической оценки двумерной плотности вероятности  и при условии, что

                                                                 (15)

Выполнение последнего требования всюду в дальнейшем предполагается.

Многомерный аналог (14) в случае, когда  и  векторы, будет иметь вид

                         (16)

Можно получить и другие оценки , если воспользоваться непараметрическими оценками плотности (10), (11).

Непараметрическая оценка кривой регрессии (4) является сходящейся в среднеквадратическом и асимптотически несмещенной, т. е.

                                                                  (17)

Следует добавить, оценка регрессии свободна от параметрической структуры объекта.

Дуальное управление. Основным принципом, который положен в основу построения систем автоматического управления, является принцип управления по отклонению или принцип отрицательной обратной связи. Поскольку ошибка (отклонение состояния системы от заданного) несёт на себе отпечаток влияния различных неконтролируемых внешних воздействий, она является универсальным показателем состояния работы системы.

Недостаток априорной информации об объекте приводит к необходимости совмещать изучение объекта и управление им! При таком управлении управляющие воздействия носят двойственный характер. Они служат средством изучения, познавания объекта, но также и средством приведения объекта к требуемому состоянию. Такое управление, при котором управляющие воздействия носят двойственный характер, называют дуальным управлением [4]. При этом оказывается, что управляющая и познавательная стороны этих воздействий противоречивы. Действительно, нельзя качественно управлять объектом, не зная его характеристик, но выяснение этих характеристик требует длительного изучения объекта. Вряд ли можно надеяться, что слишком поспешное управление без достаточной информации об объекте, как и слишком осторожное управление, хотя и основанное на накоплении информации, но действующее, когда надобность в нём миновала, приведут к успешному результату.

Двойственность знания и управления, как подчёркивал К. Шеннон, тесно связана с двойственностью прошлого и будущего. Можно знать прошлое, но нельзя управлять им и можно управлять будущим, но мы никогда не знаем его.

Дуальное управление было открыто А. А. Фельдбаумом и развито на основе теории статистических решений [4]. Такой путь предполагает знание априорной плотности распределения случайных возмущений и параметров управляемого объекта. Если же эти плотности распределения неизвестны, то нужно искать, видимо, новые пути решения задач.

Из изложенного видно, что обучающиеся системы управления являются системами «с памятью» т. е. они не только способны изучать характеристики объекта, но и сохраняя их в памяти, вырабатывать оптимальные управляющие воздействия. Теория непараметрических систем управления достаточно подробна изложена в [2].

Непараметрический алгоритм дуального управления, как следует из [2] имеет вид:

us1  us1,                                                                                                                (18)

где  сосредоточены «знания» об объекте, а us1 — «изучающие» поисковые шаги:

us1 ( xs)                                                                                                         (19)

В этом и состоит дуализм алгоритма (18).

В качестве оценки объекта x f (u,) примем оценку функции регрессии по наблюдениям {xi,ui,i 1,s},

                                                                                                (20)

где колоколообразные функции () и параметр размытости cs удовлетворяют некоторым условиям сходимости [4], u f 1(x), где f 1(x) — функция, обратная f (u), а  из(18) будет равно

                                                                                                 (21)

где x* — задающее воздействие.

Проанализируем характер дуализма алгоритма (18). На начальной стадии управления основная роль принадлежит второму слагаемому us1 формулы (18). Это случай активного накопления информации в системе дуального управления, который начинается с появления первого наблюдения входной и выходной переменных объекта. По мере процесса обучения (накопления информации) всё возрастающую роль при формировании управляющего воздействия us1 начинаетиграть первое слагаемое, т. е. . Таким образом, в процессе дуального управления объектом фигурируют как этап изучения объекта, так и этап приведения его к цели.

Вычислительный эксперимент. Приведем некоторые результаты вычислительных экспериментов. Для имитации реального объекта была принята следующая функция:

, где  — центрированная аддитивная помеха, с нулевым математическим ожиданием, и ограниченной дисперсией.

В качестве коэффициентов была приняты значения:

В качестве алгоритма управления был выбран П — алгоритм, который описывается следующей формулой:

, где  — пропорциональный коэффициент, который взят равным  = 0,1. Значения  в непараметрическом алгоритме управления были приняты равными: , . Объем выборки равный 300.

Приведем работу системы управления макрообъектом при ступенчатом воздействии при разном уровне помех (рис. 2 — помеха отсутствует, рис. 3 — помеха 5 %, рис. 4 — помеха 30 %).

Рис. 2

Обучение управлению начинается с первой пары наблюдений , (т. е. выработка управляющего воздействия осуществляется при наличии пар (,. На начальной стадии управления необходимо некоторое время (накопление выборки) для приведения объекта в заданное состояние.

Рис. 3

Рис. 4

Необходимо отметить, что предложенный алгоритм управления является наиболее устойчивым к помехе, и даже при достаточно высоком уровне (30 %), позволяет получить удовлетворительный результат.

Изменим параметр , который отвечает за размер «шагов». Представим  (рис. 5)

Рис. 5

Как мы можем наблюдать, алгоритм начинает расходиться, не успевая достигать задания. Теперь, напротив, уменьшим коэффициент  до 0,01 (рис. 6).

Рис. 6

В данном случае мы наблюдаем обратную картину: алгоритму наоборот «не хватает» шагов до достижения задающего воздействия.

Увеличим параметр , регулирующий коэффициент размытости ядра (рис. 7)

Рис. 7

Как видно из рисунка, алгоритм усредняет результат, это можно объяснить тем, что параметр  прямо пропорционален коэффициенту размытости ядра, тем самым увеличивая, его мы увеличиваем и , вследствие чего под «купол ядра» попадает слишком много элементов выборки, что и приводит к усреднению.

Ранее мы рассматривали случай, активного накопления информации. Рассмотрим ситуацию, когда известно 50 наблюдений до работы алгоритма. рис. 5 объект без помехи, на рис. 6 с помехой равной 5 %.

Рис. 8

Рис. 9

Анализируя рис.8–9 можно сделать вывод, что данный алгоритм, действительно обладает адаптивными свойствами, свойствами обучаемости: полученная информация об объекте на первых 50 наблюдениях, позволяет при работе алгоритма быстрее достигать задающего воздействия на последующих шагах.

Представим задающие воздействие в виде траектории, имеющей вид:

Рис. 10.

Здесь мы представили случай, когда адаптивный регулятор, явно превосходит обычный П-регулятор. х* здесь — задается случайно, и, разумеется, стандартные алгоритмы регулирования не успевают подстроится, в то время как адаптивный алгоритм, запомнив, как достигнуть нужний результат, всегда попадает в точку.

Рис. 11

Как мы здесь видим П- регулятор, «не успевает» подстраиватся под х*, вследствие того, что оно постоянно меняется, но как только мы добавляем адаптивный регулятор, который «запоминает», как достичь желаемого результата, сразу видно, что после обучения, объект мгновенно переходит к желаемому результату.

Заключение. Внастоящей статье рассматривается новый класс задач управления, ориентированных на управление дискретными непрерывными процессами. Актуальность этой задачи обусловлена тем, что при управлении техническими процессами, типовые регуляторы сохраняются, но добавляется внешний контур управления, что существенно улучшает качество управления системы в целом.

Основное внимание уделяется построению непараметрической системы дуального управления. В этой связи даются краткие сведения о непараметрической оценки функции плотности распределения вероятностей и регрессии по имеющимся реальным выборкам. Обсуждается проблема дуализма при управлении дискретным непрерывным процессом. Достаточно подробно изложены результаты вычислительного эксперимента, как и следовало ожидать, введение внешнего контура позволяет повысить качество регулирования процессом. Следует также заметить, что важность задачи управления безынерционным объектами обусловлена, прежде всего, средствами контроля выходным переменных объекта, так как следует учитывать, что контроль доступен не электрическими средствами, а соответствующей методикой лабораторного контроля, и зачастую оказывается, что время, затраченное на измерение переменных, может значительно превышать постоянной времени объекта. Изложенные непараметрические алгоритмы дуального управления легко распространяются на безынерционные системы с запаздыванием.

Огромная благодарность выражается нашему научному руководителю Медведеву Александру Васильевичу за постоянную поддержку и труд, вложенный в нас.

Литература:

1.                  Цыпкин Я. З. Адаптация и обучение в автоматических системах. Изд. «Наука», 1968г. — 400с.

2.                  Медведев А. В. Непараметрические системы адаптации. — Новосибирск, Наука, 1983. — 174с.

3.                  Медведев А. В. Теория непараметрических систем. Моделирование // Вестник СибГАУ. 2010. № 4 (30). С. 4–9.

4.                  Фельдбаум А. А. Основы теории оптимальных автоматических систем. Москва. Изд. Физматгиз, 1963г. — 552с.

5.                  Эйкхофф П. Основы идентификации систем управления. М.: Мир, 1975. — 683с

6.                  Надарая Э. А. Непараметрические оценки плотности вероятности и кривой регрессии, изд. Тбил. ун-т, 1983. — 194 с.

Обсуждение

Социальные комментарии Cackle