Синтез управлений при двойных и неоднотипных ограничениях
Московский государственный университет им. М.В. ЛомоносоваНа правах рукописи
Дарьин Александр Николаевич Синтез управлений при двойных и неоднотипных ограничениях 01.01.02 дифференциальные уравнения
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата физико-математических наук
Москва 2004 г.
Работа выполнена в Московском государственном университете им. М. В. Ломоносова на кафедре системного анализа факультета Вычислительной математики и кибернетики.
Научный руководитель доктор физико-математических наук, академик РАН А. Б. Куржанский.
Официальные оппоненты доктор физико-математических наук, профессор М. С. Никольский;
доктор физико-математических наук, профессор Н. Х. Розов.
Ведущая организация ИММ УрО РАН.
Защита состоится 20 мая 2004 года в 14 часов на заседании специализированного Совета Д 002.022.02 при Математическом институте РАН им. В. А. Стеклова по адресу: 117966, Москва, ГСП-1, ул. Губкина, д. 8, конференц-зал.
С диссертацией можно ознакомиться в научной библиотеке Математического института РАН.
Автореферат разослан “ ” апреля 2004 г.
Ученый секретарь спецсовета, Ю. Н. Дрожжинов доктор физ.-мат. наук
Общая характеристика работы
Актуальность темы. Диссертация посвящена задачам нелинейного синтеза гаран тирующих управлений в системах с исходно линейной структурой при неопределенности.
Подобные проблемы актуальны в математических моделях высоких технологий. От гаран тирующего управления требуется привести систему на заранее заданное целевое множе ство, невзирая на воздействие неизвестных помех. Составляющими частями решения за дачи при этом являются множество разрешимости, состоящее из всех точек, из которых цель действительно может быть достигнута;
функция цены, равная минимальному гаран тированному расстоянию до целевого множества в конечный момент;
синтез управлений, указывающий управляющие воздействия в каждом из возможных положений системы.
Альтернированный интеграл Л. С. Понтрягина [17, 18] позволяет свести вычисление множества разрешимости к интегрированию многозначных отображений;
ему посвящены работы Е. Ф. Мищенко, М. С. Никольского, Е. С. Половинкина, Н. Х. Розова.
В теории, разработанной Н. Н. Красовским и его сотрудниками [4–6, 21, 28] указыва ется способ построения синтезирующей стратегии, удерживающей траекторию системы внутри стабильного моста и обеспечивающую таким образом попадание на целевое множество.
Метод динамического программирования, разработанный Р. Беллманом [2] и приме ненный к игровым задачам Р. Айзексом [1], позволяет представить функцию цены как решение уравнения в частных производных (т.н. уравнение Гамильтона–Якоби–Белл мана–Айзекса, HJBI), а синтезирующую стратегию как множество управлений, на кото рых достигается экстремум в этом уравнении. Поскольку функция цены очень часто быва ет не всюду гладкой, используются различные понятия обобщенного решения уравнения Беллмана, например, вязкостные решения, введенные М. Г. Крэндаллом и П.-Л. Лионсом [27], или минимаксные решения, введенные А. И. Субботиным [19];
см. также [22].
Использование соединения перечисленных подходов позволяет расширить рассматри ваемый круг задач и построить конструктивную теорию, направленную на решение за дач до конца, то есть до практически реализуемого алгоритма, чему посвящены работы А. Б. Куржанского [8, 9, 29–33]. При этом аппарат эллипсоидального исчисления [29] позво ляет свести задачу синтеза к интегрированию системы обыкновенных дифференциальных уравнений для параметров эллипсоидальной аппроксимации множества разрешимости, то есть к эффективному численному алгоритму.
Игровым задачам механики посвящена монография Ф. Л. Черноусько и А. А. Мели кяна [24].
В принятой теории предполагается, что управление и возмущения принадлежат од нотипным классам. В упомянутых выше работах об альтернированном интеграле управ ление и помеха стеснены геометрическими ограничениями. Системы с интегральными ограничениями рассматривались в работах [13, 20, 23, 26].
Однако на практике возникают ситуации, когда необходимо налагать на управление одновременно несколько ограничений различных типов, а также выбирать для управле ния и помехи различные классы ограничений. Постановка задачи с двойным (геометриче ским и интегральным) ограничением на управление рассматривалась в статье [11], однако решение было получено только для случая регулярной дифференциальной игры, когда задача сводится к чисто программным конструкциям. Несколько другая постановка рас сматривалось в работе [3].
Цель работы состоит в получении теоретического обоснования решения задач синте за гарантирующих управлений при двойных и неоднотипных ограничениях, так, чтобы в дальнейшем можно было перейти к эффективным численным алгоритмам решения этих задач.
Основные результаты работы.
1. Решена задача синтеза для системы с двойным ограничением на управление. В част ности, получено явное выражение для функции цены.
2. Для системы с нелинейной зависимостью геометрического ограничения от инте грального доказаны теоремы о существовании и единственности оптимального управления. Получено явное выражение для функции цены.
3. Решена задача синтеза для системы с двойным ограничением на управление при наличии помех, стесненных геометрическим ограничением. В частности, построен аналог схемы альтернированного интеграла Л. С. Понтрягина;
получена верхняя оценка для функции цены;
указана синтезирующая стратегия, разрешающая задачу.
4. Решена задача синтеза для системы, в которой управление и помеха выбираются в различных классах (геометрические и интегральные ограничения, соответственно).
В частности, построен аналог схемы альтернированного интеграла Л. С. Понтряги на;
получена верхняя оценка для функции цены;
указана синтезирующая стратегия, разрешающая задачу.
Научная новизна работы. Полученные результаты являются новыми.
В работе рассмотрены ранее мало изученные задачи синтеза гарантирующих управле ний: задачи с двойным ограничением на управление и задача с геометрическим ограниче нием на управление и интегральным на помеху. Для задачи с двойным ограничением при неопределенности в отличие от [11] рассмотрен общий случай.
В задачах с неопределенностью построен аналог альтернированного интеграла Л. С. Понтрягина, записано уравнение Гамильтона–Якоби–Беллмана–Айзекса, получена оценка для функции цены, указана разрешающая синтезирующая стратегия.
Теоретическая и практическая ценность работы. Работа носит в основном тео ретический характер. Полученные результаты могут служить основой для дальнейших исследований и позволят далее перейти к практически реализуемым численным алгорит мам, то есть решить задачи до конца. В частных случаях (одномерный случай для задачи с разнотипными ограничениями и случай автономной системы для задачи с зависимостью геометрического ограничения от интегрального) решение получено в явном виде.
Методы исследования. Решение рассматриваемых в диссертации задач было по лучено в рамках упомянутого выше подхода, основанного на сочетании динамического программирования, альтернированного интеграла и теории Н. Н. Красовского. При этом использовались методы выпуклого анализа, теория негладких экстремальных задач, прин цип максимума Л. С. Понтрягина.
Апробация работы. Результаты работы были представлены в виде докладов на семи наре кафедры системного анализа факультета ВМиК МГУ (рук. академик РАН А. Б. Кур жанский), на семинаре отдела дифференциальных уравнений МИРАН (рук. академик РАН Д. В. Аносов), а также на следующих конференциях:
• международная конференция студентов и аспирантов по фундаментальным наукам Ломоносов-2001, Москва, МГУ, апрель 2001;
• 5th IFAC Symposium on Nonlinear Control Systems (NOLCOS-01), Санкт-Петербург, июль 2001;
• совместный французско-русский семинар Control under Uncertainty and Dierential Games, Москва, МГУ, январь 2003;
• 4-я международная конференция Tools for Mathematical Modelling (MathTools-03), Санкт-Петербург, июнь 2003.
Публикации. По теме диссертации опубликовано 4 работы.
Структура и объём диссертации. Диссертация состоит из введения, трёх глав, заключения и библиографии. Общий объём диссертации 141 страница. Библиография включает 80 наименований.
Краткое содержание работы. Во введении раскрываются цели работы, ее актуаль ность, а также кратко описаны основные результаты, полученные в диссертации.
В первой главе диссертации рассматривается задача синтеза управлений для ли нейной системы без неопределенности при наличии двух ограничений на управление геометрического и интегрального. Ограничения могут задаваться как независимо друг от друга (раздел 1.2), так и с зависимостью геометрического ограничения от резерва управ ления по интегральному ограничению (раздел 1.3).
В разделе 1.1 описывается в общем виде задача, которой посвящены последующие два раздела.
Управляемая система задается дифференциальными уравнениями x(t) = A(t)x(t) + B(t)u, t T = [t0, t1 ]. (1) k(t) = u 2, R(t) управление, k(t) R1 текущий запас Здесь x(t) Rn положение системы, u Rnp энергии управления. Матрицы A(t), B(t) и R(t) 0 считаются известными.
Предполагается, что управление стеснено двумя ограничениями. Во-первых, оно мо жет принимать значения только из заранее определенного множества:
u µP(t). (2) Такое ограничение называется геометрическим, или жестким. В зависимости от способа выбора числа µ 0 можно рассматривать различные задачи. В данной работе анализи постоянное число (тогда считается µ 1), и когда оно руются два случая: когда µ зависит от текущего резерва (µ = µ(k(t))).
Во-вторых, управление обязано следить за значением резерва k(t) и не допускать его падения ниже определенного уровня. Это мягкое, или интегральное ограничение. Со четание геометрического и интегрального ограничений будем называть двойным ограни чением. Чтобы обеспечить существование управлений, удовлетворяющих двойному огра ничению, предполагается выполненным включение 0 P(t).
Используются два класса управлений: программные управления UOL (измеримые функции u(t)) и позиционные стратегии UCL (многозначные отображения U (t, x, k), полу непрерывные сверху по фазовым переменным). Величина класса допустимых программ ных управлений зависит от начального резерва k, поэтому используется обозначение UOL (k).
В данной главе преследуются следующие цели: вычислить функцию цены и постро ить с ее помощью синтез управлений, гарантирующий попадание на заданное целевое множество;
получить необходимые и достаточные условия для программных управлений, приводящих на границу множества достижимости;
указать способ вычисления множества достижимости.
В разделе 1.2 рассматривается случай µ 1. От управления требуется соблюдать фазо вое ограничение k(t) 0, эквивалентного интегральному ограничению для программных управлений t (3) u(t) dt k(t0 ).
R(t) t Для соблюдения этого требования в определение позиционных стратегий добавляется условие U (t, x, k) = {0} при k 0.
Пункт 1.2.2 посвящен исследованию множества достижимости. Основной задачей здесь является следующая:
Задача 1.1. Найти область достижимости XGI [t1 ] Rn, то есть множество то чек x, достижимых системой в конечный момент времени при данном резерве k 0 из начала координат или произвольного множества M0 Rn, а также для произвольного направления Rn указать управление u(·) UOL (k0 ), обеспечивающее вывод системы в конечный момент времени на границу множества достижимости в этом направлении, то есть выполнение равенства, x(t1 ) = ( | XGI [t1 ]). (4) Множество достижимости при двойном ограничении является выпуклым компактом и содержится в пересечении множеств достижимости при геометрическом ограничении XG и при интегральном ограничении XI, свойства которых приведены в теореме 1.1. При этом указанное вложение может быть строгим (примеры 1.1 и 1.3 в пункте 1.2.6).
Теорема 1.3 дает необходимое и достаточное условие в форме принципа максимума для управлений, приводящих на границу множества достижимости в фиксированном опорном направлении. Поскольку множество достижимости является выпуклым компактом, то этого достаточно, чтобы найти все его точки. Важно отметить, что в отличие от задачи с чисто геометрическим ограничением управление здесь может принимать произвольные значения из P(t).
В пункте 1.2.3 рассматривается задача 11 в обратном времени, то есть задача разре шимости:
Задача 1.2. Найти область разрешимости WGI [t0 ] Rn, то есть множество точек x Rn, стартуя из которых система может достигнуть в конечный момент задан ное целевое множество M1 Rn при данном резерве k0, а также указать управление, обеспечивающее включение x(t1 ) M1.
Решение задачи 1.2 дается теоремой 1.5 в виде необходимого и достаточного условия оптимальности управления. При этом множество разрешимости может быть найдено по формуле WGI (t0, k0 ;
t1, M1 ) = M1 XGI (t0, k0 ;
t1 ). (5) Применению к рассматриваемым задачам метода динамического программирования посвящен пункт 1.2.4. Для этого задачи 1.1 и 1.2 переформулируются в терминах опти мизации расстояния до начального или целевого множества и вводится соответствующая функция цены, которая является решением уравнения Гамильтона–Якоби–Беллмана (тео ремы 1.8 для задачи достижимости и 1.9 для разрешимости). Для задачи разрешимости оно имеет вид V V V u, B(t)u + min = R(t) t x k uP(t) Уравнение не содержит матрицы A(t): линейным преобразованием специального вида можно приве сти исходную систему к такому виду, что A(t) 0 (см. пункт 1.1.1). То же самое относится и к другим рассматриваемым задачам.
с начальным условием V (t1, x, k) = d2 (x, M1 ). Вследствие того, что имеется фазовое огра ничение k(t) 0, помимо начального условия у этого уравнения есть также и краевое условие вида V = 0, t k= означающее, что при нулевом резерве управление уже не может влиять на траекторию системы.
Множество разрешимости легко найти, зная функцию цены: это ее множество уровня [29]. Если же множество разрешимости найдено, например из (5), то можно не решая уравнение Гамильтона–Якоби–Беллмана вычислить функцию цены: она равна квадрату расстояния до множества разрешимости (теорема 1.9). То же самое относится и ко мно жеству достижимости и соответствующей функции цены (теорема 1.6).
В пункте 1.2.5 описывается способ вычисления множества достижимости при двойном ограничении, основанный на методах эллипсоидальной аппроксимации [29]. Построено параметризованное семейство эллипсоидов, дающее в пересечении в точности множество достижимости.
В разделе 1.3 рассматривается задача, в которой управление стеснено геометрическим ограничением, нелинейно зависящим от текущего резерва:
u µ(k(t))P(t). (6) Интегральное ограничение при этом задается неявно. А именно, если существует конеч ная точка k = sup {k | µ(k) 0, k k(t0 )}, то автоматически выполнено фазовое огра k, эквивалентное, в свою очередь, интегральному. (Добавление явного ничение k(t) интегрального ограничения ничего существенно не изменяет, приводя лишь к появлению дополнительного условия трансверсальности).
При ограничении (6) система (1) фактически становится нелинейной, поскольку после замены u µ(k)u принимает вид x(t) = A(t)x(t) + µ(k(t))B(t)u, t T = [t0, t1 ]. (7) k(t) = µ2 (k(t)) u 2, R(t) В связи с возможностью такой замены удобно кроме классов управлений U OL и UCL с ограничением (6) использовать классы управлений UOL и UCL, заданные с геометрическим ограничением вида u P(t).
Задача 1.7 о нахождении множества достижимости XG(I) [t1 ] дословно повторяет задачу 1.1 (с той лишь разницей, что множество допустимых программных управлений UOL (k) теперь определено с учетом ограничения (6)). Впрочем, более удобным оказывается вме сто нее рассматривать задачу о максимизации произвольного линейного непрерывного функционала:
Задача 1.8. Найти допустимое управление u(·) UOL, доставляющее максимум инте гральному функционалу t (8) J(u(·)) = h(·), u(·) = h(t), u(t) dt.
t Для решения этой задачи вначале применяется принцип максимума Л. С. Понтрягина (теорема 1.15). Далее в теореме 1.17 полученные соотношения конкретизируются для случая эллипсоидального множества P(t).
В пункте 1.3.3 доказывается существование решения задачи 1.8 (теорема 1.23). Дока зательство основывается на трех леммах, в которых утверждается соответственно выпук лость, ограниченность и замкнутость множества допустимых управлений U OL (k).
Если в случае выполнения теоремы о существовании решения принципу максимума удовлетворяет только одно управление, то это управление очевидно является оптималь ным. Таким образом, в условиях этой теоремы принцип максимума в совокупности с един ственностью решения прямой и двойственной системы является достаточным условием оптимальности. Если существует несколько пар {u(t), (t)}, удовлетворяющих принци пу максимума, то в силу существования решения и необходимости принципа максимума среди этих пар будет оптимальное управление. Следовательно, при выполнении условий теоремы о существовании решения для нахождения оптимального управления достаточно перебрать все решения системы из принципа максимума.
В пункте 1.3.4 доказана теорема о единственности решения задачи 1.8 при некото рых предположениях на функцию µ(·) и при выполнении условия общности положения, заключающегося в том, что для всех чисел 0 выполнено t h(t) dt 0.
t Пункт 1.3.5 посвящен отысканию оптимального управления. Для этого отрезок вре мени T = [t0, t1 ] разделяется на два подмножества: в первом геометрическое ограничение неактивно, и соответствующий множитель Лагранжа = 0;
во втором, напротив, геомет рическое ограничение активно, и 0.
В случае автономной управляемой системы с монотонной функцией µ(k) в начале траектории = 0, а затем, начиная с некоторого момента и до конечного момента 0. Для эллипсоидального геометрического ограничения P можно аналитически найти момент, и, следовательно, оптимальную траекторию управления.
В общем случае таких моментов переключения может быть сколь угодно много, и найти их аналитически не представляется возможным, однако задачу нахождения опти мальной траектории можно свести к решению одномерного нелинейного уравнения для начального значения сопряженной переменной. После решения этого уравнения каким либо численным методом мы получаем полные начальные условия задачи Коши для пря мой и двойственной системы, и, следовательно, можем найти оптимальную траекторию.
В пункте 1.3.6 решается задача 1.9 о синтезе управлений, в которой требуется указать позиционную стратегию U UCL, при которой решения дифференциального включения µ(k)B(t)u x(t) conv u U (t, x, k), µ2 (k) u k(t) R(t) выпущенные из произвольной точки (x(t0 ), k(t0 )) = (x0, k0 ), оказываются в конечный мо мент на минимально возможном расстоянии от целевого множества M(k(t1 )), а также найти это расстояние V (t, x, k) для каждой точки (t, x, k) T Rn R.
Функция цены V (t, x, k) является вязкостным решением уравнения Гамиль тона–Якоби–Беллмана V V V µ2 (k) + min, µ(k)B(t)u u = R(t) t x k uP(t) с начальным условием V (t1, x, k) = d(x, M(k)) и равна расстоянию от текущей позиции до множества разрешимости.
Во второй главе диссертации рассматривается задача синтеза гарантирующих управ лений при двойном ограничении в случае наличия в системе неопределенности, стеснен ной геометрическим ограничением.
Рассматривается линейная управляемая система x(t) = A(t)x(t) + B(t)u + C(t)v, t T = [t0, t1 ]. (9) k(t) = u 2, R(t) В отличие от (1), здесь присутствует заранее неизвестная помеха v, на которую наложе но геометрическое ограничение v Q(t). Управление, как и раньше, стеснено двойным ограничением: геометрическим (2) и интегральным (3). Здесь матрицу A(t) также можно считать нулевой, а матрицу C(t) единичной (заменив множество Q(t) на C(t)Q(t)).
Как и в первой главе, рассматриваются два класса управлений: программные управле ния UOL (k) и позиционные стратегии UCL. Поскольку в системе есть неизвестная помеха, то использование позиционных стратегий дает существенно больше возможностей, чем применение программных управлений.
Состояние системы (9) описывается парой (x, k) Rn+1, что позволяет сформулиро вать принцип оптимальности [2] для данной задачи. Следовательно, целевое множество и множество разрешимости должны рассматриваться как подмножества Rn+1 ;
однако по ряду причин удобнее работать со множествами в пространстве Rn, для чего вводится понятие сечения.
Пусть в пространстве Rn+1 переменных (x, k) задано множество N. Будем называть сечениями множества N значения следующего многозначного отображения: N (k) = {x Rn | (x, k) N }. Само множество N однозначно восстанавливается по своим сече ниям, поскольку является графиком многозначного отображения N (k). При этом выпук лость всех множеств N (k) не означает выпуклости множества N. Этот факт позволяет в некоторых случаях ослабить требование выпуклости целевого множества (и, следова тельно, множества разрешимости) до требования выпуклости всех его сечений.
Пусть задано такое непустое целевое множество M Rn, что 1) M(k1 ) M(k2 ), k2 ;
2) M(k) = при k 0;
3) M(k) непрерывно при тех k, где M(k) = ;
если k 4) множества M(k) являются выпуклыми компактами. Класс отображений R conv R n, обладающих свойствами 1)–4), обозначим через M. Часть результатов будет приведена для более узкого класса множеств M, получаемого заменой свойства 4) на более сильное:
4’) множество M является выпуклым.
В разделе 2.2 ставится основная задача второй главы:
Задача 2.1. Указать множество разрешимости W[t0 ] Rn+1, а также позиционную стратегию управления U (t, x, k) UCL, такие, что все траектории дифференциального включения B(t)u x(t) conv u U (t, x, k) + Q(t) {0}, (10) u k(t) R(t) t t1, (x(t), k(t)) W[t], в конечный момент начинающиеся в точке (t, x(t), k(t)), t удовлетворяют включению x(t1 ) M(k(t1 )).
Взятие выпуклой оболочки в (10) не увеличивает возможностей управлению, посколь ку оно добавляет исключительно точки, неэффективные с точки зрения управления (в них расходуется большее количество ресурсов). Отметим, что, в отличие от исход ной системы (9), дифференциальное включение (10) нелинейно из-за наличия функции U (t, x, k). Таким образом, рассматривается задача нелинейного синтеза для системы с исходно линейной структурой.
Раздел 2.3 показывает, как в случае выпуклого множества M можно получить одно из возможных решений задачи 2.1, вообще не учитывая интегрального ограничения. В самом деле, если конечная точка траектории принадлежит целевому множеству M M, то ограничение k(t) 0 выполнено автоматически в силу свойства 2) класса M. Это позволяет рассматривать задачу 2.1 как задачу о синтезе управлений в условиях неопре деленности при геометрических ограничениях [29, 9]. Если U (t, x, k) синтез управлений, построенный таким способом, то управление U (t, x, k), k 0;
U (t, x, k) = {0}, k 0.
является решением задачи 2.1.
Однако у такого подхода есть существенные недостатки. В частности, если синтез U (t, x, k) обладает экстремальными свойствами, например, минимизирует расстояние до целевого множества, то синтез U (t, x, k) уже не будет экстремальным в таком смысле.
Кроме того, при этом предполагается выпуклость целевого множества M, а не только его сечений M(k). Поэтому последующие разделы посвящены решению задачи 2.1 с учетом ее специфики, то есть наличия интегрального ограничения.
Раздел 2.4 посвящен построению аналога альтернированного интеграла Л. С. Понтря гина для данной задачи. Для этой цели вначале определяются множества программной разрешимости максиминное W + и минимаксное W. Эти множества представляют со бой грубые оценки множества разрешимости W решаемой задачи сверху и снизу соответ ственно, поскольку они состоят из тех состояний систему, из которых целевое множество достижимо при заранее известной или, соответственно, неизвестной помехе.
Лемма 2.3 дает явные выражения для множеств программной разрешимости через сечения целевого множества и множество достижимости при двойном ограничении, изу ченное, в разделе 1.2. Используя эти формулы, строятся альтернированные интегральные суммы. Для этого на отрезке [t, t1 ] вводится разбиение T = {i }m. Точки этого разбие i= ния можно интерпретировать как моменты коррекции. В конечный момент интегральные суммы совпадают с целевым множеством. На каждом шаге выбирается ближайший слева момент коррекции и строятся для него программные множества разрешимости. Затем каждое из этих множеств принимается за новое целевое множество, выбирается преды дущий момент коррекции, снова строятся программные множества разрешимости, и так продолжается до тех пор, пока мы не оказываемся в самой левой точке разбиения со мно + жествами, обозначаемыми IT [k, t] и IT [k, t] это интегральные суммы, соответствующие разбиению T. (Отметим, что это подмножества Rn, то есть их можно рассматривать как + сечения множеств IT [t] и IT [t]).
Если при стремлении диаметра разбиения T к нулю существуют хаусдорфовы пределы интегральных сумм I + [k, t] и I [k, t], то последние называются соответственно верхним и нижним альтернированным интегралом. Если они к тому же совпадают между собой и равны I[k, t], то это множество называется альтернированным интегралом и совпадает со множеством разрешимости.
В случае выпуклого целевого множества (пункт 2.4.3) классические теоремы о суще ствовании альтернированного интеграла гарантируют существование I[k, t] при опреде ленных предположениях о непустоте внутренности сечений интегральных сумм (теорема 2.6).
В разделе 2.5 рассматривается задача синтеза гарантирующих управлений. Вначале исследуется вопрос о построении такого управления, которое минимизировало бы в ко нечный момент расстояние от конца траектории до сечения целевого множества, то есть d(x(t1 ), M(k(t1 ))). В связи с этим вводится соответствующая функция цены, которая яв ляется вязкостным решением уравнения Гамильтона–Якоби–Беллмана–Айзекса V V V, B(t)u + v + min max u = 0, R(t) t x k uP(t) vQ(t) t0 t t1, k 0, x Rn Как и в первой главе, помимо начального условия V (t1, x, k) = d(x, M(k)) у этого урав нения имеется также и краевое условие V V x Rn, + max,v = 0, t0 t t1, t x vQ(t) k= означающее невозможность для управления принимать какие-либо действия при исчер пании резерва. Если найдена функция цены, то управление может быть найдено как мно жество элементов, на которых достигается минимум в уравнении HJBI. Однако в отличие от задачи без неопределенности, здесь функция цены не обязательно равна расстоянию до сечения множества разрешимости, а только лишь не превосходит последнее (теорема 2.7).
Чтобы избежать необходимости вычислять функцию цены, применена модифициро ванная экстремальная конструкция. В теореме 2.9 доказано, что множество достижимо сти при двойном ограничении отличается от пересечения множеств достижимости при интегральном и при геометрическом ограничениях на величину второго порядка малости относительно длины отрезка времени, поэтому многозначное отображение Z[k, t], сла бо инвариантное относительно дифференциального включения (10), будет удовлетворять уравнению эволюционного типа [25, 10] lim 1 h+ Z[k, t] + Q(t), Z[, t + ] P(t) E 0, (k )R1 (t) = 0, 0k в которое не входит операция вычисления множества достижимости при двойном ограни чении.
Теорема 2.12 утверждает, что если слабо инвариантное отображение достаточно глад кое, то квадрат расстояния до него удовлетворяет дифференциальному неравенству dd2 (x(t), Z[k(t), t]) (11) min max 0.
dt uP(t) vQ(t) Стратегией UZ (t, x, k), экстремальной к Z[k, t], называется позиционная стратегия, состо ящая из элементов, на которых здесь достигается минимум. Из (11) следует, что если начальная точка принадлежит Z[k, t0 ], то и все траектории системы останутся в этом слабо инвариантном множестве. Поскольку множество разрешимости является слабо ин вариантным, то стратегия UW (t, x, k) представляет собой решение задачи 2.1.
Третья глава диссертации посвящена задаче об управлении системой с неоднотипны ми ограничениями: управление здесь стеснено геометрическим, а помеха интегральным ограничением.
Рассматривается линейная управляемая система вида x(t) = A(t)x(t) + B(t)u + C(t)v(t), t T = [t0, t1 ]. (12) k(t) = v(t) 2,S(t) На управление наложено только геометрическое ограничение u P(t), а помеха должна обеспечивать выполнение фазового ограничения k(t) 0, эквивалентного интегральному ограничению t (13) v(t) dt k0.
S(t) t В разделе 3.1 показывается, что, если управлению недоступна информация о текущем значении k(t), то система может быть преобразована так, что ее вид аналогичен (12), но при этом уже известно значения k(t), а матрица C(t) I. Кроме того, как и в предыдущих главах, матрицу A(t) можно считать нулевой.
В разделе 3.2 приводится постановка основной задачи:
Задача 3.1. Для данного целевого множества M Rn R+ найти множество раз решимости W[t] и позиционную стратегию управления U (t, x, k) UCL, такую, что все его траектории дифференциального включения v(t) x(t) = U (t, x, k) {0} + (14), v(t) k(t) S(t) выпущенные из любой начальной позиции (t, x, k), t T, (x, k) W[t], достигали бы целевое множество M в момент времени t1, какова бы ни была измеримая помеха v(t), удовлетворяющая ограничению (13).
Поскольку множество разрешимости здесь как правило является невыпуклым, то как и в предыдущей главе мы будем работать с его сечениями, обозначаемыми W[k, t], и сечениями целевого множества M(k).
Решение задачи 3.1 ведется по той же схеме, что и во второй главе. В разделе 3. производится построение альтернированного интеграла. Непосредственному применению стандартной схемы мешает то, что помеха не содержится ни в каком множестве и, соответ ственно, непонятно, какое множество должно участвовать в операции геометрической раз ности, входящей в выражение для программных множеств разрешимости. В диссертации указанная трудность преодолевается, вычислив множество разрешимости при каждом возможном значении переменной k в конечный момент (при этом множество возможных значений интеграла от помехи является эллипсоидом k S(t, t1 )) и взяв затем пере сечение этих множеств (поскольку помеха имеет возможность выбрать наихудшее для управления значение k(t1 )):
t W + (k, t;
t1, M(·)) = M() P( ) d k S(t, t1 ).
t 0k В разделе 3.4 вводится функция цены для экстремальной переформулировки задачи 3.1 и доказывается, что при предположении о ее гладкости она является решением урав нения Гамильтона–Якоби–Беллмана–Айзекса V V 2 V v + min max,u + v = 0, t0 t t1, k S t x k uP(t) vRn с граничным условием V /t + minuP(t) V /x, u k=0 = 0 и начальным условием V (t1, x, k) = d2 (x, M(k)), и не превосходит квадрата расстояния до сечения множества разрешимости (теорема 3.17).
Если Z[k, t] слабо инвариантное многозначное отображение, то экстремальной стра тегией к нему будет d2 (x, Z[k, t]) UZ (t, x, k) = Arg min,u.
x uP(t) Эта стратегия гарантирует, что траектории системы, начинающиеся в трубке Z, в после дующие моменты не выходят за ее пределы (теорема 3.19).
В разделе 3.5 подробно рассматривается случай одномерного пространства переменной x (фазовое пространство системы (12) при этом двухмерное, потому что кроме x имеется переменная k). Получены явное выражение для альтернированного интеграла (теорема 3.22). Доказано, что функция цены принадлежит классу функций вида (d(x, [a, b]) + h)2, т.е. определяется всего тремя параметрами (при этом [a, b] = W[k, t], если h = 0).
В разделах 1.2.6, 1.3.7, 2.6, 3.6 собраны примеры, иллюстрирующие полученные тео ретические результаты.
В заключении сформулированы основные результаты, полученные в диссертации.
Автор приносит искреннюю благодарность своему научному руководителю Алексан дру Борисовичу Куржанскому за постановку задач, постоянное внимание к работе и цен ные советы.
Работа выполнена при частичной финансовой поддержке программы Университе ты России Фундаментальные исследования (грант № УР.3.3.07), РФФИ (грант № 03-01-00663) и гранта Президента России по поддержке ведущих научных школ (№ НШ-1889.2003.1).
Литература 1. Айзекс Р. Дифференциальные игры. М.: Мир, 1967.
2. Беллман Р. Динамическое программирование. М.: ИЛ, 1960.
3. Бондаренко В. И., Красовский Н. Н., Филимонов Ю. М. К задаче об успокоении линейной системы // ПММ. 1965. Т. 29. № 5. с. 828–834.
4. Красовский Н. Н. Теория управления движением. М.: Наука, 1968.
5. Красовский Н. Н. Игровые задачи о встрече движений. М.: Наука, 1970.
6. Красовский Н. Н. Дифференциальная игра сближения-уклонения I, II // Известия АН СССР. Техническая кибернетика. 1973. № 2, 3.
7. Куржанский А. Б. Управление и наблюдение в условиях неопределенности. М.: На ука, 1977.
8. Куржанский А. Б. Альтернированный интеграл Понтрягина в теории синтеза управ лений // Труды МИАН. 1999. Т. 224. с. 234–248.
9. Куржанский А. Б., Мельников Н. Б. О задаче синтеза управлений: альтернирован ный интеграл Понтрягина и уравнение Гамильтона–Якоби // Математический сбор ник. 2000. Т. 191. № 6. с. 69–100.
10. Куржанский А. Б., Никонов О. И. Эволюционные уравнения для пучков траекторий синтезированных систем управления // Доклады РАН. 1993. Т. 333. № 4. с. 578–581.
11. Ледяев Ю. С. Регулярные дифференциальные игры со смешанными ограничениями на управления // Труды МИАН. 1985. Т. 167. с. 207–215.
12. Мищенко Е. Ф., Понтрягин Л. С. Линейные дифференциальные игры // Доклады АН СССР. 1967. Т. 174. № 1. с. 27–29.
13. Никольский М. С. Прямой метод в линейных дифференциальных играх с общими интегральными ограничениями // Дифференциальные уравнения. 1972. Т. 8. № 6. с.
964–971.
14. Никольский М. С. Об альтернированном интеграле Л. С. Понтрягина // Математиче ский сборник. 1981. Т. 126 (158). № 1 (9). с. 136–144.
15. Половинкин Е. С. Неавтономные дифференциальные игры // Дифференциальные уравнения. 1979. Т. 15. № 6. с. 1007–1017.
16. Пономарев А. П., Розов Н. Х. Устойчивость и сходимость альтернированных сумм Понтрягина // Вестник МГУ. Сер. вычисл. матем. и киберн. 1978. Т. 1. с. 82–90.
17. Понтрягин Л. С. О линейных дифференциальных играх II // Доклады АН СССР.
1967. Т. 175. № 4. с. 910–912.
18. Понтрягин Л. С. Линейные дифференциальные игры преследования // Математиче ский сборник. 1980. Т. 112 (154). № 3 (7). с. 307–330.
19. Субботин А. И. Обобщенные решения уравнений в частных производных первого порядка. Перспективы динамической оптимизации. М., И.: Институт компьютерных исследований, 2003.
20. Субботин А. И., Ушаков В. Н. Альтернатива для дифференциальной игры сбли жения-уклонения при интегральных ограничениях на управления игроков // ПММ.
1975. Т. 39. № 3. с. 387–396.
21. Субботин А. И., Ченцов А. Г. Оптимизация гарантии в задачах управления. М.: На ука, 1981.
22. Субботина Н. Н. Метод динамического программирования для класса локально-лип шицевых систем // Доклады РАН. 2003. Т. 389. № 2. с. 1–4.
23. Ушаков В. Н. Экстремальные стратегии в дифференциальных играх с интегральными ограничениями // ПММ. 1972. Т. 36. № 1. с. 15–23.
24. Черноусько Ф. Л., Меликян А. А. Игровые задачи управления и поиска. М.: Наука, 1978.
25. Aubin J.-P., Frankowska H. Set-valued Analysis. Boston: Birkhuser, 1990.
a 26. Baar T., Bernhard P. H Optimal Control and Related Minimax Design Problems.
s SCFA. Boston: Birkhuser, 2nd edition, 1995.
a 27. Crandall M. G., Lions P.-L. Viscosity solutions of Hamilton–Jacobi equations // Transactions of American Mathematical Society. 1983. V. 277. p. 1–41.
28. Krasovski N. N., Subbotin A. I. Positional Dierential Games. Springer Verlag, 1988.
29. Kurzhanski A. B., Vlyi I. Ellipsoidal Calculus for Estimation and Control. SCFA.
a Boston: Birkhuser, 1997.
a 30. Kurzhanski A. B., Varaiya P. Ellipsoidal techniques for reachability analysis. Internal approximation // Systems and Control Letters. 2000. V. 41. p. 201–211.
31. Kurzhanski A. B., Varaiya P. Dynamic optimization for reachability problems // Journal of Optimization Theory and Applications. 2001. V. 108. N. 2. p. 227–251.
32. Kurzhanski A. B., Varaiya P. Ellipsoidal techniques for reachability analysis. Part I:
External approximations. Part II: Internal approximations. Box-valued constraints // Optimization methods and software. 2002. V. 17. p. 177–237.
33. Kurzhanski A. B., Varaiya P. On reachability under uncertainty // SIAM Journal on Control. 2002. V. 41. N. 1. p. 181–216.
34. Varaiya P., Lin J. Existence of saddle points in dierential games // SIAM Journal on Control an Optimization. 1969. V. 7. N. 1. p. 142–157.
Публикации по теме диссертации 35. Дарьин А. Н. Об управлении при двойном ограничении с зависимостью геометриче ского ограничения от интегрального // Известия РАН. Теория и системы управления.
2003. № 4. с. 21–29.
36. Дарьин А. Н., Куржанский А. Б. Управление в условиях неопределенности при двой ных ограничениях // Дифференциальные уравнения. 2003. Т. 39. № 11. с. 1474–1486.
37. Дарьин А. Н., Куржанский А. Б. Нелинейный синтез управления при двойных огра ничениях // Дифференциальные уравнения. 2001. Т. 37. № 11. с. 1476–1484.
38. Daryin A. Nonlinear synthesis for uncertain systems with diverse types of constraints // Proc. NOLCOS-01. V. 2. IFAC, Elsevier Science, St. Petersburg, 2001.