Computing 9

Computing 9, 343--353 (1972)
9 by Springer-Verlag 1972
Ein funktionalanalytischer Beweis

des Maximumprinzips von Pontrjagin und dessen Verwendung
zur Herleitung der Politikiteration von Howard
Von
K. Spremann, Mtinchen
(Eingegangen am 8. Juli 1972)
Zusammenfassung - - Summary
Ein funktionalanalytischer Beweis des Maximumprinzips von Pontrjagin und dessen Verwendung
zur Herleitnng der Politikiteration yon Howard. Der umfangreiche, auf geometrische Oberlegungen
grtindende Beweis des Maximumprinzips von PONTRJAGIN l~iBt sich vollst~indig durch funktional-
analytische Herleitungen ersetzen: anstelle der totalen Ableitung yon ProzeB und Zielfunktional bei
der direkten Methode sind hier nut die partiellen Ableitungen in Richtung der Zustandsvariablen
n6tig, w/ihrend die Differenz in Richtung der Steuerungen nicht linearisiert wird. Die Kozustands-
variablen sind Hilfsgr6gen, die zur Umformung eines Skalarproduktes dienen. (Sie ergeben sich als
L6sung einer linearen Gleichung, deren Operator durch die Adjungierte zur partiellen Ableitung des
ProzeBoperators gegeben ist und deren rechte Seite das teillinearisierte Zielfunktional bildet.) Dabei
erh~ilt man die bekannte Ungleichung der Hamiltonfunktionen, deren Gtiltigkeitsbereich in einem
Widerspruchsbeweis globalisiert wird.
Dieser funktionalanalytische Beweis ist kiirzer, konstruktiver und allgemeiner : so ergibt sich die
Politikiteration yon HOWARDals Anwendung des Maximumprinzips auf bewertete station~ire Markov-
prozesse.
A Proof of Pontrjagin's Maximal Principle by Methods of Functional Analysis and Its Application Io
Deduce Howard's Policy Iteration. The tedious proof of PONTRJAGIN'Smaximum principle, based on
geometric considerations, can be fully replaced by methods of functional analysis : instead of complete
differentiation of the process and the objective functional in the direct method, only partial derivation
in direction of state variables are used, while the difference in direction of the control is not
linearized. The costate variables furnish a meansto transform an innerproduct. (They are the solution
of a linear equation whose operator is the adjoint of the partial derivative of the process operator
and whose right side is formed by the partial linearized objective functional.) As result we obtain the
wellknown unequality of the Hamiltonians, whose domain of validity is globalized in a proof by
contradiction.
This proof by methods of functional analysis is more concise, constructive and more general:
application of the maximal principle to ergodic Marcovprocesses with rewards results in
HOWARD'S method of policy iteration.
1. Einleitung
Bei den herk6mmlichen Beweisen des Maximumprinzips yon PONTRJAGIN

[1, 2, 31 erm6glicht es die Teillinearisierung des durch ein gew6hnliches
Differentialgleichungssystem mit Randbedingungen gegebenen Prozesses an
24*
344 K. SPREMANN:
der Stelle der zu einer optimalen Steuerung u* geh6renden Trajektorie x*,

die Menge der erreichbaren Punkte lokal durch einen Kegel (perturbation cone)
zu approximieren. Dessen Konvexit~it gestattet Aussagen fiber die Existenz von
Stfitzhyperebenen, deren Normalenvektoren Kozustandsvariable genannt wet-
den und es erlauben, die bekannte notwendige Bedingung ffir Optimalit~it als
Maximalit~itsbedingung der Hamiltonfunktion zu formulieren. Dieses dutch
Teillinearisierung gewonnene, nur im Lokalen gtiltige Resultat kann nun noch
globalisiert [4] werden.
Dieses Vorgehen bringt einige Nachteile mit sich:
1. Der Beweis ist recht umfangreich [2]. (Grund: zwar ist es einfach, die
erw/ihnte Approximationseigenschaft des konvexen perturbation cone aufzu-
zeigen, doch ~iugerst kompliziert, analytische Aussagen tiber die Geometrie
dieses Kegels zu gewinnen [1, 5]i) Deshalb ist es auch schwierig zu pr~fen,
inwieweit sich der Satz yon PONTRJAGIN auf andere Arten von Kontroll- und
Optimierungsproblemen tibertragen l~il3t.
2. Die im Beweis von PONTRJAGIN nur schwer erkennbare Trennlinie
zwischen den Beweisteilen ,,Linearisierung" und ,,Globalisierung". Eine genaue
Unterscheidung aber ist aus zwei Griinden wichtig: erstens ist die Gtobalisie-
rung bei der am h/iufigsten gew/ihlten konstruktiven Nutzung des Prinzips,
der iterativen Maximierung der Hamiltonfunktion, fiberfltissig [41. Zweitens
ist bei nur geringffigiger Modifikation der von PONTRJAGIN gew~ihlten
Ausgangsproblemstellung zwar noch die Teitlinearisierung, nicht abet mehr
eine Globalisierung m/Sglich, wie Gegenbeispiele in [4] belegen.
3. Uber die geometrische Interpretation hinaus ist die mathematische
Bedeutung yon Kozustandsvariable und Hamiltonfunktion nicht erkennbar.
4. Die Teillinearisierung wird nur zur Herleitung der notwendigen Bedin-
gung ffir Optimalit~it verwendet. Von der Zielsetzung der konstruktiven
Nutzung her erscheint als Folge die Oberbewertung yon Existenzfragen und
die Unm/Sglichkeit, die Konvergenz iterativer Hamiltonmaximierungen mit den
von PONTRJAGIN bereitgestellten Mitteln zu beweisen [4].
Diese Nachteile k/Snnen durch eine funktionalanalytische Betrachtungsweise
fiberwunden werden. Ausgangspunkt ffir die folgende Herleitung ist das ver-
schiedene Optimierungs-, KontrolI- und Randwertprobleme umfa,ssende
Standardmodell der direkten Methode von GESSNER [4, 6, 7]. Dieses Ausgangs-
modell ist so allgemein gewghlt, dab sich mit unserem Verfahren nicht nur
die verschiedenen Formen des Maximumprinzips einheitlich herleiten lassen~
sondern sich z, B. auch die Politikiteration von HOWARD folgern tN3t, wenn
man es auf station~ire bewertete Markovprozesse ansetzt. Dabei wird deutlich,
welche Teillinearisierung vorzunehmen ist und welche Bedeutung der Ko-
zustandsvariablen bei der Umformung des als Skalarprodukt geschriebenen
linearisierten Zielfunktionals zukommt.
2, Ausgangsmodell
Die hier betrachteten allgemeinen Optimierungsprobleme lassen sich durch
vier wesentliche Merkmale charakterisieren:
Ein funktionalanalytischerBeweis des Maximumprinzipsvon PONTRJAGIN 345
a) die beteiligten Riiume und Mengen. Wie fiblich wird mit X der Raum
der Zustandsvariablen (Trajektorien) und mit U die Menge der Steuerungen
(Politiken) bezeichnet.
b) die Restriktion. Nicht alle Steuerungen yon U sind zur Optimierung zu-
gelassen, sondern nur solche, die Elemente einer vorgegebenen Teilmenge
Q, c U sind;
c) die Nebenbedingungen (bzw. den Prozefl), die eine Beziehung zwischen
den zul~issigen Steuerungen und den Zustandsvariablen herstellen. Wie in
[4, 6, 7] wird diese Beziehung durch einen Operator T: X x Q, ~ X beschrieben.
Dazu soil zu jedem ~7e Q~ genau ein 2 e x mit T ( 2 , ~ ) = 0 , die zugeh6rige Zu-
standsvariable, existieren ;
d) die Zielfunktion, die maximiert werden soll. Sie ist durch ein reelles
Funktional S : X x Qu--* R gegeben.
Mit der
Definition. Eine Steuerung u' ~ Qu heiflt besser als u" ~ Q,, wenn S (x',u')>_
>_S (x", u"); wobei x' und x" die zugeh6rigen Zustandsvariablen sind. Ein u* ~ Qu
heiJ3t optimal, wenn u* besser ist als alle ueQ~
stellt sich die Aufgabe, die Nullstellen yon T miteinander zu vergleichen und
durch S zu bewerten. Obersichtlich in einem Modell zusammengefaBt: 1
r(x,u)=0, (2.1)
S (x, u) ~ sup, (2.2)
u ~ Q,,. (2.3)
3. Die Methode fiir nichtlineare Operatoren
Die beabsichtigte Teillinearisierung des Operators T und des Funktionals S

ermSglichen die Voraussetzungen
VI: fiir alle u ~ Q~ sollen die Operatoren
T(.,u):X~X; x--* r(x,u)
und die Funktionale
S(.,u):X---*~; x--*S(x,u) ~tetig
Fr6chetdifferenzierbar sein.
V2: Die Fr6chetableitungen aus V1 sollen in u stetig sein.
Wir betrachten nun zwei Steuerungen u,u*eQ, mit den zugeh6rigen
Zustandsvariablen x und x*, also
T (x, u) = 0 und T (x*, u*) = 0. (3.4)
Die Formelnummer setzt sich aus der Kapitelnummer und einer Formelziffer zusammen.
Formeln mit gleicher Formelziffer entsprechen einander.
346 K. SPREMANN:
Erftillt nun A u : = u - - u * die Bedingung HA u l i < g mit einer geniigend

kleinen Schranke e, d a n n k a n n m a n in den durch V1 und V2 erm6glichten
linearen A p p r o x i m a t i o n e n
T ( x , u ) - T(x*, u*) =
= Ox 9Ax + [ T ( x * , u ) - T(x*,u*)] + Or (~)

/(x ,u )
und
S (x,u)-S (x*,u*) =
_ as~ .dx+ES(x*,u)-S(x*,u*)]+os(~)
OX/ (x*,u*)
die Restglieder O r und Os, ftir die
lim 0 (e) = 0
~-+o il A-'~ II
gilt, vernachl~issigen.2 Bezeichnet m a n die Fr6chetableitung von T ( . , u * ) : X ~ X
an der Stelle x* mit L u n d schreibt den Wert d e r Fr6chetableitung yon
S ( . , u * ) : X - ~ R angewandt auf Ax, als S k a l a r p r o d u k t ( l , A x ) , so folgt
L A x = T ( x * , u * ) - T(x*,u) (3.5)
und ffir die A n d e r u n g AS: = S ( x , u ) - S (x*,u*) der Werte des Zielfunktionals
AS = ( l, A x ) + S (x*,u) - S (x*,u*). (3.6)
Per def. ist L ein beschr/inkter linearer O p e r a t o r auf X, und da dieser
R a u m d u r c h sein S k a l a r p r o d u k t auch normiert ist, ist L stetig und besitzt somit
eine Adjungierte L aa.
Mit
V3: l e B i l d ( L a~)
gilt ftir jede LSsung )L* der linearen Gleichung 3

L ae 2" = l (3A0)
unter Verwendung yon (3.5) die U m f o r m u n g

( l , A x ) = ( L ad )~*, A x ) =
= (2", L A x ) = (2", T(x*,u*) - T ( x * , u ) )
= (,~*, T(x*,u*))- (;~*, T(x*,u))
2 Den ausffihrlichen Beweisschritt stellt der Verfasser auf Anfrage gern zur Verfiigung.
3 Die Indizierung yon ,~ mit einem * soll andeuten, dab Lund l durch Linearisierung an der
Stelle (x*, u*) entstanden sind.
Ein funktionalanalytischerBeweisdes Maximumprinzipsvon PONTRJAGIN 347
und mit (3.6) erh~ilt man

(3.11)
Diese im lokalen Linearisierungsbereich um die Zustandsvariable x*
gti!tige Identit~it l~il3t sich in zwei Formen aussprechen:
Als notwendige Bedingun9 Jfir Optimalitfit: Sei u* optimal, also AS<_O;
dann folgt
s (x*,u)- T(x*, u)) <_S (x*,u*) - r(x*,u*)
fiir alle u ~ Q, mit ]l u - u* II < a Im n~ichsten Abschnitt zeigen wir, dal3 damit das
Maximumprinzip von PONTRJAGIN bewiesen ist, soferne diese Ungleichung nur
noch mit einem kurzen Widerspruchsbeweis globalisiert wird.
Als konstruktive Vorschrift zur iterativen Verbesserun 9 yon Steuerungen. Sei
u* eine beliebige vorliegende Steuerung. Wiihlt man dann aus der Menge aller
Steuerungen u so, dab S (x*, u)-~)~*, T(x*, u)) maximiert wird, dann ist damit
die bestm6gliche Steuerung flit den n~ichsten Iterationsschritt gefunden. Damit
1513t sich die Konvergenz iterativer Hamiltonfunktionsmaximierungen (als
konstruktive Nutzung des Satzes y o n PONTRJAGIN) zur Gewinnung eines
wenigstens lokalen Maximums des Zielfunktionals beweisen.
Bemerkun 9. Man kann ohne V2 auskommen, dann allerdings aus den
Linearisierungen nur L A x = T (x,u*) und AS = ~ l., A x ) + S ( x , u ) - S (x,u*) fol-
gern. Anstelle yon (3.11) erh~ilt man dann
AS (3.12)
das Maximumprinzip in einer yon PONTRJAGIN nicht ausgegebenen Form. Gilt
V2 oder ~ T (x, u/O x = ~ T (x*, u*)/Ox und #S (x, u)/Ox = ~?S (x*, u*)/~?x sind beide
Formen gleichwertig.
In Abschnitt 5 Werden wir die hier skizzierten Linearisierungen durch-
fiihren.
4. Herleitung verschiedener Formen des Maximumprinzips yon Pontrjagin
Den yon POYTRJAGIN untersuchten Kontrollproblemen liegt ein Prozeg

genanntes DGL-System zugrunde, dessen rechte Seite yon einer m-dimensionalen
Steuerung abh~ingt:
{
t
x(t):a+If(x(s),u(sl)ds far teL0,1]

0
mit f : R n + m ~ R ~ stetig und a ~ R n

Dieses System ist als Integralgleichung formuliert, da man als Steuerungen
nicht nur stetige, sondern wenigstens sttickweise-stetige Funktionen zulassen
will. Somit definieren wir
U : = {utu : [0,1]--+ R m /x u stiickweise-stetig}
348 K . SPREMANN :
und erhalten fiir x stetige Funktionen, also

X:={xlx:[_O, 1]--+R ~ A X stetig}.
Diesen linearen Raum X versehen wir mit dem Skalarprodukt der L2-
R~iume.
Bewertet wird der Prozel3 zun~ichst durch ein Zielfunktional der yon
LAGRANGE in der Variationsrechnung verwendeten Art,
1
g (x (t), u (t)) dt --* sup,
0
aul3erdem sollen als Restriktion nur Steuerungen zur Optimierung zugetassen

sein, deren Werte u(t) fiir alle t~ [0,1] in dem yon der Zeit abh~ingigen
Steuerbereich S B (t) ~ R ~ liegen.
Qu : = {u ~ U lu (t) ~ S B (t) fiir alle t} (4:3)
(damit sind Quader und Intervalle als Spezialfall eingeschlossen; Kugeln beziig-
lich der L2-Norm k6nnen nicht berticksichtigt werden.)
Dieses Ausgangsproblem l~il3t sich dutch das allgemeine Modell aus
Abschnitt 2 erfassen, wenn man T und S dutch
t
T (x, u) (t): = x (t) - a - ~ f (x (s), u (s)) ds (4. !)
0
und
1
S ( x , u ) = S g (x (s), u (s)) ds (4.2)
0
definiert.
Die Teillinearisierung von T und S ist m6glich, da die auch yon
PONTRJAGIN an f gestellten Voraussetzungen [1,2,4] sichern, dab V1 und V2
erfiillt sind.
Mit den Abktirzungen A (t)~ R (''") fiir die yon t abh~ingige Jacobimatrix
09'i,,..
A (t): = tO, .* (0)
und t (t)~ R" fiir den Gradienten
l (0: = (x* (t), u* (t))

finden wir
( L A x ) (t) -- A x (t) - i A (S) A x (s) ds (4.7)
0
und
1 1
aS. Ax = ~ 3g (x*(t),u*(t))/ctxrAx(t)dt = ~ l (t) r A x (t) d t = ( l, Ax). (4.8)
~X 0 0
Die explizite Gestalt des zu L adjungierten Operators L "a ist in [10] S. 266
Ein f u n k t i o n a l a n a l y t i s c h e r Beweis des M a x i m u m p r i n z i p s v o n PONTRJAGIN 349
durch einfache partielle Integration berechnet; er bildet v e X ab auf

1
(L ~ v) (t) = v ( t ) - A ( t V y v (s) ds. (4.9)
Mit der Fredholmschen Alternative kann man zeigen, dab die lineare
Gleichung L aa 2* = l, ausfiihrlich
1
4" (t)- A (tV ~ 4" (s) ds = l (t) (4.10)
t
eine LSsung besitzt. Deren Berechnung erleichtert die Substitution

1
~* (t): = ~ ,~* (s) ds,
t
denn damit l~iBt sich (4.10) als Differentialgleichung
iT* (t) = l (t) -- A (t)r /7* (1) ; t/* (1)--0 (4.10')

schreiben, deren L/Ssung (ira verallgemeinerten Sinn) man dutch stetiges
Aneinanderfiigen der einzelnen L6sungskurve n an den Sprungstellen yon A
erh~ilt.
Mit diesen Vorbereitungen gilt (3.11)

S (x*, u) - (2", T (x*, u)) -- S (x*, u*) - ~2", T (x*, u*)) + A S,
also hier:
g (x* (t), u (0) at - S "~* (t)~ x* (t) - a - i f ( x * (s), u (s)) ds at . . . . +AS

0 0 0
bzw.
1 1 t
~ g (x* (t); u (t)) d t + I 2" (t) r ~ f (x* (s), u (s)) ds dt = . . . + A S
0 0 0
und nach Umformung des zweiten Integrals mit partieller Integration

1
g (x* (t), u (t)) + tl* ( t ) Z f ( x * (t), u (t)) dt . . . . +AS. (4.11)
0
Nennt man den Integranden Hamiltonfunktion und bezeichnet ihn mit

H (q,x,u) : [0, 1] ~ R, so resultiert:
1 1
H (/7", x*, u)(t)dt -= ~ H (/7", x*, u*)(t) dt + AS. (4.11')
0 0
Jetzt ist der Beweis des Maximumprinzips einfach:

Satz. Fiir das zu Beginn yon Abschnitt 4 definierte KontrolIprobIem sei u*
optimal. Dann gilt mit der L6sung /7* der Kozustandsvariablengleichung (4.10')
und der dutch
U (/7,x, u) (t): = g (x (t), u (t)) +/7 (t) r f (x (t), u (t))
350 K. SPREMANN i
definierten H amiltonfunktion :
H (rl*,x*,u) (t) <_H (tl*,X*,U*) (t)
fur alle u e Q, und alle t ~ [0, 1].
Beweis. Sei u* optimal ~ nach (4.11')
1 1
.f H (tt*,x*,u) (t) dt <_~ H (tl*,X*,U*)(t) at
0 0
fiir alle u e Q~, mit ]l u - u * II<~- Diese in diesem und im letzten Abschnitt
hergeleitete nut lokal giiltige Ungleichung wird zun~ichst globalisiert und dann
durch die punktweise Ungleichung der Integranden ersetzt.
Globalisierung: Die Ungleichung gilt auch global fiir alle u~Qu. Denn
angenommen, es gebe ein Ub~ Q.~ mit
1 I
H (tl*,X*,Ub)(t) dt > J H (rl*,X*,U*)(t) dt,
0 0
dann gibt es eine Nichtnullmenge Mb c [0, 1] mit H (.,., ub) (t)> H (..:,u*) (r)
ftir t e M b und wir kSnnen eine neue Steuerung uc gemiig
;ub(t) fur t ~ M b
Uc (t):
l u* (t) fiir t E [0, 1]\Mb
definieren; demnach gilt uc ~ Qu; iiberdies kiSnnen wir Mb so klein w~ihlen,
dab auch [I u~-u* [I <-e gilt, Jetzt ergibt sich im Widerspruch zur [okalen
Ausgangsbedingung
1 1
H (..., ~c)(0 dt > j H (..., u*)(t) dt.
0 O
Unsere Annahme war falsch, die Ungleichung

1 1
j H ( .... u) (t) dt <_j H (...,u*)tt)dt
0 0
gilt global ftir alle u e Q~.

Ersetzung durch die punktweise Ungleichung Lemma. Die Ungleichung der
Integrale ist 5quivalent mit der punktweisen Ungleichung des Integranden:
H (..., u) (0-< H ( .... u*) (t)
ftir alle u e Q, und
fast alle t ~ [0, 1].
Beweis des Lemmas. Die Richtung ~ ist trivial. Wir nehmen an, ~ gelte
nicht. Dann gibt es ein ub E Q, und eine Nichtnullmenge M b ~ [0, 1], so dab
H (..., u~) (t) dt _< j H ( .... u*) (t) at
Ein funktionalanalytischerBeweisdes Maximumprinzipsvon PONTRJAGIN 351
und
H (..., ub) (t) > H (..., u*) (t) ftir t ~ M b
gilt. Ftir die gem~iB
u b (t) ftir t e M b
(t):=
u* (t) sonst
definierte Steuerung u c E Q, gilt dann:
H (..., Uc) (t) dt > ~ H (..., u*) (t) dt
Widerspruch !
Damit sind das Lemma und das Maximumprinzip bewiesen.
Bemerkung: Durch das gleiche Vorgehen kann man die anderen Formen
des Maximumprinzips ffir modifizierte Kontrollprobleme finden (und gleich-
zeitig beweisen); z. B. fiir Probleme mit Mayerschem Zielfunktional r (x (1))~ sup;
vgl. [4]. Bei Problemstellungen mit Treppenfunktionen als Steuerungen und dis-
kreten Problemen aber ist die Globalisierung und eine dem Lemma ent-
sprechende Umformung nicht m6glicb [4], auBer man fordert zusiitzliche
Konvexitgtsbedingungen.
5. In den Zustandsvariablen lineare Operatoren und die Politikiteration von Howard
Die Verallgemeinerung von Kontrollprozessen, bei denen f linear in x (t)

ist, fiihren auf solche Operatoren T und S, fiir die es (yon der vorgegebenen
Stelle u* und x* abh~ingige) lineare Operatoren L : X - - , X und l : X ~ R gibt,
so dab (mit A x : = x - x * )
L A x = T(x, u * ) - T(x*, u*)
und
(I, Ax) =S (x, u*) - S (x*, u*)
fiir alle x ~ X gilt. Es folgt dann sofort fiir alle u e {2, die Identit~it
S(x,u)-(2*, T(x,u))=S(x,u*)-(2*, T(x,u*)) + A S (5.12)
In den Zustandsvariablen lineare Kontrollprobleme. Wendet man dieses
Ergebnis auf das Kontrollproblem
t
T 0
),c x (1)-~sup
an, so folgt das Maximumprinzip fiir dieses Problem:
u* optimal X AS<_0 fiir alle u ~ Qu X
u* (t) T q~ (u (t)) <_ tl* (t) T ~o (u* (t)) fiir alle t
und alle u e Qu, wobei
/7" (t)= - A (t); (1)=c. (5.109
352 K, SPREMANN:
Man beachte, dab in diesem Fall die Maximalit~it der Hamiltonfunktion

auch hinreichend Optimalit~it ist,
Herleitung der Politikiteration yon Howard. Bei den betrachteten Markov-
prozessen mit n Zust~inden ist die stochastische Zustandsiibergangsmatrix
P ( u ) e [0,1] ("'") abh~ingig yon der Politik u, die so gew~ihlt werden soll~ dab
im stationiiren Zustand der Erwartungswert des Gewinnes pro Zustandsiiber-
gang m6glichst groB wird [9], pp. 32--43; (es wird angenommen, dab atle
m6glichen Politiken vollst~indig ergodische Markovprozesse bewirken)~ Bezeich-
net x ~ [0,1]" den Vektor tier Wahrscheinlichkeiten x~, i = 1 (1)n, dab sich der
ProzeB im /-ten Zustand befindet, dann gilt
x = P (u) r x.
Der MarkovprozeB ist bewertet: ein Obergang vom /-ten in den j-ten
Zustand bringt den Gewinn r~j~R. Befindet sich der ProzeB im Zustand i,
ist demnach beim n/ichsten Obergang ein Gewinn yon
qi (u): = ~ rij. Pij (U)

j=l
zu erwarten.
Die Politik u ist ein n-Tupel yon Entscheidungen ui, i = l ( 1 ) n ; dabei ist
u~ Element einer Menge Q,, yon Entscheidungen, die zur Wahl stehen, wenn
sich der Prozel3 im /-ten Zustand befindet,
u~Q,: = X Q,. (5.3)
i= 1 (1). '
Man beachte, dab die Matrixelemente pij(u) ftir j = l ( 1 ) n nur von der Ent-
scheidung u i abh~ingen.
Zur Beschreibung dieses Optimierungsproblems bewerteter station~rer
Markovprozesse durch das allgemeine Modell aus Abschnitt 2 w~ihlen wir
X:=R" mit euklidischem Skalarprodukt
r (x, u): = (P (u)T_ I) x (5.1)
S (x, u) : = q (u) r x. (5.2)
Sei nun eine Politik u* vorgegeben:
T und S sind linear in x; folglich
L=P(U*)T--I e R ("'") (5.7)
l= q (u*) e R" (5.8)
Die Berechnung der Adjungierten yon L ist hier trivial,
L aa = P ( u * ) - I (5.9)
und das lineare Gleichungssystem L ad 2*= l ftir die n Unbekannten 2* fiihrt auf
x* = P (u*) ~* + q (u*), (5,1o)
Howards Value - - Determination Operation for the given policy u*.
Ein funktionalanalytischer Beweis des Maximumprinzips yon PONTRJAGIN 353
Fiir alle Politiken u e Q, gilt dann (5.10), also

q (u) r x - 2 *r (P (u) T - I) x = q (u*) r x - 2 *T (P (u*) r - I) x + AS,
wobei x der zu u geh/Srige Zustandswahrscheinlichkeitsvektor ist.

Will man u so w~ihlen, dab AS maximal wird, hat man demnach
max [q ( u ) - P (u) 2 * - q ( u * ) - P (u*) 2"] r x (5.13)
u ~ Qj,
zu finden. Gel~inge dies, h~itte man mit einem Schlag die optimale Politik
bestimmt. Da aber der zu maximierende Term auch von x abh~ingig ist, das
sich aus u nur fiber die iterativ zu 1/Ssende Fixpunktgleichung x = P (u) r x ergibt,
ist die Maximierung in einem Schritt unm6glich.
Da die Wahrscheinlichkeiten x i in jedem Fall nicht negativ sind und die
i-te K o m p o n e n t e yon q ( u ) - P ( u ) 2 * e R n nur yon ui abh~ingt, liegt es nahe
fiir alle i = l ( 1 ) n
max ~ P~j (ui). ( r i j - 2 * )

u~eQ~i j = l
zu bestimmen ( H o w a r d s Policy - - Improvement Routine). Die so gefundenen n

Entscheidungen bilden eine Politik, die zwar im allgemeinen nicht (5.13) 16st,
wenigstens aber gegenfiber u* einen nichtnegativen. Zuwachs AS des Ziel-
funktionals bringt. Damit ist auch gekl~irt, warum Howards Verfahren - -
obwohl es aus dem Maximumprinzip ffir lineare Probleme folgt - - mehrere
Iterationen ben6tigt, um die optimale Politik zu berechnen.
Literatur
[1] LEE, E. B., and L. MARKUS: Foundations of Optimal Control Theory. New York: Wiley. 1967.
[2] PONTRJAG1N, L. S., et al. : Mathematische Theorie optimaler Prozesse. Mtinchen: Oldenbourg-
Verlag, 1967 ; dt. Ubersetznng des russ. Originals.
[3] SPREMANN, K. : Das Maximumprinzip yon Pontrjagin - - konstruktive Anwendung und ein
Zusammenhang mit der direkten Methode. Diplomarbeit, Inst. f. Angew. Math. d. T U Mtinchen
(1970).
[4] GESSNER, P., und K. SPREMANN: Optimierung in Funktionenr~iumen (Lecture Notes in Economics
and Mathematical Systems, Vol. 64). Berlin-Heidelberg-New York: Springer. 1972.
[5] CANON, M. D., C. D. CULLUM, Jr., and E. POI.AK : Theory of Optimal Control and Mathematical
Programming. New York: McGraw-Hill. 1970~
[6] GESSNER, P. : Optimierungsprobleme in unit~iren R~iumen. Habilitationsschrift, T U Miinchen
(1970).
[7] GESSNER, P., und H. J. WACKER: Dynamische Optimiernng - - Modelle und Computerpro-
gramme. Mtinchen: Carl Hanser Verlag. 1972.
[8] HOLTZMAN, I. M. : Convexity and the Maximum Principle for Discrete Systems. IEEE Trans. on
Automatic Control, AC-11, 1, 30--35 (1966).
[9] HOWARD, R. A.: Dynamic Programming and Markov Processes, 2nd ed., pp. 3 2 4 3 . Cam-
bridge, Mass. : MIT Press. 1962.
[10] FEILMEIER, M., P. GESSNER und H. J. WACKER: Lineare Kontrollprobleme. Unternehmens-
forschung 14, 4, 263--275 (1970).
Dipl.-Math. Klaus Spremann
Institut f~r Angewandte Mathematik
Technische Universitiit Miinchen
Arcisstrafle 21
D-8000 Miinchen 2
Bundesrepublik Deutschland

Computing 9

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Computing 9

Enviado por

Direitos autorais:

Formatos disponíveis

Computing 9, 343--353 (1972)

Ein funktionalanalytischer Beweis

(Eingegangen am 8. Juli 1972)

Bei den herk6mmlichen Beweisen des Maximumprinzips yon PONTRJAGIN

der Stelle der zu einer optimalen Steuerung u* geh6renden Trajektorie x*,

3. Die Methode fiir nichtlineare Operatoren

Die beabsichtigte Teillinearisierung des Operators T und des Funktionals S

Erftillt nun A u : = u - - u * die Bedingung HA u l i < g mit einer geniigend

= Ox 9Ax + [ T ( x * , u ) - T(x*,u*)] + Or (~)

gilt ftir jede LSsung )L* der linearen Gleichung 3

unter Verwendung yon (3.5) die U m f o r m u n g

und mit (3.6) erh~ilt man

4. Herleitung verschiedener Formen des Maximumprinzips yon Pontrjagin

Den yon POYTRJAGIN untersuchten Kontrollproblemen liegt ein Prozeg

x(t):a+If(x(s),u(sl)ds far teL0,1]

mit f : R n + m ~ R ~ stetig und a ~ R n

und erhalten fiir x stetige Funktionen, also

aul3erdem sollen als Restriktion nur Steuerungen zur Optimierung zugetassen

und t (t)~ R" fiir den Gradienten

l (0: = (x* (t), u* (t))

durch einfache partielle Integration berechnet; er bildet v e X ab auf

eine LSsung besitzt. Deren Berechnung erleichtert die Substitution

denn damit l~iBt sich (4.10) als Differentialgleichung

iT* (t) = l (t) -- A (t)r /7* (1) ; t/* (1)--0 (4.10')

Mit diesen Vorbereitungen gilt (3.11)

g (x* (t), u (0) at - S "~* (t)~ x* (t) - a - i f ( x * (s), u (s)) ds at . . . . +AS

und nach Umformung des zweiten Integrals mit partieller Integration

Nennt man den Integranden Hamiltonfunktion und bezeichnet ihn mit

Jetzt ist der Beweis des Maximumprinzips einfach:

Unsere Annahme war falsch, die Ungleichung

gilt global ftir alle u e Q~.

5. In den Zustandsvariablen lineare Operatoren und die Politikiteration von Howard

Die Verallgemeinerung von Kontrollprozessen, bei denen f linear in x (t)

Man beachte, dab in diesem Fall die Maximalit~it der Hamiltonfunktion

qi (u): = ~ rij. Pij (U)

Fiir alle Politiken u e Q, gilt dann (5.10), also

wobei x der zu u geh/Srige Zustandswahrscheinlichkeitsvektor ist.

max ~ P~j (ui). ( r i j - 2 * )

zu bestimmen ( H o w a r d s Policy - - Improvement Routine). Die so gefundenen n

Você também pode gostar

= Ox 9Ax + [ T ( x * , u ) - T(x,u)] + Or (~)