Escolar Documentos
Profissional Documentos
Cultura Documentos
9 by Springer-Verlag 1972
Von
K. Spremann, Mtinchen
Zusammenfassung - - Summary
Ein funktionalanalytischer Beweis des Maximumprinzips von Pontrjagin und dessen Verwendung
zur Herleitnng der Politikiteration yon Howard. Der umfangreiche, auf geometrische Oberlegungen
grtindende Beweis des Maximumprinzips von PONTRJAGIN l~iBt sich vollst~indig durch funktional-
analytische Herleitungen ersetzen: anstelle der totalen Ableitung yon ProzeB und Zielfunktional bei
der direkten Methode sind hier nut die partiellen Ableitungen in Richtung der Zustandsvariablen
n6tig, w/ihrend die Differenz in Richtung der Steuerungen nicht linearisiert wird. Die Kozustands-
variablen sind Hilfsgr6gen, die zur Umformung eines Skalarproduktes dienen. (Sie ergeben sich als
L6sung einer linearen Gleichung, deren Operator durch die Adjungierte zur partiellen Ableitung des
ProzeBoperators gegeben ist und deren rechte Seite das teillinearisierte Zielfunktional bildet.) Dabei
erh~ilt man die bekannte Ungleichung der Hamiltonfunktionen, deren Gtiltigkeitsbereich in einem
Widerspruchsbeweis globalisiert wird.
Dieser funktionalanalytische Beweis ist kiirzer, konstruktiver und allgemeiner : so ergibt sich die
Politikiteration yon HOWARDals Anwendung des Maximumprinzips auf bewertete station~ire Markov-
prozesse.
A Proof of Pontrjagin's Maximal Principle by Methods of Functional Analysis and Its Application Io
Deduce Howard's Policy Iteration. The tedious proof of PONTRJAGIN'Smaximum principle, based on
geometric considerations, can be fully replaced by methods of functional analysis : instead of complete
differentiation of the process and the objective functional in the direct method, only partial derivation
in direction of state variables are used, while the difference in direction of the control is not
linearized. The costate variables furnish a meansto transform an innerproduct. (They are the solution
of a linear equation whose operator is the adjoint of the partial derivative of the process operator
and whose right side is formed by the partial linearized objective functional.) As result we obtain the
wellknown unequality of the Hamiltonians, whose domain of validity is globalized in a proof by
contradiction.
This proof by methods of functional analysis is more concise, constructive and more general:
application of the maximal principle to ergodic Marcovprocesses with rewards results in
HOWARD'S method of policy iteration.
1. Einleitung
a) die beteiligten Riiume und Mengen. Wie fiblich wird mit X der Raum
der Zustandsvariablen (Trajektorien) und mit U die Menge der Steuerungen
(Politiken) bezeichnet.
b) die Restriktion. Nicht alle Steuerungen yon U sind zur Optimierung zu-
gelassen, sondern nur solche, die Elemente einer vorgegebenen Teilmenge
Q, c U sind;
c) die Nebenbedingungen (bzw. den Prozefl), die eine Beziehung zwischen
den zul~issigen Steuerungen und den Zustandsvariablen herstellen. Wie in
[4, 6, 7] wird diese Beziehung durch einen Operator T: X x Q, ~ X beschrieben.
Dazu soil zu jedem ~7e Q~ genau ein 2 e x mit T ( 2 , ~ ) = 0 , die zugeh6rige Zu-
standsvariable, existieren ;
d) die Zielfunktion, die maximiert werden soll. Sie ist durch ein reelles
Funktional S : X x Qu--* R gegeben.
Mit der
Definition. Eine Steuerung u' ~ Qu heiflt besser als u" ~ Q,, wenn S (x',u')>_
>_S (x", u"); wobei x' und x" die zugeh6rigen Zustandsvariablen sind. Ein u* ~ Qu
heiJ3t optimal, wenn u* besser ist als alle ueQ~
stellt sich die Aufgabe, die Nullstellen yon T miteinander zu vergleichen und
durch S zu bewerten. Obersichtlich in einem Modell zusammengefaBt: 1
r(x,u)=0, (2.1)
S (x, u) ~ sup, (2.2)
u ~ Q,,. (2.3)
Die Formelnummer setzt sich aus der Kapitelnummer und einer Formelziffer zusammen.
Formeln mit gleicher Formelziffer entsprechen einander.
346 K. SPREMANN:
_ as~ .dx+ES(x*,u)-S(x*,u*)]+os(~)
OX/ (x*,u*)
die Restglieder O r und Os, ftir die
lim 0 (e) = 0
~-+o il A-'~ II
gilt, vernachl~issigen.2 Bezeichnet m a n die Fr6chetableitung von T ( . , u * ) : X ~ X
an der Stelle x* mit L u n d schreibt den Wert d e r Fr6chetableitung yon
S ( . , u * ) : X - ~ R angewandt auf Ax, als S k a l a r p r o d u k t ( l , A x ) , so folgt
L A x = T ( x * , u * ) - T(x*,u) (3.5)
und ffir die A n d e r u n g AS: = S ( x , u ) - S (x*,u*) der Werte des Zielfunktionals
AS = ( l, A x ) + S (x*,u) - S (x*,u*). (3.6)
Per def. ist L ein beschr/inkter linearer O p e r a t o r auf X, und da dieser
R a u m d u r c h sein S k a l a r p r o d u k t auch normiert ist, ist L stetig und besitzt somit
eine Adjungierte L aa.
Mit
V3: l e B i l d ( L a~)
2 Den ausffihrlichen Beweisschritt stellt der Verfasser auf Anfrage gern zur Verfiigung.
3 Die Indizierung yon ,~ mit einem * soll andeuten, dab Lund l durch Linearisierung an der
Stelle (x*, u*) entstanden sind.
Ein funktionalanalytischerBeweisdes Maximumprinzipsvon PONTRJAGIN 347
fiir alle u ~ Q, mit ]l u - u* II < a Im n~ichsten Abschnitt zeigen wir, dal3 damit das
Maximumprinzip von PONTRJAGIN bewiesen ist, soferne diese Ungleichung nur
noch mit einem kurzen Widerspruchsbeweis globalisiert wird.
Als konstruktive Vorschrift zur iterativen Verbesserun 9 yon Steuerungen. Sei
u* eine beliebige vorliegende Steuerung. Wiihlt man dann aus der Menge aller
Steuerungen u so, dab S (x*, u)-~)~*, T(x*, u)) maximiert wird, dann ist damit
die bestm6gliche Steuerung flit den n~ichsten Iterationsschritt gefunden. Damit
1513t sich die Konvergenz iterativer Hamiltonfunktionsmaximierungen (als
konstruktive Nutzung des Satzes y o n PONTRJAGIN) zur Gewinnung eines
wenigstens lokalen Maximums des Zielfunktionals beweisen.
Bemerkun 9. Man kann ohne V2 auskommen, dann allerdings aus den
Linearisierungen nur L A x = T (x,u*) und AS = ~ l., A x ) + S ( x , u ) - S (x,u*) fol-
gern. Anstelle yon (3.11) erh~ilt man dann
AS (3.12)
das Maximumprinzip in einer yon PONTRJAGIN nicht ausgegebenen Form. Gilt
V2 oder ~ T (x, u/O x = ~ T (x*, u*)/Ox und #S (x, u)/Ox = ~?S (x*, u*)/~?x sind beide
Formen gleichwertig.
In Abschnitt 5 Werden wir die hier skizzierten Linearisierungen durch-
fiihren.
{
t
definiert.
Die Teillinearisierung von T und S ist m6glich, da die auch yon
PONTRJAGIN an f gestellten Voraussetzungen [1,2,4] sichern, dab V1 und V2
erfiillt sind.
Mit den Abktirzungen A (t)~ R (''") fiir die yon t abh~ingige Jacobimatrix
09'i,,..
A (t): = tO, .* (0)
Die explizite Gestalt des zu L adjungierten Operators L "a ist in [10] S. 266
Ein f u n k t i o n a l a n a l y t i s c h e r Beweis des M a x i m u m p r i n z i p s v o n PONTRJAGIN 349
Mit der Fredholmschen Alternative kann man zeigen, dab die lineare
Gleichung L aa 2* = l, ausfiihrlich
1
4" (t)- A (tV ~ 4" (s) ds = l (t) (4.10)
t
bzw.
1 1 t
~ g (x* (t); u (t)) d t + I 2" (t) r ~ f (x* (s), u (s)) ds dt = . . . + A S
0 0 0
definierten H amiltonfunktion :
H (rl*,x*,u) (t) <_H (tl*,X*,U*) (t)
fur alle u e Q, und alle t ~ [0, 1].
Beweis. Sei u* optimal ~ nach (4.11')
1 1
.f H (tt*,x*,u) (t) dt <_~ H (tl*,X*,U*)(t) at
0 0
fiir alle u e Q~, mit ]l u - u * II<~- Diese in diesem und im letzten Abschnitt
hergeleitete nut lokal giiltige Ungleichung wird zun~ichst globalisiert und dann
durch die punktweise Ungleichung der Integranden ersetzt.
Globalisierung: Die Ungleichung gilt auch global fiir alle u~Qu. Denn
angenommen, es gebe ein Ub~ Q.~ mit
1 I
H (tl*,X*,Ub)(t) dt > J H (rl*,X*,U*)(t) dt,
0 0
dann gibt es eine Nichtnullmenge Mb c [0, 1] mit H (.,., ub) (t)> H (..:,u*) (r)
ftir t e M b und wir kSnnen eine neue Steuerung uc gemiig
;ub(t) fur t ~ M b
Uc (t):
l u* (t) fiir t E [0, 1]\Mb
definieren; demnach gilt uc ~ Qu; iiberdies kiSnnen wir Mb so klein w~ihlen,
dab auch [I u~-u* [I <-e gilt, Jetzt ergibt sich im Widerspruch zur [okalen
Ausgangsbedingung
1 1
H (..., ~c)(0 dt > j H (..., u*)(t) dt.
0 O
und
H (..., ub) (t) > H (..., u*) (t) ftir t ~ M b
gilt. Ftir die gem~iB
u b (t) ftir t e M b
(t):=
u* (t) sonst
definierte Steuerung u c E Q, gilt dann:
H (..., Uc) (t) dt > ~ H (..., u*) (t) dt
Widerspruch !
Damit sind das Lemma und das Maximumprinzip bewiesen.
Bemerkung: Durch das gleiche Vorgehen kann man die anderen Formen
des Maximumprinzips ffir modifizierte Kontrollprobleme finden (und gleich-
zeitig beweisen); z. B. fiir Probleme mit Mayerschem Zielfunktional r (x (1))~ sup;
vgl. [4]. Bei Problemstellungen mit Treppenfunktionen als Steuerungen und dis-
kreten Problemen aber ist die Globalisierung und eine dem Lemma ent-
sprechende Umformung nicht m6glicb [4], auBer man fordert zusiitzliche
Konvexitgtsbedingungen.
T 0
),c x (1)-~sup
an, so folgt das Maximumprinzip fiir dieses Problem:
u* optimal X AS<_0 fiir alle u ~ Qu X
u* (t) T q~ (u (t)) <_ tl* (t) T ~o (u* (t)) fiir alle t
und alle u e Qu, wobei
/7" (t)= - A (t); (1)=c. (5.109
352 K, SPREMANN:
Man beachte, dab die Matrixelemente pij(u) ftir j = l ( 1 ) n nur von der Ent-
scheidung u i abh~ingen.
Zur Beschreibung dieses Optimierungsproblems bewerteter station~rer
Markovprozesse durch das allgemeine Modell aus Abschnitt 2 w~ihlen wir
X:=R" mit euklidischem Skalarprodukt
r (x, u): = (P (u)T_ I) x (5.1)
S (x, u) : = q (u) r x. (5.2)
Sei nun eine Politik u* vorgegeben:
T und S sind linear in x; folglich
L=P(U*)T--I e R ("'") (5.7)
l= q (u*) e R" (5.8)
Die Berechnung der Adjungierten yon L ist hier trivial,
L aa = P ( u * ) - I (5.9)
und das lineare Gleichungssystem L ad 2*= l ftir die n Unbekannten 2* fiihrt auf
x* = P (u*) ~* + q (u*), (5,1o)
Howards Value - - Determination Operation for the given policy u*.
Ein funktionalanalytischer Beweis des Maximumprinzips yon PONTRJAGIN 353
zu finden. Gel~inge dies, h~itte man mit einem Schlag die optimale Politik
bestimmt. Da aber der zu maximierende Term auch von x abh~ingig ist, das
sich aus u nur fiber die iterativ zu 1/Ssende Fixpunktgleichung x = P (u) r x ergibt,
ist die Maximierung in einem Schritt unm6glich.
Da die Wahrscheinlichkeiten x i in jedem Fall nicht negativ sind und die
i-te K o m p o n e n t e yon q ( u ) - P ( u ) 2 * e R n nur yon ui abh~ingt, liegt es nahe
fiir alle i = l ( 1 ) n
Literatur
[1] LEE, E. B., and L. MARKUS: Foundations of Optimal Control Theory. New York: Wiley. 1967.
[2] PONTRJAG1N, L. S., et al. : Mathematische Theorie optimaler Prozesse. Mtinchen: Oldenbourg-
Verlag, 1967 ; dt. Ubersetznng des russ. Originals.
[3] SPREMANN, K. : Das Maximumprinzip yon Pontrjagin - - konstruktive Anwendung und ein
Zusammenhang mit der direkten Methode. Diplomarbeit, Inst. f. Angew. Math. d. T U Mtinchen
(1970).
[4] GESSNER, P., und K. SPREMANN: Optimierung in Funktionenr~iumen (Lecture Notes in Economics
and Mathematical Systems, Vol. 64). Berlin-Heidelberg-New York: Springer. 1972.
[5] CANON, M. D., C. D. CULLUM, Jr., and E. POI.AK : Theory of Optimal Control and Mathematical
Programming. New York: McGraw-Hill. 1970~
[6] GESSNER, P. : Optimierungsprobleme in unit~iren R~iumen. Habilitationsschrift, T U Miinchen
(1970).
[7] GESSNER, P., und H. J. WACKER: Dynamische Optimiernng - - Modelle und Computerpro-
gramme. Mtinchen: Carl Hanser Verlag. 1972.
[8] HOLTZMAN, I. M. : Convexity and the Maximum Principle for Discrete Systems. IEEE Trans. on
Automatic Control, AC-11, 1, 30--35 (1966).
[9] HOWARD, R. A.: Dynamic Programming and Markov Processes, 2nd ed., pp. 3 2 4 3 . Cam-
bridge, Mass. : MIT Press. 1962.
[10] FEILMEIER, M., P. GESSNER und H. J. WACKER: Lineare Kontrollprobleme. Unternehmens-
forschung 14, 4, 263--275 (1970).
Dipl.-Math. Klaus Spremann
Institut f~r Angewandte Mathematik
Technische Universitiit Miinchen
Arcisstrafle 21
D-8000 Miinchen 2
Bundesrepublik Deutschland