Você está na página 1de 7

PROGRAMA DE P

OS-GRADUAC

AO EM ENGENHARIA DE TELEINFORM

ATICA-PPGETI 1
Projeto de Controlador Robusto H

via Teoria dos


Jogos
Andr e Luz Sampaio de Alencar, Jos e Tarcisio Costa Filho
Resumo A partir dos anos 90, a teoria dos jogos din amicos
juntamente com alguns m etodos de programac ao convexa
revelaram um enorme potencial de aplicac ao em diversos
problemas de controle at e ent ao n ao resolvidos, como o
problema de controle robusto H. Neste sentido, esse trabalho
prop oe uma metodologia de jogos din amicos, baseada nas
estrat egias de equilbrio de Nash e Stackelberg, para a soluc ao
do problema de controle robusto H com realimentac ao de
estado em que os controladores se comportam como jogadores
Nash LQ (Lineares Quadr aticos).
Palavras-chave Jogos Din amicos, Controle Robusto,
Programac ao Convexa
I. INTRODUC AO
Um problema fundamental de import ancia te orica e pr atica para
a teoria de controle e o projeto de controladores que tenham pro-
priedades aceit aveis de desempenho e de estabilidade n ao somente
para um sistema din amico com sinais de controle conhecidos, mas
para uma famlia de sistemas submetidos a v arios tipos de sinais de
controle e de perturbac oes. Este problema tem sido tema de muitos
trabalhos cientcos nos ultimos cinquenta anos e tem como etapa
inicial comum desses trabalhos a formulac ao de um problema bem
denido matematicamente. Esta formulac ao requer a otimizac ao de
um ndice de desempenho associado a metodologias disponveis ou
a serem desenvolvidas para a soluc ao do problema de projeto de
controladores. Duas dessas metodologias, an alise de sensibilidade e
o projeto Linear Quadr atico Gaussiano (LQG) dominaram a teoria
de controle nos anos 70 e 80. A an alise de sensibilidade considerava
a presenca de pequenas perturbac oes no modelo nominal, enquanto
o projeto LQG permitia uma descric ao estatstica Gaussiana para
as perturbac oes. Neste perodo, a tentativa do emprego da teoria
dos jogos din amicos [1], [6], [7], [8], [16], [18] para o projeto
de controladores robustos foi considerada com a terminologia de
controlador minmax adotada da teoria de decis ao dos anos 50. Para
esta formulac ao do problema de controle, o objetivo e obter a sntese
de controladores que minimizem um dado ndice de desempenho
sob os piores sinais de perturbac ao possveis ou sob as variac oes
param etricas, onde em tais casos se maximiza o mesmo ndice de
desempenho. No entanto, a teoria de jogos din amicos, considerando
as estruturas de informac ao do problema de controle, apresentava
resultados preliminares que n ao permitiram o desenvolvimento de
m etodos sucientemente consistentes para o projeto de controladores
robustos. A partir dos anos 90, a pesquisa nesta direc ao revelou
um enorme potencial de aplicac ao de teoria dos jogos din amicos
e de m etodos de programac ao convexa em diversos problemas de
controle at e ent ao n ao resolvidos, como por exemplo, o problema
de controle com m ultiplos objetivos (normalmente conitantes) no
qual est a includo o problema de controle robusto H [2], [3],
[6], [9], [17]. Neste sentido, dentre as v arias metodologias distintas
para o problema do projeto do controlador robusto, a que utiliza
ferramentas da teoria de jogos din amicos parece ser a mais simples e
mais intuitiva, ou seja, o problema original de controle robusto H
Aluno de Mestrado do PPGETI. Email: alencarandre85@gmail.com
Professor titular da Universidade Federal do Cear a e orientador do
trabalho. Email: jtcosta@ufc.br
e um problema de otimizac ao multiobjetivo, podendo, portanto, ser
tratado como um jogo din amico de soma-zero.
Neste trabalho, e proposta uma metodologia de jogos din amicos,
baseada nas estrat egias de equilbrio de Nash e Stackelberg, para
a soluc ao do problema de controle robusto H com realimentac ao
de estado em que os controladores se comportam como jogadores
Nash LQ. Esta metodologia contrasta com outras abordagens, onde
os controladores em malha aberta s ao parametrizados em termos de
um par de equac oes acopladas de Riccati [1], [8], [15]. Desta forma,
os objetivos deste trabalho s ao:
i) Obter um algoritmo, baseado em jogos quadr aticos din amicos
e otimizac ao convexa, capaz de gerar uma famlia de controladores
robustos H discretos em malha fechada, com uma boa estabilidade
num erica e com soluc oes bem condicionadas, a m de que se possa
garantir um certo nvel de robustez.
ii) Fornecer novos elementos da teoria dos jogos quadr aticos
din amicos lineares que podem ser diretamente utilizados na soluc ao
do problema de controle robusto H de sistemas din amicos discre-
tos, com diferentes estruturas de informac ao de estado.
A. Descric ao dos Jogos Din amicos Discretos
Adotando a terminologia utilizada na teoria de controle de sis-
temas, denimos um jogo din amico discreto determinstico com
durac ao xa como [1]:
Denic ao 1.1: Um jogo din amico discreto determinstico com N
agentes de decis ao e com durac ao xa e aquele que compreende:
1) Um conjunto de N agentes de decis ao (AD) (ou jogadores)
indexados pelo conjunto I = {1 . . . , N}.
2) Um conjunto K = {0, . . . , T 1} de est agios do jogo, onde
T e o n umero m aximo possvel de jogadas permitidas a cada
agente de decis ao durante o jogo.
3) Um conjunto innito X, com alguma estrutura topol ogica,
caracterizando o espaco de estados do jogo para o qual o estado
x(k) e obtido para k K e k = T.
4) Um conjunto innito U
i
k
denido para k K e i I,
com alguma estrutura topol ogica, denominado de conjunto de
controles, para o qual os controles (decis oes) ui(k) de ADi
s ao admissveis no est agio k; ui = {ui(0), . . . , ui(T 1)} e
a estrat egia para ADi no jogo.
5) Uma func ao g
k
: X U
1
k
. . . U
N
k
X denida para
cada k K, tal que:
x(k + 1) = g
k
(x(k), u1(k), . . . , uN(k)), k K (1)
para o estado inicial do jogo x(0) X. A equac ao (1) e
denominada: a equac ao de estados do jogo din amico e descreve
a evoluc ao do processo de decis ao.
6) Uma func ao h
i
k
: X Y
i
k
denida para cada k K e i I
tal que:
yi(k) = h
i
k
(x(k)), k K, K = T, i I (2)
e a equac ao de observac ao de ADi relativa ao valor de x(k).
O conjunto Y
i
k
, com alguma estrutura topol ogica, denido
para cada k K e i I e denominado de conjunto de
observac ao de ADi no est agio k para o qual yi(k) e a vari avel
de observac ao de ADi no est agio k.
PROGRAMA DE P

OS-GRADUAC

AO EM ENGENHARIA DE TELEINFORM

ATICA-PPGETI 2
7) Um conjunto nito
i
k
para k K e
i I e denido como uma sub-colec ao de
{y1(0), . . . , y1(T); y2(0), . . . , y2(T); . . . ; yN(0), . . . , yN(T);
u1(0), . . . , u1(T 1); u2(0), . . . , u2(T 1); . . . ; uN(0), . . . ,
uN(T 1)} determinando a informac ao recebida e requisitada
por ADi no est agio k do jogo. A especicac ao de
i
k
para
todo k K caracteriza a estrutura de informac ao de ADi e
a colec ao (para i I) destas estruturas forma a estrutura
de informac ao do jogo. O conjunto N
i
k
para cada k K e
i I e denido apropriadamente como um subconjunto de
{(Y
1
0
. . . Y
1
T
) . . . (Y
N
0
. . . Y
N
T
(U
1
0
. . .
U
1
T1
) . . . (U
N
0
. . . U
N
T1
)} compatvel com
i
k
,
e caracteriza o espaco de informac ao de ADi no est agio k,
induzido por
i
k
.
8) Um conjunto especicado
i
k
das func oes
i
k
: N
i
k
U
i
k
que denem as estat egias admissveis de ADi no est agio k.
O conjunto
i
para
i
= {
i
0
, . . . ,
i
T
} na forma agregada, tal
que
i
k

i
k
, k K, e denominado de conjunto de estrat egias
de ADi. Desta forma, a ac ao (controle) de cada agente de
decis ao e completamente determinada pela relac ao:
ui =
i
(
i
), i I (3)
onde ui = {u

i
(0), u

i
(1), . . . , u

i
(T 1)},
i
e
i
est ao na
forma agregada.
9) Um funcional Ji : (X U
1
1
. . . U
N
1
) (X U
1
2
. . .
U
N
2
) . . . (X U
1
T1
. . . U
N
T1
) R denido para cada
i I e denominado de func ao objetivo de ADi no jogo.
Denic ao 1.2: Num jogo din amico determinstico discreto de
durac ao xa com N agentes de decis ao, a estrutura de informac ao
de ADi, i I pode ser de duas formas principais:
1) Malha aberta com somente o estado inicial x(0) conhecido: se

i
k
= {x(0)}, k K.
2) Malha fechada com informac oes completas: se
i
k
=
{x(0), . . . , x(k)}, k K.
Denic ao 1.3: Num Jogo Din amico Discreto e Determinstico
com N agentes de decis ao e durac ao xa, diz-se que a func ao custo
de ADi, i I e aditiva por est agio se existe f
i
k
: XU
1
k
, . . . , U
N
k
para i I, k K tal que:
Ji(u1, . . . , uN) =
T1

k=0
f
i
k
(u1(k), . . . , uN(k), x(k)) (4)
B. Estrat egias de Equilbrio
1) Equilbrio de Nash: Consideremos a classe de jogos
din amicos n ao cooperativos em malha aberta descritos pelas equac oes
(1) e (4). A denic ao de ponto de equilbrio de Nash e:
Denic ao 1.4: Um ponto (u
N
1
, . . . , u
N
N
) e um ponto de equilbrio
de Nash se: ui U
i
e i I,
_
_
_
_
_
_
_
_
_
_
_
_
J1(u
N
1
, ..., u
N
N
) J1(u1, u
N
2
..., u
N
N
)
J2(u
N
1
, ..., u
N
N
) J2(u
N
1
, u2..., u
N
N
)
.
.
.
.
.
.
.
.
.
Ji(u
N
1
, ..., u
N
N
) Ji(u
N
1
, ..., ui, ..., u
N
N
)
.
.
.
.
.
.
.
.
.
JN(u
N
1
, ..., u
N
N
) JN(u
N
1
, u
N
2
..., uN)
_

_
(5)
onde U
i
e o conjunto de controles agregados de ADi tal que se
ui U
i
ent ao ui(k) U
i
k
, k K.
O ponto de equilbrio de Nash e um conjunto factvel de decis oes
(controles) com a propriedade de que nenhum agente de decis ao pode
individualmente reduzir seu custo atrav es de uma mudanca unilateral
por decis ao pr opria.
Na sec ao (II-A) obteremos a soluc ao de equilbrio de Nash em
malha aberta.
2) Equilbrio de Stackelberg: Seguindo as terminologias
e denic oes apresentadas, consideremos, sem perda de gen-
eralidade, U
1
e U
2
os conjuntos de estrat egias admissveis
(
1
= U
1
,
2
= U
2
) para AD1 e AD2 respectivamente. O agente
de decis ao AD1 deseja minimizar J1(u1, u2) e o AD2 deseja
minimizar J2(u1, u2). O ADi, i = 1, 2, que seleciona sua estrat egia
primeiro e denominado lder e o outro agente que seleciona sua
estrat egia em segundo lugar, e chamado seguidor. Considerando AD2
como lder, temos a seguinte denic ao [5] para a estrat egia de
Stackelberg [18].
Denic ao 1.5: Se h a uma relac ao de transformac ao T : U
2

U
1
, tal que para qualquer u2 U
2
xado, J1(Tu2, u2)
J1(u1, u2) para todo u1 U
1
e se existe um u
s2
2
U
2
tal que
J2(Tu
s2
2
, u
s2
2
) J2(Tu2, u2) para todo u2 U
2
ent ao, o par
(u
s2
1
, u
s2
2
) U
1
U
2
, onde u
s2
1
= Tu
s2
2
e denominado de ponto
de equilbrio de Stackelberg com AD2 como lder e AD1 como
seguidor.
A proposic ao [1] seguinte fornece as condic oes sucientes para a
exist encia da soluc ao de Stackelberg em jogos est aticos ou din amicos.
Proposic ao 1.1: Se
(i) Ji
e contnua sobre U
1
U
2
, (i = 1, 2)
(ii) U
1
R
m
1
e U
2
R
m
2
s ao conjuntos compactos,
ent ao as soluc oes de equilbrio de Stackelberg para AD1 ou AD2
como lder existem.
A prova dessa proposic ao e encontrada em [1].
A soluc ao de Stackelberg e uma soluc ao otima para o lder quando
o seguidor reage decidindo otimamente. Um m etodo para se obter
esta soluc ao e atrav es do conjunto de reac oes racionais denido por
D1 = {(u1, u2 U
1
U
2
/u1 = Tu2} para o qual AD1 reage
a toda estrat egia u2 U
2
que AD2 pode escolher. Na estrat egia
de Stackelberg, o seguidor e sempre considerado racional. De forma
similar, D2 = {(u1, u2 U
1
U
2
/u2 = Tu1} e o conjunto de
reac oes de AD2 quando AD1
e lder. Estes conjuntos s ao importantes
na caracterizac ao das estrat egias de Stackelberg e de Nash, como
podemos observar nas seguintes proposic oes [18]:
Proposic ao 1.2: (u
s2
1
, u
s2
2
) e um ponto de equilbrio de Stackel-
berg com AD2 como lder se (u
s2
1
, u
s2
2
) D1 e J2(u
s2
1
, u
s2
2
)
J2(u1, u2), (u1, u2) D1.
Proposic ao 1.3: (u
N
1
, u
N
2
) e um ponto de equilbrio de Nash se
(u
N
1
, u
N
2
) D1

D2.
As provas dessas proposic oes seguem diretamente das denic oes de
pontos de equilbrio de Nash e de Stackelberg e dos conjuntos D1 e
D2.
Das proposic oes (1.2) e (1.3) temos que:
J2(u
s2
1
, u
s2
2
) J2(u
N
1
, u
N
2
) (6)
De (6) vericamos que uma estrat egia de Stackelberg e no mnimo
t ao boa para o lder quanto qualquer estrat egia de Nash. Para o
seguidor, a estrat egia de Stackelberg pode ou n ao ser prefervel
quando comparada a de Nash. Quando consideramos jogos de soma-
zero (J1 + J2 = 0) com ponto de sela as estrat egias de Nash e de
Stackelberg coincidem.
II. METODOLOGIA
A. Jogo Din amico de Refer encia
Nesta sec ao vamos obter a soluc ao de equilbrio de Nash em
malha aberta atrav es do emprego das t ecnicas da teoria de controle
otimo. H a de fato uma relac ao pr oxima entre a determinac ao da
estrat egia de equilbrio de Nash em malha aberta e o problema de
se resolver conjuntamente N problemas de controle otimo. Como
podemos vericar, cada uma das desigualdades de (5), juntamente
com (1) e (4) descrevem um problema de controle otimo, cuja
estrutura n ao e afetada pelas ac oes de controle dos outros jogadores.
Vamos considerar uma classe especial de jogos din amicos discretos
e determinsticos com durac ao xa (T est agios) denominados jogos
lineares-quadr aticos [1], [6], [14] segundo denic ao abaixo.
Denic ao 2.1: Um jogo din amico discreto determinstico com
N agentes de decis ao e do tipo linear-quadr atico se U
i
k
= R
m
i
,
PROGRAMA DE P

OS-GRADUAC

AO EM ENGENHARIA DE TELEINFORM

ATICA-PPGETI 3
(i I, k K) e
g
k
(x(k), u1(k), . . . , uN(k)) = A(k)x(k)
+
N

i=1
Bi(k)ui(k) + Cz(k) (7)
f
i
k
(x(k), ui(k), . . . , uN(k)) =
1
2
(x

(k)Qi(k)x(k)
+
N

j=1
u

j
(k)Rij(k)uj(k)) (8)
f
i
T
(x(T)) =
1
2
x

(T)Qi(T)x(T)
onde A(k), Bi(k), Qi(k), Rij(k) e C s ao matrizes de dimens oes
n n, n mi, n n, mi mj e n s respectivamente, Qi(k) e
Rii(k) s ao sim etricas e denidas positivas para i I e k K, z(k)
e um vetor de dimens ao s de vari aveis n ao control aveis de valores
conhecidos.
Seja (u

1
, . . . , u

N
) para todo u

i
R
m
i
e i I a soluc ao de
Nash em malha aberta para o jogo de refer encia. Com base em [1] a
soluc ao pode ser obtida a partir das seguintes condic oes necess arias:
x(k + 1) =
Hi
p

i
(k + 1)
= A(k)x

(k) +
N

j=1
Bj(k)u

j
(k) + Cz(k)
(9)
x0 = (10)
p

i
(k) =
Hi
x

i
(k)
= Qi(k)x(k) + A

(k)p

i
(k + 1) (11)
p

i
(T) = Qi(T)x

(T) (12)
u

i
(k) = R
1
ii
(k)B

i
(k)p

i
(k + 1) (13)
onde :
Hi(x(k), pi(k + 1), ui(k)) =
1
2
(x

(k)Qi(k)xi(k)
+
N

j=1
u

j
(k)Rij(k)uj(k)) + p

i
(k + 1)(A(k)x(k)
+
N

j=1
Bj(k)uj(k) + Cz(k)) (14)
Considerando que os vetores de coestado p

i
(k) , i I s ao da
seguinte forma:
p

i
(k) = Mi(k)x

(k) + di(k) (15)


o jogo admite uma soluc ao unica de equilbrio de Nash dada por:
u

i
(k) = R
1
ii
(k)B

i
(k)(Mi(k + 1)x

(k + 1) + di(k + 1)) (16)


Manipulando algebricamente as equac oes (9) ` a (13), (15) e (16), e
possvel obtermos as seguintes equac oes [1], [15]:
Mi(k) = Qi(k) + A

(k)Mi(k + 1)E
1
(k)A(k) (17)
Mi(T) = Qi(T) (18)
e
di(k) = A

(k)Mi(k + 1)E
1
(k)
N

j=1
Bj(k)R
1
jj
(k)B

j
(k)dj(k + 1) + A

(k)di(k + 1)
+A

(k)Mi(k + 1)E
1
(k)Cz(k) (19)
di(T) = 0 (20)
onde:
E(k) = Inn +
N

i=1
Bi(k)R
1
ii
(k)B

i
(k)Mi(k + 1) (21)
As equac oes (17) e (19) formam as equac oes conjuntas de Riccati
e as equac oes conjuntas de compensac ao para o problema de controle
otimo em malha aberta considerado. Juntamente com a denic ao
de E(K) na equac ao (21) e com as condic oes de contorno (18)
e (20) essas equac oes podem ser resolvidas de forma recursiva para
k = 1, ..., T. Utilizando as equac oes (16), (17) e (19), temos as N
equac oes de controle otimo:
u

i
(k) = R
1
ii
(k)B

i
(k)Mi(k + 1)E
1
(k)[A(k)x

(k)

j=1
(Bj(k)R
1
jj
B

j
(k)dj(k + 1)) + Cz(k)]
R
1
ii
B

i
(k)di(k + 1) (22)
Como podemos observar pela equac ao (22), as matrizes Rij(k), i =
j, i, j I s ao irrelevantes para esta estrat egia de controle em malha
aberta, uma vez que as mesmas n ao aparecem na equac ao.
B. Jogo Din amico Hier arquico
O jogo de refer encia e estendido para um jogo hier arquico per-
mitindo que agentes de decis ao num nvel superior inuenciem os
agentes no nvel inferior. Uma vez que os agentes de coordenac ao t em
como objetivo otimizar a performance do sistema global, os agentes
do nvel inferior devem aguardar at e que as decis oes da coordenac ao
sejam recebidas para calcularem seus controles otimos.
Vamos considerar um sistema din amico com L e N agentes de
decis ao nos grupos superior e inferior respectivamente. Sejam Vi, i =
1, . . . , L e Ui, i I os conjuntos de decis oes admissveis, onde V =

L
i=1
Vi e U =

N
i=1
Ui s ao os conjuntos de decis oes admissveis
respectivamente para os grupos superior e inferior. Vamos considerar
as L func oes custos J
S
i
: U V R estritamente c oncavas em vi
e as N func oes J
I
i
: U V R estritamente convexas em ui para
os agentes dos grupos superior e inferior respectivamente:
J
S
i
(u1, . . . , uN; v1, . . . , vL) J
S
i
(u, v); i = 1, . . . , L = N (23)
J
I
i
(u1, . . . , uN; v1, . . . , vL) J
I
i
(u, v); i = 1, . . . , N (24)
onde u = (u1, . . . , uN) U e v = (v1, . . . , vN) V.
Para a caracterizac ao do jogo multinvel, utilizamos a seguinte
denic ao proposta em [17]:
Denic ao 2.2: Se as relac oes Ti : Vi Ui, i I existem, tal
que para qualquer v V
J
I
i
(Tv, v) J
I
i
(T1v1, . . . , ui, . . . , TNvN, v); ui Ui, i I
(25)
onde Tv = (T1v1, . . . , TNvN) e se existe um v

V tal que
J
S
i
(Tv

, v

) J
S
i
(Tv
(i)
, v
(i)
); i = 1, . . . , N (26)
onde v
(i)
= (v

1
, . . . , v

i1
, vi, v

i+1
, . . . , v

L
), ent ao as estrat egias
(u

, v

) U V , onde u

= Tv

, caracterizam a estrat egia de


Stackelberg com grupo superior formado de lderes Nash e o grupo
inferior com seguidores Nash.
A estrat egia de Stackelberg e a estrat egia otima (no sentido de
Nash) para os agentes lderes quando os agentes reagem determi-
nando suas decis oes de acordo com uma soluc ao otima de Nash. H a
portanto, uma protec ao para todos os agentes no grupo lder com
relac ao a tentativa de qualquer outro agente no grupo lder de se
desviar de sua estrat egia de Stackelberg com a nalidade de otimizar
as func oes objetivo dos seguidores.
PROGRAMA DE P

OS-GRADUAC

AO EM ENGENHARIA DE TELEINFORM

ATICA-PPGETI 4
C. Coordenadores Nash
Para o problema de decis ao param etrica proposto, podemos ver-
icar que todos os N agentes de decis ao do nvel inferior est ao
relacionados ao vetor de coestado pi(k) R
n
, i I. Neste
trabalho, propomos a adoc ao dos vetores pi(k), i I como as
vari aveis de decis ao do grupo superior de agentes. Utilizando a teoria
da dualidade [12], e possvel dar uma interpretac ao em termos da
teoria de jogos. Um aspecto importante dos problemas de otimizac ao
convexa com restric oes e que tais problemas podem ser transformados
em problemas duais os quais, em muitos casos, s ao mais f aceis de
resolver. T ecnicas de soluc ao usando m etodos de decomposic ao [11],
[10] baseados em dualidade t em sido muito utilizadas na soluc ao de
problemas de grande porte com estruturas especiais. Neste sentido,
podemos observar que para todo u

j
(k), j = i e j I xado, cada
problema de decis ao do nvel inferior:
AD
I
i
: min
u
i
J
I
i
=
T1

k=0
_
1
2
_
x

(k)Qi(k)x

(k)
+
N

j=i
u

j
(k)Rij(k)u

j
(k) + u

i
(k)Rii(k)ui(k)
_
+p

i
(k)
_
A(k)x

(k) + Bi(k)ui(k)
+
N

j=i
Bj(k)u

j
(k) + Cz(k)
_
p

i
(k 1)x(k)
_
+
1
2
x

(T)Qi(T)x

(T) p

i
(T 1)x(T) (27)
pode ser resolvido como um problema de maximizac ao dual, uma
vez que do teorema bem conhecido da Dualidade de Lagrange [4],
[7] as soluc oes dos dois problemas de otimizac ao s ao equivalentes
num ponto extremo.
Para considerar o problema de decis ao multinvel, conforme a
denic ao (2.2) e o modelo hier arquico proposto, denimos como
objetivo de cada agente de decis ao do nvel superior i I a seguinte
maximizac ao da func ao dual:
AD
S
i
: max
p
i
J
S
i
(pi) = max
p
i
min
u
i
T1

k=0
_
1
2
_
x

(k)Qi(k)x(k)
+
N

j=i
u

j
(k)R
ij
(k)u
j
(k) + u

i
(k)R
ii
(k)u
i
(k)
_
+p

i
(k)
_
A(k)x(k) + Bi(k)ui(k)
+
N

j=i
Bj(k)uj(k) + Cz(k)
_
p

i
(k 1)x(k)
_
+
1
2
x

(T)Qi(T)x(T) pi(T 1)x(T) (28)


s.a : (29)
pi(k) R
n
,
x(0) = ,
pi(k 1) =
H
k
i
x

(k)
,
pi(T 1) = Qi(T)x

(T),
H
k
j
u

j
(k)
= 0.
Dada a concavidade estrita da func ao J
S
i
, propomos reformular o
problema dual para o seguinte problema de otimizac ao est atica [17]:
Denic ao 2.3: Achar o vetor de decis ao i R
nT
, i I, que
maximize a seguinte func ao objetivo est atica de ADi, i I:
max

i
J
S
i
(i) =
1
2

i
H
i
ii
i +

i
bi + ci (30)
s.a i R
nT
(31)
onde H
i
ii
e uma matriz sim etrica denida positiva com dimens ao
nT nT, bi
e um vetor nT 1, ci
e um escalar e
i =
_
_
_
pi(0)
.
.
.
pi(T 1)
_

_ R
nT
Para a obtenc ao do problema (30), iniciamos com a substituic ao
das restric oes
1
dadas em (29) na func ao J
S
i
. Reescrevendo estas
restric oes para todo i I como:
x(0) = (32)
x

(k) = Q
1
i
(pi(k 1) + A

pi(k)) (33)
x

(T) = Q
1
i
pi(T 1) (34)
u

i
(k) = R
1
ii
B

i
pi(k) (35)
Da subsistituic ao (parcial) obtemos:
AD
S
i
: J
S
i
=
1
2
x

(T)Qix

(T) p

i
(T 1)x

(T) +
1
2
Qi +
1
2
u

i
(0)Riiu

i
(0) + p

i
(A + Biu

i
(0) +
N

j=1,j=i
Bju

j
(0) + Cz(0)) +
N

j=1,j=i
u

j
(0)Riju

j
(0) +
T1

k=1
(
1
2
(Q
1
i
(pi(k 1) + A

pi(k)))

Qi
(Q
1
i
(pi(k 1) + A

pi(k))) +
1
2
(R
1
ii
B

i
pi(k))

Rii
(R
1
ii
B

i
pi(k + 1)) + p

i
(k 1)Qi(pi(k 1) +
A

pi(k)) + p

i
(k)AQ
1
i
pi(k 1) p

i
(k)AQ
1
i
Api(k)
p

i
(k)BiR
1
ii
B

i
pi(k) + p

i
(k)
N

j=1,j=i
Bju

j
(k) +
1
2
N

j=1,j=i
u

j
(k)Riju

j
(k) + p

i
(k)Cz(k)) (36)
Desenvolvendo e realizando algumas manipulac oes alg ebricas obte-
1
Por simplicidade de notac ao e sem perda de generalidade, consideremos
as matrizes de ponderac ao e do sistema din amico como constantes, ou
seja:Q
i
(k) = Q
i
, R
i,j
(k) = R
ij
, A(k) = A e B
i
(k) = B
i
PROGRAMA DE P

OS-GRADUAC

AO EM ENGENHARIA DE TELEINFORM

ATICA-PPGETI 5
mos:
J
S
i
=
1
2
pi(T 1)Q
1
i
pi(T 1) +
1
2
Qi
1
2
p

i
(0)
V
1
..
BiR
1
ii
B

i
pi(0) +
1
2
N

j=1,j=i
u

j
(0)Riju

j
(0) + p

i
(0)
(A +
N

j=1,j=i
Bju

j
(0))
T1

k=1
(
1
2
p

i
(k 1)Q
1
i
pi(k 1) +
1
2
p

i
(k)
V
2
..
AQ
1
i
pi(k 1)
1
2
p

i
(k)
V
3
..
(AQ
1
i
A

+ BiR
1
ii
B

i
)
pi(k) +
1
2
p

i
(k 1)Q
1
i
A

pi(k) + p

i
(k)
N

j=1,j=i
BjR
1
ij
B

j
pj(k) +
1
2
N

j=1,j=i
u

j
(k)Riju

j
(k) + p

i
(k)Cz(k)) (37)
Desenvolvendo o somat orio para k K obtemos J
S
i
(i) como
dado em (30) onde : H
i
ii
e uma matriz bloco tridiagonal, sim etrica e
denida positiva com dimens ao nT nT e com blocos de dimens oes
n n dada por:
Para k K e V
kk
= V3 Q
1
i
, V
kk+1
= V

2
, V
kk1
=
V2, V00 = V1 Q
1
i
H
i
ii
=
_
_
_
_
V00 V01
V10 V11 V12
.
.
.
.
.
.
.
.
.
VT1,T2 VT1,T1
_

_
(38)
para :
bi =
_
_
_
_
_
_
(A

N
j=1, j=i
BjR
1
jj
B

j
pj(0) + Cz(0)

N
j=1, j=i
BjR
1
jj
B

j
pj(1) + Cz(1)
.
.
.

N
j=1, j=i
BjR
1
jj
B

j
pj(T 1) + Cz(T 1)
_

_
(39)
ci =
1
2

Qi +
1
2
N

j=1, j=i
T1

k=0
u

j
(k)Rijuj(k) (40)
D. Exist encia e unicidade da soluc ao de Nash
Para a determinac ao da soluc ao de equilbrio de Nash em jogos
quadr aticos estritamente c oncavos e natural denir as func oes de
reac ao [1] de cada agente como uma base te orica para as an alises
que se seguir ao. As func oes de reac ao se caracterizam pelo resultado
da maximizac ao das respectivas func oes objetivo em relac ao ` as
respectivas vari aveis de decis ao. As func oes s ao dadas por:
Wi(1, . . . , N) =
J
S
i
(1, . . . , N)
i
(41)
donde:
Wi(1, . . . , N) = H
i
ii
i
N

j=1,j=i
H
i
ij
j + r
i
(42)
onde: H
i
ij
e a matriz bloco diagonal nT nT com blocos n n
dada por:
H
i
ij
=
_
_
_
BjR
1
jj
B

j
.
.
.
BjR
1
jj
B

j
_

_ (43)
e
r
i
=
_
_
_
_
A + Cz(0)
Cz(1)
.
.
.
Cz(T 1)
_

_
(44)
Da concavidade de J
S
i
com relac ao a i, segue que Wi
e um
func ao decrescente de i para valores xados de j, j I e j = i.
Em termos dessas func oes, uma soluc ao de equilbrio deve satis-
fazer o sistema de equac oes:
Wi(1, . . . , N) = 0, i I (45)
Para estabelecer a unicidade e exist encia da soluc ao de equilbrio
de Nash, reescrevemos (45) para a forma compacta:
H

+ r = 0 (46)
onde:
H =
_
_
_
_
_
H
1
11
H
1
12
H
1
1N
H
2
21
H
2
22
H
2
2N
.
.
.
H
N
N1
H
N
N2
H
N
NN
_

_
(47)

(1, . . . , N) e r

(r
1
, . . . , r
N
), e propomos:
Proposic ao 2.1: O Jogo est atico e quadr atico de Nash para N
agentes de decis ao denido pelas func oes objetivo (30) admite uma
soluc ao unica

se e somente se a matriz denida por (47) for


inversivel, ou seja:

= H
1
r (48)
III. RESULTADOS PRELIMINARES
Como resultado inicial, apresentamos nesta sec ao a equival encia
entre a soluc ao de um problema via jogo de refer encia (JR) e via
o jogo hier arquico (JH) proposto. Consideremos, para tanto, sistema
din amico a seguir:
x(k + 1) =
_
0, 0 1, 0
0, 35 1, 2
_
x(k) +
_
1 0
0 1
_
u(k) (49)
x(0) =
_
1, 0
1, 0
_
Func ao objetivo:
J1 = J2 =
1
2
9

k=0
_
x

(k)
_
0, 1 0, 0
0, 0 0, 1
_
x(k) + u
2
1
(k) + u
2
2
(k)
_
(50)
De acordo com (49) e (50) os par ametros do sistema din amico
s ao:
A =
_
0, 0 1, 0
0, 35 1, 2
_
, B1 =
_
1
0
_
, B2 =
_
0
1
_
,
Q1 = Q2 =
_
0, 1 0
0 0, 1
_
, R11 = R12 = R21 = R22 = 1
As guras a seguir (1, 2, 3 e 4) mostram as curvas das estrat egias
(controles) e estados para as duas abordagens consideradas, o jogo
de refer encia e o jogo hier arquico.
PROGRAMA DE P

OS-GRADUAC

AO EM ENGENHARIA DE TELEINFORM

ATICA-PPGETI 6
0 1 2 3 4 5 6 7 8
0.06
0.05
0.04
0.03
0.02
0.01
0
0.01
k
u
1
(
k
)


JR
JD
Fig. 1. Estrat egia 1 via JR e JH
0 1 2 3 4 5 6 7 8
0.25
0.2
0.15
0.1
0.05
0
0.05
0.1
k
u
2
(
k
)


JR
JD
Fig. 2. Estrat egia 2 via JR e JH
IV. CONCLUS OES PRELIMINARES
Uma an alise sobre as curvas da sec ao (III) nos indica que a soluc ao
do problema via o jogo hier arquico proposto e equivalente ` a soluc ao
via o jogo de refer encia. Essa equival encia e possvel devido ao fato
de o sistema em quest ao possuir as mesmas condic oes iniciais em
ambos os jogos.
A obtenc ao da soluc ao via equac oes conjuntas de Riccati no JR
permite o c alculo de um ganho (ganho de Kalman)[13] que pode
ser utilizado para realizac ao do controle atrav es da realimentac ao de
estados. Uma vez que esse ganho tenha sido obtido, o mesmo poder a
ser utilizado para o controle do sistema din amico independentemente
das condic oes iniciais.
No caso do jogo hier arquico proposto (JH), a soluc ao encontrada
depende diretamente das condic oes iniciais do sistema din amico e
de possveis variac oes param etricas. Sendo, portanto, necess ario a
reformulac ao deste m etodo proposto para considerarmos a estrutura
de informac ao em malha-fechada.
A. Pr oximas Atividades
Para que os objetivos iniciais deste trabalho sejam alcancados com
exito, as atividades que restam s ao:
1) Pesquisar a possibilidade da obtenc ao do ganho de Kalman
atrav es da explorac ao da forma quadr atica est atica gerada
pelo jogo hier arquico proposto. Esperamos, com essa nova
abordagem, um custo computacional mais baixo que quando
comparado com a obtenc ao do ganho via resoluc ao das
equac oes conjuntas de Riccati.
2) Investigar a soluc ao do problema em malha fechada: se
assumirmos que o jogo est a ocorrendo em malha fechada,
0 1 2 3 4 5 6 7 8 9
0.2
0
0.2
0.4
0.6
0.8
1
1.2
k
x
1
(
k
)


JR
JD
Fig. 3. Estado x
1
via JR e JH
0 1 2 3 4 5 6 7 8 9
0.2
0
0.2
0.4
0.6
0.8
1
1.2
k
x
2
(
k
)


JR
JD
Fig. 4. Estado x
2
via JR e JH
devemos permitir que os jogadores adaptem suas estrat egias
(otimamente) em resposta a mudancas no estado do sistema. A
soluc ao do problema em malha fechada envolve a modicac ao
do problema em malha aberta para incluir a hip otese compor-
tamental da estrat egia de adaptac ao. As condic oes necess arias
s ao as mesmas, exceto que agora as equac oes a diferencas
que descrevem os co-estados devem permitir mudancas nos
controles uj(k) em respota a mudancas no estado x(k).
3) Extender a metodologia desenvolvida para o controle robusto
H de sistemas din amicos.
V. AGRADECIMENTOS
O trabalho em desenvolvimento tem o apoio do Departamento
de Engenharia de Teleinform atica e do Centro de Refer encia em
Automac ao e Rob otica (Centauro). Os agradecimentos v ao ao pro-
fessor Doutor Jos e Tarcisio Costa Filho pelo apoio na pesquisa e
conhecimentos transmitidos e ` a capes pelo apoio nanceiro.
REFERENCES
[1] Basar, T. e Olsder, G. J., Dynamic Noncooperative Game Theory, SIAM,
Philadelphia, 1999.
[2] Basar T., Paradigms for robustness in controller and lter design, em
Modeling and Control of Economic Systems, Elsevier, Neck (Ed.), pp.1-
13, 2003.
[3] Basar T. e Bernhard P., H-Optimal Control and Related Minimax
Design Problems, Birkhauser, Boston,1995.
[4] Bazaraa, M. S., Sherali, D. H., Shetty, C. M., Nonlinear Programming,
Theory and Algorithms, 3
a
Ed., Wiley, 2006.
[5] Cruz, Jose B., Leader-Follower Strategies for Multilevel Systems, IEEE
Transactions on Automatic Control, Vol. AC-23, N
o
2, April, 1978.
PROGRAMA DE P

OS-GRADUAC

AO EM ENGENHARIA DE TELEINFORM

ATICA-PPGETI 7
[6] Engwerda J.C., A Note on Cooperative Linear Quadratic Control, Dis-
cussion Paper, Tilburg University, Center for Economic Research, 2007.
[7] Engwerda J.C., LQ Dynamic Optimization and Differential Games, Chich-
ester, Wiley, 2005,.
[8] Engwerda J.C., Solving the scalar feedback Nash algebraic Riccati
equations:an eigenvector approach, IEEE Trans. Automat. Contr., Vol.48,
pp.847-853, 2003
[9] Francis B.A., , A course in H Control Theory, Lecture Notes in Control
and Information Sciences, Vol. 88, Springer-Verlag, Berlin, 1987.
[10] Haimes, Y. Y. e D. Li., Hierachical Multiobjective Analysis for Large-
scale Systems: Review and Current Status, Automatica, vol.24, N
o
1, 1988.
[11] Kulikowski, R., Decomposition and Competition in Multilevel Environ-
ment Control Systems.
[12] Luenberg, D. G., Optimization by Vector Space Methods, Wiley, New
York, 1969.
[13] Naidu, D. S., Optimal Control Systems,Electrical Engineering Textbook
Series, 2002.
[14] Nian, X.H., Suboptimal Strategies of Linear Quadratic Closed-loop
Differencial Games: An BMI Approach, ACTA AUTOMATICA SINICA,
Vol. 31, N
o
2.
[15] Pindyck, R. S., Optimal Economic Stabilization Policies inder Decen-
tralized Control and Conicting Objectives, IEEE Trans. AC, vol 22,
1977.
[16] Rasmusen, E., Games and Information: An Introduction to Game
Theory, 3
a
ed. Blackwell, Oxford, 2001.
[17] Silva Mota, M. J. Projeto de Controle Robusto via Otimizac ao Convexa
Multinvel para Acionamento de Motor de Induc ao. Dissertac ao de
Mestrado, Universidade Federal do Maranh ao, 2000.
[18] Starr, A. W. e Y. C. Ho, Nonzero-Sum Diferencial Games, JOTA, vol.3,
N
o
3, 1969.

Você também pode gostar