Escolar Documentos
Profissional Documentos
Cultura Documentos
DAS-9011 Sumrio a
Introduo ca Jogos Matriciais Estratgia Otima para o Agente Coluna e Estratgia Otima para o Agente Linha e Relao entre os Problema Px e Py ca Teorema Minimax
DAS-9011 Introduao c
Sumrio a
Introduo ca Jogos Matriciais Estratgia Otima para o Agente Coluna e Estratgia Otima para o Agente Linha e Relao entre os Problema Px e Py ca Teorema Minimax
DAS-9011 Introduao c
Fundamentos
Procedimentos de deciso entre mltiplos agentes a u independentes Natureza dinmica quando a ordem das decises afeta o a o resultado nal Natureza no-cooperativa quando cada agente se preocupa a com o benef prprio, o que tipicamente est em conito cio o a com os interesses dos demais agentes.
DAS-9011 Introduao c
Fundamentos
x RN o vetor de decises compartilhadas por M agentes e o independentes, x = (x1 . . . xM )T . a o e xm RNm so as decises do m-simo agente
M
Nm = N.
m=1
DAS-9011 Introduao c
Um jogo dito innito quando as decises de pelo menos um e o agente, so de um conjunto innito, e.g. xm RNm . a Um jogo dito nito quando as decises de todos os agentes e o so provenientes de conjuntos discretos, por exemplo, a xm Sm {1, . . . , k}. Um jogo dito dinmico quando as decises evoluem no e a o tempo:
de maneira cont nua com xm (t) descrevendo as decises do o agente m no instante t, ou de maneira discreta com xm (k) correspondendo `s decises a o para o agente durante a janela de tempo [tk , tk+1 ) para k = 0, 1, . . . , .
DAS-9011 Introduao c
Fundamentos
Distino entre aes (controles) e estratgias (regras de ca co e deciso ou pol a ticas de controle). Considere um motorista que deci sobre a rota de casa para o trabalho. Alternativas: tomar a rota mais curta atravs do tnel ou e u seguir a rodovia ao longo do lago.
DAS-9011 Introduao c
Fundamentos
Alternativas: tomar a rota mais curta atravs do tnel ou e u seguir a rodovia ao longo do lago. Uma estratgia para o motorista : e e
Se o tempo estiver chuvoso ou se o tnel estiver congestionado, u ento tomarei a rota mais longa ao longo do lago; a caso contrrio, tomarei o tnel. a u
Uma estratgia ou pol e tica de controle depende de informaes que no esto sob controle do agente. co a a
DAS-9011 Introduao c
Os resultados da estratgia, aps as informaes que no e o co a podem ser antecipadas (condies climticas e condies de co a co trfego) so conhecidas, so ditos aes. a a a co Estratgias podem ser: e
determin sticas, quando as aoes so funoes das condioes c a c c observadas (estado) ou estocsticas quando as aoes dependem das condioes mas so a c c a tomadas probabilisticamente.
DAS-9011 Introduao c
Seja fm (x) a funo ganho que o m-simo agente est ca e a tentando maximizar. fm depende tambm das decises de outros agentes, dando e o origem a um jogo dinmico. a Seja x(k) o agregado das decises dos agentes no instante tk . o Dado x(k), o melhor curso de ao do agente m uma ca e deciso do seu conjunto reativo Rm (x(k)) no ponto x(k), a sendo este denido por:
Rm (x) = {xm = argmaxym fm (x1 , . . . , xm1 , ym , xm+1 , . . . , xM )}
DAS-9011 Introduao c
O conjunto reativo Rm (x) contm as solues timas do e co o problema de maximizar fm sob a condio que as decises dos ca o outros so xas. a O agente m implementa uma deciso xm (k + 1) Rm (x(k)) a no instante tk+1 . Com todos os agentes reagindo `s decises dos demais com a o aes dos seus respectivos conjuntos reativos surge um co processo iterativo: x(k + 1) = G (x(k)) onde G (x) = (G1 (x) . . . Gm (x))T e Gm (x(k)) Rm (x(k)) dene a funo reativa de cada agente m = 1, . . . , M. ca
DAS-9011 Introduao c
O processo iterativo s pode ser estvel quando nenhum o a agente tem incentivo para se desviar de suas decises o correntes, o que equivale a dizer que: x(k + 1) = G (x(k)) x = G (x ) sendo x um ponto xo.
O ponto xo x um ponto estvel para agentes e a competitivos: qualquer agente m que implementar uma a o soluo xm = xm incorrer perdas a si prprio. ca Tais pontos so conhecidos por pontos Nash. a Convergncia de processos iterativos descritos. e
DAS-9011 Introduao c
Uma condio suciente para convergncia satisfeita quanto ca e e G (x) G (y ) < x y para alguma norma vetorial . Em jogos com soma zero (zero-sum games), onde o ganho de um agente corresponde ` perda de outro agente, no h a a a possibilidade para ganho mtuo que permita cooperao, a u ca menos que certos agentes sejam altru stas. Em situaes onde h possibilidade de cooperao, dois ou co a ca mais agentes podem ganhos maiores. Os pontos timos so conhecidos por solues Pareto. o a co
DAS-9011 Introduao c
Sumrio a
Introduo ca Jogos Matriciais Estratgia Otima para o Agente Coluna e Estratgia Otima para o Agente Linha e Relao entre os Problema Px e Py ca Teorema Minimax
Jogos Matriciais
Introduo ca
Cada agente seleciona uma ao dentre um nmero nito de ca u possibilidades. O agente 1, denotado por agente linha, escolhe a ao i . ca O agente 2, denotado por agente coluna, escolhe a ao j. ca Para o par de aes (i , j), o agente 1 paga aij unidades ao co agente 2 se aij > 0. Caso contrrio, se aij < 0, o agente 2 paga aij unidades ao a agente 1. O jogo representado por uma matriz A Rmn . e
A=
Conforme matriz A, cada iterao tem como resultado vitria ca o para um dos agentes (e derrota para o outro agente) ou empate. Nenhum agente possui uma estratgia determin e stica vencedora.
Qualquer estratgia xa pode ser explorada pelo agente e oponente. Novamente, os agentes devem randomizar suas estratgias. e Mas agora a probabilidade uniforme de 1/3 no mais tima. a e o
Contexto
Alm disso, qual dos agentes tem vantagem neste jogo? Note que: e aij = 10
i ,j:aij >0
i ,j:aij <0
aij = 11
o que nos leva a suspeitar que o agente linha tem vantagem neste jogo.
Para uma estratgia randomizada do agente linha, o agente e coluna observa que a probabilidade do agente linha escolher a opo i yi . ca e O vetor de probabilidades y Rm do agente linha chamado e de vetor estocstico, o qual satisfaz as propriedades: a y 0, e T y = 1 onde e um vetor com todas as entradas iguais a 1. e
Formalizao ca
A estratgia do agente coluna dada por um vetor estocstico e e a x. Ento o ganho esperado do agente coluna : a e
m n
yi aij xj = y T Ax.
i =1 j=1
Sumrio a
Introduo ca Jogos Matriciais Estratgia Otima para o Agente Coluna e Estratgia Otima para o Agente Linha e Relao entre os Problema Px e Py ca Teorema Minimax
O agente coluna decide jogar de acordo com a estratgia x. e A melhor defesa do agente linha a estratgia y que resolve e e o problema: y = Argmin y T Ax m y R Sujeito a : eT y = 1 y 0
(1)
Sabemos que existe pelo menos uma soluo bsica tima. ca a o Por exemplo, suponha que x = (1/3, 1/3, 1/3). Ento: a 0 1 2 1/3 3 0 4 x = 1/3 5 6 0 1/3 A melhor estratgia para o agente linha y = (1, 0, 0), e e = (0, 0, 1), ou qualquer combinao convexa de y e y . y ca
(2)
Estratgia e
O problema (1) pode ser resolvido atravs de programao e ca linear. O problema (2) envolve dois operadores de otimizao. ca De que forma poder amos resolver (2)?
O problema (2) pode ser resolvido por meio de programao ca linear. J vericamos como que o problema interno (Min) pode ser a resolvido por meio de uma estratgia determin e stica:
T T T = Max Min {e1 Ax, e2 Ax, . . . , em Ax} x (3) onde ei um vetor com todas as entradas iguais a zero, com e exceo da i -sima entrada. ca e
Max Min y T Ax x y
Concluso a
Os desenvolvimentos acima mostram que a estratgia tima x do e o agente coluna precisamente a soluo do problema Px . e ca
Sumrio a
Introduo ca Jogos Matriciais Estratgia Otima para o Agente Coluna e Estratgia Otima para o Agente Linha e Relao entre os Problema Px e Py ca Teorema Minimax
Sumrio a
Introduo ca Jogos Matriciais Estratgia Otima para o Agente Coluna e Estratgia Otima para o Agente Linha e Relao entre os Problema Px e Py ca Teorema Minimax
Obter o problema dual de Px . Introduzir as variveis duais y (para as linhas da matriz A) e a a varivel w para a ultima restrio de Px , conforme segue: a ca Px : Max S.a : (y ) (w ) A e eT 0 x 0 z irrestrito. x z = 0 1 (7) 0 1 x z
0 1
y w (8)
y 0 w irrestrito
Concluso a
Conclu mos que o dual de Px Py , ou seja, Px Py . e Ao resolver seu problema Px , o agente coluna obtm sua e e tambm a estratgia tima y do agente estratgia tima x e o e e o linha.
Sumrio a
Introduo ca Jogos Matriciais Estratgia Otima para o Agente Coluna e Estratgia Otima para o Agente Linha e Relao entre os Problema Px e Py ca Teorema Minimax
Teorema Minimax
Inicialmente demonstrado por John Von Neumann em 1928, pode ser facilmente demonstrado atravs da Teoria da Dualidade Linear. e
Teorema Minimax
Existem vetores estocsticos x e y para os quais a Max y T Ax x = Min y T Ax . y
Teorema Minimax
Prova
O dual de Px Py e ambos os problemas tm regies fact e e o veis limitadas. conclu mos que z = w , sendo z o valor timo de Px e w o o valor timo de Py . o Pelo lado de Px , deduzimos que:
T T z = max min{e1 Ax, . . . , em Ay } x T T = min{e1 Ax , . . . , em Ax }
= min y T Ax
y
Teorema Minimax
Prova (Continuao) ca
Teorema Minimax
O valor timo z = w dos problemas primal e dual o e chamado de valor timo do jogo. o Ao adotar a estratgia y , o agente linha garante que no e a unidades em mdia. perder mais do que w a e Similarmente, o agente coluna assegura que receber pelo a menos z unidades em mdia se adotar a estratgia x . e e
Teorema Minimax
Um jogo com valor z = w = 0 dito justo. e Jogos cujos papis dos agentes podem ser invertidos so ditos e a jogos simtricos. e Esses jogos so justo e caracterizados por aij = aji para todo a i , j, isto , A = AT . e Uma matriz A dita anti-simtrica se A = AT . e e