Você está na página 1de 46

DAS-9011

Teoria dos Jogos


Eduardo Camponogara
Departamento de Automao e Sistemas ca Universidade Federal de Santa Catarina

DAS-9011: Mtodos de Otimizao e ca

DAS-9011 Sumrio a

Introduo ca Jogos Matriciais Estratgia Otima para o Agente Coluna e Estratgia Otima para o Agente Linha e Relao entre os Problema Px e Py ca Teorema Minimax

DAS-9011 Introduao c

Sumrio a
Introduo ca Jogos Matriciais Estratgia Otima para o Agente Coluna e Estratgia Otima para o Agente Linha e Relao entre os Problema Px e Py ca Teorema Minimax

DAS-9011 Introduao c

Teoria dos Jogos

Fundamentos

Procedimentos de deciso entre mltiplos agentes a u independentes Natureza dinmica quando a ordem das decises afeta o a o resultado nal Natureza no-cooperativa quando cada agente se preocupa a com o benef prprio, o que tipicamente est em conito cio o a com os interesses dos demais agentes.

DAS-9011 Introduao c

Teoria dos Jogos

Fundamentos

x RN o vetor de decises compartilhadas por M agentes e o independentes, x = (x1 . . . xM )T . a o e xm RNm so as decises do m-simo agente
M

Nm = N.
m=1

DAS-9011 Introduao c

Teoria dos Jogos


Fundamentos

Um jogo dito innito quando as decises de pelo menos um e o agente, so de um conjunto innito, e.g. xm RNm . a Um jogo dito nito quando as decises de todos os agentes e o so provenientes de conjuntos discretos, por exemplo, a xm Sm {1, . . . , k}. Um jogo dito dinmico quando as decises evoluem no e a o tempo:

de maneira cont nua com xm (t) descrevendo as decises do o agente m no instante t, ou de maneira discreta com xm (k) correspondendo `s decises a o para o agente durante a janela de tempo [tk , tk+1 ) para k = 0, 1, . . . , .

DAS-9011 Introduao c

Teoria dos Jogos

Fundamentos

Distino entre aes (controles) e estratgias (regras de ca co e deciso ou pol a ticas de controle). Considere um motorista que deci sobre a rota de casa para o trabalho. Alternativas: tomar a rota mais curta atravs do tnel ou e u seguir a rodovia ao longo do lago.

DAS-9011 Introduao c

Teoria dos Jogos

Fundamentos

Alternativas: tomar a rota mais curta atravs do tnel ou e u seguir a rodovia ao longo do lago. Uma estratgia para o motorista : e e

Se o tempo estiver chuvoso ou se o tnel estiver congestionado, u ento tomarei a rota mais longa ao longo do lago; a caso contrrio, tomarei o tnel. a u

Uma estratgia ou pol e tica de controle depende de informaes que no esto sob controle do agente. co a a

DAS-9011 Introduao c

Teoria dos Jogos


Fundamentos

Os resultados da estratgia, aps as informaes que no e o co a podem ser antecipadas (condies climticas e condies de co a co trfego) so conhecidas, so ditos aes. a a a co Estratgias podem ser: e

determin sticas, quando as aoes so funoes das condioes c a c c observadas (estado) ou estocsticas quando as aoes dependem das condioes mas so a c c a tomadas probabilisticamente.

H jogos onde a estratgia tima deve ser necessariamente a e o estocstica. a

DAS-9011 Introduao c

Teoria dos Jogos


Fundamentos: noo de otimalidade ca

Seja fm (x) a funo ganho que o m-simo agente est ca e a tentando maximizar. fm depende tambm das decises de outros agentes, dando e o origem a um jogo dinmico. a Seja x(k) o agregado das decises dos agentes no instante tk . o Dado x(k), o melhor curso de ao do agente m uma ca e deciso do seu conjunto reativo Rm (x(k)) no ponto x(k), a sendo este denido por:
Rm (x) = {xm = argmaxym fm (x1 , . . . , xm1 , ym , xm+1 , . . . , xM )}

DAS-9011 Introduao c

Teoria dos Jogos


Fundamentos: noo de otimalidade ca

O conjunto reativo Rm (x) contm as solues timas do e co o problema de maximizar fm sob a condio que as decises dos ca o outros so xas. a O agente m implementa uma deciso xm (k + 1) Rm (x(k)) a no instante tk+1 . Com todos os agentes reagindo `s decises dos demais com a o aes dos seus respectivos conjuntos reativos surge um co processo iterativo: x(k + 1) = G (x(k)) onde G (x) = (G1 (x) . . . Gm (x))T e Gm (x(k)) Rm (x(k)) dene a funo reativa de cada agente m = 1, . . . , M. ca

DAS-9011 Introduao c

Teoria dos Jogos


Fundamentos: noo de otimalidade ca

O processo iterativo s pode ser estvel quando nenhum o a agente tem incentivo para se desviar de suas decises o correntes, o que equivale a dizer que: x(k + 1) = G (x(k)) x = G (x ) sendo x um ponto xo.

O ponto xo x um ponto estvel para agentes e a competitivos: qualquer agente m que implementar uma a o soluo xm = xm incorrer perdas a si prprio. ca Tais pontos so conhecidos por pontos Nash. a Convergncia de processos iterativos descritos. e

DAS-9011 Introduao c

Teoria dos Jogos


Fundamentos: noo de otimalidade ca

Uma condio suciente para convergncia satisfeita quanto ca e e G (x) G (y ) < x y para alguma norma vetorial . Em jogos com soma zero (zero-sum games), onde o ganho de um agente corresponde ` perda de outro agente, no h a a a possibilidade para ganho mtuo que permita cooperao, a u ca menos que certos agentes sejam altru stas. Em situaes onde h possibilidade de cooperao, dois ou co a ca mais agentes podem ganhos maiores. Os pontos timos so conhecidos por solues Pareto. o a co

DAS-9011 Introduao c

Teoria dos Jogos

Fundamentos: noo de otimalidade ca


Um vetor de decises x P pertence ao conjunto Pareto, denotado o por P, se: x tal que fm (x) fm (x P ), m = 1, . . . , M e tal que: fm (x) > fm (x P ) para algum m x P P se no existe um conjunto de decises que induza ganhos a o melhores do que os induzidos por x P para todos os agentes.

DAS-9011 Jogos Matriciais

Sumrio a
Introduo ca Jogos Matriciais Estratgia Otima para o Agente Coluna e Estratgia Otima para o Agente Linha e Relao entre os Problema Px e Py ca Teorema Minimax

DAS-9011 Jogos Matriciais

Jogos Matriciais
Introduo ca

Cada agente seleciona uma ao dentre um nmero nito de ca u possibilidades. O agente 1, denotado por agente linha, escolhe a ao i . ca O agente 2, denotado por agente coluna, escolhe a ao j. ca Para o par de aes (i , j), o agente 1 paga aij unidades ao co agente 2 se aij > 0. Caso contrrio, se aij < 0, o agente 2 paga aij unidades ao a agente 1. O jogo representado por uma matriz A Rmn . e

DAS-9011 Jogos Matriciais O Jogo da Tesoura, Pedra e Papel

O Jogo da Tesoura, Pedra e Papel


Introduo ca
Matriz do jogo da Tesoura, pedra e papel: Papel Tesoura Pedra Papel 0 1 1 Tesoura Pedra 1 1 0 1 1 0

A=

Conforme matriz A, cada iterao tem como resultado vitria ca o para um dos agentes (e derrota para o outro agente) ou empate. Nenhum agente possui uma estratgia determin e stica vencedora.

DAS-9011 Jogos Matriciais Um Jogo Menos Trivial

Um Jogo Menos Trivial


Contexto
A matriz de ganhos e perdas : e 0 1 2 A = 3 0 4 5 6 0

Qualquer estratgia xa pode ser explorada pelo agente e oponente. Novamente, os agentes devem randomizar suas estratgias. e Mas agora a probabilidade uniforme de 1/3 no mais tima. a e o

DAS-9011 Jogos Matriciais Um Jogo Menos Trivial

Um Jogo Menos Trivial

Contexto
Alm disso, qual dos agentes tem vantagem neste jogo? Note que: e aij = 10
i ,j:aij >0

i ,j:aij <0

aij = 11

o que nos leva a suspeitar que o agente linha tem vantagem neste jogo.

DAS-9011 Jogos Matriciais Formalizaao c

Formalizao de Jogos Matriciais ca


Formalizao ca

Para uma estratgia randomizada do agente linha, o agente e coluna observa que a probabilidade do agente linha escolher a opo i yi . ca e O vetor de probabilidades y Rm do agente linha chamado e de vetor estocstico, o qual satisfaz as propriedades: a y 0, e T y = 1 onde e um vetor com todas as entradas iguais a 1. e

DAS-9011 Jogos Matriciais Formalizaao c

Formalizao de Jogos Matriciais ca

Formalizao ca

A estratgia do agente coluna dada por um vetor estocstico e e a x. Ento o ganho esperado do agente coluna : a e
m n

yi aij xj = y T Ax.
i =1 j=1

DAS-9011 Estratgia Otima para o Agente Coluna e

Sumrio a
Introduo ca Jogos Matriciais Estratgia Otima para o Agente Coluna e Estratgia Otima para o Agente Linha e Relao entre os Problema Px e Py ca Teorema Minimax

DAS-9011 Estratgia Otima para o Agente Coluna e

Estratgia Otima do Agente Coluna e


Estratgia e

O agente coluna decide jogar de acordo com a estratgia x. e A melhor defesa do agente linha a estratgia y que resolve e e o problema: y = Argmin y T Ax m y R Sujeito a : eT y = 1 y 0

(1)

DAS-9011 Estratgia Otima para o Agente Coluna e

Estratgia Otima do Agente Coluna e


Estratgia e

Sabemos que existe pelo menos uma soluo bsica tima. ca a o Por exemplo, suponha que x = (1/3, 1/3, 1/3). Ento: a 0 1 2 1/3 3 0 4 x = 1/3 5 6 0 1/3 A melhor estratgia para o agente linha y = (1, 0, 0), e e = (0, 0, 1), ou qualquer combinao convexa de y e y . y ca

DAS-9011 Estratgia Otima para o Agente Coluna e

Estratgia Otima do Agente Coluna e


Estratgia e
Dado x o agente linha escolhe uma estratgia y que produz o e m nimo, ento o agente coluna pode se antecipar escolhendo a a estratgia x , produzindo o mximo do problema: e a x = Argmax Min y T Ax x y S.a : eT x = 1 eT y = 1 x, y 0

(2)

DAS-9011 Estratgia Otima para o Agente Coluna e

Estratgia Otima do Agente Coluna e

Estratgia e

O problema (1) pode ser resolvido atravs de programao e ca linear. O problema (2) envolve dois operadores de otimizao. ca De que forma poder amos resolver (2)?

DAS-9011 Estratgia Otima para o Agente Coluna e

Estratgia Otima do Agente Coluna e


Estratgia e

O problema (2) pode ser resolvido por meio de programao ca linear. J vericamos como que o problema interno (Min) pode ser a resolvido por meio de uma estratgia determin e stica:
T T T = Max Min {e1 Ax, e2 Ax, . . . , em Ax} x (3) onde ei um vetor com todas as entradas iguais a zero, com e exceo da i -sima entrada. ca e

Max Min y T Ax x y

DAS-9011 Estratgia Otima para o Agente Coluna e

Estratgia Otima do Agente Coluna e


Estratgia e
O problema (3) pode ser expresso em programao linear como ca segue: Px : Max z S.a : T z e1 Ax . . .
T z em Ax Tx = 1 e x 0 z irrestrito em sinal

Max z S.a : ez Ax eT x = 1 x 0 z irrestrito em sinal

DAS-9011 Estratgia Otima para o Agente Coluna e

Estratgia Otima do Agente Coluna e


Estratgia e
O problema acima pode se colocado em uma forma matricial: Px : Max S.a : A e x eT 0 z = x 0 z irrestrito em sinal 0 1 (4) 0 1 x z

DAS-9011 Estratgia Otima para o Agente Coluna e

Estratgia Otima do Agente Coluna e

Concluso a
Os desenvolvimentos acima mostram que a estratgia tima x do e o agente coluna precisamente a soluo do problema Px . e ca

DAS-9011 Estratgia Otima para o Agente Linha e

Sumrio a
Introduo ca Jogos Matriciais Estratgia Otima para o Agente Coluna e Estratgia Otima para o Agente Linha e Relao entre os Problema Px e Py ca Teorema Minimax

DAS-9011 Estratgia Otima para o Agente Linha e

Estratgia Otima do Agente Linha e


Fundamentos
Por simetria, o agente linha procura uma estratgia y que produz e a soluo tima do problema min-max: ca o Min Max y T Ax Min Max {y T Ae1 , y T Ae2 , . . . , y T Aen } y x y S.a : S.a : Ty = 1 e eT y = 1 Tx = 1 e y 0 x, y 0 (5)

DAS-9011 Estratgia Otima para o Agente Linha e

Estratgia Otima do Agente Linha e


Estratgia e
O problema (5) pode ser expresso em programo linear como ca segue: Py : Min w S.a : w y T Ae1 . . . w y T Aen eT y = 1 y 0 w irrestrito em sinal Min w S.a : ew AT y eT y = 1 y 0 w irrestrito em sinal

DAS-9011 Estratgia Otima para o Agente Linha e

Estratgia Otima do Agente Linha e


Estratgia e
Podemos expressar o problema de encontrar uma estratgia otima e em forma matricial: Py : Min S.a : AT e y eT 0 w = y 0 w irrestrito em sinal 0 1 (6) 0 1 y w

DAS-9011 Relaao entre os Problema Px e Py c

Sumrio a
Introduo ca Jogos Matriciais Estratgia Otima para o Agente Coluna e Estratgia Otima para o Agente Linha e Relao entre os Problema Px e Py ca Teorema Minimax

DAS-9011 Relaao entre os Problema Px e Py c

Relao entre os Problemas Px e Py ca


Relao ca

Obter o problema dual de Px . Introduzir as variveis duais y (para as linhas da matriz A) e a a varivel w para a ultima restrio de Px , conforme segue: a ca Px : Max S.a : (y ) (w ) A e eT 0 x 0 z irrestrito. x z = 0 1 (7) 0 1 x z

DAS-9011 Relaao entre os Problema Px e Py c

Relao entre os Problemas Px e Py ca


Relao ca
O dual do problema (7) : e Px : Min S.a : yT wT A e eT 0 = 0 1
T

0 1

y w (8)

y 0 w irrestrito

DAS-9011 Relaao entre os Problema Px e Py c

Relao entre os Problemas Px e Py ca


Relao ca
O problema acima pode ser manipulado de forma a se obter: Px : Min S.a : AT e eT 0 y 0 w irrestrito y w = 0 1 (9) 0 1 y w

DAS-9011 Relaao entre os Problema Px e Py c

Relao entre os Problemas Px e Py ca

Concluso a

Conclu mos que o dual de Px Py , ou seja, Px Py . e Ao resolver seu problema Px , o agente coluna obtm sua e e tambm a estratgia tima y do agente estratgia tima x e o e e o linha.

DAS-9011 Teorema Minimax

Sumrio a
Introduo ca Jogos Matriciais Estratgia Otima para o Agente Coluna e Estratgia Otima para o Agente Linha e Relao entre os Problema Px e Py ca Teorema Minimax

DAS-9011 Teorema Minimax

Teorema Minimax

Inicialmente demonstrado por John Von Neumann em 1928, pode ser facilmente demonstrado atravs da Teoria da Dualidade Linear. e

Teorema Minimax
Existem vetores estocsticos x e y para os quais a Max y T Ax x = Min y T Ax . y

DAS-9011 Teorema Minimax

Teorema Minimax
Prova

O dual de Px Py e ambos os problemas tm regies fact e e o veis limitadas. conclu mos que z = w , sendo z o valor timo de Px e w o o valor timo de Py . o Pelo lado de Px , deduzimos que:
T T z = max min{e1 Ax, . . . , em Ay } x T T = min{e1 Ax , . . . , em Ax }

[x soluo tima de Px ] e ca o [Soluo bsica tima] ca a o

= min y T Ax
y

DAS-9011 Teorema Minimax

Teorema Minimax
Prova (Continuao) ca

Pelo lado de Py , deduzimos que: w = min max{y T Ae1 , . . . , y T Aen }


y

e ca o = max{y T Ae1 , . . . , y T Aen } [y soluo tima de Py ] = max y T Ax


x

[Soluo bsica tima] ca a o

A partir dos desenvolvimentos acima conclu mos que: min y T Ax = z = w = max y T Ax


y x

DAS-9011 Teorema Minimax

Teorema Minimax

O valor timo z = w dos problemas primal e dual o e chamado de valor timo do jogo. o Ao adotar a estratgia y , o agente linha garante que no e a unidades em mdia. perder mais do que w a e Similarmente, o agente coluna assegura que receber pelo a menos z unidades em mdia se adotar a estratgia x . e e

DAS-9011 Teorema Minimax

Teorema Minimax

Um jogo com valor z = w = 0 dito justo. e Jogos cujos papis dos agentes podem ser invertidos so ditos e a jogos simtricos. e Esses jogos so justo e caracterizados por aij = aji para todo a i , j, isto , A = AT . e Uma matriz A dita anti-simtrica se A = AT . e e

DAS-9011 Teorema Minimax

Teoria dos Jogos

Fim! Obrigado pela presena c

Você também pode gostar