Escolar Documentos
Profissional Documentos
Cultura Documentos
Prefcio
Estas notas de aula foram feitas para compilar o contedo de vrias referncias bibliogrficas
tendo em vista o contedo programtico de uma disciplina introdutria de Teoria dos Jogos
a nvel de Ps-graduao. Em particular, elas no substituem a consulta a livros textos e
artigos. Seu principal objetivo dispensar a necessidade dos alunos terem que copiar as
aulas e, deste modo, poderem se concentrar em entender o contedo das mesmas.
Recife, maro de 2011.
Leandro Chaves Rgo, Ph.D.
Contedo
Prefcio
1
1
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
4
6
7
10
10
16
18
21
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
24
24
25
25
26
26
26
27
28
28
28
30
32
36
37
39
39
ii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
40
41
41
43
45
46
48
53
53
53
56
Forma Normal
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
79
79
79
83
.
.
.
.
.
.
.
.
.
.
86
86
86
88
88
89
.
.
.
.
92
92
92
95
97
3.6
3.7
6 Jogos Bayesianos
6.1 Introduo . . . . . . . . . . . .
6.2 Definio . . . . . . . . . . . . .
6.2.1 Estratgias . . . . . . .
6.2.2 Representao em Forma
6.2.3 Equilbrio Bayesiano . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
para Jogos em
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . .
. . . . .
. . . . .
Normal
. . . . .
.
.
.
.
.
.
.
.
.
.
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
57
60
61
63
64
65
71
72
73
8 Jogos Repetidos
8.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Jogos Repetidos Infinitas Vezes . . . . . . . . . . . . . . . . . . . . . . . . .
8.3 Estratgias como Mquinas . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.4 Estratgias Gatilho: Teoremas de Nash Folk . . . . . . . . . . . . . . . . . .
8.5 Punindo por Tempo Limitado: Um Teorema de Folk Perfeito para o Critrio
do Limite das Mdias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.6 Punindo quem no Pune: Um Teorema de Folk Perfeito para o Critrio da
Ultrapassagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.7 Recompensando quem Pune: Um Teorema de Folk Perfeito para o Critrio
do Desconto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.8 Jogos Repetidos Finitas Vezes . . . . . . . . . . . . . . . . . . . . . . . . . .
8.8.1 Equilbrio de Nash . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.8.2 Equilbrio de Subjogo Perfeito . . . . . . . . . . . . . . . . . . . . . .
107
109
110
111
Referncias Bibliogrficas
114
iv
98
98
98
100
102
104
106
Captulo 1
Introduo Teoria dos Jogos
1.1
Definio 1.1.1: Teoria dos jogos um ramo da matemtica aplicada que analisa a interao
de um grupo de agentes (ou jogadores) racionais que se comportam estrategicamente.
Esta definio contm um nmero de conceitos importantes que discutiremos a seguir:
Agentes ou Jogadores: So as entidades que precisam tomar decises em uma dada
situao. Por exemplo, essas entidades podem ser indivduos, empresas, animais, pases,
times, sindicatos, etc.
Grupo: Em geral, assume-se que jogos contm mais de um agente. Se a situao contm
apenas um agente, o jogo se transforma em uma problema de deciso.
Interao: Deve existir pelo menos um agente cujas decises influencie nas decises
de algum outro agente do grupo, caso contrrio, tem-se uma srie de problemas de deciso
independentes.
Estrategicamente: Agentes levam em conta as interdependncias entre suas escolhas
quando tomando suas decises.
Racionais: Agentes levam em conta a interdependncia entre suas escolhas e agem de
forma a obter consequncias mais prximas possveis de objetivos pr-estabelecidos dado
conhecimento de como outros agentes do grupo se comportam.
No sentido usual um jogo uma atividade competitiva no qual jogadores disputam uns
com os outros de acordo com um conjunto de regras. O escopo de aplicaes de teoria dos
jogos bem maior do que esses jogos. Por exemplo, podemos utilizar teoria dos jogos para
modelar: firmas que competem por um mercado, polticos competindo por votos, membros de
um juri decidindo sobre um veredito, animais brigando por uma presa, pessoas competindo
em um leilo, etc.
Exemplo 1.1.2: Assuma que 6 pessoas vo a um bar. Se cada uma delas paga sua prpria
conta, temos 6 problemas de deciso. Se elas rateiam a conta igualmente, temos um problema
de teoria dos jogos.
Uma anlise por Teoria dos Jogos comea com uma idia relacionada a algum aspecto
sobre uma interao entre agentes. Ns expressamos essa idia precisamente atravs de um
1
modelo, incluindo aspectos da situao que parecem ser relevantes. Esta etapa a arte de
modelagem. Em geral, precisamos de um modelo rico o suficiente para que possamos obter
resultados no-triviais, mas no to detalhado que nos levem a complicaes desnecessrias
na nossa anlise do modelo, a prxima etapa. Esta anlise pode confirmar ou no nossas
intuies sobre a situao. Se nossa intuio estiver realmente errada, a anlise pode nos
ajudar a entender por que ela est errada. Caso contrrio, podemos chegar a concluso que
uma suposio do modelo foi inapropriada, ou que um elemento importante est faltando
no modelo. Enfim, poderemos tentar estudar a situao com um outro modelo ou chegar
a concluso que nossa intuio no era vlida. Portanto, tanto nossas intuies podem
esclarecer que algumas suposies do modelo no so apropriadas, como a anlise do modelo
pode esclarecer que nossa intuio no fazia sentido. Em ambas as situaes, o processo de
formulao e anlise do modelo melhorar nosso entendimento sobre a situao que estamos
considerando.
1.2
Experimentos de Motivao
Experimento 1: Suponha que urna A contm 100 bolas, sendo 90 brancas, 6 vermelhas, 1
verde, e 3 amarelas. Uma urna B contm 100 bolas, sendo 90 brancas, 7 vermelhas, 1 verde
e 2 amarelas. Voc tem que escolher entre sortear uma bola da urna A ou da urna B. Se
uma bola retirada da urna A, voc recebe R$0 se a bola for branca, R$45 se a bola for
vermelha, R$30 se a bola for verde e voc tem que pagar R$15 se a bola for amarela. Se
uma bola retirada da urna B, voc recebe R$0 se a bola for branca, R$45 se a bola for
vermelha, voc tm que pagar R$10 se a bola for verde e pagar R$15 se a bola for amarela.
O que voc prefere?
Experimento 2: Cada um de vocs (estudantes neste curso) tem de escolher um nmero
inteiro entre 0 e 100. Suponha que duplas de estudantes sero formadas aleatoriamente e de
cada dupla sair vencedor o estudante que escolher o maior inteiro que no for maior que
2/3 da mdia dos dois nmeros escolhidos pela dupla. Escolha o seu nmero e justifique a
sua escolha.
Experimento 3: Cada um de vocs (estudantes neste curso) tem de escolher um nmero
inteiro entre 0 e 100. Cada estudante que escolher o maior inteiro que no for maior que 2/3
da mdia de todas as respostas ganhar um bilhete premiado da Mega-sena. Escolha o seu
nmero e justifique a sua escolha.
Experimento 4: Imagine que voc um dos jogadores no seguinte jogo envolvendo duas
pessoas:
Cada um dos jogadores tem que escolher uma quantidade entre R$180 e R$300.
Ambos jogadores recebem o pagamento igual a menor das duas quantidades escolhidas.
R$50 reais so transferidos do jogador que escolher a quantidade maior para o jogador
que escolher a quantidade menor.
Autor: Leandro Chaves Rgo
No caso em que ambos jogadores escolhem mesma quantidade, eles recebem esta quantidade e nenhuma transferncia feita.
Escolha sua quantidade e justifique sua escolha.
Experimento 5: Cada um de vocs participaro em um leilo para um carro de valor de
marcado de R$100.000,00 (cem mil reais). A regra do leilo a seguinte: para participar
do leilo voc ter que pagar R$50,00 e fazer uma oferta em valores inteiros de reais para
arrematar o carro. Ganha o carro a pessoa com a menor oferta nica. Escolha sua oferta e
justifique a sua escolha.
Experimento 6: Voc est participando em um jogo com 4 outros jogadores. No jogo, cada
jogador recebe R$100,00 reais. Voc tem que decidir como distribuir este dinheiro entre dois
fundos de investimento diferentes:
1. Seu fundo pessoal: para cada real que voc investe em seu fundo pessoal, somente voc
receber R$4,00 reais.
2. Fundo participativo: para cada real que qualquer jogador investir neste fundo participativo, todos os jogadores recebero R$2,00, independentemente de quanto cada
jogador tenha ele prprio investido neste fundo.
Voc pode distribuir o dinheiro da maneira que voc desejar. Diga quantos reais voc investir no fundo participativo e justifique sua escolha.
Captulo 2
Jogos de Uma Pessoa - Teoria da Deciso
2.1
Neste captulo, ns estudamos a teoria da deciso ou teria da escolha racional que pode ser
vista como um jogo onde o decisor joga com ele mesmo. Agentes frequentemente enfrentam
situaes nas quais eles tm que tomar uma deciso. As aes dos outros agentes no
influenciam minhas preferncias sobre as opes disponveis. Portanto, no existe interao
estratgica envolvida. Jogos propriamente ditos sero discutidos nos captulos seguintes.
2.1.1
Relaes Binrias
Existem vrias propriedades que uma dada relao binria pode ou no satisfazer. Uma
relao binria em X pode ser:
4
reflexiva se xBx, x X;
irreflexiva se xBx, x X;
simtrica se xBy implica yBx;
assimtrica se xBy implica yBx;
anti-simtrica se xBy e yBx implicam x = y;
transitiva se xBy e yBz implicam xBz;
negativamente transitiva se xBy e yBz implicam xBz;
completa ou conectada se para todo x, y X, xBy ou yBx;
fracamente conectada se para todo x, y X, x = y, xBy, ou yBx;
acclica se x1 Bx2 , x2 Bx3 , . . . , xn1 Bxn implica x1 = xn .
Existem algumas relaes importantes entre essas propriedades. Antes vamos provar o
seguinte lema que caracteriza a propriedade da transitividade negativa.
Lema 2.1.3 : Uma relao binria B negativamente transitiva se, e somente se, xBz
implica que, para todo y X, xBy ou yBz.
Prova: Note que afirmar que [xBz implica que, para todo y X, xBy ou yBz] equivalente
a afirmar que [se existe y X tal que xBy e yBz, ento xBz], mas a ltima afirmao
a definio de transitividade negativa.
Corolrio 2.1.4: Se uma relao binria B negativamente transitiva, ento para todo
x, y X, temos (1) xBy, (2) yBx, ou (3) para todo z X, (a) xBz se, e somente se, yBz,
e (b) zBx se, e somente se, zBy.
Prova: Exerccio.
Lema 2.1.5: Se uma relao binria B assimtrica e negativamente transitiva, ento ela
(a) irreflexiva, (b) transitiva e (c) acclica.
Prova: Para parte (a), suponha por contradio que B no fosse irreflexiva, ento existe
x X tal que xBx. Assimetria ento implica que xBx, absurdo.
Para parte (b), suponha que xBy e yBz. Como B negativamente transitiva, Lema 2.1.3
implica que como xBy, ento zBy ou xBz. Como yBz e B assimtrica sabemos que zBy,
portanto xBz, ou seja, B transitiva.
Para parte (c), se x1 Bx2 , x2 Bx3 , . . . , xn1 Bxn , transitividade implica que x1 Bxn . Como
B irreflexiva, isto implica que x1 = xn . Portanto, B acclica.
Autor: Leandro Chaves Rgo
2.1.2
Relao de Preferncia
Nesta seo, suponha que existe um conjunto de objetos X e um agente que capaz de fazer
comparaes desses objetos par a par da seguinte maneira, Eu prefiro estritamente x a y,
que representaremos por x y. Note que estas comparaes definem uma relao binria.
Usaremos a notao x y para representar x y.
Definio 2.1.7 : Uma relao binria em um conjunto X chamada de relao de
preferncia se ela for assimtrica e negativamente transitiva.
Note que o Lema 2.1.5 implica que toda relao de preferncia irreflexiva, transitiva e
acclica. natural requerer que esta relao de preferncia estrita satisfaa assimetria, pois
se o agente prefere estritamente x a y, ele no deve preferir estritamente y a x. Apesar de
ser usual requerer que uma relao de preferncia satisfaa a transitividade negativa, esta
propriedade pode em alguns casos no parecer razovel. Por exemplo, suponha que X =
(0, ) (0, ), onde (x1 , x2 ) X pode ser interpretado como uma cesta com x1 cachorros
quentes e x2 fatias de bolos, um agente pode por exemplo preferir (10, 10) estritamente a
(9, 9), mas no ser capaz de afirmar que (10, 10) (15, 6) ou que (15, 6) (9, 9), ele pode
alegar que estas comparaes so muito difceis para ele fazer. Apesar disto, prosseguiremos
com a suposio usual que toda relao de preferncia negativamente transitiva.
Dada uma relao de preferncia que expressa preferncia estrita, podemos definir outras
duas relaes binrias:
x y, se y x;
x y, se x y e y x.
A relao conhecida como preferncia fraca, embora ela apenas expresse a falta
de preferncia estrita. A relao chamada de indiferena, ela expressa ausncia de
preferncia estrita entre dois objetos, o que s vezes pode ser diferente de indiferena.
Autor: Leandro Chaves Rgo
2.1.3
Representao Ordinal
Estamos interessados em relaes de preferncia que possam ser representadas por uma
funo de utilidade u : X IR no seguinte sentido:
x y se, e somente se, u(x) > u(y), x, y X.
(2.1)
O teorema a seguir afirma que uma relao binria precisa ser uma relao de preferncia a
fim de que possa ser representada por uma funo de utilidade.
Teorema 2.1.9: Seja X finito ou enumervel. Uma relao binria pode ser representada
por uma funo de utilidade u no sentido de (2.1) se, e somente se, for uma relao de
preferncia.
Prova: Suponha que existe tal funo u que represente a relao binria. Suponha que
x y, como u representa segue que u(x) > u(y). Logo, como u representa , segue que
y x, pois caso contrrio teramos u(y) > u(x). Logo, assimtrica. Se x y e y z,
ento u(x) u(y) e u(y) u(z). Portanto, u(x) u(z), ento como u representa , temos
que x z, ou seja, transitiva negativa.
Para a prova da recproca suponha que uma relao de preferncia, e para todo
x X, defina X(x) = {y X : y x} e X(x) = {y X : x y}. Seja x1 , x2 , . . . uma
enumerao qualquer de X. Ento defina, r(xn ) = 1/2n e
u(x) =
r(y)
r(y).
(2.2)
yX(x)
yX(x)
Como yX r(y) = 1, u(x) est bem definido e u(x) (1, 1). Note que pela Proposio 2.1.8(d), se x x , ento X(x) X(x ) e X(x) X(x ). Alm disso, se x x , temos
que x X(x ), x
/ X(x), x X(x) e x
/ X(x ); logo ambas as relaes de incluso so
estritas. Como r(y) > 0, y X, segue que se x x , ento u(x) u(x ) e que se x x ,
ento u(x) > u(x ). Portanto, x x se, e somente se, u(x) > u(x ).
O prximo teorema implica que a funo utilidade u nica exceto por uma transformao estritamente crescente. Por este motivo, essas funes utilidades so chamadas de
funes de utilidade ordinais.
Teorema 2.1.10: Dado um conjunto X, uma relao de preferncia e funes u e u que
representam no sentido de (2.1), ento existe uma funo f : IR IR tal que
(a) f estritamente crescente em {r : x X, r = u(x)} e
(b) u (x) = f (u(x)), x X.
Alm disso, para qualquer funo estritamente crescente g : IR IR, u (x) = g(u(x)), x
X tambm representa .
Prova: Exerccio.
Quando X for no-enumervel, algumas relaes de preferncia podem no ser representadas por nenhuma funo de utilidade. Por exemplo, considere X = [0, 1] [0, 1], e
defina
(x1 , x2 ) (y1 , y2 ) se x1 > y1 ou [x1 = y1 e x2 > y2 ].
Esta uma relao de preferncia (Exerccio). Esta relao conhecida como preferncia
lexicogrfica. Esta relao no pode ser representada por uma funo utilidade. Suponha,
por contradio, que u represente . Ento, para todo r [0, 1], o caso que (r, 1) (r, 0),
portanto u((r, 1)) > u((r, 0)). Seja d(r) = u((r, 1)) u((r, 0)). Logo, d(r) > 0, r [0, 1].
Ento,
[0, 1] =
n=1 {r : d(r) > 1/n}.
Note que o lado esquerdo da igualdade no enumervel. Como o lado direito uma
unio enumervel de conjuntos, pelo menos um deles deve ser no enumervel. Suponha
Autor: Leandro Chaves Rgo
que {r : d(r) > 1/n0 } no enumervel. Seja u((1, 1)) u((0, 0)) = K, e seja N um
inteiro maior que Kn0 + 1. Escolha um subconjunto {r1 , r2 , . . . , rN } de N elementos de
{r : d(r) > 1/n0 } de tal forma que r1 < r2 < rN . Como (rn , 0) (rn1 , 1), sabemos que
u((rn , 0)) > u((rn1 , 1)). Portanto,
u((rn , 0)) u((rn1 , 0)) > u((rn1 , 1)) u((rn1 , 0)) > 1/n0 .
Finalmente,
K = u((1, 1)) u((0, 0))
= [u((1, 1)) u((rN , 0))] + [u((rN , 0)) u((rN 1 , 0))] +
+[u((r2 , 0)) u((r1 , 0))] + [u((r1 , 0)) u((0, 0))]
> 0 + 1/n0 + 1/n0 + + 1/n0 + 0 > (N 1)/n0 > K.
Uma contradio.
Recorde que um espao mtrico um conjunto M onde pode-se definir uma distncia
d(x, y) entre quaisquer dois pontos x, y M que satisfaz:
(a) d(x, y) 0 e d(x, y) = 0 se, e somente se, x = y.
(b) d(x, y) = d(y, x).
(c) d(x, z) d(x, y) + d(y, z).
Um espao mtrico M separvel, se ele contm um subconjunto enumervel M0 e M
igual a unio de M0 e todos os pontos de acumulao de M0 .1 Por exemplo, IRn um
espao mtrico separvel, onde M0 conjunto de todas as n-tuplas onde cada componente
um nmero racional.
Definio 2.1.11: Uma relao binria definida em um espao mtrico separvel X
contnua se para todas as (xn ) de X com xn x, (a) se x y para algum y X, ento
para todo n grande o suficiente, xn y; e (b) se y x para algum y X, ento para todo
n grande o suficiente, y xn .
Se as preferncias forem contnuas, elas podem ser representadas por uma funo de
utilidade (contnua) mesmo quando X for no-enumervel.
Teorema 2.1.12: Seja X um subconjunto de um espao mtrico separvel. Uma relao
binria em X pode ser representada por uma funo de utilidade contnua u : X IR no
sentido de (2.1) se, e somente se, for uma relao de preferncia contnua.
Prova: Omitida.2
a M um ponto de acumulao de um subconjunto N M , se existe uma sequncia de elementos
de N que converge para a, ou seja, um ponto do espao M que pode ser aproximado to bem quanto se
queira por infinitos pontos do subconjunto N . Note que a pode ou no pertencer a N .
2
Para maiores detalhes da prova consultar, por exemplo, Debreu G. (1954), Representation of a Preference
Ordering by a Numerical Function, http://cowles.econ.yale.edu/P/cp/p00b/p0097.pdf .
1
2.2
10
Quando um jogador escolhe entre suas estratgias, ele no sabe quais estratgias os outros
jogadores escolheram, por isso no tem certeza quanto s consequncias de suas escolhas.
Para analisar as decises dos jogadores em um jogo, seria til ento ter uma teoria de
tomada de deciso que nos permita expressar as preferncias de um agente sobre escolhas
com consequncias incertas em termos de sua atitude perante as consequncias.
2.2.1
Regras de Deciso
Existem muitas regras de deciso que podem ser adotadas dependendo da situao por um
agente que tem que realizar uma escolha sob incerteza. Assumiremos que o agente escolhe
aes que so funes do estado da natureza para consequncias ou prmios e que o agente
capaz de determinar qual a utilidade dessas consequncias, onde um estado da natureza
uma descrio de todos os aspectos do mundo relevantes ao problema de deciso. Algumas
regras requerem que o agente seja capaz de determinar uma probabilidade sobre o espao dos
estados da natureza, outras no precisam desta descrio probabilstica e podem ser usadas
em casos onde tal informao no disponvel ao agente. Assumiremos de agora em diante
que o conjunto S de estados da natureza finito, e que todas as probabilidades so definidas
na -lgebra 2S .
Maximin
Esta uma regra conservadora. Ela determina escolher a ao que se d melhor no pior
cenrio possvel, ou seja, tentar fazer o melhor na pior situao que poderia acontecer.
Formalmente, dado uma ao a A, defina
pioru (a) = min{ua (s) : s S}.
pioru (a) a utilidade da pior consequncia possvel para a ao a
A regra de Maximin estabelece que a a se, e somente se, pioru (a) > pioru (a ).
Considere o seguinte exemplo onde as aes so descritas em uma matriz que estabelece
a utilidade de cada consequncia em cada estado da natureza possvel.
Exemplo 2.2.1:
a1
a2
a3
a4
s1
5
1
6
5
s2
0
4
4
6
s3
0
3
4
4
s4
2
7
1
3
11
Maximax
Esta a regra para os otimistas. Ela determina escolher a ao que melhor no melhor cenrio possvel, ou seja, faa o melhor esperando que o melhor possvel ir ocorrer. Formalmente,
dada uma ao a A, defina
melhoru (a) = max{ua (s) : s S}.
melhoru (a) a utilidade da melhor consequncia para a ao a;
A regra de Maximax estabelece que a a se, e somente se, melhoru (a) > melhoru (a ).
Exemplo 2.2.2: Considere novamente as aes do Exemplo 2.2.1:
a1
a2
a3
a4
s1
5
-1
6
5
s2
0
4
4
6
s3
0
3
4
4
s4
2
7
1
3
12
arrependimentou (a) o maior arrependimento que agente poderia ter se ele escolher a
ao a.3
A regra de Minimax arrependimento estabelece que a a se, e somente se,
arrependimentou (a) < arrependimentou (a ).
Exemplo 2.2.3: Considere mais uma vez as aes do Exemplo 2.2.1:
a1
a2
a3
a4
s1 s2
5
0
1 4
6 4
5 6
s3
0
3
4
4
s4
2
7
1
3
13
Efeito de Transformaes
Na seo de escolha sob certeza, vimos que a escolha do agente no se alteraria se a funo
utilidade sofresse qualquer transformao estritamente crescente. Vamos analisar agora o
que ocorre com as regras de deciso Maximin, Maximax, Otimismo-Pessimismo e Minimax
arrependimento.
Proposio 2.2.4: Seja f : IR IR uma funo estritamente crescente:
maximin(u) = maximin(f (u))
maximax(u) = maximax(f (u))
opt (u) pode no ser o mesmo que opt (f (u))
arrependimento(u) pode no ser o mesmo que arrependimento(f (u)).
Prova: Exerccio.
Proposio 2.2.5: Seja f : IR IR, onde f (x) = ax + b, e a > 0. Ento
maximin(u) = maximin(f (u))
maximax(u) = maximax(f (u))
opt (u) = opt (f (u))
arrependimento(u) = arrependimento(f (u))
Prova: Exerccio.
Aes Irrelevantes
Suponha que A = {a1 , . . . , an } e, que de acordo com alguma regra de deciso, a1 a2 . Pode
acontecer que adicionando uma nova possvel ao, possamos reverter esta preferncia? Ou
seja, suponha que A = A {a}. possvel que agora tenhamos segundo a mesma regra
de deciso anterior que a2 a1 ? No caso das regras de Maximin, Maximax, e opt no
(Exerccio). Contudo, no caso da regra de Minimax arrependimento isto possvel. A nova
ao pode alterar quem a melhor ao em um dado estado e desta forma alterar todos os
clculos.
Exemplo 2.2.6: Suponha que tenhamos as seguintes aes:
a1
a2
s1
8
2
s2
1
5
14
Portanto, temos
arrependimentou (a1 ) = 4 < arrependimentou (a2 ) = 6, ou seja,
a1 a2 .
Porm, suponha agora que acrescentemos a ao a3 :
s1
8
2
0
a1
a2
a3
s2
1
5
8
Agora, temos
arrependimentou (a2 ) = 6 < arrependimentou (a1 ) = 7 < arrependimentou (a3 ) = 8, ou seja,
a2 a1 a3 .
s1
9
9
s2
9
0
s3
9
0
s4
9
0
s5
9
0
s6
9
0
s7
9
0
s8
9
0
s9
0
9
15
16
Considere a regra de deciso 1 que estabelece que a 1P a se, e somente se, E P (ua ) >
E P (ua ). A intuio por trs desta primeira regra parecida com a regra de Maximin,
pois estamos otimizando o pior valor esperado possvel. De fato, se PS consiste de todas
medidas de probabilidade em S, ento E PS (ua ) = pioru (a). Note que a ordem de preferncia
segundo a regra Maximin coincide com 1PS . Contudo, em geral, 1P pode tirar vantagem
de informaes extras, se P for um subconjunto estrito de PS .
Podemos tambm definir uma regra que tem a mesma intuio por trs da regra de
Maximax, ou seja, maximizaremos o melhor valor esperado. Para tanto, defina E P (ua ) =
supPrP {EPr (ua ) : Pr P}. Esta regra de deciso 2 estabelece que a 2P a se, e somente se,
E P (ua ) > E P (ua ).
Podemos ainda definir uma outra regra de deciso segundo a qual uma ao a s melhor
que uma outra ao a se o pior valor esperado da ao a for melhor que o melhor valor
esperado segundo a . Esta regra de deciso extremamente conservadora. Formalmente,
esta regra de deciso 3 estabelece que a 3P a se, e somente se, E P (ua ) > E P (ua ).
Finalmente, pode-se definir uma quarta regra de deciso segundo a qual ao a melhor
que outra ao a se para toda medida de probabilidade Pr P temos que o valor esperado
de a segundo Pr maior que o valor esperado de a segundo Pr. Formalmente, temos que
a 4P a se, e somente se, EPr (ua ) > EPr (ua ), Pr P.
Proposio 2.2.8: a 3P a implica a 4P a .
Prova: Exerccio.
2.2.2
17
a1
a2
s1
2
0
s2
0
2
18
aceitar ou no uma loteria que paga R$10.000, 00 com probabilidade 0,95 e onde voc tem
que pagar R$200.000, 00 com probabilidade 0,05. Podemos adotar o procedimento de escolher a ao que nos garante o melhor resultado com probabilidade maior ou igual a 0,95.
isto que fazemos frequentemente quando adotamos intervalos de confiana de 0,95, ou
quando, especificamos o nvel de significncia de um teste de hiptese. Podemos imaginar
regras que utilizem outros tipos de informao, como varincia, mediana, para determinar
que ao escolher. Vimos tambm que em algumas situaes podemos utilizar conjuntos de
probabilidades para modelar a incerteza e desta forma utilizar regras que se baseiam neste
conceito. Veremos na seo a seguir uma justificativa para utilizao da regra da utilidade
esperada. Como veremos mais adiante nesta regra que se baseiam diversos conceitos de
solues de jogos.
2.2.3
Representao Cardinal
Em jogos veremos que existem dois tipos de incerteza: subjetiva e objetiva. A incerteza
objetiva pode surgir, por exemplo, de dispositivos aleatrios como moedas honestas, dados
perfeitos, roletas balanceadas, urnas com bolas coloridas, etc. A incerteza subjetiva pode
surgir, por exemplo, da ignorncia de algum jogador com respeito as estratgias utilizadas
pelos demais. Nesta seo seguiremos a teoria da escolha sob incerteza segundo Anscombe
e Aumann.
Considere um conjunto Z de consequncias (ou prmios). Seja S o conjunto de todos
os estados da natureza ou estados do mundo. Assumiremos por simplicidade que Z e S
so finitos. Dado um conjunto enumervel qualquer B denotaremos por (B), o conjunto
de todas as distribuies de probabilidade em (B, 2B ). Tome um conjunto F de aes
f : S (Z) como o conjunto sobre o qual o agente ter que expressar preferncias. Note
que a consequncia de uma dada ao f depende do estado da natureza. Deste modo o agente
pode ter incerteza subjetiva a respeito do verdadeiro estado da natureza e consequentemente
incerteza subjetiva sobre as consequncias de suas aes. Alm disso, dado um estado da
natureza f (s) descreve a incerteza objetiva com as quais cada consequncia ser obtida se o
agente escolher a ao f e o verdadeiro estado da natureza for s.
Exemplo 2.2.11: Suponha que o agente chamado a escolher entre duas aes. Se ele
escolher a primeira, ganhar R$1000 se o Santa Cruz for o prximo campeo pernambucano
de futebol, e no ganhar nada se o Santa Cruz no for o campeo. Se ele escolher a segunda
ao, ele ganhar R$1000 se uma moeda honesta cair cara quatro vezes em quatro jogadas
independentes, e no ganhar nada em caso contrrio. Podemos representar isto utilizando
nosso modelo segundo Anscombe e Aumann da seguinte maneira: Z = R$0, R$1000, S =
{s1 , s2 }, onde s1 representa o estado em que o Santa campeo, e s2 representa o estado
em que o Santa no campeo. F = {f1 , f2 }, onde f1 (s1 )(R$1000) = 1, f1 (s2 )(R$0) = 1,
f2 (s1 )(R$1000) = f2 (s2 )(R$1000) = (1/2)4 e f2 (s1 )(R$0) = f2 (s2 )(R$0) = 1 (1/2)4 .
Abusaremos um pouco da notao e eventualmente para p (Z) denotaremos por p a
ao constante que igual a p em todos os estados da natureza. Para quaisquer duas aes
f, g F e para todo a [0, 1], seja af + (1 a)g a seguinte ao:
(af + (1 a)g)(s) = af (s) + (1 a)g(s), s S.
Autor: Leandro Chaves Rgo
19
(s)[
f (s)(z) u(z)] >
(s)[
f (s)(z) u(z)],
sS
zZ
sS
zZ
onde f (s)(z) representa a probabilidade que a ao f , quando o verdadeiro estado da natureza s, d a consequncia z.
Ou seja, estamos interessados em um representao onde cada estado da natureza possui
uma probabilidade associada que independente das probabilidades sobre as consequncias
e cada consequncia possui uma utilidade u de tal forma que a escolha entre as aes
tomada de acordo com a utilidade esperada da funo utilidade u.
Um estado da natureza s dito ser nulo se f g para todos os pares de aes f, g F
que so iguais em todos os estados da natureza exceto possivelmente em s, ou seja, um
estado s nulo se no podemos encontrar aes que diferem apenas no estado s e que no
sejam indiferentes.
Autor: Leandro Chaves Rgo
20
21
duas distribuies. Este exemplo, no pode ser modelado por uma representao onde a
utilidade independente dos estados da natureza.
O prximo teorema prova que estes axiomas so necessrios e suficientes para a representao que desejamos.
Teorema 2.2.13: Axiomas 15 so necessrios e suficientes para que existam uma funo
no constante u : Z IR e uma distribuio de probabilidade em S tal que
zZ
sS
zZ
Alm disso, a distribuio de probabilidade nica, e u nica exceto por uma transformao positiva afim nesta representao.
Prova: Omitida. Maiores detalhes podem ser vistos em Kreps (1988).
Nos jogos que se seguem definiremos jogadores como racionais se eles escolhem aes
(estratgias) que maximizam suas utilidades esperadas. Deste modo estamos implicitamente
admitindo que os Axiomas 1-5 definem o que so preferncias racionais. Contudo, importante ter em mente que conforme discutimos acima existem situaes em que esses axiomas
no so razoveis, e portanto, no deve-se esperar que jogadores escolham suas aes baseados no critrio de maximizao da utilidade esperada. Na prxima seo discutiremos alguns
Paradoxos famosos da Teoria da Utilidade Esperada.
2.2.4
Paradoxos
Paradoxo de Newcomb
Suponha que um ser superior lhe apresenta duas caixas, uma aberta e uma fechada. A caixa
aberta contm R$1.000. Na caixa fechada ou acabou de ser colocado R$0 ou R$1.000.000
pelo ser superior. Voc pode escolher a caixa fechada ou ambas caixas. Voc recebe o que
estiver nas caixas. Porm, existe um problema o ser superior pode predizer o que humanos
faro. Se o ser predizer que voc escolher ambas as caixas, ele coloca R$0 na caixa fechada.
Se ele predizer que voc, escolher apenas a caixa fechada, ele colocar R$1.000.000 na caixa
fechada. O ser superior acertou 999 das ltimas 1000 vezes em que este experimento foi
realizado. O que voc deve fazer?
Os estados da natureza e as aes disponveis neste problema so:
s1 : O ser superior colocou 0 na caixa fechada
s2 : O ser superior colocou 1.000.000 na caixa fechada
a1 : escolha ambas as caixas
a2 : escolha apenas a caixa fechada
a1
a2
s1
s2
$1.000 $1.001.000
$0
$1.000.000
Autor: Leandro Chaves Rgo
22
Raciocnio por dominncia sugere que devemos escolher a1 . Mas dominncia no apropriado se estados e aes no so independentes. A regra da maximizao da utilidade
esperada estabelece que se aes e estados no so independentes ns precisamos calcular
Pr(si | aj ). Portanto, neste exemplo Pr(s1 | a1 ) = .999 e Pr(s2 | a2 ) = .999. Ento, deve-se
escolher a ao a que maximize Pr(s1 | a)u(s1 , a) + Pr(s2 | a)u(s2 , a). Neste caso, ento
deve-se escolher a2 . Isto est realmente correto? O dinheiro ou est na caixa ou no est
. . . . Considere a seguinte aplicao que um exemplo mais concreto deste paradoxo:
Exemplo 2.2.14: Os fatos
Fumar altamente correlacionado com doenas coronarianas.
Doenas coronarianas tm fundo gentico.
Doenas coronarianas so mais comuns em pessoas com personalidade do tipo A.
Suponha que ter personalidade do tipo A hereditrio e que pessoas com este tipo de
personalidade tm uma maior tendncia a fumar. Esta a razo por que fumar correlacionado com doenas coronarianas. Suponha que voc tem personalidade do tipo A. Voc deve
fumar? Voc tem um problema de deciso similar ao paradoxo de Newcomb. Porm, o fato
que Pr(doena coronariana | fumar) alta no deveria lhe impedir de fumar. Pois fumar
apenas correlacionado doena coronariana e no causa doena coronariana, ento voc no
tem nada a perder por fumar!
Ento, antes de aplicar a regra de MUE no caso de estados e aes dependentes, devemos
considerar se nossas aes causam uma mudana de estado ou se nossas aes apenas esto
correlacionadas com os estados. Portanto, no paradoxo de Newcomb, voc deve escolher
ambas as caixas a no ser que voc acredite que escolher ambas as caixas causa a segunda
caixa estar vazia!
Paradoxo de Ellsbergue
Suponha que existam duas urnas cada uma com 60 bolas. A urna 1 contm 30 bolas azuis
e 30 bolas verdes. Tudo que se sabe sobre a urna 2 que ela contm bolas azuis e verdes,
mas no sabe-se a distribuio das bolas. Considere que existem duas loteria com prmios
baseados no sorteio de bolas dessas urnas. Loteria L1 paga R$1.000,00 se uma bola azul for
sorteada na urna 1, e R$0,00 caso contrrio. Loteria L2 paga R$1.000,00 se uma bola azul for
sorteada na urna 2, e R$0,00 caso contrrio. A maioria das pessoas quando questionada se
prefere um bilhete da Loteria L1 ou L2 prefere um bilhete da loteria L1 . Suponha agora que
temos duas outras loterias L3 e L4 , onde a primeira paga R$1.000,00 somente se uma bola
verde for sorteada da urna 1, e a segunda para R$1.000,00 somente se uma bola verde for
sorteada da urna 2. Tambm, verificado que a maioria das pessoas que preferiram a loteria
L1 a loteria L2 preferem a loteria L3 a loteria L4 . Com estas preferncias, no possvel
que o decisor possua uma nica distribuio de probabilidade subjetiva sobre as cores das
bolas na urna 2, pois a primeira preferncia (L1 sobre L2 ) indica que o decisor considera que
existam mais bolas verdes que azuis na urna 2, e a segunda (L3 sobre L4 ) indica que o decisor
Autor: Leandro Chaves Rgo
23
considera que existam mais bolas azuis que verdes na urna 2. Esse fenmeno conhecido
na literatura como averso a ambiguidade, e pode-se modelar a incerteza do decisor por um
conjunto de medidas de probabilidade ao invs de uma nica medida de probabilidade e que
o decisor utiliza a regra 1 discutida na Seo 2.2.1.
Paradoxo de Allais
Suponha que existam 4 loterias A, B, C, e D. Voc chamado a escolher entre a loteria
A que lhe paga R$2.500, 00 com probabilidade 0,33, R$2.400, 00 com probabilidade 0,66,
e R$0, caso contrrio; e a loteria B que lhe paga R$2.400, 00 com probabilidade 1. Voc
tambm chamado a escolher entre a loteria C que lhe paga R$2.500, 00 com probabilidade
0,33, R$0 com probabilidade 0,67; e a loteria D que lhe paga R$2.400, 00 com probabilidade
0,34, R$0 com probabilidade 0,66. A maioria das pessoas preferem B na primeira situao
e C na segunda situao. Estas escolhas sugerem que pessoas no utilizam a regra da
utilidade esperada para escolher entre as alternativas, pois B A implica que u(2400) >
0,33u(2500) + 0,66u(2400) + 0,01u(0), o que equivalente a 0,34u(2400) > 0,33u(2500) +
0,01u(0). Similarmente, C D implica que 0,33u(2500)+0,67u(0) > 0,34u(2400)+0,66u(0),
o que equivalente a 0,33u(2500) + 0,01u(0) > 0,34u(2400). Uma inconsistncia. Portanto,
as preferncias expressas pela maioria das pessoas indica que elas so inconsistentes com o
princpio da maximizao da utilidade esperada. Portanto, essas preferncias devem violar
algum entre os Axiomas 1 a 5. Voc consegue determinar que axioma esse? (Exerccio)
A explicao mais comum para a falha da MUE neste exemplo a falta de habilidade das
pessoas para diferenciar pequenas diferenas de probabilidade; 0,33 e 0,34 parecem iguais
e as pessoas tendem a focar na diferena de valores. Porm 0,01 e 0 parecem diferentes (a
segunda lhe d certeza plena que o evento no ocorre) e as pessoas tendem focar na diferena
de probabilidade. A Teoria dos Prospectos de (Kahnemann and Tversky) resolve o Paradoxo
de Allais colocando um peso diferente nas probabilidades de acordo com a importncia que
agentes tendem a dar a estas.
Captulo 3
Jogos em Forma Normal
3.1
Definio
Teoria dos jogos pode ser pensada como um problema de deciso que envolve mais de um
agente. Neste captulo, estaremos interessados em estudar jogos estticos, ou seja, jogos em
que os agentes se movem simultaneamente e uma nica vez. Estes jogos so conhecidos na
literatura como jogos em formal normal ou estratgica. Todo jogo em forma normal tem as
seguintes componentes
1. Existe um conjunto de agentes ou jogadores N .
2. Cada jogador i pode escolher aes de um conjunto de estratgias (puras) ou aes Ci .
O resultado do jogo definido pelo perfil de estratgias que consiste de todas as
estratgias escolhidas pelos jogadores individuais. Matematicamente, o conjunto
de perfis de estratgias dado por C = iN Ci .
3. Jogadores tm preferncia sobre os possveis resultados do jogo. Em geral, o perfil
de estratgias escolhido pelos jogadores determina uma distribuio de probabilidade
sobre possveis consequncias, assumiremos que os jogadores agem como se possussem
uma funo utilidade no conjunto de possveis consequncias e avaliam uma distribuio de probabilidade sobre as possveis consequncias pelo valor esperado da utilidade
segunda esta dada distribuio. Dessa forma, para cada possvel perfil de estratgias
o jogador avaliar este perfil pelo valor da utilidade esperada das consequncias, onde
o valor esperado calculado utilizando a distribuio de probabilidades induzida pelo
conjunto de aes. Quando estuda-se jogos, o que se chama resultado, pagamento ou
utilidade de um perfil de estratgia o valor da utilidade esperada das consequncias
induzidas pelo perfil. Portanto, de agora em diante assumiremos que os jogadores recebem um certo pagamento ou tem uma certa utilidade para cada possvel perfil de
estratgias, mas importante ter em mente que na verdade jogadores no possuem preferncias (ou utilidades) sobre perfis de estratgias mas, sim, uma utilidade esperada
sobre as consequncias induzidas pelo perfil de estratgia. Note que um jogador precisa
saber no somente de sua prpria estratgia mas tambm das estratgias dos demais
24
25
jogadores para determinar o resultado do jogo, pois em geral, o resultado do jogo depende das estratgias de todos os jogadores envolvidos. Portanto, o que importa para
os jogadores so os resultados do jogo, ou os perfis de estratgias, no suas prprias
estratgias. Claro que suas aes fazem parte do perfil de estratgia e portanto influenciam no resultado do jogo, mas para cada ao de um dado jogador podem existir
vrios resultados possveis. Portanto, temos que para cada possvel perfil de estratgia
c C, cada jogador i N avalia c de acordo com um nmero ui (c). Esta funo
ui ser denominada de funo utilidade ou pagamento do jogador i. Formalmente,
ui : C IR, i N .
Quando temos dois jogadores, toda esta informao pode ser expressa convenientemente
em uma matriz como a mostrada a seguir:
E
C
E
1,1
0,0
C
0,0
1,1
Nesta matriz o jogador 1 escolhe uma das linha E ou C, e jogador 2 escolhe uma das
colunas E ou C. Cada clula da matriz tem um par de nmeros onde a primeira componente
representa a utilidade do jogador 1 e a segunda componente representa a utilidade do jogador
2.
Note que o fator tempo no est presente em um jogo em forma normal. A idia que
cada jogador escolhe sua estratgia uma vez por todas e que os jogadores escolhem suas
estratgias simultaneamente, no sentido de que eles no possuem informao a respeito das
escolhas dos outros jogadores antes das suas escolhas. Apesar disto, uma estratgia pode
envolver escolhas que acontecem ao passar do tempo. Por exemplo, uma estratgia pode
depender de resultados de acontecimentos do futuro, por exemplo, se a cotao do dlar
baixar de R$1,50, passarei frias no exterior, caso contrrio, passarei frias no Brasil. O fato
que o tempo no est no modelo significa que quando analisamos a situao como um jogo
em forma normal, desconsideramos as complicaes que podem surgir quando permitimos
que um jogador mude de estratgia quando os eventos ocorrem. Tambm assumimos que os
jogadores fazem sua escolha de modo independente, ou seja, os jogadores no podem escolher
estratgias que dependem das escolhas dos outros jogadores.
3.2
3.2.1
Suponha que um casal est decidindo em que local a famlia vai passear no prximo domingo.
Existem duas opes: passar o dia no shopping center, ou passar o dia na praia. Suponha
que o marido (jogador 1) prefere ir a praia e a esposa (jogador 2) prefere ir ao shopping. Mas
ambos ganham alguma utilidade em ir juntos ao mesmo local. Irem para locais diferentes
tem utilidade zero para ambos. A matriz de pagamentos desse jogo a seguinte:
S
P
26
S
P
1,2 0,0
0,0 2,1
3.2.2
Jogos de Soma-Zero
Em jogos de soma-zero qualquer ganho de uma das partes provoca uma perda de igual
utilidade para os outros jogadores. Pense, por exemplo, em como dividir uma pizza. O
tamanho da pizza no se altera, precisamos apenas saber como distribuir a pizza entre
os jogadores. O jogo de soma-zero mais simples conhecido como combinando centavos
(matching pennies). Este jogo contm dois agentes, onde o agente 1 ganha um real do
agente 2 se ambos escolherem a mesma ao, e perde um real em caso contrrio:
H
T
3.2.3
H
T
1,-1 -1,1
-1,1 1,-1
Medindo Foras
Neste jogo suponha que temos dois jovens dirigindo para casa em uma rua estreita com seus
carros, e em direes opostas. Nenhum deles quer sair do caminho, quem sair do caminho
considerado como fraco e perde seu orgulho, enquanto o outro ganha fama de forte. Porm,
se ambos no saem do caminho, eles se acidentam gravemente. Se ambos saem do caminho,
nenhum deles fica feliz ou infeliz.
F
F -20,-20
S
-5,10
3.2.4
S
10,-5
0,0
Dilema do Prisioneiro
Este jogo provavelmente o mais famoso de todos. A estria que dois prisioneiros so
interrogados. Se ambos cooperarem no julgamento, eles saem cada um com um ano de
priso. Se ambos delatarem um ao outro, eles pegam cada um 3 anos de cadeia. Se um
cooperar e o outro delatar, ento aquele que cooperar vai a priso por 5 anos, e o delator sai
livre.
D
C
D -3,-3 0,-5
C -5,0 -1,-1
Autor: Leandro Chaves Rgo
27
Note que o melhor resultado se os jogadores decidirem juntos (C, C), o que tm a
maior soma de utilidades. O resultado (D, D) o pior possvel se considerarmos a soma das
utilidades de ambos jogadores, e pior do que o resultado (C, C) para ambos os jogadores.
Ento claramente, (D, D) parece ser um pssimo resultado.
Alguns exemplos prticos onde o Dilema do Prisioneiro pode surgir so os seguintes:
Corrida Armamentista. Dois pases entram em uma corrida armamentista. Ambos
gostariam de gastar seu dinheiro com o sistema de sade (C), por exemplo, mas se um
deles gasta dinheiro com o sistema de sade (C), e o outro gasta dinheiro em armas
(D), o primeiro pas ser invadido.
Escudo Anti-Mssil. Os EUA (Pas 1) podem tanto construir um sistema de defesa antimssil (D) como no construir tal sistema (C). Rssia (Pas 2) pode tanto construir
mais msseis (D) como no construir mais msseis (C). Se os EUA no construirem o
sistema anti-mssil, e a Russia no construir mais msseis, ento ambos pases esto
razoavelmente bem. Se a Rssia construir mais msseis e os EUA no tiverem o sistema
anti-mssil, ento os EUA se sentiro muito inseguros. Se os EUA construrem um
escudo anti-mssil, e a Rssia no construir msseis, ento os EUA esto felizes, mas
a Rssia se sente insegura. Se os EUA construrem o sistema anti-mssil e a Rssia
construir mais msseis, ento eles esto com o mesmo grau de insegurana que no caso
(C, C), mas eles esto piores pois tm menos recursos para investir em outras reas.
Mercado de Aviao. O mercado da aviao um exemplo do dilema do prisioneiro na
rea empresarial. Como todo servio, o problema com a passagem area que, uma
vez que o avio levanta vo, cada assento no vendido uma perda. No possvel
estocar a vaga para vend-la depois. Alm de deixar de ganhar com mais uma venda,
as empresas areas ainda tm de arcar com o prejuzo de colocar o avio no ar, que
no muda muito pela lotao. Portanto, a motivao para uma empresa baixar seus
preos, principalmente em vos difceis de vender, muito alta. Como a maioria das
pessoas no faz distino de companhias areas, desde que chegue a seu destino, a
empresa com preos mais baixos tende a voar com a maior lotao possvel, enquanto
as concorrentes agonizam com os prejuzos. Essa dinmica pode chegar ao extremo de
empresas competindo por clientes enquanto sabidamente tm prejuzo em alguns vos,
simplesmente por ser pior para elas voarem vazias do que com um prejuzo diminudo.
3.2.5
Duoplio de Cournot
Este jogo tem um conjunto de estratgia infinito. Duas firmas escolhem o nvel de produo
qi e tm custos de produo ci (qi ). Os produtos no so diferenciveis e a demanda de
mercado determina um preo unitrio de p(q1 + q2 ). Note que esta especificao assume
que os produtos so substitutos perfeitos. Neste caso, temos N = {1, 2}, C1 = C2 = IR+ ,
u1 (q1 , q2 ) = q1 p(q1 + q2 ) c1 (q1 ), e u2 (q1 , q2 ) = q2 p(q1 + q2 ) c2 (q2 ).
3.2.6
28
Duoplio de Bertrand
Este duoplio pode ser visto como em oposio ao duoplio de Cournot. Firmas continuam
produzindo produtos que so substitutos perfeitos, mas agora elas determinam o preo.
Consumidores compram da firma com menor preo, e se ambas cobrarem o mesmo preo
elas dividem a demanda igualmente. Ambas firmas tm o mesmo custo unitrio c > 0, so
capazes de atender toda a demanda solicitada, e s produzem produtos que tm demanda.
A demanda varia linearmente com o preo, ou seja, D = a b(min(p1 , p2 )), onde b > 0, e
a bc > 0. Neste caso, temos N = {1, 2}, C1 = C2 = IR+ ,
se p1 < p2 ,
0
(abp2 )
u2 (p1 , p2 ) =
(p c) 2
se p1 = p2 ,
2
(p2 c)(a bp2 ) se p1 > p2 .
3.3
Racionalizabilidade e Dominncia
Experimento 7: Suponha que voc o jogador 1, ou seja tem que escolher uma das linhas
da matriz abaixo. Qual a sua escolha? Justifique sua resposta.
A
A 5,2
B 0,0
C 7,0
D 9,5
B
2,6
3,2
2,2
1,3
C
1,4
2,1
1,5
0,2
D
0,4
1,1
5,1
4,8
Como agentes jogam um jogo? Nesta seo iremos encontrar solues para alguns jogos
partindo da suposio que agentes so racionais, isto escolhem estratgias que maximizam
suas utilidades esperadas, e que cada agente sabe que os outros agentes tambm so racionais.
3.3.1
Comportamento Racional
Assuma que o agente i tem crenas descritas por uma distribuio de probabilidade i sobre
as estratgias utilizadas pelos outros agentes do jogo. Se s um perfil de estratgias de um
jogo, denotaremos por si todas as estratgias deste perfil exceto a estratgia do agente i.
Definio 3.3.1: Uma estratgia si uma escolha racional para o agente i com crena i
se
si argmaxti Ci
ui (ti , si )i (si ).
si Ci
29
Note, que dado que o agente i possui crena i , ele est diante de um problema de deciso
sob incerteza. E conforme afirmamos ao fim da seo anterior, para jogos consideraremos
que agentes devem utilizar a regra MUE.
Definio 3.3.2: Dado qualquer conjunto enumervel B, seja (B) = { : (B, 2B , ) um
espao de probabilidade}, isto (B) o conjunto de todas as medidas de probabilidade
definidas na -lgebra 2B . Se Ci o conjunto de estratgias puras para o agente i, i (Ci )
uma estratgia randomizada ou mista para o agente i. Denotaremos por [si ] a estratgia
randomizada que escolhe a estratgia pura si com probabilidade 1.
Definio 3.3.3 : Estratgia si Ci estritamente dominada para o agente i se existe
alguma estratgia randomizada i (Ci ) tal que
ui (si , si ) <
i (di )ui (di , si ), si Ci .
di Ci
ui (si , si ) <
i (di )ui (di , si ), si Ci .
di Ci
di Ci
si
si
si
si
3.3.2
30
Dominncia Iterada
Uma das coisas mais difceis quando analisamos um jogo determinar as crenas dos agentes.
Muitos jogos podem ser simplificados assumindo racionalidade dos agentes e conhecimentos
sobre racionalidade dos outros agentes. Por exemplo, considere o Dilema do Prisioneiro. Cooperar uma estratgia dominada. Um agente racional portanto nunca cooperar. Portanto,
isto resolve o jogo pois todos os agentes iro delatar. Note que um agente no precisa saber
nada sobre o outro agente, a no ser que ele racional. Este resultado intrigante, pois
ele o pior resultado em termos da soma das utilidades dos jogadores e ambos melhorariam
seu resultado se cooperassem. Este resultado mostra que s vezes benfico restringir as
opes dos agentes. Por exemplo, no caso do sistema de defesa anti-msseis ambos os pases
sairiam ganhando se assinassem acordos que proibissem a construo de escudo anti-msseis
e a construo de novos msseis. Ento ambos pases s teriam uma opo de cooperar e
ambos sairiam ganhando.
Exemplo 3.3.5: Considere novamente o jogo do Experimento 7 abaixo.
A
B
C
D
A
5,2
0,0
7,0
9,5
B
2,6
3,2
2,2
1,3
C
1,4
2,1
1,5
0,2
D
0,4
1,1
5,1
4,8
C
1,4
2,1
1,5
0,2
D
0,4
1,1
5,1
4,8
B
C
3,2 2,1
2,2 1,5
D
1,1
5,1
B
3,2
2,2
C
2,1
1,5
31
Definio 3.3.7: Um jogo tem soluo determinada por eliminao de estratgias estritamente dominadas se S contm um nico perfil de estratgias.
Autor: Leandro Chaves Rgo
3.4. RACIONALIZABILIDADE
32
Observao 3.3.8:
1. Apesar da maioria dos jogos no ter soluo determinada por eliminao de estratgias estritamente dominadas, este processo nos leva a determinar que estratgias no
devero ser utilizadas caso a hiptese de conhecimento comum sobre racionalidade dos
jogadores seja satisfeita.
2. No especificamos a ordem na qual as estratgias devem ser eliminadas. Pode-se mostrar que a ordem de eliminao no importa. (Exerccio) Intuio: Assuma que voc
no eliminou todas as estratgias dominadas em algum passo da iterao. Voc a eliminar depois? Claro que sim, uma estratgia dominada permanecer sendo dominada,
o mximo que pode ter acontecido que algumas outras estratgias dos outros agentes
foram eliminadas, o que diminui as restries na definio de estratgia dominada. O
mesmo no verdade para eliminao de estratgias fracamente dominadas.
T
M
B
L
1,1
1,1
0,0
R
0,0
2,1
2,1
Poderamos eliminar primeiro T e depois L. Neste caso, temos que a soluo daria
utilidades (2,1) com certeza. Contudo, se eliminarmos primeiro B e depois R a soluo
daria resultado (1,1) com certeza. Portanto, eliminao de estratgias fracamente
dominadas nem sempre resulta em resultados consistentes, logo uma opo de soluo
menos atraente.
3. Com um conjunto de estratgias finitas o conjunto S sempre no vazio por que
aps cada passo da iterao deve existir alguma estratgia dominante que restou.
4. Para o caso geral de um conjunto infinito de estratgias, no obvio que o processo
iterativo resultar em um conjunto no-vazio. Existem exemplos de sequncias monotnicas de conjuntos cuja interseco vazia: S n = (0, ( 12 )n ). A interseco S
de todos estes intervalos abertos vazia. Uma maneira de garantir que temos um
conjunto S no-vazio assegurar que os conjuntos S k so fechados e limitados, e
portanto compactos, assumindo um espao de aes de dimenso finita. Geralmente,
este o caso se as funes utilidades forem contnuas nas estratgias dos agentes.
3.4
Racionalizabilidade
Na maioria das situaes estratgicas, no o caso que um jogador pode deduzir as estratgias
que os outros jogadores usam. Como todos os jogadores tentam maximizar sua utilidade
esperada e isto conhecimento comum, o melhor que um jogador pode esperar fazer
deduzir um conjunto de estratgias plausveis para os outros jogadores. Aqui, assumimos
Autor: Leandro Chaves Rgo
3.4. RACIONALIZABILIDADE
33
que uma estratgia plausvel uma melhor resposta para alguma crena plausvel que um
jogador pode ter a respeito do perfil de estratgias sendo jogado. Esta a intuio que o
conceito de soluo de racionalizabilidade tenta capturar. Podemos pensar em neste conceito
como sendo o que caracteriza que os jogadores agem otimamente dado suas crenas.
Formalmente, seja Ci o conjunto de estratgias puras para o jogador i; C = iN Ci ,
portanto, o conjunto de perfis de estratgias puras. Suponha que C finito e que cada jogador
i racional e conhecimento comum que ele escolhe uma estratgia de um subconjunto Di
de Ci . Seja Di = j=i Dj e
B(Di ) = {argmaxsi Ci
(di )ui (si , di ) : para algum (Di )};
di Di
isto , B(Di ) consiste das estratgias em Ci que so melhores respostas para alguma crena
que o jogador i pudesse ter sobre as estratgias que os outros jogadores esto usando. Observe
que se Di Di
Ci , ento B(Di ) B(Di
) B(Ci ), pois a medida que o nmero
de estratgias para os adversrios de i aumenta, temos que existem mais crenas plausveis
para i, e portanto, o conjunto de estratgias que so melhores respostas deve aumentar ou
permanecer o mesmo.
O conjunto S = iN Si de estratgias racionalizveis correlacionadas caracterizado
pelas duas seguintes propriedades: (a) para todo i N , Si B(Si ) e (b) S o maior
conjunto que satisfaz condio (a), no sentido que, para todo conjunto de perfis de estratgia
D que satisfaz (a), temos que D S. Uma estratgia si Si chamada de uma estratgia
racionalizvel correlacionada para o jogador i. Pode-se construir S atravs do seguinte
processo de iterao.
Passo 1: Defina Ci0 = Ci , i N .
k1
Passo k+1: Para k 1, defina Cik = B(Ci
), i N . Cik o conjunto de estratgias
que so melhores respostas para alguma crena do jogador i quando i sabe que os
k1
outros agentes utilizam estratgias em Ci
e podem correlacionar as estratgias.
k
Passo : Defina Si =
k=1 Ci .
Como o conjunto de estratgias Ci finito para todo i, ento o algoritmo deve parar aps um
nmero finito de iteraes pois os conjuntos Cik s se tornam menores a cada iterao. Seja
j o primeiro passo no qual no h mais nenhuma eliminao de estratgias no algoritmo.
Portanto, Si = Cij . Vamos mostrar que o conjunto S = iN Si realmente o conjunto
de estratgias racionalizveis correlacionadas do jogo. Como B(Cik )k0 uma sequncia no
crescente de conjuntos, temos que
j
k1
k
Si = Cij =
k=1 Ci = k=1 B(Ci ) = B(Ci ) = B(Si ).
Portanto, a condio (a) da definio satisfeita. Vamos verificar a condio (b). Suponha,
por contradio, que exista outro D C tal que Di B(Di ) para todo i N e D * S .
Como a sequncia C k no crescente, defina como k o primeiro passo no qual para algum
3.4. RACIONALIZABILIDADE
34
k 2
k 2
k 2
algoritmo, temos que sj
/ B(Cj
). Como Dj Cj
, temos que B(Dj ) B(Cj
),
uma contradio. Portanto, S o conjunto de estratgias racionalizveis correlacionadas
do jogo e Si = B(Si ) para todo jogador i.
Frequentemente assume-se que os jogadores escolhem suas estratgias de maneira independente uns dos outros e que isto conhecimento comum entre os jogadores. Se ns assumimos essa hiptese, ns temos um conceito de soluo um pouco mais forte (pelo menos, no
caso em que |N | 3), que chama-se racionalizabilidade no-correlacionada. Formalmente,
suponha que cada jogador racional e conhecimento comum que ele escolhe uma estratgia
do subconjunto Di de Ci . Seja Di = j=i Dj e
O(Di ) = {argmaxsi Ci
j (dj )ui (si , di ) :
di jN {i}
Observe que se Di Di
Ci , ento O(Di ) O(Di
) O(Ci ), pois a medida que
o nmero de estratgias para os adversrios de i aumenta, temos que existem mais crenas
plausveis para i, e portanto, o conjunto de estratgias que so melhores respostas deve aumentar ou permanecer o mesmo. Alm disso, note que temos sempre que O(Di ) B(Di ),
pois todo crena que o jogador i pode ter no caso de independncia ele tambm poderia ter
no caso em que ele admite a possibilidade dos adversrios correlacionarem as estratgias.
O conjunto S u = iN Siu de estratgias racionalizveis no-correlacionadas caracteu
rizado pelas duas seguintes propriedades: (a) para todo i N , Siu O(Si
) e (b) S u o
maior conjunto que satisfaz condio (a), no sentido que, para qualquer conjunto de perfis
de estratgias D que satisfaz (a), temos que D S u . Uma estratgia sui Siu chamada
de uma estratgia racionalizvel no-correlacionada para o jogador i. Pode-se construir S u
atravs de um processo de iterao similar ao utilizado para construir S, substituindo B()
por O() no algoritmo. Como O(Di ) B(Di ), fcil ver que S u S.
O seguinte exemplo ilustra as diferenas entre os trs conceitos: eliminao de estratgias
estritamente dominadas, estratgias racionalizveis correlacionadas e no-correlacionadas.
Exemplo 3.4.1: Considere o seguinte jogo com trs jogadores. O jogador a possui trs
estratgias puras a1 , a2 , a3 , enquanto os jogadores b e c possuem duas estratgias puras cada
um b1 , b2 e c1 , c2 , respectivamente. Vamos agora definir quais estratgias pertencem aos
conjuntos Ui (C), B(Ci ) e O(Ci ). Temos que para j {1, 2, 3}, aj Ua (C) se, e somente
se, no existe pa (Ca ) tal que
ua (aj , sa ) <
i=1
ou seja, aj Ua (C) se, e somente se, no existir nenhuma estratgia mista pa que tenha utilidade esperada estritamente melhor que aj para o jogador a dado qualquer par de estratgias
puras utilizado pelos jogadores b e c.
Autor: Leandro Chaves Rgo
3.4. RACIONALIZABILIDADE
35
Por outro lado, temos que para j {1, 2, 3}, aj B(Ca ) = B(Cb Cc ) se, e somente se,
existir pa (Ca ) = (Cb Cc ) tal que
2
2
i=1 k=1
2
2
i=1 k=1
ou seja, aj B(Ca ) se, e somente se, aj for uma melhor resposta para alguma crena que
o jogador a tenha a respeito de como os jogadores b e c podem jogar o jogo admitindo a
possibilidade de que b e c correlacionem suas estratgias de acordo com a distribuio pa .
Finalmente, temos que para j {1, 2, 3}, aj O(Ca ) = O(Cb Cc ) se, e somente se,
existirem pb (Cb ) e pc (Cc ) tais que
2
2
i=1 k=1
2
2
i=1 k=1
ou seja, aj O(Ca ) se, e somente se, aj for uma melhor resposta para alguma crena que o
jogador a tenha a respeito de como os jogadores b e c podem jogar o jogo admitindo que os
jogadores b e c escolham suas estratgias independentemente de acordo com as distribuies
pb e pc , respectivamente.
Mostraremos a seguir que o conjunto de estratgias racionalizveis correlacionadas
exatamente igual ao conjunto de estratgias que sobrevivem ao processo de eliminao iterada
de estratgias estritamente dominadas. Considere a seguinte definio:
Definio 3.4.2: Considere um jogo em forma normal com conjunto de perfis de estratgia
dado por C = iN Ci . Uma estratgia si do jogador i em um jogo em forma normal nunca
uma melhor resposta se si
/ B(Ci ).
Lema 3.4.3: Uma estratgia para um jogador em um jogo de forma normal finito (isto , no
qual N e C so finitos) nunca uma melhor resposta se, e somente se, ela for estritamente
dominada, ou seja, B(Ci ) = Ui (C) para todo jogador i N .
Prova: Omitida. Ver Lema 60.1 em Osborne e Rubinstein.
Teorema 3.4.4: Para qualquer jogo em forma normal finito (N, (Ci )iN , (ui )iN ), temos que
S = S.
Prova: Consequncia imediata do Lema 3.4.3 e dos algoritmos para encontrar S = S.
Exemplo 3.4.5: Considere uma situao onde duas pessoas tem que dividir R$6,00 entre
si. Eles usam o seguinte procedimento. Cada pessoa escolhe uma quantidade inteira e nonegativa de reais no mximo igual a R$6,00. Se a soma for no mximo R$6,00, ento cada
pessoa receber a quantidade que escolheu. Se a soma exceder R$6,00 e eles tiverem escolhido
o mesmo nmero ento eles dividiro os R$6,00 igualmente. Se a soma exceder R$6,00 e
Autor: Leandro Chaves Rgo
36
eles tiverem escolhido valores diferentes, o que escolheu o menor valor recebe a quantidade
que escolheu enquanto o outro recebe o restante. Quais as estratgias racionalizveis dos
jogadores? Responda a mesma pergunta se mudarmos a regra do jogo no ltimo caso e
tivermos que neste caso o jogador que escolher o maior nmero (ao invs do menor) recebe
a quantidade que escolheu enquanto o outro recebe a diferena.
Baseados neste resultado, poderamos tentar utilizar um outro conceito de soluo usando
a noo de dominncia fraca. Poderamos olhar para o maior conjunto D = iN Di tal
que para todo jogador i, Di o conjunto de todas as estratgias que no so fracamente
dominadas quando sabe-se que os outros jogadores escolhem estratgias em Di . Porm
existem jogos onde este conjunto D vazio conforme o exemplo a seguir.
Exemplo 3.4.6:
x1
y1
x2
1,1
1,0
y2
1,0
0,1
Se y1
/ D1 , ento segue que y2
/ D2 . Mas neste caso, temos que y1 no pode ser excludo.
Se y1 D1 , ento y2 D2 . Mas neste caso, temos que y1 pode ser excludo. Portanto, este
no um bom conceito de soluo.
3.5
Equilbrio de Nash
Eliminao de estratgias estritamente dominadas um conceito de soluo atrativo porque somente assume que os jogadores so racionais e que conhecimento comum que todo
jogador racional (mesmo assim isto pode ser uma suposio muito forte j que estamos
assumindo que ser racional utilizar a regra de deciso MUE). essencialmente um conceito construtivo - a idia restringir suposies sobre as estratgias escolhidas por outros
jogadores eliminando estratgias uma a uma. Para uma grande classe de jogos, este conceito
reduz significativamente o conjunto de estratgias. Contudo, apenas uma pequena classe de
problemas pode ser resolvida desta maneira.
Vamos introduzir agora o conceito de soluo mais famoso em Teoria dos Jogos: equilbrio
de Nash. Mostraremos adiante que todo jogo finito tem pelo menos um equilbrio de Nash e
que o conjunto de equilbrios de Nash um subconjunto das estratgias racionalizveis nocorrelacionadas, e, portanto, um subconjunto das estratgias que sobrevivem ao processo
iterativo de eliminao de estratgias dominadas. Neste sentido, equilbrio de Nash faz
predies mais fortes que os conceitos anteriores.
Definio 3.5.1: Um perfil de estratgias um equilbrio de Nash de (N, {Ci }iN , {ui }iN )
se, e somente se, ui () ui (i , i ) para todo jogador i N e toda estratgia mista
i (Ci ).
Definio 3.5.2: Um equilbrio de Nash dito ser puro se para todo jogador i, i d
probabilidade 1 a uma nica estratgia em Ci .
Autor: Leandro Chaves Rgo
37
Definio 3.5.3: Um perfil de estratgias um equilbrio de Nash estrito de (N, {Ci }iN , {ui }iN )
se, e somente se, ui () > ui (i , i ) para todo jogador i N e toda estratgia mista
i (Ci ).
Em palavras, um perfil de estratgia um equilbrio de Nash se mesmo que um jogador
saiba as estratgias que esto sendo usadas pelos demais, ele no tem incentivo a mudar sua
estratgia porque sua estratgia uma melhor resposta as estratgias dos demais jogadores.
O equilbrio puro se os jogadores escolhem estratgias determinsticas e estrito se qualquer
desvio unilateral do equilbrio causa um prejuzo ao jogador que desviar do equilbrio.
Em um jogo em forma normal finito ou enumervel, se i uma estratgia randomizada
para jogador i, uma estratgia pura si Ci pertence ao suporte de i se i (si ) > 0. O
prximo teorema mostra que se um equilbrio de Nash, ento para todo jogador i, todas
as estratgias puras no suporte de i tem a mesma utilidade esperada para o jogador i dado
que os demais jogadores jogam i .
Teorema 3.5.4 : Se um equilbrio de Nash de um jogo em forma normal finito ou
enumervel, ento para todo jogador i, para quaisquer pares de estratgias puras si , ti no
suporte de i , temos ui (si , i ) = ui (ti , i ). Portanto, ui () = ui (si , i ) para qualquer
estratgia pura si no suporte de i .
Prova: Suponha por contradio que exista si , ti no suporte de i tal que ui (si , i ) >
ui (ti , i ). Considere a seguinte estratgia randomizada i tal que i (ci ) = i (ci ) para
todo ci Ci {si , ti }, e (si ) = i (si ) + i (ti ). Ento, temos que ui (i , i ) ui () =
i (ti )(ui (si , i ) ui (ti , i )) > 0, uma contradio pois um equilbrio de Nash.
3.5.1
38
Prova: Suponha, por contradio que existam si pertencentes ao suporte de tais que si
no sobrevive ao processo iterativo de eliminao de estratgias estritamente dominadas.
Seja k o menor inteiro no qual existe um si no suporte de tal que si Sik , mas si
/ Sik+1 ,
k
k
ou seja, existe i com suporte em Si tal que ui (si , di ) < ui (i , di ) para todo di Si
.
k
Como todas estratgias no suporte de i esto em Si , temos que
i (di )ui (i , di ) = ui (i , i ).
i (di )ui (si , di ) <
ui (si , i ) =
k
di Si
k
di Si
M
1,1
4,1
R
4,0
3,5
Neste jogo o nico equilbrio de Nash ([U],[L]). fcil ver que ([U],[L]) um equilbrio
de Nash, pois ambos jogadores perderiam se mudassem de estratgia. Para verificar que este
equilbrio nico note que este perfil o nico que sobrevive ao processo de eliminao de
estratgias estritamente dominadas. Logo, o resultado segue da Proposio 3.5.6.
Exemplo 3.5.8: Combinando Centavos.
H
T
H
T
1,-1 -1,1
-1,1 1,-1
Neste jogo o nico equilbrio de Nash tem ambos os jogadores escolhendo cada uma de
suas estratgias puras com igual probabilidade. Neste equilbrio, a utilidade esperada de
ambos os agentes igual a zero.
Exemplo 3.5.9: Trabalho em Dupla. Considere uma situao em que duas pessoas tem
que realizar um trabalho e cada uma delas pode colocar um esforo xi [0, 1] para o qual
ela ter um custo de c(xi ). O resultado do projeto vale f (x1 , x2 ) e a dupla divide este valor
igualmente independente do esforo que cada pessoa teve. Encontre o equilbrio de Nash nas
seguinte situaes:
(a) f (x1 , x2 ) = 4x1 x2 e c(xi ) = x2i , para i = 1, 2.
(b) f (x1 , x2 ) = 3x1 x2 e c(xi ) = xi , para i = 1, 2.
Em cada um dos casos, existe um outro par de esforos (x1 , x2 ) que d a ambos jogadores
um melhor resultado do que o resultado obtido no equilbrio de Nash?
3.5.2
39
E
1,1
0,0
C
0,0
1,1
S
10,-5
0,0
Exemplo 3.5.12: Jogo de Votos. Trs jogadores escolhem simultaneamente uma de trs
alternativas A, B ou C. Se a maioria escolher uma alternativa, esta ser a vencedora. Se os
votos se dividirem em 1-1-1, assumimos que a alternativa A ser escolhida. Suponha que
as preferncias sejam representadas por: u1 (A) = 3, u1 (B) = 2, u1 (C) = 1, u2 (A) = 1,
u2 (B) = 3, u2 (C) = 2, u3 (A) = 2, u3 (B) = 1, e u3 (C) = 3.
Este jogo tm vrios equilbrios de Nash, entre os quais podemos citar: ([A],[A],[A]),
([B],[B],[B]), ([C],[C],[C]). (Exerccio: Encontre todos os equilbrios de Nash em estratgia
pura deste jogo.)
3.5.3
Pontos Focais
O conceito de equilbrio de Nash no nos permite determinar que equilbrio ser jogado em
uma particular realizao do jogo se este possui mltiplos equilbrios. No Exemplo 3.5.10
no existe nenhuma maneira de determinar qual dos equilbrios ([E],[E]) ou ([C],[C]) melhor, pois ambos resultam em utilidade 1 para os jogadores. Por outro lado, o equilbrio
(1/2[E]+1/2[C],1/2[E]+1/2[C]) resultado em uma utilidade esperada de 1/2 para os jogadores.
Para alguns jogos possvel que exista algum equilbrio de Nash que se destaque em
relao aos demais, estes equilbrios so chamados de pontos focais. Por exemplo, o fato que
brasileiros dirigem do lado direito da rua poderia ser utilizado para determinar o ponto focal
do prximo exemplo:
Exemplo 3.5.13: Joo e Jos dirigem em dois carros numa pista de duas faixas em direes
opostas. Eles podem dirigir tanto do lado esquerdo como do direito, mas se eles no coordenarem suas aes eles podem causar um acidente de trnsito. Este jogo pode ser descrito
pela seguinte matriz:
Autor: Leandro Chaves Rgo
40
D
D 1,1
E 0,0
E
0,0
1,1
Esperamos que ambos escolham ([D],[D]) que a norma socialmente aceita neste jogo.
Exemplo 3.5.14: Batalha dos Sexos.
Considere novamente o jogo da batalha dos sexos.
S
P
S
P
1,2 0,0
0,0 2,1
([S],[S]) e ([P],[P]) so equilbrios de Nash deste jogo. Este jogo interessante, pois os
jogadores no so indiferentes entre qual equilbrio implementar. Jogador 1 prefere ([P],[P])
e o jogador 2 prefere ([S],[S]).
Experimento 8: Suponha que voc o jogador 1 na batalha dos sexos. Qual ser a sua
escolha?
Experimento 9: Suponha novamente que voc o jogador 1 na batalha dos sexos. Jogador
2 escolhe uma ao primeiro. Voc no pode observar a escolha do jogador 2 antes de escolher
sua prpria ao. Qual ser a sua escolha?
Experimento 10: Suponha novamente que voc o jogador 1 na batalha dos sexos. Antes
do jogo comear, o jogador 2 tem uma oportunidade de fazer um anuncio. Seu anuncio
Jogarei S. Voc no pode fazer um anncio antes do jogo. Qual ser a sua ao?
Este tipo de comunicao conhecido como conversa fiada (cheap talk) pois este anuncio
no muda em nada a anlise. Note que, simplesmente expandindo o espao de estratgias
para o jogador 2. Ao invs das estratgias S e P, jogador 2 agora tem 4 estratgias: Ss,
Sp, Pp, Ps, onde estratgia Sp significa que jogador 2 escolhe S e anuncia que iria jogar p.
Claramente, as estratgias Ss e Sp tm a mesma utilidade esperada quando jogada contra
qualquer estratgia do jogador 1. Portanto, o jogo continua tendo o mesmo conjunto de
equilbrios de Nash que antes. Contudo, o anncio pode criar um ponto focal no jogo.
3.5.4
Risco Dominante
A
B
9,9 -15,8
8,-15 7,7
Este jogo tem dois equilbrios de Nash em estratgias puras: ([A],[A]) and ([B],[B]).
Ao contrrio dos jogos anteriores, o equilbrio ([A],[A]) melhor para ambos os jogadores.
Podemos ento ser tentados a pensar que este equilbrio mais jogado na prtica. Contudo,
muitas pessoas tipicamente escolhem estratgia B na maioria dos experimentos. Escolher A
parece ser muito arriscado. Assuma que voc no sabe muito sobre o outro jogador e acha
que igualmente provvel que ele escolher uma de sua estratgias puras que fazem parte
de um equilbrio de Nash. Ento, escolher A lhe d uma utilidade esperada de -3 enquanto
escolher B lhe d 7,5. Portanto, A risco dominada por B.
Autor: Leandro Chaves Rgo
3.5.5
41
Dominncia Conjunta
Um outro critrio de seleo de equilbrios escolher os equilbrios nos quais no existe outro
equilbrio onde todos os jogadores recebem um pagamento esperado pelo menos igual a este
equilbrio e pelo menos um dos jogadores esteja estritamente melhor. Segundo este critrio
os jogadores no jogo da seo anterior deveriam escolher o equilbrio ([A],[A]). Para um outro
exemplo considere o seguinte jogo:
A
B
A
1,3
1,1
B
2,3
2,1
3.5.6
Prova da Existncia
Nesta seo veremos que todo jogo em forma normal finito possui um equilbrio de Nash
em estratgias randomizadas. A demonstrao que apresentaremos faz uso do Teorema do
ponto fixo de Brouwer.
Teorema 3.5.15: (Brouwer.) Se M um subconjunto compacto e convexo de um espao
euclidiano de dimenso finita e F : M M uma funo contnua, ento F possui um
ponto fixo em M , isto , existe x M tal que F (x ) = x .
Provaremos a existncia do equilbrio de Nash em jogos finitos atravs de uma srie de
lemas. Para cada jogador i N e cada estratgia s Ci seja zis : iN (Ci ) IR tal que
zis () = ui ([s], i ) ui (),
isto , zis mede o ganho ou perda do jogador i quando ele muda de estratgia i para [s].
Lema 3.5.16: um equilbrio de Nash se, e somente se, zis ( ) 0, i N e s Ci .
) para todo i N
Prova: Assuma que um equilbrio de Nash, ento ui ( ) ui ([s], i
s
e s Ci . Consequentemente, zi ( ) 0.
) ui ( ), i N
Por outro lado, se zis ( ) 0, i N e s Ci , ento ui ([s], i
ui (i , i
)=
i (s)ui ([s], i
)
sCi
sCi
i (s)ui ( ) = ui ( )
i (s) = ui ( )
sCi
42
Corolrio 3.5.17: Seja gis () = max(0, zis ), ento um equilbrio de Nash se, e somente,
gis ( ) = 0, i N e s Ci .
Considere a seguinte aplicao F : iN (Ci ) iN (Ci ) tal que para todo i N e
s Ci :
i (s) + gis ()
Fi ()(s) =
.
1 + tCi git ()
Lema 3.5.18: um equilbrio de Nash se, e somente se, F ( ) = , isto , se, e somente
se, um ponto fixo da aplicao F .
Prova: Observe que, de fato, F (iN (Ci )) iN (Ci ), pois claramente Fi ()(s) 0 e
i (s) + g s ()
it
Fi ()(s) =
1 + tCi gi ()
sCi
sCi
(1
+
gis ()) = 1,
1 + tCi git ()
sC
i
i (s)
git ( ) = gis ( ).
tCi
t
tCi gi ( )
) > ui ( ). Logo,
que para todo i N e s Ci , se gis ( ) > 0 ento ui ([s], i
ui ( ) = ui (
i (s)[s], i
)
=
sCi
i (s)ui ([s], i
)
sCi
>
i (s)ui ([s], i
)
sCi ,i (s)>0
i (s)ui ( ) = ui ( ),
sCi ,i (s)>0
43
min
gis ()
iN (Ci )
iN sCi
3.5.7
(3.1)
ci Ci jN {i}
i (ei ) = 0, i N, ei Ci Di ,
i (ci ) = 1, i N,
(3.2)
(3.3)
ci Di
i (di ) > 0, i N, di Di .
(3.4)
Condio (3.1) assegura que o jogador i tem a mesma utilidade esperada wi de utilizar
qualquer uma das estratgias puras no suporte de i . Condies (3.2), (3.3), e (3.4) asseguram que i tem suporte Di . Note que as trs primeiras condies formam um sistema de
Autor: Leandro Chaves Rgo
44
iN (||Ci || + 1) equaes e mesmo nmero de incgnitas ({wi , i (ci )}, para todo ci Ci e
i N ). Portanto, teoricamente pode-se resolver este sistema. No caso de dois jogadores,
teremos um sistema linear de equaes. No caso de mais de dois jogadores temos um sistema
no linear. Assumindo que existe soluo para este sistema e que podemos encontrar todas
as solues deste sistema teremos que verificar que a Condio (3.4) satisfeita. Alm disso,
ainda temos que assegurar que nenhuma outra estratgia ei Ci Di melhor para o jogador
i que i , ou seja, temos que garantir que:
wi
(
j (cj ))ui (ci , ei ), i N, ei Ci Di .
(3.5)
ci Ci jN {i}
x2
0,0
4,5
5,4
y2
5,4
0,0
4,5
z2
4,5
5,4
0,0
Primeiro note que no existe nenhum equilbrio de Nash em estratgias puras neste
jogo. Vamos verificar se existe algum equilbrio onde a estratgia do jogador 1 tem suporte
D1 = {x1 , y1 }. Note que neste caso a estratgia y2 do jogador 2 estritamente dominada
pela estratgia z2 e portanto no pode fazer parte do suporte do equilbrio, se ele existir.
Mas se y2
/ D2 , temos que x1 estritamente dominada por y1 . Logo, x1 no pode estar
no suporte do equilbrio e, portanto no existe equilbrio com suporte D1 = {x1 , y1 }. Os
casos em que D1 = {x1 , z1 } e D1 = {y1 , z1 } tambm podem ser resolvidos de forma similar
para chegar-se a concluso que eles no so suporte de nenhum equilbrio. Pela simetria
do jogo, temos que tambm no existe equilbrio quando D2 = {x2 , y2 }, D2 = {x2 , z2 }, ou
D2 = {y2 , z2 }. Portanto, s nos resta o caso em que D1 = {x1 , y1 , z1 } e D2 = {x2 , y2 , z2 }.
Vamos assumir que 1 = (p1 , p2 , 1 p1 p2 ) e que 2 = (q1 , q2 , 1 q1 q2 ). Calculando, a
utilidade esperada do jogador 1 para cada uma de suas trs estratgias puras temos:
u1 (x1 , 2 ) = 0q1 + 5q2 + 4(1 q1 q2 ) = 4 4q1 + q2
u1 (y1 , 2 ) = 4q1 + 0q2 + 5(1 q1 q2 ) = 5 q1 5q2
u1 (z1 , 2 ) = 5q1 + 4q2 + 0(1 q1 q2 ) = 5q1 + 4q2
Igualando estas trs quantidades, temos a soluo q1 = q2 = 1/3. Fazendo calculo similar
para o jogador 2, pela simetria do problema obtemos p1 = p2 = 1/3.
Autor: Leandro Chaves Rgo
3.5.8
45
46
3.6
,
Fi (i )(s) =
1 + tCi git ()
onde s Ci e o perfil de estratgias mistas onde todos os jogadores jogam i . Vamos
mostrar que os pontos fixos de Fi constituem as estratgias dos equilbrios de Nash simtricos.
J provamos que se for um equilbrio de Nash (simtrico), ento i um ponto fixo de Fi ,
pois neste caso temos gis () = 0 para todo s Ci . Por outro lado, se i for um ponto fixo de
Fi , ento argumento idntico a prova da existncia do equilbrio de Nash, nos leva a concluir
Autor: Leandro Chaves Rgo
47
que gis () = 0 para todo s Ci , o que por sua vez implica que i uma melhor resposta
para i . Como o jogo simtrico, isto implica que um equilbrio de Nash simtrico.
Apesar de todo jogo simtrico possuir um equilbrio simtrico em estratgias mistas,
isto nem sempre verdade para equilbrios simtricos em estratgias puras. Por exemplo,
considere o seguinte jogo:
A
B
A
0,0
1,1
B
1,1
0,0
Os equilbrios de Nash em estratgia puras deste jogo so ([B], [A]) e ([A], [B]). Portanto
no so simtricos. O nico equilbrio de Nash simtrico aquele no qual ambos os jogadores
escolhem cada uma de suas estratgias puras com probabilidade 1/2.
Exemplo 3.6.4: Considere o seguinte jogo em forma normal simtrico:
A
B
C
A
1,1
1,2
1,4
B
2,1
5,5
6,3
C
4,1
3,6
0,0
48
e C, ento temos um equilbrio onde ambos jogadores escolhem B com probabilidade 3/4 e
C com probabilidade 1/4.
Finalmente, considere o caso em que o jogador 1 escolhe uma estratgia com suporte em
{A, B, C}. Suponha que o jogador 1 escolhe A, B e C com probabilidades p1 , p2 e 1p1 p2 ,
respectivamente. Neste caso, a utilidade esperada para o jogador 2 das aes A, B e C so
respectivamente: p1 + 2p2 + 4(1 p1 p2 ), p1 + 5p2 + 3(1 p1 p2 ) e p1 + 6p2 . Pela simetria
do problema, s poder existir um equilbrio neste caso se o jogador 2 tambm utilizar
uma estratgia com suporte em {A, B, C}, pois os demais casos j foram analisados. Para
tanto, as utilidades esperadas dessas 3 aes deve ser a mesma. Igualando as trs expresses
obtemos p1 = 1 e p2 = 0, o que no satisfaz a restrio do suporte ser em {A, B, C}, logo
no h equilbrios neste caso. Resumindo, temos os seguintes equilbrios:
([A], [A]), ([C], [A]) e ([A], [C]).
(p[A] + (1 p)[C], [A]) e ([A], p[A] + (1 p)[C]), para qualquer p (0, 1).
(p[B] + (1 p)[C], [A]) e ([A], p[B] + (1 p)[C]), para qualquer p (0, 1/4].
(3/4[B] + 1/4[C], 3/4[B] + 1/4[C]).
Apenas, o primeiro e o ltimo deles so simtricos.
3.7
49
e
2 argmin2 (C2 ) max u1 (1 , 2 ).
1 (C1 )
min u1 (1 , 2 ) = min
1 (C1 ) 2 (C2 )
max u1 (1 , 2 ).
2 (C2 ) 1 (C1 )
1 (C1 )
2 (C2 )
min u1 (1 , 2 )
min u1 (1 , 2 ) min
max u1 (1 , 2 ).
1 (C1 )
1 (C1 ) 2 (C2 )
e
2 (C2 )
2 (C2 ) 1 (C1 )
min u1 (1 , 2 ) min u1 (1 , 2 )
min
max u1 (1 , 2 ) max u1 (1 , 2 ).
1 (C1 ) 2 (C2 )
2 (C2 )
e
2 (C2 ) 1 (C1 )
1 (C1 )
Portanto,
u1 (1 , 2 ) = max u1 (1 , 2 )
1 (C1 )
max
min u1 (1 , 2 )
1 (C1 ) 2 (C2 )
min u1 (1 , 2 ) = u1 (1 , 2 )
2 (C2 )
e
u1 (1 , 2 ) = min u1 (1 , 2 )
2 (C2 )
min
max u1 (1 , 2 )
2 (C2 ) 1 (C1 )
max u1 (1 , 2 ) = u1 (1 , 2 ).
1 (C1 )
50
min u1 (1 , 2 ) = min
1 (C1 ) 2 (C2 )
max u1 (1 , 2 ).
2 (C2 ) 1 (C1 )
min u1 (1 , 2 )
max u1 (1 , 2 ) = min
max u1 (1 , 2 ),
2 (C2 )
1 (C1 ) 2 (C2 )
e
1 (C1 )
2 (C2 ) 1 (C1 )
temos que
1 argmax1 (C1 ) min u1 (1 , 2 )
2 (C2 )
e
2 argmin2 (C2 ) max u1 (1 , 2 ).
1 (C1 )
e
2 argmin2 (C2 ) max u1 (1 , 2 ).
1 (C1 )
Como temos um jogo finito, sabe-se que existe um equilbrio de Nash do jogo, ento segue
da primeira parte da prova que
max
min u1 (1 , 2 ) = min
1 (C1 ) 2 (C2 )
max u1 (1 , 2 ).
2 (C2 ) 1 (C1 )
= max
min u1 (1 , 2 )
= min
max u1 (1 , 2 )
1 (C1 ) 2 (C2 )
2 (C2 ) 1 (C1 )
= max u1 (1 , 2 ) u1 (1 , 2 ).
1 (C1 )
e
u1 (1 , 2 ) = min u1 (1 , 2 ) = K max u2 (1 , 2 ).
2 (C2 )
2 (C2 )
51
(3.6)
(3.7)
A
B
C
D
A
B
8,2 6,4
5,5 3,7
7,3 10,0
7,3 5,5
C
1,9
7,3
0,10
5,5
52
D
2,8
5,5
6,4
9,1
8 6 1
5 3 7
7 10 0
7 5 5
2
5
6
9
Captulo 4
Jogos em Forma Extensa
4.1
Introduo
At o momento estudamos apenas casos onde jogadores se movem ao mesmo tempo e uma
nica vez. Contudo em muitas situaes estratgicas os jogadores implementam suas estratgias ao longo do tempo e podem obter informaes sobre as estratgias que esto sendo
utilizadas pelos outros jogadores. Para analisar tais situaes precisamos de uma outra forma
de representar jogos, que conhecida como representao em forma extensa (ou extensiva)
de jogos. Intuitivamente, um jogo em forma extensa descreve o conjunto de jogadores, quem
se move e quando e quais so suas opes, a utilidade dos jogadores para cada possvel maneira de jogo ser realizado, e finalmente, o que os jogadores sabem quando se movem em
cada situao do jogo. Em um jogo em forma extensa admite-se a possibilidade de eventos
aleatrios influenciarem na realizao do jogo, como por exemplo, o resultado da jogada de
um dado. Tais eventos aleatrios so representados no jogo como se fossem feitos por um outro jogador denominado chance ou natureza, sendo que este jogador no possui preferncias
sobre os possveis resultados do jogo.
4.2
Formalmente, temos que um jogo em forma extensa com informao perfeita um vetor
= (N, M, H, P, fc , {ui : i N }), onde
N um conjunto que consiste dos agentes participando do jogo.
M um conjunto cujos elementos so os movimentos ou aes disponveis aos jogadores
ou a chance durante o jogo.
H um conjunto de sequncias de movimentos (elementos de M ) que fechado com
relao a prefixos, isto , se h H e h for um prefixo de h, ento h H.1 Alm disso,
1
Um prefixo de uma sequncia (xn ) de comprimento K qualquer subsequncia de (xn ) que consiste dos
primeiros l K termos de (xn ). Por exemplo, se h = m5 , m8 , m1 os prefixos de h so ,m5 ,m5 , m8 , e
m5 , m8 , m1 . Se h for um prefixo de h mas h no for igual a h diz-se que h um prefixo estrito de h.
53
54
55
Exemplo 4.2.2: Competio de Stackelberg. Suponha que uma firma 1 desenvolve uma
nova tecnologia antes que uma firma 2 e como consequncia tem a oportunidade de construir
uma fbrica e escolher um nvel de produo q1 antes que a firma 2 comece sua produo. A
firma 2 ento observa a escolha da firma 1 antes de escolher seu nvel de produo q2 . Por
exemplo, assuma que qi {0, 1, 2}, que o preo de mercado dado por p(q1 , q2 ) = 3 q1 q2 ,
e que o custo de produo zero. As firmas so obrigadas a vender toda a produo pelo
preo de mercado pois no possuem local para armazenagem e a destruio de produtos tem
um custo muito elevado. Deste modo temos que:
N = {1, 2}, H = { , 0, 1, 2, 0, 0, 0, 1, 0, 2, 1, 0, 1, 1, 1, 2, 2, 0, 2, 1,
2, 2},
P ( ) = 1, P (0) = P (1) = P (2) = 2,
u1 (0, q2 ) = u1 (1, 2) = u1 (2, 1) = 0,
u1 (1, 0) = u1 (2, 0) = 2,
u1 (1, 1) = u2 (1, 1) = 1, u1 (2, 2) = u2 (2, 2) = 2,
u2 (q1 , 0) = u2 (1, 2) = u2 (2, 1) = 0, e
u2 (0, 1) = u2 (0, 2) = 2.
4.2.1
56
Estratgias
Definio 4.2.3: Uma estratgia pura para o jogador i em um jogo em forma extensa com
informao perfeita uma funo si que associa cada histria h Hi um elemento de Mh ,
ou seja, uma ao disponvel para i em h.
Definio 4.2.4: Se Ci o conjunto de estratgias puras para o jogador i em um jogo em
forma extensa com informao perfeita, uma estratgia mista para o jogador i em um jogo
em forma extensa uma distribuio de probabilidade i em Ci , ou seja, um elemento de
(Ci ).
Para jogos em forma extensa com informao perfeita existe uma outra noo de estratgia, chamada de estratgia comportamental, que especifica uma randomizao independente
para cada histria em que o jogador se move.
Definio 4.2.5: Uma estratgia comportamental para o jogador i em um jogo em forma
extensa com informao perfeita uma funo i que associa cada histria h Hi um
elemento de (Mh ), ou seja, uma distribuio de probabilidade sobre as aes disponveis
para i em h.
Note que uma estratgia um plano de contingncia completo que explica o que um
jogador ir fazer em cada situao que possa aparecer no jogo. A primeira vista, uma
estratgia parece especificar aes em excesso, pois aes no comeo do jogo podem tornar
impossvel que certas histrias sejam atingidas. Ento, por que temos que especificar como
jogadores se comportam em histrias que nunca sero atingidas se os jogadores seguem certas
aes no comeo do jogo? A razo que como jogadores se comportam fora da trajetria de
equilbrio ser crucial para determinar se um dado perfil de estratgias um equilbrio de
Nash. Ameaas em caminhos fora do equilbrio podem ser essenciais. Falaremos mais sobre
isso adiante.
Exemplo 4.2.6:
Figura 4.2: Um jogo em forma extensa no qual o jogador 1 se move antes e depois do jogador
2.
Neste jogo, jogador 1 possui quatro estratgias puras: AE, AF, BE, BF . Jogador 2
possui duas estratgias puras: C e D. Note que temos que especificar o que o jogador 1 far
aps a histria B, D, mesmo que ele tenha escolhido A no comeo.
Autor: Leandro Chaves Rgo
4.2.2
57
Alguns conceitos de soluo para jogos em forma extensiva utilizam uma representao forma
normal que derivada a partir da descrio em forma extensa do jogo. Veremos nesta seo
trs possveis maneiras de representar um jogo em forma extensa em uma forma normal:
forma normal, forma normal reduzida, e forma multiagente.
Forma Normal
Antes de darmos a definio da representao em forma normal de um jogo em forma extensa,
note que dado um perfil de estratgias puras para os jogadores em um jogo em forma extensa,
essas estratgias induzem uma distribuio de probabilidade sobre as possveis histrias
do jogo em forma em extensa. Formalmente, suponha que os jogadores jogam o perfil de
estratgias pura s, ento P rs (h) representa a probabilidade do jogo atingir a histria h dado
que os jogadores seguem as estratgias em s. Temos que P rs ( ) = 1. Se h = h m, o
jogador chance se move aps a histria h , e q a probabilidade com que a chance escolher
a ao m, ento temos que P rs (h) = qP rs (h ). Se h = h m, e h Hi , ento P rs (h) =
P rs (h ) se si (h ) = m, e P rs (h) = 0, se si (h ) = m. Podemos tambm definir de forma
anloga, a probabilidade P r (h) do jogo atingir a histria h dado que os jogadores seguem
as estratgias comportamentais em , a nica diferena da definio anterior que no caso em
que h = h m e h Hi , temos que P r (h) = i (m)P r (h ). A distribuio de probabilidade
induzida por uma estratgia mista iN (Ci ) dada pelo valor esperado
de acordo com
das distribuies induzidas pelas estratgias puras, ou seja, P r (h) = sC (s)P rs (h).
Exemplo 4.2.7: Considere o jogo do Exemplo 4.2.6. Se o perfil de estratgias puras for
s = (BE, C), ento teremos P rs (B) = P rs (B, C) = 1, P rs (A) = P rs (B, D) =
P rs (B, D, E) = P rs (B, D, F ) = 0. Por outro lado, se tivermos um perfil de estratgias
mistas onde cada jogador escolhe suas estratgias puras com igual probabilidade, temos
que P r (A) = P r (B) = 1/2, P r (B, C) = P r (B, D) = 1/4, P r (B, D, E) =
P r (B, D, F ) = 1/8. Finalmente, se for um perfil de estratgias comportamental no
qual todos os jogadores em qualquer histria aps a qual eles se movem escolhem as suas
aes disponveis com igual probabilidade, teremos P r (h) = P r (h), para todo h H.
Definio 4.2.8: A representao em forma normal de um jogo em forma extensa com
informao perfeita = (N, M, H, P, fc , {vi : i N }) o jogo em forma normal n =
(N, {Ci : i N }, {ui : i N }), onde Ci so as estratgias puras do jogador i em e para
todo s iN Ci , temos
ui (s) =
P rs (z)vi (z),
zZ
AE
AF
BE
BF
C
1,1
1,1
0,3
0,3
58
D
1,1
1,1
2,2
1,4
C
D
1,1 1,1
0,3 2,2
0,3 1,4
uj (di , ci ) =
i (ei )uj (ei , ci ), ci Ci , j N.
ei Ci
Portanto, di aleatoriamente redundante se, e somente se, existe alguma maneira para o
jogador i escolher aleatoriamente entre suas outras estratgias puras de forma que, no importa qual estratgias sero usadas pelos outros jogadores, todos os jogadores tero a mesma
Autor: Leandro Chaves Rgo
59
utilidade esperada quando i utiliza di ou i . A forma normal completamente reduzida derivada da forma normal puramente reduzida eliminando estratgias que so aleatoriamente
redundantes.
Exemplo 4.2.11:
A
B
C
D
6,0
0,8
3,4
E
6,0
8,0
7,0
Figura 4.3: Um jogo em forma extensa no qual o jogador 1 se move antes e depois do jogador
2.
A representao multiagente tem trs jogadores , B, e B, D, o jogador possui
duas aes disponveis A e B, o jogador B possui tambm duas aes disponveis C e D,
e finalmente o jogador B, D possui tambm duas aes disponveis E e F . As utilidades
so descritas nas duas tabelas a seguir:
Quando o agente B, D escolhe E, temos:
Autor: Leandro Chaves Rgo
A
B
60
C
D
1,1,1 1,1,1
0,3,0 2,2,2
C
D
1,1,1 1,1,1
0,3,0 1,4,1
4.2.3
Equilbrio de Nash
Como existem trs tipos de estratgias para um jogo em forma extensa, podemos definir trs
tipos de equilbrios de Nash:
Definio 4.2.14: Dado um jogo em forma extensa com informao perfeita = (N, M, H, P, fc , {vi :
i N }), um perfil de estratgias s um equilbrio de Nash em estratgias puras de se, e
somente se,
ui (s) =
P rs (z)vi (z) ui (si , di ) =
P r(si ,di ) (z)vi (z)
zZ
zZ
ui () =
(s)
P rs (z)vi (z) ui (i , i ) =
i (si )i (si )
P rs (z)vi (z)
sC
zZ
sC
zZ
ui () =
P r (z)vi (z) ui (i , i ) =
P r(i ,i ) (z)vi (z)
zZ
zZ
61
Exemplo 4.2.17: No jogo do Exemplo 4.2.6, temos que (A, C, E), (A, C, F ), e (A, D, F )
so os nicos equilbrios de Nash em estratgias puras.
Equilbrio de Nash no um conceito de soluo muito razovel para alguns jogos extensivos, por que ele permite que muitos perfis de estratgias sejam equilbrios, alguns at
no-intuitivos.
Exemplo 4.2.18:
4.2.4
Vimos em geral que quando analisamos equilbrios de Nash de jogos em forma extensiva estes
podem conter muitos equilbrios. Muitos desses equilbrios podem parecer no razoveis pois
so baseados em ameaas inacreditveis. Equilbrio de Subjogo Perfeito um refinamento
de equilbrio de Nash que no permite ameaas inacreditveis.
Definio 4.2.19: Um subjogo G de um jogo em forma extensiva = (N, M, H, P, fc , {vi :
i N }) um outro jogo em forma extensiva que satisfaz:
1. O conjunto de histrias H G em G consiste de uma nica histria em H e todos as
histrias subsequentes a h;
Autor: Leandro Chaves Rgo
62
Definio 4.2.20: Um perfil de estratgia (puro, misto, ou comportamental) s um equilbrio de subjogo perfeito em estratgias (puras, mistas, ou comportamentais, respectivamente) de se ele for equilbrio de Nash em estratgias (puras, mistas, ou comportamentais,
respectivamente) de todo subjogo de .
Note que um equilbrio de subjogo perfeito tambm um equilbrio de Nash porque o
jogo tambm um subjogo degenerado dele mesmo.
Induo Reversa
A tcnica mais comum para encontrar os equilbrios de subjogo perfeito de um jogo finito
conhecida como induo reversa. Intuitivamente, temos que a tcnica sugere que se comece
pelo fim do jogo e v resolvendo at chegar ao comeo do jogo. Podemos descrever mais
formalmente esta tcnica nos seguintes passos:
1. Seja k = 1 e (k) = .
2. Seja Z 1 o conjunto de todas as histrias que so antecessoras imediatas das histrias
terminais do jogo (k). Para todo i N e h Z 1 Hi , o jogador i enfrenta um
problema de deciso aps histria h, e portanto deve escolher a ao que maximiza
sua utilidade esperada. Se houver mais de uma ao que produza a mesma utilidade
esperada, existir um equilbrio de subjogo perfeito contendo cada uma dessas aes.
Escolha uma delas para ser a ao escolhida por i segundo a estratgia s, isto , faa
si (h) = a argmaxbMh ui (h b). Passe ao passo seguinte.
3. Defina o jogo (k + 1) da seguinte maneira:
(a) Para todo h Z 1 (iN Hi ), substitua as aes em Mh do jogo (k), pelo vetor
de utilidades que corresponde a histria terminal atingida pela ao escolhida no
passo anterior. Passe ao passo seguinte.
(b) Para todo h Z 1 (iN Hi )c , isto uma histria imediatamente antecessora a
uma histria terminal do jogo (k) onde chance se move, substitua as aes em
Mh , pelo vetor de utilidades que corresponde a utilidade esperada dos jogadores
de acordo com a distribuio de probabilidade que descreve as probabilidades do
jogador chance escolher cada uma das aes em Mh . Passe ao passo seguinte.
4. Se o conjunto de todas as histrias de (k +1) em que algum jogador i N se move for
vazio. Pare a iterao e temos que s um equilbrio de subjogo perfeito em estratgias
puras de . Caso contrrio, passe ao passo seguinte.
Autor: Leandro Chaves Rgo
63
4.3
Agora, vamos estudar jogos extensivos onde os jogadores ao tomarem sua deciso aps
alguma histria do jogo, podem ter somente uma informao parcial sobre as aes que j
foram tomadas no jogo. Note que um jogo em forma normal um caso particular de um
jogo extensivo com informao imperfeita, pois neste caso todos os jogadores se movem uma
nica vez e cada um deles no possui nenhuma informao a respeito das aes dos outros
jogadores quando toma a sua deciso.
Formalmente, temos que um jogo em forma extensa com informao imperfeita um
vetor = (N, M, H, P, fc , {Ii : i N }, {ui : i N }), onde
(N, M, H, P, fc , {ui : i N }) um jogo em forma extensa com informao perfeita, e
Ii uma partio de Hi com a propriedade que se h e h esto na mesma clula da
partio, ento Mh = Mh , ou seja, o mesmo conjunto de aes est disponvel em
todas as histrias de uma mesma clula da partio; se h I, onde I uma clula
da partio, denota-se por MI o conjunto Mh de aes disponveis. Intuitivamente,
se h e h esto na mesma clula de Ii , ento h e h so indistinguveis do ponto de
vista do jogador i; i considera a histria h possvel se a verdadeira histria for h, e
vice versa. Uma clula I Ii conhecida como um conjunto de informao para o
jogador i ou como um i-conjunto de informao. Quando desenhamos um jogo em
forma extensa com informao imperfeita em uma rvore circulamos ou interligamos
os ns pertencentes a um mesmo conjunto de informao com uma linha tracejada.
Como anteriormente, um jogo em forma extensa com informao imperfeita finito se
N, M, e H forem finitos.
Exemplo 4.3.1:
No jogo da Figura 4.5, temos
N = {1, 2}, H = { , A, B, C, B, D, C, D, B, E, C, E B, E, F ,
B, E, G, C, E, H, C, E, I},
Autor: Leandro Chaves Rgo
64
4.3.1
Na maior parte deste curso, como na maioria dos trabalhos em teoria dos jogos, ns assumimos que jogadores tm memria perfeita: eles recordam de todas as aes que eles prprios
tomaram e de todos os conjuntos de informao pelos quais eles passaram. Formalmente,
vamos requerer que
se h e h esto no mesmo conjunto de informao do jogador i e h1 um prefixo de h
tal que P (h1 ) = i, ento existe um prefixo h1 de h tal que h1 e h1 esto no mesmo
conjunto de informao; alm disso, se h1 m for um prefixo de h (de forma que m
foi a ao realizada quando h1 foi atingida na histria h), ento h1 m um prefixo
de h (portanto, i lembra que ele realizou ao m).
Podemos ver um jogo extenso com informao perfeita como um caso particular do jogo
extenso com informao imperfeita onde todos os conjuntos de informao contm uma nica
histria. fcil verificar que em todo jogo com informao perfeita, todos os jogadores tm
memria perfeita.
Podemos distinguir 3 tipos diferentes de memria imperfeita:
Autor: Leandro Chaves Rgo
65
4.3.2
Estratgias
Podemos definir de maneira anloga ao caso de jogos com informao perfeita, o que so
estratgias puras, mistas e comportamentais em jogos com informao imperfeita. A nica
diferena que as definies agora garantem que os jogadores s podem tomar a mesma
deciso em histrias que eles no conseguem distinguir.
Definio 4.3.2: Uma estratgia pura para o jogador i em um jogo em forma extensa com
informao imperfeita uma funo si que associa cada conjunto de informao Ii do jogador
i um elemento de MIi , ou seja, uma ao disponvel para i quando se move no conjunto de
informao Ii .
Autor: Leandro Chaves Rgo
66
67
de estratgias puras para os jogadores diferentes de i. Vamos verificar que P r(i ,ti ) (h) =
P r(i ,ti ) (h), h H, e consequentemente i e i so equivalentes em utilidade.
Seja h uma histria qualquer do jogo. Temos que considerar dois casos. Primeiro, assuma
que j N {i} tal que tj
/ Cj (h). Neste caso, temos que P r(i ,ti ) (h) = P r(i ,ti ) (h) = 0.
Assuma ento que j N {i} temos tj Cj (h). Ento, temos que:
fc (m|h )),
i (h )(m))(
P r(i ,ti ) (h) = (
h Hc ,
h mX(h)
h Hi ,
h mX(h)
pois ao longo da histria h as escolhas feitas pelo jogador i so independentes por definio
de e pelo fato que assumimos que no existe falta de memria se um jogador j realizou
ou no uma ao. Por outro lado, para uma estratgia pura si temos que P r(si ,ti ) (h) = 0
se si
/ Ci (h) e, em caso contrrio temos:
si Ci
fc (m|h )
h H
fc (m|h )
h H
A(h) =
fc (m|h ))(
i (I)(si (I))
i (I)(si (I)))
IIi ,
X(h)I=
i (h )(m)) A(h),
h Hi ,
h mX(h)
h Hc ,
h mX(h)
onde
i (I)(si (I))
IIi ,
si Ci (h)
X(h)I=
c,
h mX(h)
=(
si Ci (h) IIi
c,
h mX(h)
fc (m|h )
h Hc ,
h mX(h)
si Ci (h) IIi
i (I)(si (I))
si Ci (h)
si Ci (h)
IIi ,
X(h)I=
i (h)(si (h))
i (I)(si (I))
IIi ,
X(h)I=
, se h
/ Hi
i (I)(si (I)) , se h Hi
Como a nica restrio para uma estratgia pura si pertencer a Ci (h) que ela especifique
uma ao que leve a histria h em qualquer prefixo estrito de h onde o jogador i se move, ento
temos que essas estratgias podem especificar qualquer ao nos conjuntos de informao
para o jogador que contm h ou que no contenham prefixos de estritos de h. Desta forma
68
, se h
/ Hi
IIi ,
aMI i (I)(a)
X(h)I=
A(h) =
( aMh i (h)(a))
IIi ,
aMI i (I)(a) , se h Hi
X(h)I=
= 1.
Portanto,
P r(i ,ti ) (h)
=(
fc (m|h ))(
h Hc ,
h mX(h)
i (h )(m))
h Hi ,
h mX(h)
1/2, se h = A
1/4, se h = B ou h = C ou h = B, D ou h = C, D
P r(1 ,D) = P r(1 ,D) (h) =
0, caso contrrio
Enquanto se o jogador 2 escolher a estratgia pura E, ento
1/2, se h = A
1/4, se h = B ou h = C ou h = B, E ou h = C, E
P r(1 ,E) = P r(1 ,E) (h) =
ou h = B, E, G ou h = C, E, H
0, caso contrrio
Dada uma
estratgia comportamental i para o jogador i. A estratgia mista i que d
probabilidade IIi i (I)(si (I)) a estratgia pura si chamada uma representao mista de
i .
Para ver um exemplo da necessidade da hiptese que o jogo no pode ter falta de memria se um jogador j realizou ou no uma ao para encontrarmos uma estratgia mista
equivalente considere o seguinte exemplo.
Exemplo 4.3.11:
Considere o Jogo da Figura 4.7. Suponha a estratgia comportamental que escolhe ao
a com probabilidade p (0, 1). Esta estratgia induz probabilidades p2 , p(1 p), 1 p
nas histrias terminais a, a, a, b, b, respectivamente. Contudo qualquer estratgia mista
induz probabilidade zero na histria a, b. Portanto, no existe estratgia mista equivalente
a estratgia comportamental dada neste jogo.
Autor: Leandro Chaves Rgo
69
(si ),
i (h) =
si Ci (h)
ou seja, i (h) a soma das probabilidades das estratgias puras do jogador i consistentes com
a estratgia h. Dizemos que i consistente com h se, e somente se, i (h) > 0. Como o jogo
tem memria perfeita, para quaisquer histrias h e h no mesmo conjunto de informao do
jogador i, temos que Ci (h) = Ci (h ) e, consequentemente, i (h) = i (h ). Alm disso, como
para qualquer estratgia pura temos que o jogador i deve escolher uma mesma ao em h
e h , temos que Ci (h m) = Ci (h m) e, consequentemente, i (h m) = i (h m).
Vamos agora, definir uma estratgia comportamental i que provaremos ser equivalente em
utilidade a i . Seja I um conjunto de informao qualquer para o jogador i. Seja h I
tal que i (h) > 0, defina i (I)(m) = i (hm)
. Como uma estratgia pura si consistente
i (h)
com
uma histria h m, temos que
h se, e somente se, ela for consistente com exatamente
70
=(
h Hi ,
h mX(h)
h Hi ,
h mX(h)
fc (m|h ))
fc (m|h ))
h Hc ,
h mX(h)
(si ))(
si Ci (h)
h Hc ,
h mX(h)
= i (h)(
=(
i (h m)
)(
i (h )
h Hc ,
h mX(h)
fc (m|h ))
h Hc ,
h mX(h)
si Ci (h)
Exemplo 4.3.13: Considere novamente o jogo do Exemplo 4.3.1. Seja 1 a estratgia mista
do jogador 1 que escolhe AF H com probabilidade 1/2, BF I e BGH com probabilidade
1/4. Temos que 1 ( ) = 1, 1 (A) = 1/2, 1 (B) = 1 (B, E) = 1/2, 1 (C) =
0, 1 (B, E, F ) = 1 (B, E, G) = 1/4. De acordo com a construo do teorema uma
estratgia comportamental 1 que equivalente em utilidade a 1 tal que 1 ( )(A) =
1 ( )(B) = 1/2, 1 (B, E)(F ) = 1 (B, E)(G) = 1/2 e 1 (C, E) escolhe arbitrariamente
entre H e I.
O prximo exemplo ilustra a necessidade da hiptese de memria perfeita para a existncia de uma estratgia comportamental equivalente em utilidade a uma estratgia mista
qualquer.
Exemplo 4.3.14:
Considere o Jogo da Figura 4.8. Considere a estratgia mista na qual o jogador 1 escolhe
LL com probabilidade 12 e RR com probabilidade 12 . Esta estratgia induz probabilidades
1/2, 0, 0, 1/2 nas histrias terminais L, L, L, R, R, L, R, R, respectivamente. Suponha
uma estratgia comportamental i tal que i ({})(L) = p e i ({L, R})(L) = q. Note que
esta estratgia induz probabilidade 0 a histria L, R se, e somente se, p = 0 ou q = 0. Porm
neste caso, temos que ela tambm induz probabilidade 0 a L, L ou a R, R. Portanto, no
existe estratgia comportamental equivalente a estratgia mista dada.
Autor: Leandro Chaves Rgo
71
4.3.3
Note que as definies das representaes em forma normal e normal reduzida para jogos
com informao imperfeita so idnticas a definies correspondentes para o caso de jogos
com informao perfeita, apenas levando em conta as mudanas na definio do que so
agora estratgias puras. O caso da definio da representao multiagente precisa de mais
algumas alteraes. Agora ao invs de termos um agente temporrio para cada histria em
que um dado jogador i se move no jogo com informao imperfeita, teremos um agente
temporrio para cada conjunto de informao do jogador i. Formalmente,
Definio 4.3.15: A representao multiagente de um jogo em forma extensa com informao imperfeita = (N, M, H, P, fc , {Ii : i N }, {vi : i N }) o jogo em forma normal
n = ({I : I iN Ii }, {MI : I iN Ii }, {uI : I iN Ii }), onde relembrando se I Ii ,
temos que MI so as aes disponveis ao jogador i no conjunto de informao I. Para todo
perfil de estratgias de n , t JiN Ii MJ , seja st um perfil de estratgias de tal que
para todo j N e J Ij temos stj (J) = tJ . Ento,
uI : JiN Ii MJ IR uma funo
utilidade para um jogador I Ii tal que uI (t) = zZ P rst (z)vi (z).
Novamente temos que todos os agentes temporrios de um mesmo jogador possuem a
mesma funo utilidade.
Exemplo 4.3.16: Considere novamente o jogo a seguir:
A representao multiagente tem quatro jogadores jogadores ,{B, C},B, E, e
C, E. Os jogadores , B, E, e C, E so agentes temporrios do jogador 1 do jogo
em forma extensiva, enquanto o jogador {B, C} o nico agente temporrio do jogador
2. O jogador possui trs aes disponveis A, B e C, o jogador {B, C} possui duas
aes disponveis D e E, o jogador B, E, possui duas aes disponveis F e G, e finalmente
o jogador C, E possui tambm duas aes disponveis H e I. Se escolhe B, {B, C}
escolhe E, B, E, escolhe F , e B, E, escolhe I, temos que todos os agentes temporrios
tm utilidade esperada igual a 2.
Autor: Leandro Chaves Rgo
72
4.3.4
Equilbrio de Nash
Assim como no caso de jogos em forma extensiva com informao perfeita, podemos definir
trs tipos de Equilbrio de Nash, um para cada tipo de perfil de estratgias:
Definio 4.3.17: Dado um jogo em forma extensa com informao imperfeita = (N, M, H, P, fc , {Ii :
i N }, {vi : i N }), um perfil de estratgias s um equilbrio de Nash em estratgias puras
de se, e somente se,
ui (s) =
P rs (z)vi (z) ui (si , di ) =
P r(si ,di ) (z)vi (z)
zZ
zZ
Definio 4.3.18: Dado um jogo em forma extensa com informao imperfeita = (N, M, H, P, fc , {Ii :
i N }, {vi : i N }), um perfil de estratgias um equilbrio de Nash em estratgias mistas
de se, e somente se,
ui () =
(s)
P rs (z)vi (z) ui (i , i ) =
i (si )i (si )
P rs (z)vi (z)
sC
zZ
sC
zZ
Definio 4.3.19: Dado um jogo em forma extensa com informao imperfeita = (N, M, H, P, fc , {Ii :
i N }, {vi : i N }), um perfil de estratgias um equilbrio de Nash em estratgias
comportamentais de se, e somente se,
ui () =
P r (z)vi (z) ui (i , i ) =
P r(i ,i ) (z)vi (z)
zZ
zZ
73
4.3.5
Equilbrio sequencial
74
(h )
h I P r
Caso contrrio, existe uma sequncia ( n , n ), n = 1, 2, 3, . . ., de avaliaes tal que
n um perfil de estratgias que d probabilidade positiva a todas as aes em todos
os conjuntos de informao, ( n , n ) consistente no sentido do pargrafo anterior, e
limn ( n , n ) = ( , ).
Podemos agora enunciar dois importantes teoremas que justificam que esta uma noo
razovel de equilbrio.
Teorema 4.3.20: Se (, ) for um equilbrio sequencial de um jogo em forma extensiva com
memria perfeita, ento um equilbrio de Nash em estratgias comportamentais do jogo.
Prova: Suponha, por absurdo, que (, ) um equilbrio sequencial, mas no um
equilbrio de Nash. Ento existe i N e i uma estratgia comportamental para o jogador
i tal que
ui () =
P r (z)vi (z) < ui (i , i ) =
P r(i ,i ) (z)vi (z).
zZ
zZ
Escolha uma estratgia i tal que ui () < ui (i , i ) e ||{I Ii : i (I) = i (I)}|| ||{I
Ii : i (I) = i (I)}|| para toda estratgia comportamental i tal que ui () < ui (i , i ).
Seja I um conjunto de informao para o jogador i tal que i (I ) = i (I ) e para todo
conjunto de informao I Ii tal que I contm somente histrias que possuem prefixos em
I , i (I ) = i (I ), ou seja, i e i coincidem nas histrias que se seguem ao conjunto de
informao I . Defina agora i (I) = i (I), I = I , e i (I ) = i (I ). Iremos provar que
ui () < ui (i , i ), e como ||{I Ii : i (I) = i (I)}|| > ||{I Ii : i (I) = i (I)}||, temos
uma contradio.
Denotaremos por (i.I , i (I)) o perfil de estratgias comportamentais que igual a
exceto na ao do jogador i no conjunto de informao I; neste conjunto de informao I
a ao de i coincide com a ao escolhida por i em I de acordo com a estratgia i . Seja
ainda Z(I) o conjunto de histrias terminais que tem uma histria em I como prefixo. Como
i , i , e i coincidem em todas as histrias que se seguem ao conjunto de informao I ,
temos que EUi ((i , i )|h) = EUi ((i.I , i (I ))|h), h I . Alm disso, como i e i
75
diferem apenas na ao escolhida em I , temos que P r(i ,i ) (h) = P r(i ,i ) (h) para todo
h I (Z Z(I )). Portanto,
ui (i , i ) =
P r(i ,i ) (h)EUi ((i , i )|h) +
P r(i ,i ) (z)vi (z)
=
hI
z(ZZ(I ))
hI
z(ZZ(I ))
ento que ui (i , i ) = ui (i , i ) > ui (). Segundo, suponha que hI P r(i ,i ) (h) > 0.
Como temos um jogo com memria perfeita, para qualquer estratgia , temos que para
qualquer h I, onde I Ii ,
P r (h)
hI P r (h)
no depende da estratgia i do jogador i, pois i contribui com o mesmo fator multiplicativo
para P r (h) qualquer que seja h I. Ento, como (, ) um equilbrio sequencial:
(I)(h) =
P r(i ,i ) (h)
P r (h)
=
, h I.
hI P r (h)
hI P r(i ,i ) (h)
Logo,
ui (i , i ) = (
P r(i ,i ) (h))(
hI
hI
z(ZZ(I ))
hI
(I )(h)EUi (i , i |h).
hI
Portanto,
ui (i , i ) = (
P r(i ,i ) (h))(
hI
hI
P r(i ,i ) (h))(
hI
hI
z(ZZ(I ))
z(ZZ(I ))
= ui (i , i ) > ui (),
como queramos demonstrar.
Teorema 4.3.21: Para todo jogo finito em forma extensiva com memria perfeita, o conjunto de avaliaes que so equilbrio sequencial no vazio.
Autor: Leandro Chaves Rgo
76
1
0, 051 (1.1)(g)
=
.
0, 051 (1.1)(g) + 0, 951 (1.1)(g)2 (2.1)(h)
1 + 192 (2.1)(h)
Note que mesmo que 1 (1.1)(g) = 0, consistncia implica a mesma frmula acima.
Autor: Leandro Chaves Rgo
77
78
Ao longo deste captulo, vimos alguns refinamentos de equilbrios de Nash para jogos
em forma extensa. No prximo captulo, analisaremos refinamentos de equilbrio de Nash
tambm para jogos em forma normal.
Captulo 5
Refinamentos de Equilbrio de Nash para
Jogos em Forma Normal
5.1
Introduo
5.2
Um dado perfil de estratgias mistas para um jogo em forma normal finito dito ser completamente misto se toda ao do jogo escolhida com probabilidade estritamente positiva.
Definio 5.2.1: Um equilbrio perfeito de mo trmula de um jogo finito em forma normal
um perfil de estratgias mistas com a propriedade que existe uma seqncia ( k )
k=0 de
perfis de estratgia completamente mistos que convergem pontualmente para de tal forma
79
80
k
que para todo jogador i a estratgia i uma melhor resposta para i
para todos os valores
de k.
Como para todo jogador a utilidade esperada contnua no vetor de estratgias dos
outros jogadores, temos que i tambm uma melhor resposta para i , e portanto, todo
equilbrio perfeito de mo trmula tambm um equilbrio de Nash. O prximo exemplo
demonstra que a recproca desta afirmao no verdadeira.
Exemplo 5.2.2:
A
B
C
A
0,0
0,0
0,0
B
0,0
1,1
0,2
C
0,0
2,0
2,2
Este jogo tem trs equilbrios de Nash (A, A), (B, B), (C, C), mas apenas (B, B) um
equilbrio perfeito de mo trmula.
Note que em um equilbrio de mo trmula, a estratgia dos jogadores continua sendo
uma melhor resposta para estratgias dos demais jogadores que so pequenos desvios das
estratgias de equilbrio. Por este motivo, temos que equilbrio perfeito de mo trmula
robusto a pequenos erros que possam ser realizados pelos jogadores enquanto tentam
implementar suas estratgias de equilbrio. O prximo teorema relaciona equilbrio seqencial
com equilbrio perfeito de mo trmula da representao multiagente de um jogo em forma
extensa.
Teorema 5.2.3: Suponha que um jogo em forma extensiva finito com memria perfeita
e que um equilbrio perfeito de mo trmula da representao multiagente de em forma
normal. Ento, existe um sistema de crenas tal que (, ) um equilbrio seqencial de
.
k
Prova: Seja ( k )
k=0 a seqncia de perfis de estratgia completamente mistos tal que
converge para e para todo conjunto de informao I do jogador i, I uma melhor resposta
k
para I
para todo k. Para todo h I, defina
k (I)(h) =
P rk (h)
.
hI P r k (h)
Como k completamente mista, temos que P rk (h) > 0, h H. Como k pode ser
visto como um vetor de dimenso finita cujas componentes esto entre 0 e 1, temos que
esta seqncia est definida em um espao compacto e, portanto, tem uma subseqncia
convergente. Seja k a subseqncia convergente de k e o limite de k . Seja ainda k a
subseqncia de k correspondente a subseqncia k .
Por construo, temos que (, ) consistente. Queremos provar que esta avaliao
seqencialmente racional. Lembre que para todo I Ii , denotamos por uI () a utilidade
Autor: Leandro Chaves Rgo
81
esperada do agente I do jogador i. Temos que quando o agente i usa estratgia (I) em I
com as demais estratgias como especificado em k , uI dado por
k
k
uI (I
, (I)) =
P r(I
P r(I
k ,(I)) (h)Eui ((I , (I))|h) +
k ,(I)) (z)vi (z)
=
hI
k
P r k (h)Eui ((I
, (I))|h) +
hI
z(ZZ(I))
P r k (z)vi (z)
z(ZZ(I))
k
k
uI (I
, (I)) = (
P r k (h ))(
k (I)(h)Eui ((I
, (I))|h)) +
P r k (z)vi (z)
h I
hI
z(ZZ(I))
k
k
Como k uma subseqncia
de k , temos quek I uma melhor resposta para I ,
e portanto maximiza tambm
hI (I)(h)Eui ((I , (I))|h) por uma escolha de (I).
Fazendo k pela continuidade da utilidade esperada, temos que
82
k
k
, [di ]). Portanto, para qualquer ci
i
, [di ]) = argmaxdi Ci ui (i
temos que argmaxdi Ci uki (
Ci , se
k
k
i
, [di ]) = argmaxdi Ci ui (i
, [di ]),
ci
/ argmaxdi Ci uki (
k
ento
ik (ci ) = 0. Logo, i (ci ) = 0. Ento, temos que se ci
/ argmaxdi Ci ui (i
, [di ]), ento
i (ci ) = 0, o que por sua vez implica que
k
, i ).
i argmaxi (Ci ) ui (i
se ci
/ argmaxei Ci ui (ij , [ei ]), ento i j (ci ) < 1j , j, ou seja, Nj um 1j -equilbrio perfeito
para todo j.
Autor: Leandro Chaves Rgo
5.3
83
Equilbrio Prprio
, [ei ]).
, [ci ]) < ui (i
Vamos provar que um -equilbrio prprio de . Suponha que ui (i
Ento, dado que os jogadores diferentes de i seguem as estratgias em i , temos que para
quaisquer estratgias i e i de i que s diferem nas probabilidades com que ci e ei so
Autor: Leandro Chaves Rgo
84
escolhidos, vale ui (i
, i ) < ui (i
, i ) se i (ei ) > i (ei ). Portanto, se i e i so duas es
Vamos ilustrar com um exemplo o fato que nem todo equilbrio perfeito de mo trmula
um equilbrio prprio.
Exemplo 5.3.3: Considere o jogo a seguir:
a1 x1
a1 y1
b1 x1
b1 y1
x2
4,4
4,4
6,6
0,0
y2
4,4
4,4
3,0
2,2
Nosso objetivo mostrar que ([a1 x1 ], [y2 ]) um equilbrio perfeito de mo trmula deste
jogo que no equilbrio prprio. Para provar que um equilbrio perfeito de mo trmula,
considere o seguinte perfil de estratgias
= ((1 )[a1 x1 ] + 0,1[a1 y1 ] + 0,1[b1 x1 ] + 0,8[b1 y1 ], [x2 ] + (1 )[y2 ]).
um -equilbrio perfeito para qualquer < < 1/3, pois note que u1 (a1 x1 , 2 ) =
u1 (a1 y1 , 2 ) = 4, u1 (b1 x1 , 2 ) = 6 + (1 )3 < 4, u1 (b1 y1 , 2 ) = 2(1 ) < 2. Ento, temos
que b1 x1 e b1 y1 no so melhores respostas, ento para que seja um -equilbrio perfeito
precisamos ter 1 (b1 x1 ) < e 1 (b1 y1 ) < , que satisfeito neste exemplo. Tambm note
que u2 (1 , x2 ) = 4(1)+4(0,1)+6(0,1) = 43 e u2 (1 , y2 ) = 4(1)+4(0,1)+2(0,8) =
4 2. Ento, x2 no melhor resposta, ento precisamos ter 2 (x2 ) < , que satisfeito
neste exemplo. Ento, ([a1 x1 ], [y2 ]) um equilbrio perfeito de mo trmula deste jogo.
Contudo, no um -equilbrio prprio para nenhum < 1. A estratgia b1 x1
pior para o jogador 1 que a estratgia a1 y1 contra a estratgia 2 , porm elas so escolhidas
com a mesma probabilidade. Na verdade, temos que b1 x1 melhor para o jogador 1 que
a estratgia b1 y1 contra qualquer estratgia 2 . Portanto, em qualquer -equilbrio prprio,
< 1, devemos ter que a probabilidade de b1 x1 deve ser maior que a probabilidade de
b1 y1 , conseqentemente, x2 uma melhor resposta em qualquer -equilbrio prprio. Ento,
2 (x2 ) = 1 em qualquer equilbrio prprio. Portanto, 1 (b1 x1 ) = 1 em qualquer equilbrio
prprio. Portanto, o nico equilbrio prprio deste jogo (b1 x1 , x2 ). Note que podemos
justificar este equilbrio com a seguinte seqncia de -equilbrios prprios:
((1 0,52 )[b1 x1 ] + 0,52 [b1 y1 ] + 0,5[a1 x1 ] + 0,5[a1 y1 ], (1 0,5)[x2 ] + 0,5[y2 ]).
85
A seguir enunciamos um teorema que prova que existe uma relao entre equilbrios
sequenciais de um jogo em forma extensiva com equilbrios prprios da representao em
forma normal do jogo em forma extensiva.
Teorema 5.3.4: Suponha que um jogo finito em forma extensiva com memria perfeita
e que um equilbrio prprio da representao em forma normal de . Ento, existe
um sistema de crenas e uma perfil de estratgias comportamentais tal que (, ) um
equilbrio seqencial de e uma representao comportamental de .
Prova: Omitida. Consultar prova do Teorema 5.4 em Myerson.
Infelizmente, no existem argumentos que possam provar que jogadores racionais no
possam escolher equilbros de Nash que no so prprios, nem podemos provar que todo
equilbrio prprio deve ser considerado como uma maneira razovel de se comportar em um
jogo. A razo por que importante considerar refinamentos de equilbrio de Nash baseados
em anlise de sensibilidade a pequenas probabilidades de erros, como nos refinamentos de
equilbrio perfeito de mo trmula e equilbrio prprio, que estes conceitos proporcionam
uma maneira de checar se a justificativa para um determinado equilbrio no depende na
suposio de que jogadores ignoram completamente os possveis resultados do jogo que tm
probabilidade zero em equilbrio. Deste modo, podemos argumentar que testar estes (e
outros refinamentos contidos na literatura) uma maneira til de formalizar parte de nossa
intuio como jogadores racionais devem se comportar em jogos.
Captulo 6
Jogos Bayesianos
6.1
Introduo
Jogos Bayesianos so jogos nos quais, no comeo do jogo, antes dos jogadores comearem a
planejar suas aes no jogo, alguns jogadores podem j possuir alguma informao privada
sobre o jogo que os demais jogadores no sabem. Ento freqentemente, queremos analisar
situaes nas quais os jogadores atualmente tm diferentes informaes privadas que eles
possuem a um longo tempo, e no natural definir o incio do jogo como sendo algum ponto
em um distante passado antes dos jogadores lerem suas informaes privadas. Alm disso,
algumas informaes podem ser to bsicas para a identidade de um jogador (por exemplo,
sexo, lngua materna, nvel de averso ao risco) que no faz sentido discutir sobre jogadores
planejando suas aes antes de obterem estas informaes. Estas informaes privadas que
os jogadores possuem no incio do jogo antes de planejar suas aes definem os chamados
tipos dos jogadores.
6.2
Definio
Jogos Bayesianos so uma generalizao de jogos em forma normal que proporcionam uma
maneira de representar jogos onde os jogadores j comeam a planejar suas aes com informaes privadas que definem diversos tipos dos jogadores.
Definio 6.2.1: Um jogo bayesiano um vetor b = (N, {Ci : i N }, {Ti : i N }, {pi :
i N }, {ui : i N }), onde
N o conjunto de jogadores;
Ci o conjunto de aes disponveis para o jogador i;
Ti o conjunto de possveis tipos do jogador i. Note que apesar de no incio do jogo
cada jogador saber seu tipo (pois cada sabe a sua informao privada), precisamos de
um conjunto de tipos para cada jogador para descrever a incerteza que os jogadores
tm sobre os tipos dos demais jogadores.
86
6.2. DEFINIO
87
1
, i N, ti Ti , ti Ti .
100
Dizemos que as crenas dos jogadores descritas pelas funes pi em um jogo bayesiano
so consistentes com uma distribuio a priori se, e somente se, existe alguma distribuio
a priori comum sobre o conjunto de perfis de tipos T = iN Ti tal que a crena de cada
jogador dado o seu tipo apenas a distribuio condicional de probabilidade que pode ser
computada de acordo com a frmula de Bayes. Por exemplo, no caso finito, crenas so
consistentes se, e somente se, existe alguma distribuio de probabilidade P (T ) tal que
pi (ti |ti ) =
P (t)
, t T, i N.
si Ti P (si , ti )
6.2. DEFINIO
88
1
, t T.
10000
6.2.1
Estratgias
Quando analisamos jogos bayesianos, assumimos que cada jogador i sabe a estrutura inteira
do jogo e seu tipo e que este fato conhecimento comum entre todos jogadores. Portanto,
uma estratgia para o jogador i deve no s especificar uma ao para o seu verdadeiro tipo,
mas tambm uma ao para todos os demais tipos, pois os demais jogadores ao escolherem
suas aes levam em considerao as aes escolhidas por esses outros tipos. Logo, uma
estratgia pura para o jogador i em um jogo bayesiano uma funo que associa a cada tipo
do jogador i uma ao em Ci . Uma estratgia mista para o jogador i em um jogo bayesiano
uma funo que associa a cada tipo do jogador i uma distribuio de probabilidade em Ci .
6.2.2
Podemos representar qualquer jogo bayesiano por um jogo em forma normal. Esta representao conhecida como representao tipo-agente. Nesta representao existe um jogador
para cada tipo de jogador do jogo bayesiano. Formalmente, assumindo sem perda de generalidade que Ti Tj = se i = j, dada um jogo bayesiano b , o conjunto de jogadores da
representao tipo-agente igual a T = iN Ti . Para cada ti Ti , o conjunto de aes
disponveis para este jogador na representao tipo agente Dt = Ci . Finalmente, na representao tipo agente, a utilidade para qualquer jogador t Ti definida como sendo
igual a utilidade esperada condicional para o jogador i em b quando ti o verdadeiro tipo.
Portanto, para todo i N e ti Ti , a funo utilidade vti : sT Ds IR na representao
tipo agente de forma que para todo perfil de estratgias d sT Ds ,
vti (d) =
pi (ti |ti )ui (dt , t).
ti Ti
6.2. DEFINIO
89
1
u2 ((d1.s , d2.t ), (s, t)).
100 s=1
100
v2.t (d) =
6.2.3
Equilbrio Bayesiano
Para um jogo bayesiano, define-se um equilbrio Bayesiano como sendo um equilbrio de Nash
da representao tipo-agente do jogo bayesiano em forma normal. Portanto, um equilbrio
bayesiano especifica uma ao pura ou uma distribuio de probabilidades sobre as aes
para cada tipo de cada jogador de forma que cada um desses tipos maximiza sua utilidade
esperada quando ele sabe o seu tipo mas no sabe o tipo dos demais jogadores. Note que
em um equilbrio bayesiano, a estratgia de um jogador depende apenas do seu tipo mas no
dos tipos dos outros jogadores. Conforme explicamos, uma estratgia deve especificar uma
ao para cada tipo de jogador no apenas para o verdadeiro tipo, pois caso contrrio no
poderamos determinar a utilidade esperada dos outros jogadores que no sabem qual o
verdadeiro tipo dos demais.
Formalmente, um equilbrio bayesiano em estratgias mistas de um jogo bayesiano b
qualquer perfil de estratgias iN ti Ti (Ci ) tal que para todo i N e ti Ti ,
pi (ti |ti )
(
j (cj |tj ))i (ci )ui (c, t),
i (|ti ) argmaxi (Ci )
ti Ti
cC jN {i}
x2
1,2
0,4
y2
0,1
1,3
x1
y1
x2
1,3
0,1
y2
0,4
1,2
6.2. DEFINIO
90
Neste jogo, y2 uma estratgia fortemente dominada para o tipo 2.1 e x2 fortemente
dominada para o tipo 2.2, ento 2.1 deve escolher x2 e 2.2 deve escolher y2 . Portanto, para o
tipo 1, temos que a utilidade esperada de x1 0,6 e a utilidade esperada de y1 0,4. Portanto,
o nico equilbrio bayesiano deste jogo : 1 (x1 |1) = 1, 2 (x2 |2.1) = 1, e 2 (y2 |2.2) = 1.
Exemplo 6.2.5: Considere o seguinte jogo Bayesiano no qual o jogador 1 pode ter tipo
ou , onde segundo o nico tipo do jogador 2, jogador 1 do tipo com probabilidade 0,9.
As utilidades dos jogadores so dadas de acordo com o as tabelas a seguir:
Para o tipo :
x1
y1
x2
y2
2,2 -2,0
0,-2 0,0
x1
y1
x2
y2
0,2 1,0
1,-2 2,0
Para o tipo :
Note que existem trs equilbrios Bayesianos neste jogo: (1) 2 (x2 ) = 1, 1 (x1 |) = 1, e
1 (y1 |) = 1; (2) 2 (y2 ) = 1, 1 (y1 |) = 1, e 1 (y1 |) = 1; e (3) 2 (x2 ) = 1/2, 1 (x1 |) =
5/9, e 1 (y1 |) = 1.
Exemplo 6.2.6: Suponha que duas pessoas esto envolvidas em uma disputa. Pessoa 1 no
sabe se a pessoa 2 forte ou fraca; ela associa probabilidade a pessoa 2 ser forte. Pessoa 2
est perfeitamente informada. Cada pessoa pode lutar ou se entregar. Cada pessoa recebe
uma utilidade 0 se ela se entregar no importa o que a outra pessoa faa. Alm disso, cada
pessoa recebe uma utilidade 1 se ela lutar e seu adversrio se entregar. Se ambas pessoas
lutarem, ento suas utilidades so (1; 1) se a pessoa 2 for forte e (1; 1) se a pessoa 2 for
fraca. Formule esta situao como um jogo Bayesiano e encontre os equilbrios bayesianos
se < 21 e se > 12 .
Soluo: O jogo Bayesiano : N = {1, 2}; Ci = {L, E}, i N ; T1 = {1}; T2 = {F t, F r};
p(F t|1) = ; e as utilidades so dadas por:
se o jogador 2 for forte:
L
E
L
E
-1,1 1,0
0,1 0,0
L
E
L
E
1,-1 1,0
0,1 0,0
6.2. DEFINIO
91
Seja 1 (L), 2 (L|F t), e 2 (L|F r) o perfil de estratgias misto. Ento, a utilidade esperada
do jogador 2 forte de lutar 1, e de se entregar 0. Logo, este tipo do jogador 2 sempre
luta, isto em qualquer equilbrio Bayesiano 2 (L|F t) = 1. A utilidade esperada do jogador
2 fraco de lutar
1 (L) + (1 1 (L)),
e de se entregar 0. Portanto, ele ir lutar se 1 (L) < 21 ; se entregar se 1 (L) > 12 ; e
indiferente se 1 (L) = 21 . A utilidade esperada do jogador 1 de lutar
[2 (L|F t) (1) + (1 2 (L|F t))] + (1 ) = 1 22 (L|F t),
e de se entregar 0. Portanto, ele ir lutar se 2 (L|F t) < 21 ; se entregar se 2 (L|F t) > 12 ;
e est indiferente se 2 (L|F t) = 21 . Como j vimos que em todo equilbrio Bayesiano
2 (L|F t) = 1, ento o jogador 1 ir lutar se < 12 , e se entregar se > 12 . Logo, se < 12 ;
ento o nico equilbrio bayesiano dado por 1 (L) = 1; 2 (L|F t) = 1; e 2 (L|F r) = 0.
Se > 12 ; ento o nico equilbrio bayesiano dado por 1 (L) = 0; 2 (L|F t) = 1; e
2 (L|F r) = 1.
Em um problema de deciso ter mais informao nunca prejudicial, pois o tomador
de deciso pode sempre ignorar a informao recebida. Em um jogo, is to nem sempre
verdade. Se um jogador possui mais informao e os outros jogadores souberem disso, ento
o jogador pode estar numa situao pior como mostra o seguinte exemplo.
Exemplo 6.2.7: Considere que ambos jogadores consideram igualmente provveis que esto
participando dos seguintes jogos, onde 0 < < 12 :
T
B
L
M
1,2 1,0
2,2 0,0
R
1,3
0,3
T
B
L
M
R
1,2 1,3 1,0
2,2 0,3 0,0
ou
Captulo 7
Conhecimento e Conhecimento Comum
7.1
Introduo
Neste captulo descrevemos um modelo para conhecimento e usamos este modelo para formalizar a idia do que conhecimento comum. Utilizaremos este modelo para expressar
formalmente as suposies sobre o conhecimento dos jogadores que esto por trs dos conceitos de equilbrio de Nash e racionalizabilidade.
7.2
93
94
que para todo w K(w), temos K(w) K(w ). Ento, para todo w K(w), temos
que K(w ) * E. Portanto, K(E) K(w) = , ou seja, K(w) K(E). Portanto,
w K( K(E)).
O prximo exemplo ilustra alguns desses conceitos que apresentamos.
Exemplo 7.2.4: Suponha que n agentes perfeitamente racionais esto sentados ao redor de
uma mesa. Todos esto usando um chapu que ou branco ou preto. Todos os agentes
s podem ver o chapu dos outros agentes. Suponha que um observador anuncia: Cada
um de vocs est usando um chapu que ou branco ou preto; pelo menos um branco.
Vou contar devagar e aps cada nmero, voc tem a oportunidade de levantar a mo quando
souber a cor do seu chapu. Qual o primeiro instante em que um agente levantar sua mo?
Note que, aps o anncio do observador, temos 2n 1 possveis estados que descrevem
todas as combinaes de cores pretas e brancas para os n chapis dos agentes, exceto o caso
em que todos seriam pretos. Ou seja,
= {w {B, P }n : |{i : wi = B}| 1},
onde wi representa a cor do chapu do i-simo agente. Inicialmente, temos que a funo de
informao do i-simo agente dada por: Ki1 (w) = {(wi , B), (wi , P )} se wi = {P }n1 ,
1
Esta propriedade que diferencia conhecimento de crena. Apesar de um agente no poder saber algo
que seja falso, ele pode acreditar em algo que seja falso.
95
7.3
Conhecimento Comum
Suponha que no Exemplo 7.2.4 os agentes soubessem que todos tinham chapu branco ou
preto, que pelo menos um indivduo tinha chapu branco, e que todos os outros agentes
soubessem deste fato. Ento, se nenhum observador fizesse nenhum anncio, mas apenas a
contagem e aguardasse algum levantar a mo, se pelo menos trs indivduos tivessem chapu
branco ento ningum nunca levantaria a mo. Mas se o observador apenas anunciou o que
os agentes j sabiam, o que mudou nas duas situaes? O que mudou foi que o observador
tornou conhecimento comum entre os agentes que pelo menos um chapu branco. Aps o
anncio os agentes alm de saberem que tinha pelo menos um chapu branco e que todos
os agentes sabiam disso, eles passaram a saber que os outros sabem que eles sabem que
tem pelo menos um chapu branco, e assim por diante em todos os nveis de iterao de
conhecimento. Isto ilustra a importncia de nveis iterados de conhecimento dos agentes.
Formalmente, dizemos que um evento de conhecimento mtuo em um grupo de agentes se todo agente neste grupo sabe o evento. Por outro lado, um evento conhecimento
comum em um grupo de agentes se alm do evento ser conhecimento mtuo entre os agentes do grupo, todos os agentes sabem que os outros agentes sabem do evento, e todos
sabem que todos sabem que todos sabem do evento, e assim por diante. Por simplicidade, vamos nos restringir ao caso de 2 agentes. Neste caso, se K1 e K2 so as funes
de conhecimentos dos agentes, um evento E por definio conhecimento comum entre
1 e 2 em um estado w se w pertence a todos os eventos na seguinte seqncia infinita:
K1 (E), K2 (E), K1 (K2 (E)), K2 (K1 (E)), K1 (K2 (K1 (E))), . . .
96
97
O evento E = {w1 , w2 , w3 , w4 } no contm nenhum evento no vazio que seja autoevidente entre 1 e 2, portanto, E no conhecimento comum em nenhum estado. O evento
F = {w1 , w2 , w3 , w4 , w5 } auto-evidente entre 1 e 2, portanto conhecimento comum entre
1 e 2 em qualquer estado em F .
7.4
Captulo 8
Jogos Repetidos
8.1
Introduo
Agentes podem se comportar de maneira diferente em relao a outros agentes com os quais
eles esperam interagir novamente em comparao a outros agentes com os quais eles esperam
nunca mais interagir. Para entender como o comportamento racional e inteligente pode ser
afetado pela estrutura de futuras interaes entre os agentes, estudam-se jogos repetidos.
Em geral, temos duas classes de modelos para jogos repetidos: o horizonte pode ser finito
ou infinito. Veremos que os resultados podem ser diferentes quando analisamos um ou outro
tipo de modelo. Um modelo com um horizonte infinito apropriado se aps cada perodo de
interao os agentes acreditam que o jogo continuar, enquanto um modelo com horizonte
finito apropriado se os agentes claramente percebem um perodo final de interao para o
jogo.
8.2
O modelo para jogos repetidos infinitas vezes captura uma situao na qual agentes interagem
repetidas vezes em um jogo em forma normal G. Assumiremos que G = (N, (Ai )iN , (ui )iN ),
onde Ai compacto e ui uma funo contnua e limitada em A = jN Aj .
Definio 8.2.1: A repetio infinita de um jogo G um jogo em forma extensiva com
informao perfeita e movimentos simultneos (N, H, P, (ui )iN ), onde
t
H = {} (
o conjunto de todas as
t=1 A ) A , onde a histria inicial e A
de
perfis
de
estratgias
de
G.
seqncias infinitas (at )
t=1
P (h) = N para toda histria no terminal, de forma que todos os jogadores se movem
aps cada repetio do jogo G.
ui uma funo utilidade em A que estende a funo utilidade ui no sentido que ela
satisfaz a seguinte condio de separabilidade fraca: se (at ) A , a A, a A, e
ui (a) ui (a ), ento
ui (a1 , . . . , at1 , a, at+1 , . . .) ui (a1 , . . . , at1 , a , at+1 , . . .),
98
99
Uma histria terminal se, e somente se, ela for infinita. Aps qualquer histria no
terminal, cada jogador escolhe uma ao em Ai . Portanto, uma estratgia para o jogador i
uma funo que associa uma ao em Ai para cada seqncia finita de perfis de estratgias
de G.
Podemos impor outras condies nas funes utilidades dos agentes alm da separabilidade fraca. Primeiro, podemos assumir que a funo utilidade ui do jogo repetido baseada
t
somente na funo utilidade do jogo G, isto , assumimos que se ui ((at )
t=1 ) ui ((b )t=1 )
depende apenas da relao entre as correspondentes seqncia de utilidades ui (at ) e ui (bt )
de G. Consideraremos trs possveis condies na forma da funo utilidade, a primeira
definida a seguir:
Definio 8.2.2: Desconto. Existe algum nmero (0, 1), chamado de fator de desconto,
tal que a seqncia
de nmeros reais vit pelo menos to boa quanto a seqncia wit se, e
t1
somente se, i=1 (vit wit ) 0. Como assumimos que vit limitada, temos que a srie
t1 t
vi convergente e representa como o agente i avalia a seqncia (vit ) de utilidades.
i
Quandoa funo utilidade de todos os agentes tomam esta forma, nos referimos ao perfil
t1 t
((1)
vi )iN como o perfil de utilidades no jogo repetido associado com a seqncia
t=1
t
(v ) de perfil de utilidades do jogo G.
Note que utilidades que satisfazem este critrio do desconto tratam os perodos de forma
diferente, pois o valor de um ganho diminui com o tempo. As outras condies tratam os
perodos de forma simtrica. No primeiro critrio os jogadores
uma seqncia (vit )
T avaliam
1
t
essencialmente pelo limite de sua mdia aritmtica limT T t=1 vi , contudo como este limite
pode no existir o critrio se torna o seguinte:
Definio 8.2.3: Limite das Mdias. De acordo com este critrio, a seqncia
de nmeros
reais (vit ) melhor que a seqncia (wit ) se, e somente se, lim inf T T1 Tt=1 (vit wit ) > 0.
Quando
a funo utilidade de todos os agentes tomam esta forma, nos referimos ao perfil
1
(limT T Tt=1 vit )iN , se ele existe, como o perfil de utilidades no jogo repetido associado com
a seqncia (v t ) de perfil de utilidades do jogo G.
Note que ao contrrio do caso do desconto onde a mudana de utilidade em apenas um
nico perodo pode alterar a preferncia entre seqncias, no caso do critrio do limite de
mdias, qualquer mudana em um nmero finito de perodos no altera como a seqncia
avaliada. Portanto, este critrio til para modelar situaes onde os agentes pe toda
importncia no longo prazo mesmo que isso signifique prejuzos considerveis no curto prazo.
O terceiro e ltimo critrio trata os perodos simetricamente, coloca nfase no longo
prazo, mas ao mesmo tempo sensvel a uma mudana de utilidade em um nico perodo.
Definio 8.2.4: Ultrapassagem. De acordo com este critrio,a seqncia de nmeros
reais (vit ) melhor que a seqncia (wit ) se, e somente se, lim inf T Tt=1 (vit wit ) > 0.
Autor: Leandro Chaves Rgo
100
Observao 8.2.5: Quando utilizamos este critrio, no pode-se definir um perfil de utilidades do jogo repetido associado
seqncia de utilidades v t do jogo G, pois na grande
a uma
maioria dos casos de interesse t vit uma srie divergente.
Os seguintes exemplos ilustram algumas diferenas entre esses trs critrios. A seqncia
(1, 1, 0, 0, . . .) melhor para qualquer (0, 1) pelo critrio do desconto que a seqncia (0, 0, . . .), mas de acordo com os outros dois critrios as seqncias so indiferentes. A
seqncia (1, 2, 0, 0, . . .) melhor que a seqncia (0, 0, . . .) segundo o critrio da ultrapassagem, mas as duas so indiferentes segundo o critrio do limite das mdias. A seqncia
(0, . . . , 0, 1, 1, . . .) na qual M zeros so seguidos por uma seqncia constante de 1s melhor
pelo critrio do limite das mdias que a seqncia (1, 0, 0, . . .) para qualquer valor de M , mas
para qualquer existe um M grande o suficiente tal que para todo M > M , esta ltima
seqncia melhor que a anterior pelo critrio do desconto para este valor de .
Denotaremos por u(a) o perfil (ui (a))iN . Um vetor v IRN um perfil de utilidades
de (N, (Ai ), (ui )) se existe um perfil de estratgias a A para o qual v = u(a). Nos
referimos a um vetor v IRN como um perfil de utilidades possvel
de (N, (Ai ), (ui )) se ele
for uma combinao convexa de perfis de utilidades, isto ,se v = aA a u(a) para alguma
coleo (a )aA de nmeros racionais no-negativos com aA a = 1.1 Note que um perfil
de utilidades possvel de (N, (Ai ), (ui )) no necessariamente um perfil de utilidades de
(N, (Ai ), (ui )).
8.3
Seguimos a restrio de requerer que a seja racional sugerida por Osborne e Rubistein (1994), esta
restrio pode ser retirada complicando argumentos que veremos a seguir.
C
D
101
C
3,3
4,0
D
0,4
1,1
Exemplo 8.3.1: A mquina (Qi , qi0 , fi , i ) definida a seguir a mais simples que implementa
a estratgia que escolhe C enquanto ambos jogadores tenham sempre escolhido C no passado,
e escolhe D no caso contrrio.
Qi = {C, D}.
qi0 = C.
fi (C) = C e fi (D) = D.
i (C, (C, C)) = C e i (X, (Y, Z)) = D se (X, (Y, Z)) = (C, (C, C)).
8.4
102
Um perfil de utilidades w para o qual temos wi vi para todo i N chamado individualmente racional; se wi > vi para todo i N , ento w individualmente racional estrito. Se
a A um perfil de estratgias de G para o qual u(a) individualmente racional (estrito),
ento nos referimos a a como um perfil de estratgias individualmente racional (estrito) de
G. Seja pi Ai uma das solues do problema de minimizao acima. A coleo de
estratgias pi a punio mais severa que os demais jogadores podem impor ao jogador i.
Mostraremos que existe uma relao entre o conjunto de perfis de utilidade dos equilbrios
de Nash de um jogo repetido infinitas vezes e o conjunto de perfis de utilidade possveis
e individualmente racionais do jogo G, quando utilizamos ou o critrio do desconto ou o
critrio do limite das mdias.
Teorema 8.4.1: Todo perfil de utilidades de um equilbrio de Nash do jogo G = (N, (Ai ), (ui ))
repetido infinitas vezes quando se utiliza os critrios do limite das mdias ou do desconto
para qualquer fator de desconto (0, 1) um perfil de utilidades individualmente racional
de G.
Prova: Suponha que w um perfil de utilidades do jogo que no individualmente racional
em G. Ento, existe i N tal que wi < vi . w no pode ser um perfil de utilidades de um
equilbrio de Nash do jogo repetido infinitas vezes quando se utiliza os critrios do limite das
mdias ou do desconto para qualquer fator de desconto (0, 1), pois para qualquer perfil
de estratgias do jogo repetido s, a estratgia si do jogador i que uma melhor resposta a
si (h) para cada histria h garante ao jogador i utilidade de pelo menos vi em cada perodo.
Portanto, utilizando qualquer um desses dois critrios, temos que vantajoso para o jogador
i mudar de estratgias quando estamos considerando qualquer perfil de estratgias que d
ao jogador i utilidade menor que vi . Logo, tais perfis no podem ser equilbrios de Nash do
jogo repetido.
O prximo teorema prova a recproca para o caso do critrio do limite das mdias.
Teorema 8.4.2: Teorema de Nash Folk para o Critrio do Limite das Mdias.
Todo perfil de utilidades possvel e individualmente racional de um jogo G = (N, (Ai ), (ui ))
um perfil de utilidades de um equilbrio de Nash do jogo G repetido infinitas vezes quando
utilizamos o critrio do limite das mdias.
Autor: Leandro Chaves Rgo
103
C
3,3
4,0
D
0,4
1,1
C
2,3
0,1
D
1,5
0,1
Este exemplo nos leva a necessidade de analisar equilbrios de subjogo perfeito, pois neste
caso todos os jogadores tm que agir otimamente aps cada histria.
8.5
As estratgias gatilho utilizadas na prova do Teorema de Nash Folk punem os jogadores que
desviam da estratgia de equilbrio indefinidamente. Esta punio pode ser desnecessariamente severa, s necessrio manter a utilidade do jogador que desvia da estratgia prescrita
no nvel minimax por uma quantidade de perodos suficientemente grande para que o desvio
no seja lucrativo; deste modo, inibindo tal comportamento. Se as preferncias dos jogadores obedecem o critrio do limite das mdias, ento esta estratgia que retorna a trajetria
de equilbrio tem a vantagem que ela proporciona a mesma utilidade que a trajetria de
equilbrio, visto que elas diferem em apenas um nmero finito de perodos. Portanto, esta
estratgia no causa nenhum prejuzo ao jogador que precisa impor uma punio a algum
oponente. Veremos que tal estratgia constitui um equilbrio de subjogo perfeito do jogo
repetido infinitas vezes quando o critrio do limite das mdias utilizado.
Teorema 8.5.1: Todo perfil de utilidades possvel e individualmente racional estrito de um
jogo G = (N, (Ai ), (ui )) um perfil de utilidades de um equilbrio de subjogo perfeito do jogo
G repetido infinitas vezes quando consideramos o critrio do limite das mdias.
estrito, onde a um nmero inteiro e = aA a . Seja ainda (ak )k=1 uma seqncia de
perfis de estratgia de G que consiste de a repeties de a para cada a A.
Vamos construir um perfil de estratgias para o jogo repetido que gera uma seqncia
de perfis de estratgias de G que consiste de infinitas repeties do ciclo (ak )k=1 . Cada
jogador pune um desvio dos demais por um perodo limitado de tempo, que por convenincia
assumiremos que s inicia aps o fim de um ciclo (ak )k=1 . Aps o perodo de punio todos os
jogadores retomam as repeties de (ak )k=1 . Se houverem desvios simultneos de jogadores
esses so ignorados e no so punidos. Como estamos considerando o critrio do limite das
mdias, se todos os jogadores, seguem este tipo de estratgia temos que qualquer trajetria
tm perfil de utilidade w.
Formalmente, seja g = maxiN,ai Ai ,aA ui (ai , ai ) ui (a), isto , g o maior ganho que
qualquer jogador pode ter desviando de qualquer perfil de estratgias. Como wi > vi , existe
um inteiro m grande o suficiente tal que m (wi vi ) g para todo i N . A estratgia
de qualquer jogador i pune qualquer jogador que desvie por m perodos e descrita pela
seguinte mquina:
Qi = {(N ormk , d): ou k = 1 e d = 0, ou 2 k e d {0} N } {P (j, t) : j N
e 1 t m }.
O estado (N ormk , 0) significa que estamos no k-simo perodo de um ciclo e
nenhum jogador merece punio.
Autor: Leandro Chaves Rgo
C
2,3
0,1
D
1,5
0,1
escolher D por 2 perodos antes de retornar a C. Contudo, jogador 1 estaria melhor escolhendo C que punindo o jogador 2, pois a seqncia de utilidades (1, 1, 2, 2, 2, . . .) melhor
segundo os critrios de ultrapassagem e do desconto que a seqncia (0, 0, 2, 2, 2, . . .). Para
justificar uma trajetria de equilbrio na qual o perfil de estratgias (C, C) utilizado em
todo perodo, jogador 2 precisa punir o jogador 1 se este no punir o jogador 2. Alm disso,
jogador 2 tem que ser punido se ele no punir jogador 1 por no punir o jogador 2, e assim
por diante. A seguir usaremos estratgias que satisfazem este critrio para provar Teoremas
Perfeitos de Folk para os critrios de ultrapassagem e desconto.
8.6
O prximo teorema utiliza estratgias que punem quem no punir para provar um teorema
de Folk Perfeito para o critrio da ultrapassagem. Por simplicidade, construiremos uma
estratgia apenas para o caso onde a trajetria de equilbrio consiste de repeties de um
nico perfil de estratgia individualmente racional estrito.
Teorema 8.6.1: Para todo perfil de estratgias individualmente racional estrito a de um
jogo G = (N, (Ai ), (ui )), existe um um equilbrio de subjogo perfeito do jogo G repetido
infinitas vezes quando consideramos o critrio da ultrapassagem que gera a trajetria (at ),
onde at = a , t.
Prova: Seja M o mximo de ui (a) para todo i N e a A. Considere o perfil de estratgias
onde o jogador i utiliza a estratgia descrita pela seguinte mquina:
Qi = {N orm} {P (j, t) : j N e t IN }.
No estado N orm ningum necessita ser punido.
No estado P (j, t) jogador j necessita ser punido por t perodos.
qi0 = N orm.
fi (N orm) = ai , fi (P (j, t)) = (pj )i se j = i e fi (P (i, t)) = bi (pi ), onde bi (pi ) uma
melhor resposta para pi em G.
Em resposta a um perfil de estratgia a:
De N orm fique em N orm exceto quando aj = aj para um e somente um j, neste
caso mude para P (j, t), onde t o menor inteiro tal que M + tvj < (t + 1)uj (a ).
(Lembre que como a individualmente racional estrito uj (a ) > vj j N .)
De P (j, t):
se aj = pj ou al = (pj )l para pelo menos dois jogadores diferentes de j, ou
seja, ou todos punem j ou pelo menos dois no punem, mude para P (j, t 1)
se t 2, e para N orm se t = 1.
Autor: Leandro Chaves Rgo
se al = (pj )l para um e somente um jogador l, ento mude para P (l, T (j, t)),
onde T (j, t) um inteiro grande o suficiente tal que a soma da utilidade de l
no estado P (j, t) e nos T (j, t) perodos seguintes se l no desviar maior ou
igual sua utilidade no estado P (j, t) quando ele desvia mais T (j, t)vl . (Este
nmero T (j, t) existe pois aps t perodos os jogadores retornariam ao perfil
de equilbrio a e ul (a ) > vl ).
Com este perfil de estratgias, qualquer tentativa de algum jogador de aumentar sua
utilidade desviando sozinho aps qualquer histria, incluindo histrias aps a qual punio
deve ocorrer, no vantajosa devido a punio imposta pelos outros jogadores. Um argumento similar ao do Teorema 8.5.1 prova que este perfil realmente um equilbrio de subjogo
perfeito. Verifique!
8.7
Como na estratgia utilizada na seo anterior um jogador, que no pune um outro jogador
j que deveria ser punido no perodo t, deve ser penalizado durante T (j, t) perodos no futuro,
temos que estes perodos de penalizao podem ser cada vez maiores, portanto no importa
quo prximo de 1 seja o fator de desconto pode ser que seja impossvel que a pena futura
seja maior que o ganho presente do jogador quando utilizamos o critrio do desconto.
Para estabelecer um resultado anlogo para o caso do critrio do desconto, para tanto
usaremos estratgias segundo as quais jogadores que punem jogadores que desviam da estratgia de equilbrio so recompensados no futuro tornando o ato de punir vantajoso para tais
jogadores. Como anteriormente, por simplicidade, construiremos uma estratgia apenas para
o caso onde a trajetria de equilbrio consiste de repeties de um nico perfil de estratgia
individualmente racional estrito. Neste, teorema precisamos restringir a classe de jogos G.
Dizemos que um jogo G = (N, (Ai ), (ui )) tem dimensionalidade completa em relao a um
perfil de estratgias a individualmente racional e estrito se existe uma coleo (a(i))iN de
perfis de estratgias individualmente racionais e estritos de G de forma que para todo i N ,
temos a i a(i) e a(j) i a(i) para todo j N {i}.
Teorema 8.7.1: Seja a um perfil de estratgias individualmente racional e estrito de um
jogo G = (N, (Ai ), (ui )) com dimensionalidade completa em relao a a . Ento, existe < 1
tal que para todo > existe um equilbrio de subjogo perfeito do jogo G repetido infinitas
vezes quando utilizamos o critrio do desconto com fator de desconto que gera a trajetria
(at ) na qual at = a para todo t.
Prova: Iremos descrever as estratgias utilizadas pelos jogadores neste tipo de equilbrio
de subjogo perfeito utilizando uma mquina com trs tipos de estados. No estado C(0) o
perfil de estratgias de G escolhido pelos jogadores a . Para cada j N o estado C(j)
um estado de reconciliao que ocorre aps uma punio ao jogador j ser completada,
neste estado o perfil de estratgias escolhido a(j). Para cada jogador j e perodo t entre
Autor: Leandro Chaves Rgo
k=1
vi +
k ui (a(i)).
k=L+1
k=1
k ui (a(j)) +
k ui (a(j)).
k=L+1
Note que or suposio temos que ui (a(j)) > ui (a(i)). Como ui (a(j)) > vi para todo i,
podemos escolher L tal que M ui (a(j)) < L(ui (a(j)) vi ) para todo i N e j {0} N .
Autor: Leandro Chaves Rgo
109
Podemos ainda escolher prximo o suficiente de 1 tal que para todo > , i N e
j {0} N , temos
L
L
M+
k vi < ui (a(j)) +
k ui (a(j)).
k=1
k=1
M+
k vi +
k=1
k ui (a(i)).
k=L+1
k ui (pj , bj (pj )) +
k ui (a(j)).
k=t
k=0
Como L + 1 > t e ui (a(j)) > ui (a(i)), podemos escolher > prximo o suficiente de 1 tal
que para todo > , i N e j {0} N , temos
M+
k=1
<
k=t
k vi
t1
k=0
ui (a(j))
k
k ui (pj , bj (pj ))
k ui (a(i)).
k=L+1
Como M > vi temos que no vantajoso para o jogador i desviar em um estado P (j, t).
Como j utiliza uma melhor resposta em um estado P (j, t) no vantajoso para ele desviar
desta estratgia.
8.8
Vamos agora estudar jogos repetidos finitas vezes. Seja G = (N, (Ai )iN , (ui )iN ), onde Ai
compacto e ui uma funo contnua e limitada em A = jN Aj .
Definio 8.8.1 : A repetio finita de um jogo G um jogo em forma extensiva com
informao perfeita e movimentos simultneos (N, H, P, (ui )iN ), onde
H = {} (Tt=1 At ), onde a histria inicial.
P (h) = N para toda histria no terminal, de forma que todos os jogadores se movem
aps cada repetio do jogo G.
ui uma funo utilidade em AT que estende a funo utilidade ui . Vamos nos
restringir
ao caso do critrio do limite das mdias, ou seja, assumiremos que ui (a) =
T
1
t
1 2
T
t=1 ui (a ), onde a = (a , a , . . . , a ).
T
Autor: Leandro Chaves Rgo
110
Uma histria a terminal se, e somente se, a AT . Aps qualquer histria no terminal,
cada jogador i escolhe uma ao em Ai . Portanto, como no caso infinito uma estratgia para
o jogador i uma funo que associa uma ao em Ai para cada seqncia finita de perfis
de estratgias de G. Este jogo conhecido como a repetio do jogo G durante T perodos.
8.8.1
Equilbrio de Nash
O argumento intuitivo por trs dos Teoremas de Folk para jogos repetidos infinitas vezes
que qualquer perfil de utilidades que seja desejvel por todos os jogadores pode ser um
equilbrio de Nash se todos acreditam que quando se desviarem da trajetria de equilbrio
sero punidos pelos demais jogadores. No caso de jogos finitos, este argumento no pode ser
aplicado em todos os casos, pois sempre teremos que os jogadores devem jogar um equilbrio
de Nash no ltimo perodo de repetio T . Portanto, quando analisamos o perodo anterior
T 1 as ameaas de punio podem se tornar inacreditveis. O prximo teorema mostra que
no caso especial em que todos os equilbrios de Nash o perfil de utilidades igual ao perfil
de utilidades minimax de G (como no caso do Dilema do Prisioneiro), ento em qualquer
perodo os jogadores devero utilizar um equilbrio de Nash de G.
Teorema 8.8.2: Se o perfil de utilidades em qualquer equilbrio de Nash de um jogo em
forma normal G o perfil (vi )iN de utilidades minimax de G, ento para qualquer valor
de T , todo equilbrio de Nash do jogo G repetido T vezes gera uma trajetria de perfis de
estratgias (a1 , . . . , aT ) do jogo G com a propriedade que at um equilbrio de Nash de G,
para todo t = 1, 2, . . . , T .
Prova: Seja s o perfil de estratgias do jogo repetido que gera a trajetria de equilbrio
a = (a1 , . . . , aT ). Suponha que exista um perodo t tal que at no seja um equilbrio de Nash
de G. Ento, existe i N tal que ui (ati , ai ) > ui (at ). Considere a estratgia si do jogador
i que difere de si apenas no fato que aps a histria (a1 , a2 , . . . , at1 ) ela escolhe ai , e aps
qualquer histria h que se segue, ela escolhe uma ao melhor resposta para si (h), obtendo
portanto uma utilidade pelo menos igual a utilidade minimax vi . A trajetria gerada por
(si , si ) uma histria terminal b AT que idntica a a at o perodo t 1, ui (bt ) > ui (at ),
e ui (br ) vi = ui (ar ) para todo r t + 1. Portanto, jogador i prefere b a a, contradizendo
a suposio que s um equilbrio de Nash do jogo repetido.
Este resultado se aplica a uma classe muito pequena de jogos. Por exemplo, se o jogo G
possuir um equilbrio de Nash a no qual a utilidade de algum jogador excede sua utilidade
minimax, ento este jogador pode ser punido no ltimo perodo se ele tiver desviado no
penltimo perodo e a estratgia que seria utilizada no ltimo perodo fosse igual a a . Se
esta punio no for suficiente, ento existe L grande o suficiente tal que se a for a estratgia
a ser jogada nos ltimos L perodos, ento qualquer desvio antes destas ltimas L jogadas
pode ser punido impondo um pagamento minimax ao jogador que desviar at o fim do jogo.
O valor de L independente da durao do jogo T . portanto para T grande o suficiente
podemos obter como mdia das utilidades em um equilbrio de Nash do jogo repetido T vezes
Autor: Leandro Chaves Rgo
111
8.8.2
(T L)ui (a ) + Lui (a )
ui (a )| < , i N.
T
112
C
3,3
4,0
0,0
D
0,4
1,1
0,0
E
0,0
0,0
0,0
Existe um equilbrio de subjogo perfeito deste jogo repetido T vezes no qual o perfil
de estratgias (C, C) utilizado em todos exceto nos ltimos 3 perodos, nos quais o perfil
utilizado (D, D). No equilbrio ambos jogadores utilizam a seguinte estratgia, escolha C
em qualquer perodo at o perodo T 3 a no ser que D j tenha sido usada no passado,
neste caso escolha E at o fim do jogo. Se C for utilizada por ambos at o perodo T 3,
escolha D nos ltimos 3 perodos. Um jogador que desviar para D at o perodo T 3 aps
uma histria que consiste somente de perfis (C, C) nos perodos anteriores ganhar 1 em
utilidade neste perodo e perder pelo menos 3 em utilidade j que o outro jogador escolher
E nos perodos seguintes. Observe que esta punio justificada pois, (E, E) tambm
um equilbrio de Nash de G. interessante ressaltar que este jogo difere de um Dilema do
Prisioneiro apenas pela incluso de uma ao fracamente dominada para cada jogador.
O prximo teorema caracteriza o conjunto de perfis de utilidade que podem ser obtidos
atravs de um equilbrio de subjogo perfeito do jogo G repetido infinitas vezes para uma
grande classe de jogos G.
Teorema 8.8.6: Seja a um perfil de estratgias individualmente racionais estrito de G =
(N, (Ai ), (ui )). Assuma que (a) para cada i N existem dois equilbrios de Nash de G que
diferem na utilidade do jogador i e (b) existe uma coleo (a(i))iN de perfis de estratgias
individualmente racionais estritos de G tal que para todo jogador i N , temos a i a(i) e
a(j) i a(i) para todo j N {i}. Ento, para todo > 0, existe um inteiro T tal que se
T > T o jogo G repetido T vezes tem um equilbrio de subjogo perfeito no qual a utilidade
do jogador i difere de ui (a ) por menos de para todo i N .
Prova: A prova formal omitida, mas intuitivamente, o perfil de estratgias do jogo repetido
infinitas vezes tem o seguinte formato. Existem trs etapas. Durante as duas primeiras
etapas os jogadores escolhem a enquanto nenhum jogador desviar. Caso no haja desvios
nas duas primeiras etapas, na terceira etapa os jogadores implementam uma seqncia de
Autor: Leandro Chaves Rgo
113
equilbrios de Nash do jogo G para o qual a utilidade mdia de cada jogador maior que a
pior utilidade do jogador em algum equilbrio de Nash do jogo G. Desvios so punidos da
seguinte maneira. Um desvio na primeira etapa punido com os demais jogadores forando
a utilidade minimax no jogador que desviou por um longo perodo e depois entrando em uma
fase de reconciliao como no caso de teorema de Folk Perfeito para o critrio do desconto.
Um desvio na segunda etapa punido com os jogadores implementando no incio da terceira
etapa o pior equilbrio de Nash para o jogador que desviou. Como na terceira etapa, os
jogadores s implementam equilbrios de Nash no h incentivo a desvios.
Referncias Bibliogrficas
1. Myerson, R. (1997), Game Theory - Analysis of Conflict - Harvard University Press.
2. Osborne, M. e Rubinstein, A. (1994), A Course in Game Theory, The MIT press.
3. Osborne, M. (2003), An Introduction to Game Theory, Oxford University Press.
Alguns captulos esto disponveis on-line em
http://www.chass.utoronto.ca/osborne/igt/index.html.
4. Osborne, M. e Rubinstein, A. (1990), Bargaining and Markets, Academic Press.
Disponvel on-line em http://ww2.economics.utoronto.ca/osborne/bm/.
5. Rubinstein, A. (2006), Lecture Notes in Microeconomic Theory: The Economic Agent,
Princeton University Press. Disponvel on-line em http://press.princeton.edu/rubinstein/.
6. Kreps, D. (1988) Notes on the Theory of Choice, Underground Classics in Economics.
7. Campello de Souza, F. M. (2007), Decises Racionais em Situaes de Incerteza, 2a.
edio.
8. Joseph Halpern e Leandro Chaves Rgo, Extensive Games with Possibly Unaware
Players, publicado nos anais da AAMAS06 - 5th International Joint Conference on
Autonomous Agents and Multiagent Systems, pp. 744751, Maio/2006, Japo. Verso
completa disponvel em http://arxiv.org/PS_cache/arxiv/pdf/0704/0704.2014v1.pdf .
114