Aulas Teoria Dos Jogos 2011-1

Notas de Aula do Curso de Ps-Graduao em
Teoria dos Jogos

Leandro Chaves Rgo, Ph.D.
2011.1
Prefcio
Estas notas de aula foram feitas para compilar o contedo de vrias referncias bibliogrficas
tendo em vista o contedo programtico de uma disciplina introdutria de Teoria dos Jogos
a nvel de Ps-graduao. Em particular, elas no substituem a consulta a livros textos e
artigos. Seu principal objetivo dispensar a necessidade dos alunos terem que copiar as
aulas e, deste modo, poderem se concentrar em entender o contedo das mesmas.
Recife, maro de 2011.
Leandro Chaves Rgo, Ph.D.
Contedo
Prefcio
1 Introduo Teoria dos Jogos

1.1 O que Teoria dos Jogos? . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Experimentos de Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1
2
2 Jogos de Uma Pessoa - Teoria da Deciso

2.1 Escolha sob Certeza. . . . . . . . . . . . .
2.1.1 Relaes Binrias . . . . . . . . . .
2.1.2 Relao de Preferncia . . . . . . .
2.1.3 Representao Ordinal . . . . . . .
2.2 Escolha sob Incerteza. . . . . . . . . . . .
2.2.1 Regras de Deciso . . . . . . . . . .
2.2.2 Qual a Regra Correta? . . . . . .
2.2.3 Representao Cardinal . . . . . .
2.2.4 Paradoxos . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
4
6
7
10
10
16
18
21
3 Jogos em Forma Normal

3.1 Definio . . . . . . . . . . . . . . . . . . . . . .
3.2 Alguns Exemplos Importantes . . . . . . . . . .
3.2.1 Batalha dos Sexos . . . . . . . . . . . . .
3.2.2 Jogos de Soma-Zero . . . . . . . . . . . .
3.2.3 Medindo Foras . . . . . . . . . . . . . .
3.2.4 Dilema do Prisioneiro . . . . . . . . . . .
3.2.5 Duoplio de Cournot . . . . . . . . . . .
3.2.6 Duoplio de Bertrand . . . . . . . . . . .
3.3 Racionalizabilidade e Dominncia . . . . . . . .
3.3.1 Comportamento Racional . . . . . . . .
3.3.2 Dominncia Iterada . . . . . . . . . . . .
3.4 Racionalizabilidade . . . . . . . . . . . . . . . .
3.5 Equilbrio de Nash . . . . . . . . . . . . . . . .
3.5.1 Jogos com um nico Equilbrio de Nash
3.5.2 Jogos com Mltiplos Equilbrios de Nash
3.5.3 Pontos Focais . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
24
24
25
25
26
26
26
27
28
28
28
30
32
36
37
39
39
ii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
40
41
41
43
45
46
48
4 Jogos em Forma Extensa

4.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Jogos com Informao Perfeita . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Estratgias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.2 Representao em Formal Normal de um Jogo em Forma Extensa com
Informao Perfeita . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.3 Equilbrio de Nash . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.4 Equilbrio de Subjogo Perfeito . . . . . . . . . . . . . . . . . . . . . .
4.3 Jogos com Informao Imperfeita . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1 Memria Perfeita e Memria Imperfeita . . . . . . . . . . . . . . . . .
4.3.2 Estratgias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.3 Representao em Formal Normal de um Jogo em Forma Extensa com
Informao Imperfeita . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.5 Equilbrio sequencial . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
53
53
56
5 Refinamentos de Equilbrio de Nash

5.1 Introduo . . . . . . . . . . . . . .
5.2 Equilbrio Perfeito de Mo Trmula
5.3 Equilbrio Prprio . . . . . . . . . .
Forma Normal
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
79
79
79
83
.
.
.
.
.
.
.
.
.
.
86
86
86
88
88
89
.
.
.
.
92
92
92
95
97
3.6
3.7
3.5.4 Risco Dominante . . . . . . . . . . .

3.5.5 Dominncia Conjunta . . . . . . . .
3.5.6 Prova da Existncia . . . . . . . . . .
3.5.7 Clculo de Equilbrio de Nash . . . .
3.5.8 Interpretaes de Equilbrio de Nash
Jogo Simtrico em Forma Normal . . . . . .
Jogo de Dois Agentes com Soma Constante .
6 Jogos Bayesianos
6.1 Introduo . . . . . . . . . . . .
6.2 Definio . . . . . . . . . . . . .
6.2.1 Estratgias . . . . . . .
6.2.2 Representao em Forma
6.2.3 Equilbrio Bayesiano . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
para Jogos em
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . .
. . . . .
. . . . .
Normal
. . . . .
.
.
.
.
.
.
.
.
.
.
7 Conhecimento e Conhecimento Comum

7.1 Introduo . . . . . . . . . . . . . . . . . . .
7.2 Um Modelo para Conhecimento . . . . . . .
7.3 Conhecimento Comum . . . . . . . . . . . .
7.4 Impossibilidade de Concordar em Discordar
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
57
60
61
63
64
65
71
72
73
8 Jogos Repetidos
8.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Jogos Repetidos Infinitas Vezes . . . . . . . . . . . . . . . . . . . . . . . . .
8.3 Estratgias como Mquinas . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.4 Estratgias Gatilho: Teoremas de Nash Folk . . . . . . . . . . . . . . . . . .
8.5 Punindo por Tempo Limitado: Um Teorema de Folk Perfeito para o Critrio
do Limite das Mdias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.6 Punindo quem no Pune: Um Teorema de Folk Perfeito para o Critrio da
Ultrapassagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.7 Recompensando quem Pune: Um Teorema de Folk Perfeito para o Critrio
do Desconto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.8 Jogos Repetidos Finitas Vezes . . . . . . . . . . . . . . . . . . . . . . . . . .
8.8.2 Equilbrio de Subjogo Perfeito . . . . . . . . . . . . . . . . . . . . . .
107
109
110
111
Referncias Bibliogrficas
114
iv
98
98
98
100
102
104
106
Captulo 1
Introduo Teoria dos Jogos
1.1
O que Teoria dos Jogos?
Definio 1.1.1: Teoria dos jogos um ramo da matemtica aplicada que analisa a interao
de um grupo de agentes (ou jogadores) racionais que se comportam estrategicamente.
Esta definio contm um nmero de conceitos importantes que discutiremos a seguir:
Agentes ou Jogadores: So as entidades que precisam tomar decises em uma dada
situao. Por exemplo, essas entidades podem ser indivduos, empresas, animais, pases,
times, sindicatos, etc.
Grupo: Em geral, assume-se que jogos contm mais de um agente. Se a situao contm
apenas um agente, o jogo se transforma em uma problema de deciso.
Interao: Deve existir pelo menos um agente cujas decises influencie nas decises
de algum outro agente do grupo, caso contrrio, tem-se uma srie de problemas de deciso
independentes.
Estrategicamente: Agentes levam em conta as interdependncias entre suas escolhas
quando tomando suas decises.
Racionais: Agentes levam em conta a interdependncia entre suas escolhas e agem de
forma a obter consequncias mais prximas possveis de objetivos pr-estabelecidos dado
conhecimento de como outros agentes do grupo se comportam.
No sentido usual um jogo uma atividade competitiva no qual jogadores disputam uns
com os outros de acordo com um conjunto de regras. O escopo de aplicaes de teoria dos
jogos bem maior do que esses jogos. Por exemplo, podemos utilizar teoria dos jogos para
modelar: firmas que competem por um mercado, polticos competindo por votos, membros de
um juri decidindo sobre um veredito, animais brigando por uma presa, pessoas competindo
em um leilo, etc.
Exemplo 1.1.2: Assuma que 6 pessoas vo a um bar. Se cada uma delas paga sua prpria
conta, temos 6 problemas de deciso. Se elas rateiam a conta igualmente, temos um problema
de teoria dos jogos.
Uma anlise por Teoria dos Jogos comea com uma idia relacionada a algum aspecto
sobre uma interao entre agentes. Ns expressamos essa idia precisamente atravs de um
1
1.2. EXPERIMENTOS DE MOTIVAO
modelo, incluindo aspectos da situao que parecem ser relevantes. Esta etapa a arte de
modelagem. Em geral, precisamos de um modelo rico o suficiente para que possamos obter
resultados no-triviais, mas no to detalhado que nos levem a complicaes desnecessrias
na nossa anlise do modelo, a prxima etapa. Esta anlise pode confirmar ou no nossas
intuies sobre a situao. Se nossa intuio estiver realmente errada, a anlise pode nos
ajudar a entender por que ela est errada. Caso contrrio, podemos chegar a concluso que
uma suposio do modelo foi inapropriada, ou que um elemento importante est faltando
no modelo. Enfim, poderemos tentar estudar a situao com um outro modelo ou chegar
a concluso que nossa intuio no era vlida. Portanto, tanto nossas intuies podem
esclarecer que algumas suposies do modelo no so apropriadas, como a anlise do modelo
pode esclarecer que nossa intuio no fazia sentido. Em ambas as situaes, o processo de
formulao e anlise do modelo melhorar nosso entendimento sobre a situao que estamos
considerando.
1.2
Experimentos de Motivao
Experimento 1: Suponha que urna A contm 100 bolas, sendo 90 brancas, 6 vermelhas, 1
verde, e 3 amarelas. Uma urna B contm 100 bolas, sendo 90 brancas, 7 vermelhas, 1 verde
e 2 amarelas. Voc tem que escolher entre sortear uma bola da urna A ou da urna B. Se
uma bola retirada da urna A, voc recebe R$0 se a bola for branca, R$45 se a bola for
vermelha, R$30 se a bola for verde e voc tem que pagar R$15 se a bola for amarela. Se
uma bola retirada da urna B, voc recebe R$0 se a bola for branca, R$45 se a bola for
vermelha, voc tm que pagar R$10 se a bola for verde e pagar R$15 se a bola for amarela.
O que voc prefere?
Experimento 2: Cada um de vocs (estudantes neste curso) tem de escolher um nmero
inteiro entre 0 e 100. Suponha que duplas de estudantes sero formadas aleatoriamente e de
cada dupla sair vencedor o estudante que escolher o maior inteiro que no for maior que
2/3 da mdia dos dois nmeros escolhidos pela dupla. Escolha o seu nmero e justifique a
sua escolha.
Experimento 3: Cada um de vocs (estudantes neste curso) tem de escolher um nmero
inteiro entre 0 e 100. Cada estudante que escolher o maior inteiro que no for maior que 2/3
da mdia de todas as respostas ganhar um bilhete premiado da Mega-sena. Escolha o seu
nmero e justifique a sua escolha.
Experimento 4: Imagine que voc um dos jogadores no seguinte jogo envolvendo duas
pessoas:
Cada um dos jogadores tem que escolher uma quantidade entre R$180 e R$300.
Ambos jogadores recebem o pagamento igual a menor das duas quantidades escolhidas.
R$50 reais so transferidos do jogador que escolher a quantidade maior para o jogador
que escolher a quantidade menor.
Autor: Leandro Chaves Rgo
1.2. EXPERIMENTOS DE MOTIVAO
No caso em que ambos jogadores escolhem mesma quantidade, eles recebem esta quantidade e nenhuma transferncia feita.
Escolha sua quantidade e justifique sua escolha.
Experimento 5: Cada um de vocs participaro em um leilo para um carro de valor de
marcado de R$100.000,00 (cem mil reais). A regra do leilo a seguinte: para participar
do leilo voc ter que pagar R$50,00 e fazer uma oferta em valores inteiros de reais para
arrematar o carro. Ganha o carro a pessoa com a menor oferta nica. Escolha sua oferta e
justifique a sua escolha.
Experimento 6: Voc est participando em um jogo com 4 outros jogadores. No jogo, cada
jogador recebe R$100,00 reais. Voc tem que decidir como distribuir este dinheiro entre dois
fundos de investimento diferentes:
1. Seu fundo pessoal: para cada real que voc investe em seu fundo pessoal, somente voc
receber R$4,00 reais.
2. Fundo participativo: para cada real que qualquer jogador investir neste fundo participativo, todos os jogadores recebero R$2,00, independentemente de quanto cada
jogador tenha ele prprio investido neste fundo.
Voc pode distribuir o dinheiro da maneira que voc desejar. Diga quantos reais voc investir no fundo participativo e justifique sua escolha.
Captulo 2
Jogos de Uma Pessoa - Teoria da Deciso
2.1
Escolha sob Certeza.
Neste captulo, ns estudamos a teoria da deciso ou teria da escolha racional que pode ser
vista como um jogo onde o decisor joga com ele mesmo. Agentes frequentemente enfrentam
situaes nas quais eles tm que tomar uma deciso. As aes dos outros agentes no
influenciam minhas preferncias sobre as opes disponveis. Portanto, no existe interao
estratgica envolvida. Jogos propriamente ditos sero discutidos nos captulos seguintes.
2.1.1
Relaes Binrias
Para um dado conjunto X, denotamos por X X o produto Cartesiano usual, ou seja, o

conjunto contendo todos os pares ordenados (x, y), onde x e y pertencem a X.
Definio 2.1.1: Uma relao binria B no conjunto X formalmente definida como um
subconjunto de X X, e (x, y) B se o par ordenado (x, y) satisfaz a relao B. Uma
outra maneira de escrever (x, y) B xBy. Se (x, y)
/ B, escreveremos xBy.
Exemplo 2.1.2:
1. Seja X o conjunto de todas as pessoas nesta disciplina e seja B a relao mais
velho(a) que;
2. Seja X o conjunto de todos os times de futebol do pas e seja B a relao tem mais
ttulos nacionais que;
3. Seja X = IR e seja B a relao xBy se y = x2 ;
4. Seja X = {a, b, c} e seja B = {(b, a), (c, a), (a, a)}.
Existem vrias propriedades que uma dada relao binria pode ou no satisfazer. Uma
relao binria em X pode ser:
4
2.1. ESCOLHA SOB CERTEZA.
reflexiva se xBx, x X;
irreflexiva se xBx, x X;
simtrica se xBy implica yBx;
assimtrica se xBy implica yBx;
anti-simtrica se xBy e yBx implicam x = y;
transitiva se xBy e yBz implicam xBz;
negativamente transitiva se xBy e yBz implicam xBz;
completa ou conectada se para todo x, y X, xBy ou yBx;
fracamente conectada se para todo x, y X, x = y, xBy, ou yBx;
acclica se x1 Bx2 , x2 Bx3 , . . . , xn1 Bxn implica x1 = xn .
Existem algumas relaes importantes entre essas propriedades. Antes vamos provar o
seguinte lema que caracteriza a propriedade da transitividade negativa.
Lema 2.1.3 : Uma relao binria B negativamente transitiva se, e somente se, xBz
implica que, para todo y X, xBy ou yBz.
Prova: Note que afirmar que [xBz implica que, para todo y X, xBy ou yBz] equivalente
a afirmar que [se existe y X tal que xBy e yBz, ento xBz], mas a ltima afirmao
a definio de transitividade negativa.
Corolrio 2.1.4: Se uma relao binria B negativamente transitiva, ento para todo
x, y X, temos (1) xBy, (2) yBx, ou (3) para todo z X, (a) xBz se, e somente se, yBz,
e (b) zBx se, e somente se, zBy.
Prova: Exerccio.
Lema 2.1.5: Se uma relao binria B assimtrica e negativamente transitiva, ento ela
(a) irreflexiva, (b) transitiva e (c) acclica.
Prova: Para parte (a), suponha por contradio que B no fosse irreflexiva, ento existe
x X tal que xBx. Assimetria ento implica que xBx, absurdo.
Para parte (b), suponha que xBy e yBz. Como B negativamente transitiva, Lema 2.1.3
implica que como xBy, ento zBy ou xBz. Como yBz e B assimtrica sabemos que zBy,
portanto xBz, ou seja, B transitiva.
Para parte (c), se x1 Bx2 , x2 Bx3 , . . . , xn1 Bxn , transitividade implica que x1 Bxn . Como
B irreflexiva, isto implica que x1 = xn . Portanto, B acclica.
Exemplo 2.1.6: Seja Z o conjunto dos inteiros no nulos e seja B a relao em Z Z

definida por (a, b)B(c, d) sempre que ad = bc. Vamos provar que B uma relao reflexiva,
simtrica e transitiva.
(i) Reflexividade: temos (a, b)B(a, b), j que ab = ba. Portanto, B reflexiva.
(ii) Simetria: temos (a, b)B(c, d). Ento ad = bc. Por conseguinte, cb = da e, portanto,
(c, d)B(a, b). Assim, B simtrica.
(iii) Transitividade: suponha (a, b)B(c, d) e (c, d)B(e, f ). Ento, ad = bc e cf = de.
A multiplicao dos termos correspondentes da equao leva a (ad)(cf ) = (bc)(de).
Cancelando c = 0 e d = 0 dos dois lados da equao, obtm-se af = be, e portanto
(a, b)B(e, f ). Logo, B transitiva.
2.1.2
Relao de Preferncia
Nesta seo, suponha que existe um conjunto de objetos X e um agente que capaz de fazer
comparaes desses objetos par a par da seguinte maneira, Eu prefiro estritamente x a y,
que representaremos por x y. Note que estas comparaes definem uma relao binria.
Usaremos a notao x y para representar x y.
Definio 2.1.7 : Uma relao binria em um conjunto X chamada de relao de
preferncia se ela for assimtrica e negativamente transitiva.
Note que o Lema 2.1.5 implica que toda relao de preferncia irreflexiva, transitiva e
acclica. natural requerer que esta relao de preferncia estrita satisfaa assimetria, pois
se o agente prefere estritamente x a y, ele no deve preferir estritamente y a x. Apesar de
ser usual requerer que uma relao de preferncia satisfaa a transitividade negativa, esta
propriedade pode em alguns casos no parecer razovel. Por exemplo, suponha que X =
(0, ) (0, ), onde (x1 , x2 ) X pode ser interpretado como uma cesta com x1 cachorros
quentes e x2 fatias de bolos, um agente pode por exemplo preferir (10, 10) estritamente a
(9, 9), mas no ser capaz de afirmar que (10, 10) (15, 6) ou que (15, 6) (9, 9), ele pode
alegar que estas comparaes so muito difceis para ele fazer. Apesar disto, prosseguiremos
com a suposio usual que toda relao de preferncia negativamente transitiva.
Dada uma relao de preferncia que expressa preferncia estrita, podemos definir outras
duas relaes binrias:
x y, se y x;
x y, se x y e y x.
A relao conhecida como preferncia fraca, embora ela apenas expresse a falta
de preferncia estrita. A relao chamada de indiferena, ela expressa ausncia de
preferncia estrita entre dois objetos, o que s vezes pode ser diferente de indiferena.
Proposio 2.1.8: Se uma relao de preferncia, ento

(a) Para todo x e y, exatamente uma dessas relaes vlida: x y, y x, ou x y.
(b) completa e transitiva.
(c) reflexiva, simtrica, e transitiva.
(d) w x, x y, y z implicam w y e x z.
(e) x y se, e somente se, x y ou x y.
(f ) x y e y x implicam x y.
Prova: (a) segue da definio de e do fato que assimtrica. Para (b) note que a
assimetria de implica que, x y ou y x para todo x e y, portanto completa. Para
transitividade de , note que esta segue diretamente da transitividade negativa de . Para
(c), note que reflexiva por que irreflexiva. simtrica por que a definio de
simtrica. Para transitividade, suponha que x y z. Ento, x y z e z y x. Pela
transitividade negativa de , temos que x z x, ou x z. Para parte (d), assuma que
w x y. Pela parte (a), temos que w y, y w, ou w y. Porm y w no possvel,
pois a transitividade de implicaria y x, contrariando a suposio que x y. w y
tambm impossvel, pois a transitividade e simetria de implicaria w x, contrariando
a hiptese que w x. Logo, w y tem que ser verdadeiro. A outra parte similar. Para
parte (e), note que por definio x y se, e somente se, y x. Mas a parte (a) implica
que a ltima condio ocorre se, e somente se, x y ou x y. Finalmente, parte (f), segue
imediatamente das definies de e .
Observe que nosso agente expressa apenas preferncias estritas, a partir das quais ns
derivamos preferncia fraca e indiferena. O agente em nenhum momento expressa relaes
de indiferena ou preferncia fraca diretamente e ele pode at discordar da terminologia que
ns utilizamos para as relaes e .
2.1.3
Representao Ordinal
Estamos interessados em relaes de preferncia que possam ser representadas por uma
funo de utilidade u : X IR no seguinte sentido:
x y se, e somente se, u(x) > u(y), x, y X.
(2.1)
O teorema a seguir afirma que uma relao binria precisa ser uma relao de preferncia a
fim de que possa ser representada por uma funo de utilidade.
Teorema 2.1.9: Seja X finito ou enumervel. Uma relao binria pode ser representada
por uma funo de utilidade u no sentido de (2.1) se, e somente se, for uma relao de
preferncia.
Prova: Suponha que existe tal funo u que represente a relao binria. Suponha que
x y, como u representa segue que u(x) > u(y). Logo, como u representa , segue que
y x, pois caso contrrio teramos u(y) > u(x). Logo, assimtrica. Se x y e y z,
ento u(x) u(y) e u(y) u(z). Portanto, u(x) u(z), ento como u representa , temos
que x z, ou seja, transitiva negativa.
Para a prova da recproca suponha que uma relao de preferncia, e para todo
x X, defina X(x) = {y X : y x} e X(x) = {y X : x y}. Seja x1 , x2 , . . . uma
enumerao qualquer de X. Ento defina, r(xn ) = 1/2n e
u(x) =
r(y)
r(y).
(2.2)
yX(x)
yX(x)
Como yX r(y) = 1, u(x) est bem definido e u(x) (1, 1). Note que pela Proposio 2.1.8(d), se x x , ento X(x) X(x ) e X(x) X(x ). Alm disso, se x x , temos
que x X(x ), x
/ X(x), x X(x) e x
/ X(x ); logo ambas as relaes de incluso so
estritas. Como r(y) > 0, y X, segue que se x x , ento u(x) u(x ) e que se x x ,
ento u(x) > u(x ). Portanto, x x se, e somente se, u(x) > u(x ).
O prximo teorema implica que a funo utilidade u nica exceto por uma transformao estritamente crescente. Por este motivo, essas funes utilidades so chamadas de
funes de utilidade ordinais.
Teorema 2.1.10: Dado um conjunto X, uma relao de preferncia e funes u e u que
representam no sentido de (2.1), ento existe uma funo f : IR IR tal que
(a) f estritamente crescente em {r : x X, r = u(x)} e
(b) u (x) = f (u(x)), x X.
Alm disso, para qualquer funo estritamente crescente g : IR IR, u (x) = g(u(x)), x
X tambm representa .
Prova: Exerccio.
Quando X for no-enumervel, algumas relaes de preferncia podem no ser representadas por nenhuma funo de utilidade. Por exemplo, considere X = [0, 1] [0, 1], e
defina
(x1 , x2 ) (y1 , y2 ) se x1 > y1 ou [x1 = y1 e x2 > y2 ].
Esta uma relao de preferncia (Exerccio). Esta relao conhecida como preferncia
lexicogrfica. Esta relao no pode ser representada por uma funo utilidade. Suponha,
por contradio, que u represente . Ento, para todo r [0, 1], o caso que (r, 1) (r, 0),
portanto u((r, 1)) > u((r, 0)). Seja d(r) = u((r, 1)) u((r, 0)). Logo, d(r) > 0, r [0, 1].
Ento,
[0, 1] =
n=1 {r : d(r) > 1/n}.
Note que o lado esquerdo da igualdade no enumervel. Como o lado direito uma
unio enumervel de conjuntos, pelo menos um deles deve ser no enumervel. Suponha
que {r : d(r) > 1/n0 } no enumervel. Seja u((1, 1)) u((0, 0)) = K, e seja N um
inteiro maior que Kn0 + 1. Escolha um subconjunto {r1 , r2 , . . . , rN } de N elementos de
{r : d(r) > 1/n0 } de tal forma que r1 < r2 < rN . Como (rn , 0) (rn1 , 1), sabemos que
u((rn , 0)) > u((rn1 , 1)). Portanto,
u((rn , 0)) u((rn1 , 0)) > u((rn1 , 1)) u((rn1 , 0)) > 1/n0 .
Finalmente,
K = u((1, 1)) u((0, 0))
= [u((1, 1)) u((rN , 0))] + [u((rN , 0)) u((rN 1 , 0))] +
+[u((r2 , 0)) u((r1 , 0))] + [u((r1 , 0)) u((0, 0))]
> 0 + 1/n0 + 1/n0 + + 1/n0 + 0 > (N 1)/n0 > K.
Uma contradio.
Recorde que um espao mtrico um conjunto M onde pode-se definir uma distncia
d(x, y) entre quaisquer dois pontos x, y M que satisfaz:
(a) d(x, y) 0 e d(x, y) = 0 se, e somente se, x = y.
(b) d(x, y) = d(y, x).
(c) d(x, z) d(x, y) + d(y, z).
Um espao mtrico M separvel, se ele contm um subconjunto enumervel M0 e M
igual a unio de M0 e todos os pontos de acumulao de M0 .1 Por exemplo, IRn um
espao mtrico separvel, onde M0 conjunto de todas as n-tuplas onde cada componente
um nmero racional.
Definio 2.1.11: Uma relao binria definida em um espao mtrico separvel X
contnua se para todas as (xn ) de X com xn x, (a) se x y para algum y X, ento
para todo n grande o suficiente, xn y; e (b) se y x para algum y X, ento para todo
n grande o suficiente, y xn .
Se as preferncias forem contnuas, elas podem ser representadas por uma funo de
utilidade (contnua) mesmo quando X for no-enumervel.
Teorema 2.1.12: Seja X um subconjunto de um espao mtrico separvel. Uma relao
binria em X pode ser representada por uma funo de utilidade contnua u : X IR no
sentido de (2.1) se, e somente se, for uma relao de preferncia contnua.
Prova: Omitida.2
a M um ponto de acumulao de um subconjunto N M , se existe uma sequncia de elementos
de N que converge para a, ou seja, um ponto do espao M que pode ser aproximado to bem quanto se
queira por infinitos pontos do subconjunto N . Note que a pode ou no pertencer a N .
2
Para maiores detalhes da prova consultar, por exemplo, Debreu G. (1954), Representation of a Preference
Ordering by a Numerical Function, http://cowles.econ.yale.edu/P/cp/p00b/p0097.pdf .
1
2.2. ESCOLHA SOB INCERTEZA.
2.2
10
Escolha sob Incerteza.
Quando um jogador escolhe entre suas estratgias, ele no sabe quais estratgias os outros
jogadores escolheram, por isso no tem certeza quanto s consequncias de suas escolhas.
Para analisar as decises dos jogadores em um jogo, seria til ento ter uma teoria de
tomada de deciso que nos permita expressar as preferncias de um agente sobre escolhas
com consequncias incertas em termos de sua atitude perante as consequncias.
2.2.1
Regras de Deciso
Existem muitas regras de deciso que podem ser adotadas dependendo da situao por um
agente que tem que realizar uma escolha sob incerteza. Assumiremos que o agente escolhe
aes que so funes do estado da natureza para consequncias ou prmios e que o agente
capaz de determinar qual a utilidade dessas consequncias, onde um estado da natureza
uma descrio de todos os aspectos do mundo relevantes ao problema de deciso. Algumas
regras requerem que o agente seja capaz de determinar uma probabilidade sobre o espao dos
estados da natureza, outras no precisam desta descrio probabilstica e podem ser usadas
em casos onde tal informao no disponvel ao agente. Assumiremos de agora em diante
que o conjunto S de estados da natureza finito, e que todas as probabilidades so definidas
na -lgebra 2S .
Maximin
Esta uma regra conservadora. Ela determina escolher a ao que se d melhor no pior
cenrio possvel, ou seja, tentar fazer o melhor na pior situao que poderia acontecer.
Formalmente, dado uma ao a A, defina
pioru (a) = min{ua (s) : s S}.
pioru (a) a utilidade da pior consequncia possvel para a ao a
A regra de Maximin estabelece que a a se, e somente se, pioru (a) > pioru (a ).
Considere o seguinte exemplo onde as aes so descritas em uma matriz que estabelece
a utilidade de cada consequncia em cada estado da natureza possvel.
Exemplo 2.2.1:
a1
a2
a3
a4
s1
5
1
6
5
s2
0
4
4
6
s3
0
3
4
4
s4
2
7
1
3
Se utilizarmos a regra de Maximin, temos a4 a3 a1 a2 . Se o agente porm achasse

que o estado s4 bem mais provvel que os outros estados esta regra no seria mais adequada.
11
Maximax
Esta a regra para os otimistas. Ela determina escolher a ao que melhor no melhor cenrio possvel, ou seja, faa o melhor esperando que o melhor possvel ir ocorrer. Formalmente,
dada uma ao a A, defina
melhoru (a) = max{ua (s) : s S}.
melhoru (a) a utilidade da melhor consequncia para a ao a;
A regra de Maximax estabelece que a a se, e somente se, melhoru (a) > melhoru (a ).
Exemplo 2.2.2: Considere novamente as aes do Exemplo 2.2.1:
a1
a2
a3
a4
s1
5
-1
6
5
s2
0
4
4
6
s3
0
3
4
4
s4
2
7
1
3
Se utilizarmos a regra de Maximax, temos a2 a4 a3 a1 .

Regra Otimismo-Pessimismo
A idia desta regra fazer uma mdia ponderada entre o melhor e o pior cenrio onde o peso
depende de quo otimista o agente . Defina optu (a) = melhoru (a) + (1 )pioru (a). Note
que se = 1, temos a regra de Maximax; se = 0, temos Maximin; e, em geral, mede
quo otimista o agente .
A regra de otimismo-pessimismo estabelece que dado , a a se, e somente se, optu (a) >

optu (a ).
Esta regra estranha se pensarmos probabilisticamente, pois pioru (a) coloca probabilidade 1 no estado que corresponde ao pior cenrio segundo a. E este cenrio pode ser diferente
para aes diferentes! Mais geralmente, optu coloca probabilidade no estado que corresponde ao melhor cenrio segundo a, e coloca probabilidade 1 no estado que corresponde
ao pior cenrio segundo a.
Minimax Arrependimento
A idia desta regra minimizar quo arrependido o agente ficar quando ele descobrir o
verdadeiro estado da natureza. a regra que captura o que sentimos quando dizemos: eu
gostaria de ter escolhido a. Formalmente, para cada estado s, seja as a ao com a melhor
consequncia em s.
arrependimentou (a, s) = uas (s) ua (s)
arrependimentou (a) = maxsS arrependimentou (a, s)
12
arrependimentou (a) o maior arrependimento que agente poderia ter se ele escolher a
ao a.3
A regra de Minimax arrependimento estabelece que a a se, e somente se,
arrependimentou (a) < arrependimentou (a ).
Exemplo 2.2.3: Considere mais uma vez as aes do Exemplo 2.2.1:
a1
a2
a3
a4
s1 s2
5
0
1 4
6 4
5 6
s3
0
3
4
4
s4
2
7
1
3
Podemos ento, determinar a melhor ao em cada estado da natureza.

as1 = a3 ; uas1 (s1 ) = 6
as2 = a4 ; uas2 (s2 ) = 6
as3 = a3 (e a4 ); uas3 (s3 ) = 4
as4 = a2 ; uas4 (s4 ) = 7
Desta forma, o maior arrependimento de cada ao dado por:
arrependimentou (a1 ) = max(6 5, 6 0, 4 0, 7 2) = 6
arrependimentou (a2 ) = max(6 (1), 6 4, 4 3, 7 7) = 7
Se utilizarmos a regra de Minimax arrependimento, temos a4 a1 a3 a2 .
3
Existe tambm uma noo multiplicativa de arrependimento, onde o arrependimento em um estado s

definido como sendo a razo entre o melhor que o agente poderia escolher quando o verdadeiro estado s e
a ao que ele est considerando.
13
Efeito de Transformaes
Na seo de escolha sob certeza, vimos que a escolha do agente no se alteraria se a funo
utilidade sofresse qualquer transformao estritamente crescente. Vamos analisar agora o
que ocorre com as regras de deciso Maximin, Maximax, Otimismo-Pessimismo e Minimax
arrependimento.
Proposio 2.2.4: Seja f : IR IR uma funo estritamente crescente:
maximin(u) = maximin(f (u))
maximax(u) = maximax(f (u))
opt (u) pode no ser o mesmo que opt (f (u))
arrependimento(u) pode no ser o mesmo que arrependimento(f (u)).
Prova: Exerccio.
Proposio 2.2.5: Seja f : IR IR, onde f (x) = ax + b, e a > 0. Ento
maximin(u) = maximin(f (u))
maximax(u) = maximax(f (u))
opt (u) = opt (f (u))
arrependimento(u) = arrependimento(f (u))
Prova: Exerccio.
Aes Irrelevantes
Suponha que A = {a1 , . . . , an } e, que de acordo com alguma regra de deciso, a1 a2 . Pode
acontecer que adicionando uma nova possvel ao, possamos reverter esta preferncia? Ou
seja, suponha que A = A {a}. possvel que agora tenhamos segundo a mesma regra
de deciso anterior que a2 a1 ? No caso das regras de Maximin, Maximax, e opt no
(Exerccio). Contudo, no caso da regra de Minimax arrependimento isto possvel. A nova
ao pode alterar quem a melhor ao em um dado estado e desta forma alterar todos os
clculos.
Exemplo 2.2.6: Suponha que tenhamos as seguintes aes:
a1
a2
s1
8
2
s2
1
5
14
Portanto, temos
arrependimentou (a1 ) = 4 < arrependimentou (a2 ) = 6, ou seja,
a1 a2 .
Porm, suponha agora que acrescentemos a ao a3 :
s1
8
2
0
a1
a2
a3
s2
1
5
8
Agora, temos
arrependimentou (a2 ) = 6 < arrependimentou (a1 ) = 7 < arrependimentou (a3 ) = 8, ou seja,
a2 a1 a3 .
O Princpio da Razo Insuficiente

Considere o seguinte exemplo:
a1
a2
s1
9
9
s2
9
0
s3
9
0
s4
9
0
s5
9
0
s6
9
0
s7
9
0
s8
9
0
s9
0
9
Nenhuma das regras de deciso anteriores so capazes de distinguir a1 e a2 . Porm, muitas

pessoas achariam a1 melhor, pois argumentam que mais provvel que esta ao proporcione
uma melhor consequncia j que na maioria dos estados ela melhor. Formalmente, seja
ua (s) = u(a(s)), a utilidade da ao a no estado s. ua uma varivel aleatria. Seja
Pr a distribuio uniforme em S, ou seja, estamos assumindo que todos os estados so
equiprovveis, pois no existe razo para supor que um dos estados seja mais provvel que
os outros. Seja EPr (ua ) o valor esperado de ua .
Esta regra estabelece que a a se, e somente se, EPr (ua ) > EPr (ua ).
Existe um problema com este modelo, pois ele sensvel a escolha dos estados. Por
exemplo, suponha que dividamos s9 em 20 outros estados, neste caso considerando os 28
estados equiprovveis teramos que a2 seria melhor. Outro problema que nem sempre
justificvel assumir que os estados so equiprovveis, isto requer uma informao que o
agente no possui.
Maximizao da Utilidade Esperada
Suponha agora que tenhamos uma distribuio de probabilidade Pr nos estados, podemos
ento calcular a utilidade esperada de cada ao a:
EPr (ua ) = sS Pr(s)ua (s).
A regra da Maximizao da Utilidade Esperada (MUE) estabelece que a a se, somente
se, EPr (ua ) > EPr (ua ).
15
Minimizao do Arrependimento Esperado

Recorde que as a ao com melhor consequncia no estado s.
arrependimentou (a, s) = uas (s) ua (s)
arrependimentou (a) = maxsS arrependimentou (a, s)
Dada uma probabilidade Pr nos estados, o arrependimento esperado de a
EPr (arrependimentou (a, )) = sS Pr(s)arrependimentou (a, s)
A regra da Minimizao do Arrependimento Esperado (MAE) estabelece que a a se,
somente se, EPr (arrependimentou (a, )) < EPr (arrependimentou (a , )).
Teorema 2.2.7: MUE and MAE so regras de deciso equivalentes, ou seja, a M U E a se,
e somente se, a M AE a .
Prova: Seja u = u. Logo, maximizar EPr (ua ) equivalente a minimizar EPr (ua ). Seja
uv (a, s) = u (a, s) + v(s), onde v : S IR arbitrrio. Minimizar EPr (ua ) equivalente a
minimizar EPr (uva ), pois somente adicionamos a mesma constante (EPr (v)) ao valor esperado
de ua , para cada ao a. Escolhendo v(s) = u(as ), temos que EPr (uva ) o arrependimento
esperado de a.
A pergunta obvia de onde podemos extrair esta probabilidade envolvida nas regras de
MUE e MAE. Se houver dados suficientes, podemos estimar tais probabilidades utilizando
mtodos estatsticos. Pode-se tambm tentar elicitar uma probabilidade subjetiva do agente.
Existem outras regras que adotam um conjunto de medidas de probabilidade para representar
a incerteza do agente.
Regras que Utilizam um Conjunto de Medidas de Probabilidade
Considere que jogamos uma moeda honesta. Uma maneira razovel de representar a incerteza
do agente com a medida de probabilidade Pr1/2 :
Pr1/2 (cara) = Pr1/2 (coroa) = 1/2.
Agora suponha que no se sabe o vis da moeda. Como devemos representar a incerteza do agente sobre o resultado do lanamento desta moeda? Podemos ainda utilizar Pr1/2 . Porm, note que representar a incerteza do agente por esta medida de probabilidade implica assumir que o agente acredita que se esta moeda for jogada vrias vezes aproximadamente metade das vezes ele obter cara. Como o agente no dispe de
tal informao, parece mais razovel utilizar um conjunto de medidas de probabilidade
{Prp : p [0, 1]}, onde Prp (cara) = p para representar a incerteza do agente. Vamos
agora estudar algumas regras de deciso que supe que o agente representa sua incerteza a
respeito do verdadeiro estado da natureza por um conjunto de medidas de probabilidade.
Dado um conjunto P de medidas de probabilidade, defina
E P (ua ) = inf {EPr (ua ) : Pr P}.
PrP
16
Considere a regra de deciso 1 que estabelece que a 1P a se, e somente se, E P (ua ) >
E P (ua ). A intuio por trs desta primeira regra parecida com a regra de Maximin,
pois estamos otimizando o pior valor esperado possvel. De fato, se PS consiste de todas
medidas de probabilidade em S, ento E PS (ua ) = pioru (a). Note que a ordem de preferncia
segundo a regra Maximin coincide com 1PS . Contudo, em geral, 1P pode tirar vantagem
de informaes extras, se P for um subconjunto estrito de PS .
Podemos tambm definir uma regra que tem a mesma intuio por trs da regra de
Maximax, ou seja, maximizaremos o melhor valor esperado. Para tanto, defina E P (ua ) =
supPrP {EPr (ua ) : Pr P}. Esta regra de deciso 2 estabelece que a 2P a se, e somente se,
E P (ua ) > E P (ua ).
Podemos ainda definir uma outra regra de deciso segundo a qual uma ao a s melhor
que uma outra ao a se o pior valor esperado da ao a for melhor que o melhor valor
esperado segundo a . Esta regra de deciso extremamente conservadora. Formalmente,
esta regra de deciso 3 estabelece que a 3P a se, e somente se, E P (ua ) > E P (ua ).
Finalmente, pode-se definir uma quarta regra de deciso segundo a qual ao a melhor
que outra ao a se para toda medida de probabilidade Pr P temos que o valor esperado
de a segundo Pr maior que o valor esperado de a segundo Pr. Formalmente, temos que
a 4P a se, e somente se, EPr (ua ) > EPr (ua ), Pr P.
Proposio 2.2.8: a 3P a implica a 4P a .
Prova: Exerccio.
2.2.2
Qual a Regra Correta?
Uma maneira de determinar a regra correta caracterizar as regras atravs de axiomas, ou

seja, caracterizar que propriedades uma relao de preferncia sobre as aes deve satisfazer
de modo que ela possa ser representada por MUE, Maximin, Minimax arrependimento, . . . .
Veremos uma caracterizao axiomtica da regra MUE na Seo 2.2.3. Podemos tambm
considerar exemplos.
Exemplo 2.2.9: Rawls vs. Harsanyi
Qual de duas sociedades cada uma com 1000 pessoas melhor:
Sociedade 1: 900 pessoas tm utilidade 90, 100 tm utilidade 1.
Sociedade 2: todos tm utilidade 35.
Transformando em um problema de deciso, temos duas aes:
1. viver na Sociedade 1
2. viver na Sociedade 2
Podemos ainda descrever 1000 estados, onde no estado i, o agente ser a pessoa i. Rawls
afirma que devemos usar a regra de Maximin para decidir, enquanto Harsanyi afirma que
devemos usar o princpio da razo insuficiente. E voc o que decide?
17
Se voc gostar de Maximin, considere Sociedade 1 , onde 999 pessoas tm utilidade

100, e 1 tem utilidade 34. Neste caso, teramos
Sociedade 2 Sociedade 1 Sociedade 1.
Contudo, a grande maioria das pessoas prefeririam viver na Sociedade 1 que na Sociedade 2.
Se voc preferir o princpio da razo insuficiente, considere Sociedade 1 , onde 1 pessoa
tem utilidade 100.000, e 999 tm utilidade 1. Neste caso, teramos
Sociedade 1 Sociedade 1 Sociedade 2.
Contudo, a grande maioria das pessoas prefeririam viver na Sociedade 2 que na Sociedade 1 .
Suponha agora que o agente possa escolher aes aleatoriamente, isto , a ao pa +

(1 p)a seja igual a escolha a com probabilidade p e a com probabilidade 1 p. Por
exemplo, voc pode jogar uma moeda viesada para decidir o que fazer. Poderamos esperar
que se a a , ento a pa + (1 p)a . Porm, isto no sempre verdadeiro para as regras
de Minimax, Maximax e Otimismo-Pessimismo se assumirmos que u(pa + (1 p)a , s) =
pu(a, s) + (1 p)u(a , s). Considere o seguinte exemplo:
Exemplo 2.2.10:
a1
a2
s1
2
0
s2
0
2
De acordo com a regra do otimismo-pessimismo a1 a2 (para todos os ndices ).

Mas a1 12 a1 + 12 a2 (exceto quando = 1/2).
Escolher aleatoriamente pode ser melhor dependendo da regra de deciso que se adota!
Note tambm que u(pa + (1 p)a , s) = pu(a, s) + (1 p)u(a , s) no compatvel com
transformao ordinal das utilidades. Por exemplo, se f (x) = x3 , ento f (1) = (f (0) +
f (2))/2.
Recorde que as preferncias podem se alterar quando consideramos a regra de minimizar
o arrependimento e adicionamos uma nova ao irrelevante, isto , podemos acrescentar
ao a3 e mudar a preferncia entre a1 e a2 .
Estes fatos sugerem que regras baseadas em argumentos probabilsticos devem ser melhores. Porm, note que no necessariamente temos que maximizar a utilidade esperada
para utilizar a probabilidade de maneira razovel. Considere por exemplo, o problema de
18
aceitar ou no uma loteria que paga R$10.000, 00 com probabilidade 0,95 e onde voc tem
que pagar R$200.000, 00 com probabilidade 0,05. Podemos adotar o procedimento de escolher a ao que nos garante o melhor resultado com probabilidade maior ou igual a 0,95.
isto que fazemos frequentemente quando adotamos intervalos de confiana de 0,95, ou
quando, especificamos o nvel de significncia de um teste de hiptese. Podemos imaginar
regras que utilizem outros tipos de informao, como varincia, mediana, para determinar
que ao escolher. Vimos tambm que em algumas situaes podemos utilizar conjuntos de
probabilidades para modelar a incerteza e desta forma utilizar regras que se baseiam neste
conceito. Veremos na seo a seguir uma justificativa para utilizao da regra da utilidade
esperada. Como veremos mais adiante nesta regra que se baseiam diversos conceitos de
solues de jogos.
2.2.3
Representao Cardinal
Em jogos veremos que existem dois tipos de incerteza: subjetiva e objetiva. A incerteza
objetiva pode surgir, por exemplo, de dispositivos aleatrios como moedas honestas, dados
perfeitos, roletas balanceadas, urnas com bolas coloridas, etc. A incerteza subjetiva pode
surgir, por exemplo, da ignorncia de algum jogador com respeito as estratgias utilizadas
pelos demais. Nesta seo seguiremos a teoria da escolha sob incerteza segundo Anscombe
e Aumann.
Considere um conjunto Z de consequncias (ou prmios). Seja S o conjunto de todos
os estados da natureza ou estados do mundo. Assumiremos por simplicidade que Z e S
so finitos. Dado um conjunto enumervel qualquer B denotaremos por (B), o conjunto
de todas as distribuies de probabilidade em (B, 2B ). Tome um conjunto F de aes
f : S (Z) como o conjunto sobre o qual o agente ter que expressar preferncias. Note
que a consequncia de uma dada ao f depende do estado da natureza. Deste modo o agente
pode ter incerteza subjetiva a respeito do verdadeiro estado da natureza e consequentemente
incerteza subjetiva sobre as consequncias de suas aes. Alm disso, dado um estado da
natureza f (s) descreve a incerteza objetiva com as quais cada consequncia ser obtida se o
agente escolher a ao f e o verdadeiro estado da natureza for s.
Exemplo 2.2.11: Suponha que o agente chamado a escolher entre duas aes. Se ele
escolher a primeira, ganhar R$1000 se o Santa Cruz for o prximo campeo pernambucano
de futebol, e no ganhar nada se o Santa Cruz no for o campeo. Se ele escolher a segunda
ao, ele ganhar R$1000 se uma moeda honesta cair cara quatro vezes em quatro jogadas
independentes, e no ganhar nada em caso contrrio. Podemos representar isto utilizando
nosso modelo segundo Anscombe e Aumann da seguinte maneira: Z = R$0, R$1000, S =
{s1 , s2 }, onde s1 representa o estado em que o Santa campeo, e s2 representa o estado
em que o Santa no campeo. F = {f1 , f2 }, onde f1 (s1 )(R$1000) = 1, f1 (s2 )(R$0) = 1,
f2 (s1 )(R$1000) = f2 (s2 )(R$1000) = (1/2)4 e f2 (s1 )(R$0) = f2 (s2 )(R$0) = 1 (1/2)4 .
Abusaremos um pouco da notao e eventualmente para p (Z) denotaremos por p a
ao constante que igual a p em todos os estados da natureza. Para quaisquer duas aes
f, g F e para todo a [0, 1], seja af + (1 a)g a seguinte ao:
(af + (1 a)g)(s) = af (s) + (1 a)g(s), s S.
19
Denotamos por fs g a ao que igual a g em s, e igual a f nos demais estados da natureza.

Exemplo 2.2.12: Seja S = {1, 2}, Z = {10, 15, 20, 25, 30}, f (1)(10) = 0,5, f (1)(15) = 0,3,
f (1)(20) = 0,2, f (2)(20) = 1, g(1)(20) = 0,5, g(1)(25) = 0,5, g(2)(20) = 0,6, e g(2)(30) =
0,4. Ento, se h = 0,6f + 0,4g, temos
h(1)(10) = 0,6f (1)(10) + 0,4g(1)(10) = 0,3
h(1)(15) = 0,6f (1)(15) + 0,4g(1)(15) = 0,18
h(1)(20) = 0,6f (1)(20) + 0,4g(1)(20) = 0,12 + 0,2 = 0,32
h(1)(25) = 0,6f (1)(25) + 0,4g(1)(25) = 0,2
h(2)(20) = 0,6f (2)(20) + 0,4g(2)(20) = 0,6 + 0,24 = 0,84
h(2)(30) = 0,6f (2)(30) + 0,4g(2)(30) = 0,16.
Se h = f1 g, temos
h (1)(20) = g(1)(20) = 0,5
h (1)(25) = g(1)(25) = 0,5
h (2)(20) = f (2)(20) = 1
A princpio no claro que existe alguma maneira de quantificar a incerteza subjetiva

do agente a respeito do verdadeiro estado da natureza. Alm disso, mesmo que esta medida
de incerteza exista no claro se poderemos combin-la com a maneira que o agente escolhe
diante do risco, ou seja, escolhe entre distribuies de probabilidade sobre as consequncias,
nem se tal medida de incerteza subjetiva independente dos riscos envolvidos (estados
mais arriscados poderiam ter uma maior probabilidade subjetiva?). Verificaremos que se
as preferncias do agente satisfazem alguns axiomas de racionalidade, encontraremos
uma
representao da seguinte forma: Existem funes : S [0, 1] com

sS (s) = 1 e
u : Z IR tal que f, f F
f f se, e somente se,
(s)[
f (s)(z) u(z)] >
(s)[
f (s)(z) u(z)],
sS
zZ
sS
zZ
onde f (s)(z) representa a probabilidade que a ao f , quando o verdadeiro estado da natureza s, d a consequncia z.
Ou seja, estamos interessados em um representao onde cada estado da natureza possui
uma probabilidade associada que independente das probabilidades sobre as consequncias
e cada consequncia possui uma utilidade u de tal forma que a escolha entre as aes
tomada de acordo com a utilidade esperada da funo utilidade u.
Um estado da natureza s dito ser nulo se f g para todos os pares de aes f, g F
que so iguais em todos os estados da natureza exceto possivelmente em s, ou seja, um
estado s nulo se no podemos encontrar aes que diferem apenas no estado s e que no
sejam indiferentes.
20
Considere os seguintes axiomas.

Axioma 1. em F uma relao de preferncia, ou seja, assimtrica e transitiva
negativa.
Sobre o Axioma 1, vimos na Seo 2.1.2, que a hiptese de transitividade negativa pode
causar algumas dificuldades com respeito a nossa intuio sobre a noo de preferncia.
Axioma 2. f g e a (0, 1] implica que af + (1 a)h ag + (1 a)h, para todo
h F.
O Axioma 2 frequentemente conhecido como axioma da substituio ou da independncia. Usualmente, utiliza-se um argumento enganoso para motivar este axioma em termos
de aes compostas. Ou seja, pensasse af + (1 a)h como sendo uma ao que igual a
f quando um evento A de probabilidade a > 0 ocorre e igual a h no caso contrrio. Deste
modo, nica diferena entre af + (1 a)h e ag + (1 a)h o que acontece quando o evento
A ocorre. Logo, seria intuitivo requerer que se f g, ento af + (1 a)h ag + (1 a)h. O
problema com este tipo de argumento que af + (1 a)h no uma ao composta, quando
se expressa a preferncia por toda a ao af + (1 a)h sobre a ao ag + (1 a)h no
somente pela parte que ocorreria se o evento A ocorresse. Veremos mais adiante que este
axioma frequentemente violado quando analisa-se o comportamento de agentes na prtica.
Axioma 3. f f f implica que existem a, b (0, 1) tal que af + (1 a)f f
bf + (1 b)f . Este axioma chamado de axioma arquimediano ou axioma da continuidade.
Ele implica que no existe nenhuma ao f to boa tal que para f f , no importa quo
pequena seja a probabilidade b, uma probabilidade b de f e uma probabilidade 1 b de f
sempre melhor que f . Similarmente, no existe nenhuma ao f to ruim tal que para
f f , no importa quo grande seja a probabilidade a, uma probabilidade a de f e 1 a de
f sempre pior que f . Poderamos tentar argumentar que este axioma no vlido, pois por
exemplo a ao que nos d como consequncia a morte em todos os estados da natureza seria
infinitamente ruim e qualquer ao que d ao agente uma probabilidade de morte positiva
no importa quo pequena deve ser realmente pior para o agente. Este argumento, contudo
no vlido pois frequentemente agentes tomam aes que tem probabilidades positivas de
acabar em morte. Por exemplo, atravessar uma avenida movimentada, andar de moto, e
viajar de avio! Deste modo comprova-se que agentes no avaliam a consequncia morte
como sendo infinitamente ruim.
Axioma 4. Existem f, g F tais que f g.
Este axioma apenas implica que o agente prefere alguma coisa entre as opes disponveis.
Caso contrrio todas as consequncias tem a mesma utilidade para o agente e estamos em
um caso trivial e pouco interessante.
Axioma 5. Se f F , p, q (Z), e fs p fs q, ento para todo estado no-nulo s
temos fs p fs q.
Este axioma assegura que as preferncias so independentes do verdadeiro estado da
natureza. Esta suposio inadequada para muitas aplicaes. Por exemplo, suponha que
S = {sol, chuva}. Seja p uma distribuio de probabilidade que d probabilidade 1 ao
prmio que consiste de um pacote de equipamentos que contm um guarda-chuva, seja q
uma distribuio de probabilidade que d probabilidade 1 ao um prmio que consiste do
mesmo pacote de equipamentos anterior mas no contm o guarda-chuva. No estado chuva,
o agente provavelmente preferir p a q, mas no estado sol pode ser indiferente entre essas
21
duas distribuies. Este exemplo, no pode ser modelado por uma representao onde a
utilidade independente dos estados da natureza.
O prximo teorema prova que estes axiomas so necessrios e suficientes para a representao que desejamos.
Teorema 2.2.13: Axiomas 15 so necessrios e suficientes para que existam uma funo
no constante u : Z IR e uma distribuio de probabilidade em S tal que
f g se, e somente se,

(s)[
u(z)f (s)(z)] >
(s)[
u(z)g(s)(z)].
sS
zZ
sS
zZ
Alm disso, a distribuio de probabilidade nica, e u nica exceto por uma transformao positiva afim nesta representao.
Prova: Omitida. Maiores detalhes podem ser vistos em Kreps (1988).
Nos jogos que se seguem definiremos jogadores como racionais se eles escolhem aes
(estratgias) que maximizam suas utilidades esperadas. Deste modo estamos implicitamente
admitindo que os Axiomas 1-5 definem o que so preferncias racionais. Contudo, importante ter em mente que conforme discutimos acima existem situaes em que esses axiomas
no so razoveis, e portanto, no deve-se esperar que jogadores escolham suas aes baseados no critrio de maximizao da utilidade esperada. Na prxima seo discutiremos alguns
Paradoxos famosos da Teoria da Utilidade Esperada.
2.2.4
Paradoxos
Paradoxo de Newcomb
Suponha que um ser superior lhe apresenta duas caixas, uma aberta e uma fechada. A caixa
aberta contm R$1.000. Na caixa fechada ou acabou de ser colocado R$0 ou R$1.000.000
pelo ser superior. Voc pode escolher a caixa fechada ou ambas caixas. Voc recebe o que
estiver nas caixas. Porm, existe um problema o ser superior pode predizer o que humanos
faro. Se o ser predizer que voc escolher ambas as caixas, ele coloca R$0 na caixa fechada.
Se ele predizer que voc, escolher apenas a caixa fechada, ele colocar R$1.000.000 na caixa
fechada. O ser superior acertou 999 das ltimas 1000 vezes em que este experimento foi
realizado. O que voc deve fazer?
Os estados da natureza e as aes disponveis neste problema so:
s1 : O ser superior colocou 0 na caixa fechada
s2 : O ser superior colocou 1.000.000 na caixa fechada
a1 : escolha ambas as caixas
a2 : escolha apenas a caixa fechada
a1
a2
s1
s2
$1.000 $1.001.000
$0
$1.000.000
22
Raciocnio por dominncia sugere que devemos escolher a1 . Mas dominncia no apropriado se estados e aes no so independentes. A regra da maximizao da utilidade
esperada estabelece que se aes e estados no so independentes ns precisamos calcular
Pr(si | aj ). Portanto, neste exemplo Pr(s1 | a1 ) = .999 e Pr(s2 | a2 ) = .999. Ento, deve-se
escolher a ao a que maximize Pr(s1 | a)u(s1 , a) + Pr(s2 | a)u(s2 , a). Neste caso, ento
deve-se escolher a2 . Isto est realmente correto? O dinheiro ou est na caixa ou no est
. . . . Considere a seguinte aplicao que um exemplo mais concreto deste paradoxo:
Exemplo 2.2.14: Os fatos
Fumar altamente correlacionado com doenas coronarianas.
Doenas coronarianas tm fundo gentico.
Doenas coronarianas so mais comuns em pessoas com personalidade do tipo A.
Suponha que ter personalidade do tipo A hereditrio e que pessoas com este tipo de
personalidade tm uma maior tendncia a fumar. Esta a razo por que fumar correlacionado com doenas coronarianas. Suponha que voc tem personalidade do tipo A. Voc deve
fumar? Voc tem um problema de deciso similar ao paradoxo de Newcomb. Porm, o fato
que Pr(doena coronariana | fumar) alta no deveria lhe impedir de fumar. Pois fumar
apenas correlacionado doena coronariana e no causa doena coronariana, ento voc no
tem nada a perder por fumar!
Ento, antes de aplicar a regra de MUE no caso de estados e aes dependentes, devemos
considerar se nossas aes causam uma mudana de estado ou se nossas aes apenas esto
correlacionadas com os estados. Portanto, no paradoxo de Newcomb, voc deve escolher
ambas as caixas a no ser que voc acredite que escolher ambas as caixas causa a segunda
caixa estar vazia!
Paradoxo de Ellsbergue
Suponha que existam duas urnas cada uma com 60 bolas. A urna 1 contm 30 bolas azuis
e 30 bolas verdes. Tudo que se sabe sobre a urna 2 que ela contm bolas azuis e verdes,
mas no sabe-se a distribuio das bolas. Considere que existem duas loteria com prmios
baseados no sorteio de bolas dessas urnas. Loteria L1 paga R$1.000,00 se uma bola azul for
sorteada na urna 1, e R$0,00 caso contrrio. Loteria L2 paga R$1.000,00 se uma bola azul for
sorteada na urna 2, e R$0,00 caso contrrio. A maioria das pessoas quando questionada se
prefere um bilhete da Loteria L1 ou L2 prefere um bilhete da loteria L1 . Suponha agora que
temos duas outras loterias L3 e L4 , onde a primeira paga R$1.000,00 somente se uma bola
verde for sorteada da urna 1, e a segunda para R$1.000,00 somente se uma bola verde for
sorteada da urna 2. Tambm, verificado que a maioria das pessoas que preferiram a loteria
L1 a loteria L2 preferem a loteria L3 a loteria L4 . Com estas preferncias, no possvel
que o decisor possua uma nica distribuio de probabilidade subjetiva sobre as cores das
bolas na urna 2, pois a primeira preferncia (L1 sobre L2 ) indica que o decisor considera que
existam mais bolas verdes que azuis na urna 2, e a segunda (L3 sobre L4 ) indica que o decisor
23
considera que existam mais bolas azuis que verdes na urna 2. Esse fenmeno conhecido
na literatura como averso a ambiguidade, e pode-se modelar a incerteza do decisor por um
conjunto de medidas de probabilidade ao invs de uma nica medida de probabilidade e que
o decisor utiliza a regra 1 discutida na Seo 2.2.1.
Paradoxo de Allais
Suponha que existam 4 loterias A, B, C, e D. Voc chamado a escolher entre a loteria
A que lhe paga R$2.500, 00 com probabilidade 0,33, R$2.400, 00 com probabilidade 0,66,
e R$0, caso contrrio; e a loteria B que lhe paga R$2.400, 00 com probabilidade 1. Voc
tambm chamado a escolher entre a loteria C que lhe paga R$2.500, 00 com probabilidade
0,33, R$0 com probabilidade 0,67; e a loteria D que lhe paga R$2.400, 00 com probabilidade
0,34, R$0 com probabilidade 0,66. A maioria das pessoas preferem B na primeira situao
e C na segunda situao. Estas escolhas sugerem que pessoas no utilizam a regra da
utilidade esperada para escolher entre as alternativas, pois B A implica que u(2400) >
0,33u(2500) + 0,66u(2400) + 0,01u(0), o que equivalente a 0,34u(2400) > 0,33u(2500) +
0,01u(0). Similarmente, C D implica que 0,33u(2500)+0,67u(0) > 0,34u(2400)+0,66u(0),
o que equivalente a 0,33u(2500) + 0,01u(0) > 0,34u(2400). Uma inconsistncia. Portanto,
as preferncias expressas pela maioria das pessoas indica que elas so inconsistentes com o
princpio da maximizao da utilidade esperada. Portanto, essas preferncias devem violar
algum entre os Axiomas 1 a 5. Voc consegue determinar que axioma esse? (Exerccio)
A explicao mais comum para a falha da MUE neste exemplo a falta de habilidade das
pessoas para diferenciar pequenas diferenas de probabilidade; 0,33 e 0,34 parecem iguais
e as pessoas tendem a focar na diferena de valores. Porm 0,01 e 0 parecem diferentes (a
segunda lhe d certeza plena que o evento no ocorre) e as pessoas tendem focar na diferena
de probabilidade. A Teoria dos Prospectos de (Kahnemann and Tversky) resolve o Paradoxo
de Allais colocando um peso diferente nas probabilidades de acordo com a importncia que
agentes tendem a dar a estas.
Captulo 3
Jogos em Forma Normal
3.1
Definio
Teoria dos jogos pode ser pensada como um problema de deciso que envolve mais de um
agente. Neste captulo, estaremos interessados em estudar jogos estticos, ou seja, jogos em
que os agentes se movem simultaneamente e uma nica vez. Estes jogos so conhecidos na
literatura como jogos em formal normal ou estratgica. Todo jogo em forma normal tem as
seguintes componentes
1. Existe um conjunto de agentes ou jogadores N .
2. Cada jogador i pode escolher aes de um conjunto de estratgias (puras) ou aes Ci .
O resultado do jogo definido pelo perfil de estratgias que consiste de todas as
estratgias escolhidas pelos jogadores individuais. Matematicamente, o conjunto
de perfis de estratgias dado por C = iN Ci .
3. Jogadores tm preferncia sobre os possveis resultados do jogo. Em geral, o perfil
de estratgias escolhido pelos jogadores determina uma distribuio de probabilidade
sobre possveis consequncias, assumiremos que os jogadores agem como se possussem
uma funo utilidade no conjunto de possveis consequncias e avaliam uma distribuio de probabilidade sobre as possveis consequncias pelo valor esperado da utilidade
segunda esta dada distribuio. Dessa forma, para cada possvel perfil de estratgias
o jogador avaliar este perfil pelo valor da utilidade esperada das consequncias, onde
o valor esperado calculado utilizando a distribuio de probabilidades induzida pelo
conjunto de aes. Quando estuda-se jogos, o que se chama resultado, pagamento ou
utilidade de um perfil de estratgia o valor da utilidade esperada das consequncias
induzidas pelo perfil. Portanto, de agora em diante assumiremos que os jogadores recebem um certo pagamento ou tem uma certa utilidade para cada possvel perfil de
estratgias, mas importante ter em mente que na verdade jogadores no possuem preferncias (ou utilidades) sobre perfis de estratgias mas, sim, uma utilidade esperada
sobre as consequncias induzidas pelo perfil de estratgia. Note que um jogador precisa
saber no somente de sua prpria estratgia mas tambm das estratgias dos demais
24
3.2. ALGUNS EXEMPLOS IMPORTANTES
25
jogadores para determinar o resultado do jogo, pois em geral, o resultado do jogo depende das estratgias de todos os jogadores envolvidos. Portanto, o que importa para
os jogadores so os resultados do jogo, ou os perfis de estratgias, no suas prprias
estratgias. Claro que suas aes fazem parte do perfil de estratgia e portanto influenciam no resultado do jogo, mas para cada ao de um dado jogador podem existir
vrios resultados possveis. Portanto, temos que para cada possvel perfil de estratgia
c C, cada jogador i N avalia c de acordo com um nmero ui (c). Esta funo
ui ser denominada de funo utilidade ou pagamento do jogador i. Formalmente,
ui : C IR, i N .
Quando temos dois jogadores, toda esta informao pode ser expressa convenientemente
em uma matriz como a mostrada a seguir:
E
C
E
1,1
0,0
C
0,0
1,1
Nesta matriz o jogador 1 escolhe uma das linha E ou C, e jogador 2 escolhe uma das
colunas E ou C. Cada clula da matriz tem um par de nmeros onde a primeira componente
representa a utilidade do jogador 1 e a segunda componente representa a utilidade do jogador
2.
Note que o fator tempo no est presente em um jogo em forma normal. A idia que
cada jogador escolhe sua estratgia uma vez por todas e que os jogadores escolhem suas
estratgias simultaneamente, no sentido de que eles no possuem informao a respeito das
escolhas dos outros jogadores antes das suas escolhas. Apesar disto, uma estratgia pode
envolver escolhas que acontecem ao passar do tempo. Por exemplo, uma estratgia pode
depender de resultados de acontecimentos do futuro, por exemplo, se a cotao do dlar
baixar de R$1,50, passarei frias no exterior, caso contrrio, passarei frias no Brasil. O fato
que o tempo no est no modelo significa que quando analisamos a situao como um jogo
em forma normal, desconsideramos as complicaes que podem surgir quando permitimos
que um jogador mude de estratgia quando os eventos ocorrem. Tambm assumimos que os
jogadores fazem sua escolha de modo independente, ou seja, os jogadores no podem escolher
estratgias que dependem das escolhas dos outros jogadores.
3.2
3.2.1
Alguns Exemplos Importantes

Batalha dos Sexos
Suponha que um casal est decidindo em que local a famlia vai passear no prximo domingo.
Existem duas opes: passar o dia no shopping center, ou passar o dia na praia. Suponha
que o marido (jogador 1) prefere ir a praia e a esposa (jogador 2) prefere ir ao shopping. Mas
ambos ganham alguma utilidade em ir juntos ao mesmo local. Irem para locais diferentes
tem utilidade zero para ambos. A matriz de pagamentos desse jogo a seguinte:
S
P
26
S
P
1,2 0,0
0,0 2,1
O interessante neste jogo que jogadores tm um incentivo a escolherem juntos ao invs

de um contra o outro, pois ambos se do melhor se eles escolhem a mesma ao. O prximo
exemplo ocorre exatamente o oposto, a soma das utilidades de cada resultado do jogo para
os jogadores igual a zero (ou a uma constante).
3.2.2
Jogos de Soma-Zero
Em jogos de soma-zero qualquer ganho de uma das partes provoca uma perda de igual
utilidade para os outros jogadores. Pense, por exemplo, em como dividir uma pizza. O
tamanho da pizza no se altera, precisamos apenas saber como distribuir a pizza entre
os jogadores. O jogo de soma-zero mais simples conhecido como combinando centavos
(matching pennies). Este jogo contm dois agentes, onde o agente 1 ganha um real do
agente 2 se ambos escolherem a mesma ao, e perde um real em caso contrrio:
H
T
3.2.3
H
T
1,-1 -1,1
-1,1 1,-1
Medindo Foras
Neste jogo suponha que temos dois jovens dirigindo para casa em uma rua estreita com seus
carros, e em direes opostas. Nenhum deles quer sair do caminho, quem sair do caminho
considerado como fraco e perde seu orgulho, enquanto o outro ganha fama de forte. Porm,
se ambos no saem do caminho, eles se acidentam gravemente. Se ambos saem do caminho,
nenhum deles fica feliz ou infeliz.
F
F -20,-20
S
-5,10
3.2.4
S
10,-5
0,0
Dilema do Prisioneiro
Este jogo provavelmente o mais famoso de todos. A estria que dois prisioneiros so
interrogados. Se ambos cooperarem no julgamento, eles saem cada um com um ano de
priso. Se ambos delatarem um ao outro, eles pegam cada um 3 anos de cadeia. Se um
cooperar e o outro delatar, ento aquele que cooperar vai a priso por 5 anos, e o delator sai
livre.
D
C
D -3,-3 0,-5
C -5,0 -1,-1
27
Note que o melhor resultado se os jogadores decidirem juntos (C, C), o que tm a
maior soma de utilidades. O resultado (D, D) o pior possvel se considerarmos a soma das
utilidades de ambos jogadores, e pior do que o resultado (C, C) para ambos os jogadores.
Ento claramente, (D, D) parece ser um pssimo resultado.
Alguns exemplos prticos onde o Dilema do Prisioneiro pode surgir so os seguintes:
Corrida Armamentista. Dois pases entram em uma corrida armamentista. Ambos
gostariam de gastar seu dinheiro com o sistema de sade (C), por exemplo, mas se um
deles gasta dinheiro com o sistema de sade (C), e o outro gasta dinheiro em armas
(D), o primeiro pas ser invadido.
Escudo Anti-Mssil. Os EUA (Pas 1) podem tanto construir um sistema de defesa antimssil (D) como no construir tal sistema (C). Rssia (Pas 2) pode tanto construir
mais msseis (D) como no construir mais msseis (C). Se os EUA no construirem o
sistema anti-mssil, e a Russia no construir mais msseis, ento ambos pases esto
razoavelmente bem. Se a Rssia construir mais msseis e os EUA no tiverem o sistema
anti-mssil, ento os EUA se sentiro muito inseguros. Se os EUA construrem um
escudo anti-mssil, e a Rssia no construir msseis, ento os EUA esto felizes, mas
a Rssia se sente insegura. Se os EUA construrem o sistema anti-mssil e a Rssia
construir mais msseis, ento eles esto com o mesmo grau de insegurana que no caso
(C, C), mas eles esto piores pois tm menos recursos para investir em outras reas.
Mercado de Aviao. O mercado da aviao um exemplo do dilema do prisioneiro na
rea empresarial. Como todo servio, o problema com a passagem area que, uma
vez que o avio levanta vo, cada assento no vendido uma perda. No possvel
estocar a vaga para vend-la depois. Alm de deixar de ganhar com mais uma venda,
as empresas areas ainda tm de arcar com o prejuzo de colocar o avio no ar, que
no muda muito pela lotao. Portanto, a motivao para uma empresa baixar seus
preos, principalmente em vos difceis de vender, muito alta. Como a maioria das
pessoas no faz distino de companhias areas, desde que chegue a seu destino, a
empresa com preos mais baixos tende a voar com a maior lotao possvel, enquanto
as concorrentes agonizam com os prejuzos. Essa dinmica pode chegar ao extremo de
empresas competindo por clientes enquanto sabidamente tm prejuzo em alguns vos,
simplesmente por ser pior para elas voarem vazias do que com um prejuzo diminudo.
3.2.5
Duoplio de Cournot
Este jogo tem um conjunto de estratgia infinito. Duas firmas escolhem o nvel de produo
qi e tm custos de produo ci (qi ). Os produtos no so diferenciveis e a demanda de
mercado determina um preo unitrio de p(q1 + q2 ). Note que esta especificao assume
que os produtos so substitutos perfeitos. Neste caso, temos N = {1, 2}, C1 = C2 = IR+ ,
u1 (q1 , q2 ) = q1 p(q1 + q2 ) c1 (q1 ), e u2 (q1 , q2 ) = q2 p(q1 + q2 ) c2 (q2 ).
3.3. RACIONALIZABILIDADE E DOMINNCIA
3.2.6
28
Duoplio de Bertrand
Este duoplio pode ser visto como em oposio ao duoplio de Cournot. Firmas continuam
produzindo produtos que so substitutos perfeitos, mas agora elas determinam o preo.
Consumidores compram da firma com menor preo, e se ambas cobrarem o mesmo preo
elas dividem a demanda igualmente. Ambas firmas tm o mesmo custo unitrio c > 0, so
capazes de atender toda a demanda solicitada, e s produzem produtos que tm demanda.
A demanda varia linearmente com o preo, ou seja, D = a b(min(p1 , p2 )), onde b > 0, e
a bc > 0. Neste caso, temos N = {1, 2}, C1 = C2 = IR+ ,
(p1 c)(a bp1 ) se p1 < p2 ,

1)
u1 (p1 , p2 ) =
(p c) (abp
se p1 = p2 ,
2
1
0
se p1 > p2 ,
e
se p1 < p2 ,
0
(abp2 )
u2 (p1 , p2 ) =
(p c) 2
se p1 = p2 ,
2
(p2 c)(a bp2 ) se p1 > p2 .
3.3
Racionalizabilidade e Dominncia
Experimento 7: Suponha que voc o jogador 1, ou seja tem que escolher uma das linhas
da matriz abaixo. Qual a sua escolha? Justifique sua resposta.
A
A 5,2
B 0,0
C 7,0
D 9,5
B
2,6
3,2
2,2
1,3
C
1,4
2,1
1,5
0,2
D
0,4
1,1
5,1
4,8
Como agentes jogam um jogo? Nesta seo iremos encontrar solues para alguns jogos
partindo da suposio que agentes so racionais, isto escolhem estratgias que maximizam
suas utilidades esperadas, e que cada agente sabe que os outros agentes tambm so racionais.
3.3.1
Comportamento Racional
Assuma que o agente i tem crenas descritas por uma distribuio de probabilidade i sobre
as estratgias utilizadas pelos outros agentes do jogo. Se s um perfil de estratgias de um
jogo, denotaremos por si todas as estratgias deste perfil exceto a estratgia do agente i.
Definio 3.3.1: Uma estratgia si uma escolha racional para o agente i com crena i
se
si argmaxti Ci
ui (ti , si )i (si ).
si Ci
29
Note, que dado que o agente i possui crena i , ele est diante de um problema de deciso
sob incerteza. E conforme afirmamos ao fim da seo anterior, para jogos consideraremos
que agentes devem utilizar a regra MUE.
Definio 3.3.2: Dado qualquer conjunto enumervel B, seja (B) = { : (B, 2B , ) um
espao de probabilidade}, isto (B) o conjunto de todas as medidas de probabilidade
definidas na -lgebra 2B . Se Ci o conjunto de estratgias puras para o agente i, i (Ci )
uma estratgia randomizada ou mista para o agente i. Denotaremos por [si ] a estratgia
randomizada que escolhe a estratgia pura si com probabilidade 1.
Definio 3.3.3 : Estratgia si Ci estritamente dominada para o agente i se existe
alguma estratgia randomizada i (Ci ) tal que
ui (si , si ) <
i (di )ui (di , si ), si Ci .
di Ci
Similarmente, uma estratgia si Ci fracamente dominada se para o agente i se existe

alguma estratgia randomizada i (Ci ) tal que
i (di )ui (di , si ), si Ci , e

ui (si , si )
di Ci
existe si Ci tal que a desigualdade estrita.

Em palavras, uma si estratgia estritamente dominada se existe uma outra estratgia
(randomizada) que sempre melhor que si ; e si fracamente dominada se existe uma
outra estratgia (randomizada) que nunca pior que si e em pelo menos uma situao
estritamente melhor que si .
Proposio 3.3.4: Se o agente i racional ele nunca jogar uma estratgia estritamente
dominada.
Prova: Se uma estratgia si Ci estritamente dominada por i (Ci ), ento
ui (si , si ) <
i (di )ui (di , si ), si Ci .
di Ci
Logo, para qualquer crena i , temos
i (si )ui (si , si ) <

i (si )
i (di )ui (di , si ).
si
di Ci
si
Trocando a ordem dos somatrios, temos:

i (di )
i (si )ui (di , si ).
di Ci
si
si
Portanto, existe di Ci tal que

i (si )ui (di , si ).
si
si
Ento, si no uma escolha racional para o agente i.

3.3.2
30
Dominncia Iterada
Uma das coisas mais difceis quando analisamos um jogo determinar as crenas dos agentes.
Muitos jogos podem ser simplificados assumindo racionalidade dos agentes e conhecimentos
sobre racionalidade dos outros agentes. Por exemplo, considere o Dilema do Prisioneiro. Cooperar uma estratgia dominada. Um agente racional portanto nunca cooperar. Portanto,
isto resolve o jogo pois todos os agentes iro delatar. Note que um agente no precisa saber
nada sobre o outro agente, a no ser que ele racional. Este resultado intrigante, pois
ele o pior resultado em termos da soma das utilidades dos jogadores e ambos melhorariam
seu resultado se cooperassem. Este resultado mostra que s vezes benfico restringir as
opes dos agentes. Por exemplo, no caso do sistema de defesa anti-msseis ambos os pases
sairiam ganhando se assinassem acordos que proibissem a construo de escudo anti-msseis
e a construo de novos msseis. Ento ambos pases s teriam uma opo de cooperar e
ambos sairiam ganhando.
Exemplo 3.3.5: Considere novamente o jogo do Experimento 7 abaixo.
A
B
C
D
A
5,2
0,0
7,0
9,5
B
2,6
3,2
2,2
1,3
C
1,4
2,1
1,5
0,2
D
0,4
1,1
5,1
4,8
Neste jogo, para o jogador 2, a estratgia A estritamente dominada pela estratgia D,

assim, a primeira coluna da matriz pode ser eliminada.
B
A 2,6
B 3,2
C 2,2
D 1,3
C
1,4
2,1
1,5
0,2
D
0,4
1,1
5,1
4,8
Agora, nesta matriz reduzida, para o jogador 1, as estratgias A e D so estritamente

dominadas pelas estratgias B e C, respectivamente. Portanto, as linhas 1 e 4 podem ser
eliminadas.
B
C
B
C
3,2 2,1
2,2 1,5
D
1,1
5,1
Alm disso, a estratgia D do jogador 2 estritamente dominada pelas estratgia B.

Assim, a coluna 3 tambm pode ser eliminada. Obtemos ento uma matriz reduzida 2 2.
B
C
B
3,2
2,2
C
2,1
1,5
31
Finalmente, a estratgia C do jogador 1 estritamente dominada pela estratgia B e, na

matriz 1 2 resultante, a estratgia C do jogador 2 estritamente dominada pela estratgia
B. Vemos ento que o resultado do jogo (3, 2), isto , o jogador 1 escolhe a estratgia
B e o jogador 2 escolhe a estratgia B. Neste caso, temos que a tcnica de eliminao
de dominncia estrita iterada fornece um nico perfil de estratgia como soluo do jogo.
Contudo, na grande maioria dos jogos esta tcnica no determina uma soluo nica.
Vale a pena discutir o nvel de conhecimento que requeremos dos jogadores quando aplicamos esta tcnica de eliminao de estratgias estritamente dominadas. Agente 1 tem que
saber que o agente 2 racional. Agente 2 tem que saber que o agente 1 sabe que o agente 2
racional. No suficiente saber que o outro agente racional, tambm necessrio saber que
o outro agente sabe que o primeiro racional. necessrio conhecimento de ordens ainda
maiores. Eu posso saber que meu adversrio racional e que ele sabe que eu sou racional.
Mas pode ser que ele no saiba que eu sei que ele sabe. Quanto maior for a ordem do conhecimento, mais o processo de eliminao de estratgias estritamente dominadas pode ser
repetido. Se racionalidade for conhecimento comum podemos repetir este processo de eliminao de estratgias estritamente dominadas infinitamente. Assumiremos que racionalidade
conhecimento comum na maior parte deste curso.
Seja Ci o conjunto de estratgias puras do jogador i e Di um subconjunto no-vazio de
Ci . Defina D = iN Di , um subconjunto do conjunto de perfis de estratgias do jogo e
Di = jN {i} Dj , ou seja, um subconjunto do conjunto dos perfis de estratgias puras dos
adversrios de i. Vamos definir por Ui (D) o subconjunto de Di de estratgias que no so
estritamente dominadas considerando que os demais jogadores escolhem estratgias em Di ,
ou seja, para todo i N
i (di )ui (di , si ) > ui (si , si ), si Di }.

Ui (D) = {si Di : @i (Di ) tal que
di Di
Definio 3.3.6: A definio formal do algoritmo de eliminao das estratgias estritamente

dominadas a seguinte:
Passo 1: Defina Si0 = Ci , i N .
Passo k+1: Para k 1, defina Sik = Ui (S k1 ), i N . Sik o conjunto de estratgias
que no so estritamente dominadas quando voc sabe que os outros agentes utilizam
k1
estratgias em Si
.
k
Passo : Defina Si =
k=0 Si . Note que se o conjunto de estratgias Si for finito
para todo i, ento o algoritmo deve parar aps um nmero finito de iteraes pois os
conjuntos se tornam menores a cada iterao. No caso particular, de um jogo com
dois jogadores que tm n e m aes disponveis o processo iterativo deve parar aps
no mximo n + m 2 passos.
Definio 3.3.7: Um jogo tem soluo determinada por eliminao de estratgias estritamente dominadas se S contm um nico perfil de estratgias.
3.4. RACIONALIZABILIDADE
32
Observao 3.3.8:
1. Apesar da maioria dos jogos no ter soluo determinada por eliminao de estratgias estritamente dominadas, este processo nos leva a determinar que estratgias no
devero ser utilizadas caso a hiptese de conhecimento comum sobre racionalidade dos
jogadores seja satisfeita.
2. No especificamos a ordem na qual as estratgias devem ser eliminadas. Pode-se mostrar que a ordem de eliminao no importa. (Exerccio) Intuio: Assuma que voc
no eliminou todas as estratgias dominadas em algum passo da iterao. Voc a eliminar depois? Claro que sim, uma estratgia dominada permanecer sendo dominada,
o mximo que pode ter acontecido que algumas outras estratgias dos outros agentes
foram eliminadas, o que diminui as restries na definio de estratgia dominada. O
mesmo no verdade para eliminao de estratgias fracamente dominadas.
T
M
B
L
1,1
1,1
0,0
R
0,0
2,1
2,1
Poderamos eliminar primeiro T e depois L. Neste caso, temos que a soluo daria
utilidades (2,1) com certeza. Contudo, se eliminarmos primeiro B e depois R a soluo
daria resultado (1,1) com certeza. Portanto, eliminao de estratgias fracamente
dominadas nem sempre resulta em resultados consistentes, logo uma opo de soluo
menos atraente.
3. Com um conjunto de estratgias finitas o conjunto S sempre no vazio por que
aps cada passo da iterao deve existir alguma estratgia dominante que restou.
4. Para o caso geral de um conjunto infinito de estratgias, no obvio que o processo
iterativo resultar em um conjunto no-vazio. Existem exemplos de sequncias monotnicas de conjuntos cuja interseco vazia: S n = (0, ( 12 )n ). A interseco S
de todos estes intervalos abertos vazia. Uma maneira de garantir que temos um
conjunto S no-vazio assegurar que os conjuntos S k so fechados e limitados, e
portanto compactos, assumindo um espao de aes de dimenso finita. Geralmente,
este o caso se as funes utilidades forem contnuas nas estratgias dos agentes.
3.4
Racionalizabilidade
Na maioria das situaes estratgicas, no o caso que um jogador pode deduzir as estratgias
que os outros jogadores usam. Como todos os jogadores tentam maximizar sua utilidade
esperada e isto conhecimento comum, o melhor que um jogador pode esperar fazer
deduzir um conjunto de estratgias plausveis para os outros jogadores. Aqui, assumimos
33
que uma estratgia plausvel uma melhor resposta para alguma crena plausvel que um
jogador pode ter a respeito do perfil de estratgias sendo jogado. Esta a intuio que o
conceito de soluo de racionalizabilidade tenta capturar. Podemos pensar em neste conceito
como sendo o que caracteriza que os jogadores agem otimamente dado suas crenas.
Formalmente, seja Ci o conjunto de estratgias puras para o jogador i; C = iN Ci ,
portanto, o conjunto de perfis de estratgias puras. Suponha que C finito e que cada jogador
i racional e conhecimento comum que ele escolhe uma estratgia de um subconjunto Di
de Ci . Seja Di = j=i Dj e
B(Di ) = {argmaxsi Ci
(di )ui (si , di ) : para algum (Di )};
di Di
isto , B(Di ) consiste das estratgias em Ci que so melhores respostas para alguma crena
que o jogador i pudesse ter sobre as estratgias que os outros jogadores esto usando. Observe
que se Di Di
Ci , ento B(Di ) B(Di
) B(Ci ), pois a medida que o nmero
de estratgias para os adversrios de i aumenta, temos que existem mais crenas plausveis
para i, e portanto, o conjunto de estratgias que so melhores respostas deve aumentar ou
permanecer o mesmo.
O conjunto S = iN Si de estratgias racionalizveis correlacionadas caracterizado
pelas duas seguintes propriedades: (a) para todo i N , Si B(Si ) e (b) S o maior
conjunto que satisfaz condio (a), no sentido que, para todo conjunto de perfis de estratgia
D que satisfaz (a), temos que D S. Uma estratgia si Si chamada de uma estratgia
racionalizvel correlacionada para o jogador i. Pode-se construir S atravs do seguinte
processo de iterao.
Passo 1: Defina Ci0 = Ci , i N .
k1
Passo k+1: Para k 1, defina Cik = B(Ci
), i N . Cik o conjunto de estratgias
que so melhores respostas para alguma crena do jogador i quando i sabe que os
k1
outros agentes utilizam estratgias em Ci
e podem correlacionar as estratgias.
k
Passo : Defina Si =
k=1 Ci .
Como o conjunto de estratgias Ci finito para todo i, ento o algoritmo deve parar aps um
nmero finito de iteraes pois os conjuntos Cik s se tornam menores a cada iterao. Seja
j o primeiro passo no qual no h mais nenhuma eliminao de estratgias no algoritmo.
Portanto, Si = Cij . Vamos mostrar que o conjunto S = iN Si realmente o conjunto
de estratgias racionalizveis correlacionadas do jogo. Como B(Cik )k0 uma sequncia no
crescente de conjuntos, temos que
j
k1
k
Si = Cij =
k=1 Ci = k=1 B(Ci ) = B(Ci ) = B(Si ).
Portanto, a condio (a) da definio satisfeita. Vamos verificar a condio (b). Suponha,
por contradio, que exista outro D C tal que Di B(Di ) para todo i N e D * S .
Como a sequncia C k no crescente, defina como k o primeiro passo no qual para algum
jogador j N uma estratgia sj Dj B(Dj ) no pertena Cjk 1 . Por definio do

34
k 2
k 2
k 2
algoritmo, temos que sj
/ B(Cj
). Como Dj Cj
, temos que B(Dj ) B(Cj
),
uma contradio. Portanto, S o conjunto de estratgias racionalizveis correlacionadas
do jogo e Si = B(Si ) para todo jogador i.
Frequentemente assume-se que os jogadores escolhem suas estratgias de maneira independente uns dos outros e que isto conhecimento comum entre os jogadores. Se ns assumimos essa hiptese, ns temos um conceito de soluo um pouco mais forte (pelo menos, no
caso em que |N | 3), que chama-se racionalizabilidade no-correlacionada. Formalmente,
suponha que cada jogador racional e conhecimento comum que ele escolhe uma estratgia
do subconjunto Di de Ci . Seja Di = j=i Dj e

O(Di ) = {argmaxsi Ci
j (dj )ui (si , di ) :
di jN {i}
para j (Dj )};

isto , O(Di ) consiste das estratgias em Ci que so melhores respostas para alguma crena
que o jogador i pudesse ter sobre as estratgias que os outros jogadores esto usando, assumindo que conhecimento comum que jogadores escolhem suas aes independentemente.
Observe que se Di Di
Ci , ento O(Di ) O(Di
) O(Ci ), pois a medida que
o nmero de estratgias para os adversrios de i aumenta, temos que existem mais crenas
plausveis para i, e portanto, o conjunto de estratgias que so melhores respostas deve aumentar ou permanecer o mesmo. Alm disso, note que temos sempre que O(Di ) B(Di ),
pois todo crena que o jogador i pode ter no caso de independncia ele tambm poderia ter
no caso em que ele admite a possibilidade dos adversrios correlacionarem as estratgias.
O conjunto S u = iN Siu de estratgias racionalizveis no-correlacionadas caracteu
rizado pelas duas seguintes propriedades: (a) para todo i N , Siu O(Si
) e (b) S u o
maior conjunto que satisfaz condio (a), no sentido que, para qualquer conjunto de perfis
de estratgias D que satisfaz (a), temos que D S u . Uma estratgia sui Siu chamada
de uma estratgia racionalizvel no-correlacionada para o jogador i. Pode-se construir S u
atravs de um processo de iterao similar ao utilizado para construir S, substituindo B()
por O() no algoritmo. Como O(Di ) B(Di ), fcil ver que S u S.
O seguinte exemplo ilustra as diferenas entre os trs conceitos: eliminao de estratgias
estritamente dominadas, estratgias racionalizveis correlacionadas e no-correlacionadas.
Exemplo 3.4.1: Considere o seguinte jogo com trs jogadores. O jogador a possui trs
estratgias puras a1 , a2 , a3 , enquanto os jogadores b e c possuem duas estratgias puras cada
um b1 , b2 e c1 , c2 , respectivamente. Vamos agora definir quais estratgias pertencem aos
conjuntos Ui (C), B(Ci ) e O(Ci ). Temos que para j {1, 2, 3}, aj Ua (C) se, e somente
se, no existe pa (Ca ) tal que
ua (aj , sa ) <
pa (ai )ua (ai , sa ), para todo sa Cb Cc ,
i=1
ou seja, aj Ua (C) se, e somente se, no existir nenhuma estratgia mista pa que tenha utilidade esperada estritamente melhor que aj para o jogador a dado qualquer par de estratgias
puras utilizado pelos jogadores b e c.
35
Por outro lado, temos que para j {1, 2, 3}, aj B(Ca ) = B(Cb Cc ) se, e somente se,
existir pa (Ca ) = (Cb Cc ) tal que
2
2
pa (bi , ck )ua (aj , bi , ck )
i=1 k=1
2
2
pa (bi , ck )ua (al , bi , ck ), para todo l {1, 2, 3},
i=1 k=1
ou seja, aj B(Ca ) se, e somente se, aj for uma melhor resposta para alguma crena que
o jogador a tenha a respeito de como os jogadores b e c podem jogar o jogo admitindo a
possibilidade de que b e c correlacionem suas estratgias de acordo com a distribuio pa .
Finalmente, temos que para j {1, 2, 3}, aj O(Ca ) = O(Cb Cc ) se, e somente se,
existirem pb (Cb ) e pc (Cc ) tais que
2
2
i=1 k=1
pb (bi )pc (ck )ua (aj , bi , ck )
2
2
pb (bi )pc (ck )ua (al , bi , ck ), para todo l {1, 2, 3},
i=1 k=1
ou seja, aj O(Ca ) se, e somente se, aj for uma melhor resposta para alguma crena que o
jogador a tenha a respeito de como os jogadores b e c podem jogar o jogo admitindo que os
jogadores b e c escolham suas estratgias independentemente de acordo com as distribuies
pb e pc , respectivamente.
Mostraremos a seguir que o conjunto de estratgias racionalizveis correlacionadas
exatamente igual ao conjunto de estratgias que sobrevivem ao processo de eliminao iterada
de estratgias estritamente dominadas. Considere a seguinte definio:
Definio 3.4.2: Considere um jogo em forma normal com conjunto de perfis de estratgia
dado por C = iN Ci . Uma estratgia si do jogador i em um jogo em forma normal nunca
uma melhor resposta se si
/ B(Ci ).
Lema 3.4.3: Uma estratgia para um jogador em um jogo de forma normal finito (isto , no
qual N e C so finitos) nunca uma melhor resposta se, e somente se, ela for estritamente
dominada, ou seja, B(Ci ) = Ui (C) para todo jogador i N .
Prova: Omitida. Ver Lema 60.1 em Osborne e Rubinstein.
Teorema 3.4.4: Para qualquer jogo em forma normal finito (N, (Ci )iN , (ui )iN ), temos que
S = S.
Prova: Consequncia imediata do Lema 3.4.3 e dos algoritmos para encontrar S = S.
Exemplo 3.4.5: Considere uma situao onde duas pessoas tem que dividir R$6,00 entre
si. Eles usam o seguinte procedimento. Cada pessoa escolhe uma quantidade inteira e nonegativa de reais no mximo igual a R$6,00. Se a soma for no mximo R$6,00, ento cada
pessoa receber a quantidade que escolheu. Se a soma exceder R$6,00 e eles tiverem escolhido
o mesmo nmero ento eles dividiro os R$6,00 igualmente. Se a soma exceder R$6,00 e
3.5. EQUILBRIO DE NASH
36
eles tiverem escolhido valores diferentes, o que escolheu o menor valor recebe a quantidade
que escolheu enquanto o outro recebe o restante. Quais as estratgias racionalizveis dos
jogadores? Responda a mesma pergunta se mudarmos a regra do jogo no ltimo caso e
tivermos que neste caso o jogador que escolher o maior nmero (ao invs do menor) recebe
a quantidade que escolheu enquanto o outro recebe a diferena.
Baseados neste resultado, poderamos tentar utilizar um outro conceito de soluo usando
a noo de dominncia fraca. Poderamos olhar para o maior conjunto D = iN Di tal
que para todo jogador i, Di o conjunto de todas as estratgias que no so fracamente
dominadas quando sabe-se que os outros jogadores escolhem estratgias em Di . Porm
existem jogos onde este conjunto D vazio conforme o exemplo a seguir.
Exemplo 3.4.6:
x1
y1
x2
1,1
1,0
y2
1,0
0,1
Se y1
/ D1 , ento segue que y2
/ D2 . Mas neste caso, temos que y1 no pode ser excludo.
Se y1 D1 , ento y2 D2 . Mas neste caso, temos que y1 pode ser excludo. Portanto, este
no um bom conceito de soluo.
3.5
Equilbrio de Nash
Eliminao de estratgias estritamente dominadas um conceito de soluo atrativo porque somente assume que os jogadores so racionais e que conhecimento comum que todo
jogador racional (mesmo assim isto pode ser uma suposio muito forte j que estamos
assumindo que ser racional utilizar a regra de deciso MUE). essencialmente um conceito construtivo - a idia restringir suposies sobre as estratgias escolhidas por outros
jogadores eliminando estratgias uma a uma. Para uma grande classe de jogos, este conceito
reduz significativamente o conjunto de estratgias. Contudo, apenas uma pequena classe de
problemas pode ser resolvida desta maneira.
Vamos introduzir agora o conceito de soluo mais famoso em Teoria dos Jogos: equilbrio
de Nash. Mostraremos adiante que todo jogo finito tem pelo menos um equilbrio de Nash e
que o conjunto de equilbrios de Nash um subconjunto das estratgias racionalizveis nocorrelacionadas, e, portanto, um subconjunto das estratgias que sobrevivem ao processo
iterativo de eliminao de estratgias dominadas. Neste sentido, equilbrio de Nash faz
predies mais fortes que os conceitos anteriores.
Definio 3.5.1: Um perfil de estratgias um equilbrio de Nash de (N, {Ci }iN , {ui }iN )
se, e somente se, ui () ui (i , i ) para todo jogador i N e toda estratgia mista
i (Ci ).
Definio 3.5.2: Um equilbrio de Nash dito ser puro se para todo jogador i, i d
probabilidade 1 a uma nica estratgia em Ci .
37
Definio 3.5.3: Um perfil de estratgias um equilbrio de Nash estrito de (N, {Ci }iN , {ui }iN )
se, e somente se, ui () > ui (i , i ) para todo jogador i N e toda estratgia mista
i (Ci ).
Em palavras, um perfil de estratgia um equilbrio de Nash se mesmo que um jogador
saiba as estratgias que esto sendo usadas pelos demais, ele no tem incentivo a mudar sua
estratgia porque sua estratgia uma melhor resposta as estratgias dos demais jogadores.
O equilbrio puro se os jogadores escolhem estratgias determinsticas e estrito se qualquer
desvio unilateral do equilbrio causa um prejuzo ao jogador que desviar do equilbrio.
Em um jogo em forma normal finito ou enumervel, se i uma estratgia randomizada
para jogador i, uma estratgia pura si Ci pertence ao suporte de i se i (si ) > 0. O
prximo teorema mostra que se um equilbrio de Nash, ento para todo jogador i, todas
as estratgias puras no suporte de i tem a mesma utilidade esperada para o jogador i dado
que os demais jogadores jogam i .
Teorema 3.5.4 : Se um equilbrio de Nash de um jogo em forma normal finito ou
enumervel, ento para todo jogador i, para quaisquer pares de estratgias puras si , ti no
suporte de i , temos ui (si , i ) = ui (ti , i ). Portanto, ui () = ui (si , i ) para qualquer
estratgia pura si no suporte de i .
Prova: Suponha por contradio que exista si , ti no suporte de i tal que ui (si , i ) >
ui (ti , i ). Considere a seguinte estratgia randomizada i tal que i (ci ) = i (ci ) para
todo ci Ci {si , ti }, e (si ) = i (si ) + i (ti ). Ento, temos que ui (i , i ) ui () =
i (ti )(ui (si , i ) ui (ti , i )) > 0, uma contradio pois um equilbrio de Nash.
3.5.1
Jogos com um nico Equilbrio de Nash
Exemplo 3.5.5: Dilema do Prisioneiro.

D
C
D -3,-3 0,-5
C -5,0 -1,-1
Este jogo tem apenas um nico equilbrio de Nash onde os jogadores escolhem D com
probabilidade 1. fcil checar que pelo menos um jogador tem incentivo a mudar de qualquer
outro perfil de estratgias. Por exemplo, ambos os jogadores escolherem C com probabilidade
1 no pode ser um equilbrio de Nash, pois ambos jogadores ganhariam se mudassem para
estratgia que escolhe D com probabilidade 1.
Antes de analisarmos o prximo exemplo consideremos a seguinte Proposio.
Proposio 3.5.6: Se um equilbrio de Nash de um jogo em forma normal finito ou
enumervel, ento para todo jogador i, se si pertence ao suporte de i , si sobrevive ao processo
iterativo de eliminao de estratgias estritamente dominadas.
38
Prova: Suponha, por contradio que existam si pertencentes ao suporte de tais que si
no sobrevive ao processo iterativo de eliminao de estratgias estritamente dominadas.
Seja k o menor inteiro no qual existe um si no suporte de tal que si Sik , mas si
/ Sik+1 ,
k
k
ou seja, existe i com suporte em Si tal que ui (si , di ) < ui (i , di ) para todo di Si
.
k
Como todas estratgias no suporte de i esto em Si , temos que
i (di )ui (i , di ) = ui (i , i ).
i (di )ui (si , di ) <
ui (si , i ) =
k
di Si
k
di Si
Ento, pelo Teorema 3.5.4, ui () < ui (i , i ), uma contradio pois um equilbrio de

Nash.
Exemplo 3.5.7:
L
U 2,2
D 1,2
M
1,1
4,1
R
4,0
3,5
Neste jogo o nico equilbrio de Nash ([U],[L]). fcil ver que ([U],[L]) um equilbrio
de Nash, pois ambos jogadores perderiam se mudassem de estratgia. Para verificar que este
equilbrio nico note que este perfil o nico que sobrevive ao processo de eliminao de
estratgias estritamente dominadas. Logo, o resultado segue da Proposio 3.5.6.
Exemplo 3.5.8: Combinando Centavos.
H
T
H
T
1,-1 -1,1
-1,1 1,-1
Neste jogo o nico equilbrio de Nash tem ambos os jogadores escolhendo cada uma de
suas estratgias puras com igual probabilidade. Neste equilbrio, a utilidade esperada de
ambos os agentes igual a zero.
Exemplo 3.5.9: Trabalho em Dupla. Considere uma situao em que duas pessoas tem
que realizar um trabalho e cada uma delas pode colocar um esforo xi [0, 1] para o qual
ela ter um custo de c(xi ). O resultado do projeto vale f (x1 , x2 ) e a dupla divide este valor
igualmente independente do esforo que cada pessoa teve. Encontre o equilbrio de Nash nas
seguinte situaes:
(a) f (x1 , x2 ) = 4x1 x2 e c(xi ) = x2i , para i = 1, 2.
(b) f (x1 , x2 ) = 3x1 x2 e c(xi ) = xi , para i = 1, 2.
Em cada um dos casos, existe um outro par de esforos (x1 , x2 ) que d a ambos jogadores
um melhor resultado do que o resultado obtido no equilbrio de Nash?
3.5.2
39
Jogos com Mltiplos Equilbrios de Nash
Exemplo 3.5.10: Considere o seguinte jogo de coordenao.

E
C
E
1,1
0,0
C
0,0
1,1
Este jogo tem trs equilbrios de Nash - ([E],[E]), ([C],[C]), e (1/2[E]+1/2[C],1/2[E]+1/2[C]).
Exemplo 3.5.11: Medindo Foras.

F
F -20,-20
S
-5,10
S
10,-5
0,0
Este jogo tem trs equilbrios de Nash - ([F],[S]), ([S],[F]), e (2/5[F]+3/5[S],2/5[F]+3/5[S]).
Exemplo 3.5.12: Jogo de Votos. Trs jogadores escolhem simultaneamente uma de trs
alternativas A, B ou C. Se a maioria escolher uma alternativa, esta ser a vencedora. Se os
votos se dividirem em 1-1-1, assumimos que a alternativa A ser escolhida. Suponha que
as preferncias sejam representadas por: u1 (A) = 3, u1 (B) = 2, u1 (C) = 1, u2 (A) = 1,
u2 (B) = 3, u2 (C) = 2, u3 (A) = 2, u3 (B) = 1, e u3 (C) = 3.
Este jogo tm vrios equilbrios de Nash, entre os quais podemos citar: ([A],[A],[A]),
([B],[B],[B]), ([C],[C],[C]). (Exerccio: Encontre todos os equilbrios de Nash em estratgia
pura deste jogo.)
3.5.3
Pontos Focais
O conceito de equilbrio de Nash no nos permite determinar que equilbrio ser jogado em
uma particular realizao do jogo se este possui mltiplos equilbrios. No Exemplo 3.5.10
no existe nenhuma maneira de determinar qual dos equilbrios ([E],[E]) ou ([C],[C]) melhor, pois ambos resultam em utilidade 1 para os jogadores. Por outro lado, o equilbrio
(1/2[E]+1/2[C],1/2[E]+1/2[C]) resultado em uma utilidade esperada de 1/2 para os jogadores.
Para alguns jogos possvel que exista algum equilbrio de Nash que se destaque em
relao aos demais, estes equilbrios so chamados de pontos focais. Por exemplo, o fato que
brasileiros dirigem do lado direito da rua poderia ser utilizado para determinar o ponto focal
do prximo exemplo:
Exemplo 3.5.13: Joo e Jos dirigem em dois carros numa pista de duas faixas em direes
opostas. Eles podem dirigir tanto do lado esquerdo como do direito, mas se eles no coordenarem suas aes eles podem causar um acidente de trnsito. Este jogo pode ser descrito
pela seguinte matriz:
40
D
D 1,1
E 0,0
E
0,0
1,1
Esperamos que ambos escolham ([D],[D]) que a norma socialmente aceita neste jogo.
Exemplo 3.5.14: Batalha dos Sexos.
Considere novamente o jogo da batalha dos sexos.
S
P
S
P
1,2 0,0
0,0 2,1
([S],[S]) e ([P],[P]) so equilbrios de Nash deste jogo. Este jogo interessante, pois os
jogadores no so indiferentes entre qual equilbrio implementar. Jogador 1 prefere ([P],[P])
e o jogador 2 prefere ([S],[S]).
Experimento 8: Suponha que voc o jogador 1 na batalha dos sexos. Qual ser a sua
escolha?
Experimento 9: Suponha novamente que voc o jogador 1 na batalha dos sexos. Jogador
2 escolhe uma ao primeiro. Voc no pode observar a escolha do jogador 2 antes de escolher
sua prpria ao. Qual ser a sua escolha?
Experimento 10: Suponha novamente que voc o jogador 1 na batalha dos sexos. Antes
do jogo comear, o jogador 2 tem uma oportunidade de fazer um anuncio. Seu anuncio
Jogarei S. Voc no pode fazer um anncio antes do jogo. Qual ser a sua ao?
Este tipo de comunicao conhecido como conversa fiada (cheap talk) pois este anuncio
no muda em nada a anlise. Note que, simplesmente expandindo o espao de estratgias
para o jogador 2. Ao invs das estratgias S e P, jogador 2 agora tem 4 estratgias: Ss,
Sp, Pp, Ps, onde estratgia Sp significa que jogador 2 escolhe S e anuncia que iria jogar p.
Claramente, as estratgias Ss e Sp tm a mesma utilidade esperada quando jogada contra
qualquer estratgia do jogador 1. Portanto, o jogo continua tendo o mesmo conjunto de
equilbrios de Nash que antes. Contudo, o anncio pode criar um ponto focal no jogo.
3.5.4
Risco Dominante
Considere o seguinte jogo.

A
B
A
B
9,9 -15,8
8,-15 7,7
Este jogo tem dois equilbrios de Nash em estratgias puras: ([A],[A]) and ([B],[B]).
Ao contrrio dos jogos anteriores, o equilbrio ([A],[A]) melhor para ambos os jogadores.
Podemos ento ser tentados a pensar que este equilbrio mais jogado na prtica. Contudo,
muitas pessoas tipicamente escolhem estratgia B na maioria dos experimentos. Escolher A
parece ser muito arriscado. Assuma que voc no sabe muito sobre o outro jogador e acha
que igualmente provvel que ele escolher uma de sua estratgias puras que fazem parte
de um equilbrio de Nash. Ento, escolher A lhe d uma utilidade esperada de -3 enquanto
escolher B lhe d 7,5. Portanto, A risco dominada por B.
3.5.5
41
Dominncia Conjunta
Um outro critrio de seleo de equilbrios escolher os equilbrios nos quais no existe outro
equilbrio onde todos os jogadores recebem um pagamento esperado pelo menos igual a este
equilbrio e pelo menos um dos jogadores esteja estritamente melhor. Segundo este critrio
os jogadores no jogo da seo anterior deveriam escolher o equilbrio ([A],[A]). Para um outro
exemplo considere o seguinte jogo:
A
B
A
1,3
1,1
B
2,3
2,1
Neste jogo, os 4 perfis de estratgias puras so equilbrios de Nash. Segundo o critrio

de dominncia conjunta, o equilbrio selecionado seria o par ([A],[B]).
3.5.6
Prova da Existncia
Nesta seo veremos que todo jogo em forma normal finito possui um equilbrio de Nash
em estratgias randomizadas. A demonstrao que apresentaremos faz uso do Teorema do
ponto fixo de Brouwer.
Teorema 3.5.15: (Brouwer.) Se M um subconjunto compacto e convexo de um espao
euclidiano de dimenso finita e F : M M uma funo contnua, ento F possui um
ponto fixo em M , isto , existe x M tal que F (x ) = x .
Provaremos a existncia do equilbrio de Nash em jogos finitos atravs de uma srie de
lemas. Para cada jogador i N e cada estratgia s Ci seja zis : iN (Ci ) IR tal que
zis () = ui ([s], i ) ui (),
isto , zis mede o ganho ou perda do jogador i quando ele muda de estratgia i para [s].
Lema 3.5.16: um equilbrio de Nash se, e somente se, zis ( ) 0, i N e s Ci .
) para todo i N
Prova: Assuma que um equilbrio de Nash, ento ui ( ) ui ([s], i
s
e s Ci . Consequentemente, zi ( ) 0.
) ui ( ), i N
Por outro lado, se zis ( ) 0, i N e s Ci , ento ui ([s], i
e s Ci . Precisamos mostrar que para todo i , ui (i , i ) ui ( ). Pela linearidade da

esperana, temos
ui (i , i
)=
i (s)ui ([s], i
)
sCi
sCi
i (s)ui ( ) = ui ( )
i (s) = ui ( )
sCi
42
Corolrio 3.5.17: Seja gis () = max(0, zis ), ento um equilbrio de Nash se, e somente,
gis ( ) = 0, i N e s Ci .
Considere a seguinte aplicao F : iN (Ci ) iN (Ci ) tal que para todo i N e
s Ci :
i (s) + gis ()
Fi ()(s) =
.
1 + tCi git ()
Lema 3.5.18: um equilbrio de Nash se, e somente se, F ( ) = , isto , se, e somente
se, um ponto fixo da aplicao F .
Prova: Observe que, de fato, F (iN (Ci )) iN (Ci ), pois claramente Fi ()(s) 0 e
i (s) + g s ()
it
Fi ()(s) =
1 + tCi gi ()
sCi
sCi
(i (s) + gis ())

1 + tCi git () sC
i
(1
+
gis ()) = 1,
1 + tCi git ()
sC
i
portanto, para todo i N e temos que Fi () (Ci ).

Assuma que um equilbrio de Nash, ento gis ( ) = 0 para cada i N e s Ci .
Desta maneira, Fi ( )(s) = i (s) para cada i N e s Ci , ou seja, F ( ) = .
Assuma agora que um ponto fixo da aplicao F , ento temos que para todo i N
e s Ci :
(s) + gis ( )
.
i (s) = i
1 + tCi git ( )
Segue-se ento que para todo i N e s Ci :
i (s)
git ( ) = gis ( ).
tCi
t
tCi gi ( )
Vamos agora provar que

= 0, o que
por tsua vez implica que gi ( ) = 0 para
todo i N e t Ci . Suponha, por absurdo, que tCi gi ( ) > 0, ento temos que
gis ( ) > 0 se, e somente se, i (s) > 0.

Intuitivamente, isto significa que o jogador i se beneficia ao trocar da estratgia i para
se, e somente se, a estratgia mista i escolhe a

[s], quando os demais jogam conforme i
estratgia pura s com probabilidade positiva, o que gera um absurdo. Formalmente, observe
) > ui ( ). Logo,
que para todo i N e s Ci , se gis ( ) > 0 ento ui ([s], i
ui ( ) = ui (
i (s)[s], i
)
=
sCi
i (s)ui ([s], i
)
sCi
>
i (s)ui ([s], i
)
sCi ,i (s)>0
i (s)ui ( ) = ui ( ),
sCi ,i (s)>0
43
um absurdo. Isto demonstra que git ( ) = 0 para todo i N e t Ci e, assim, um

equilbrio de Nash em estratgias mistas.
Teorema 3.5.19: Todo jogo em forma normal finito possui um equilbrio de Nash.
Prova: A aplicao F : iN (Ci ) iN (Ci ) definida anteriormente contnua e
iN (Ci ) um conjunto compacto e convexo de um espao euclidiano de dimenso finita.
Pelo teorema do ponto fixo de Brouwer, F possui um ponto fixo . Pelo teorema anterior,
um equilbrio de Nash.
O Teorema 3.5.19 sugere uma maneira de se calcular os equilbrios de Nash de um jogo.
Eles so solues do seguinte problema de otimizao no-linear:
min
gis ()
iN (Ci )
iN sCi
Como gis () 0 para todo i N , s Ci e iN (Ci ), temos que o somatrio igual

zero se, e somente se, cada parcela for igual a zero, o que como visto, implica que os perfis
que solucionam o problema de otimizao acima so realmente os equilbrios de Nash do
jogo. Na seo a seguir sugerimos um outro algoritmo para encontrar equilbrios de Nash de
jogos em forma normal finitos.
3.5.7
Clculo de Equilbrio de Nash
Nesta seo, consideraremos o problema de calcular os equilbrios de Nash de um jogo em

forma normal finito = (N, (Ci )iN , (ui )iN ). Embora existam infinitas estratgias randomizadas para este jogo, existe apenas um nmero finito de subconjuntos de C que pode
constituir o suporte das estratgias de um equilbrio de Nash. Podemos ento encontrar
todos os equilbrios de Nash de considerando sequencialmente todos os possveis suportes.
Para cada jogador i seja Di Ci . Di representa nossa atual tentativa de estratgias que
fazem parte do suporte de algum equilbrio de Nash. Se existe algum equilbrio de Nash
com suporte em iN Di , o Teorema 3.5.4 garante que cada jogador i deve ser indiferente
entre as estratgias em Di . Portanto as quatro condies seguintes devem ser satisfeitas:
j (cj ))ui (ci , di ) = wi , i N, di Di ,
(3.1)
ci Ci jN {i}
i (ei ) = 0, i N, ei Ci Di ,
i (ci ) = 1, i N,
(3.2)
(3.3)
ci Di
i (di ) > 0, i N, di Di .
(3.4)
Condio (3.1) assegura que o jogador i tem a mesma utilidade esperada wi de utilizar
qualquer uma das estratgias puras no suporte de i . Condies (3.2), (3.3), e (3.4) asseguram que i tem suporte Di . Note que as trs primeiras condies formam um sistema de
44
iN (||Ci || + 1) equaes e mesmo nmero de incgnitas ({wi , i (ci )}, para todo ci Ci e
i N ). Portanto, teoricamente pode-se resolver este sistema. No caso de dois jogadores,
teremos um sistema linear de equaes. No caso de mais de dois jogadores temos um sistema
no linear. Assumindo que existe soluo para este sistema e que podemos encontrar todas
as solues deste sistema teremos que verificar que a Condio (3.4) satisfeita. Alm disso,
ainda temos que assegurar que nenhuma outra estratgia ei Ci Di melhor para o jogador
i que i , ou seja, temos que garantir que:
wi
(
j (cj ))ui (ci , ei ), i N, ei Ci Di .
(3.5)
ci Ci jN {i}
Se conseguirmos encontrar uma soluo (, w) para o sistema (3.1),(3.2) e (3.3) que

satisfaz tambm (3.4) e (3.5), temos que um equilbrio de Nash de e que wi a utilidade
esperada para o jogador i neste equilbrio. Por outro lado, se no existe nenhuma soluo
que satisfaz todas as restries de (3.1) a (3.5) temos que no existe equilbrio com suporte
em iN Di . Para encontrar um equilbrio temos que tentar outro suporte. O Teorema
da existncia do equilbrio de Nash garante que existe pelo menos um suporte iN Di que
satisfaz todas as restries de (3.1) a (3.5).
Exemplo 3.5.20: Considere o seguinte jogo.
x1
y1
z1
x2
0,0
4,5
5,4
y2
5,4
0,0
4,5
z2
4,5
5,4
0,0
Primeiro note que no existe nenhum equilbrio de Nash em estratgias puras neste
jogo. Vamos verificar se existe algum equilbrio onde a estratgia do jogador 1 tem suporte
D1 = {x1 , y1 }. Note que neste caso a estratgia y2 do jogador 2 estritamente dominada
pela estratgia z2 e portanto no pode fazer parte do suporte do equilbrio, se ele existir.
Mas se y2
/ D2 , temos que x1 estritamente dominada por y1 . Logo, x1 no pode estar
no suporte do equilbrio e, portanto no existe equilbrio com suporte D1 = {x1 , y1 }. Os
casos em que D1 = {x1 , z1 } e D1 = {y1 , z1 } tambm podem ser resolvidos de forma similar
para chegar-se a concluso que eles no so suporte de nenhum equilbrio. Pela simetria
do jogo, temos que tambm no existe equilbrio quando D2 = {x2 , y2 }, D2 = {x2 , z2 }, ou
D2 = {y2 , z2 }. Portanto, s nos resta o caso em que D1 = {x1 , y1 , z1 } e D2 = {x2 , y2 , z2 }.
Vamos assumir que 1 = (p1 , p2 , 1 p1 p2 ) e que 2 = (q1 , q2 , 1 q1 q2 ). Calculando, a
utilidade esperada do jogador 1 para cada uma de suas trs estratgias puras temos:
u1 (x1 , 2 ) = 0q1 + 5q2 + 4(1 q1 q2 ) = 4 4q1 + q2
u1 (y1 , 2 ) = 4q1 + 0q2 + 5(1 q1 q2 ) = 5 q1 5q2
u1 (z1 , 2 ) = 5q1 + 4q2 + 0(1 q1 q2 ) = 5q1 + 4q2
Igualando estas trs quantidades, temos a soluo q1 = q2 = 1/3. Fazendo calculo similar
para o jogador 2, pela simetria do problema obtemos p1 = p2 = 1/3.
3.5.8
45
Interpretaes de Equilbrio de Nash
O processo de eliminao de estratgias estritamente dominadas um algoritmo construtivo

e no assume que os jogadores sabem das estratgias dos outros jogadores. Em contraste, em
um equilbrio de Nash jogadores tm crenas precisas sobre as estratgias dos outros. Precisamos saber de onde essas crenas vm para podermos interpretar esta noo de equilbrio.
Existem vrias interpretaes:
1. Estratgias so prescritas. Algum rbitro no envolvido no jogo prescreve uma maneira
de como o jogo deve ser jogado. Esta prescrio estvel no sentido de que nenhum
jogador tem incentivo a desviar dela unilateralmente.
2. Comunicao prvia. Existe uma comunicao prvia na qual jogadores podem se
comunicar e concordar em como jogar o jogo. Novamente este acordo estvel.
3. Introspeco Racional. Um equilbrio de Nash parece ser uma maneira plausvel de
jogar o jogo, pois minhas crenas sobre os outros jogadores so consistentes com o fato
que eles so racionais. Esta uma boa explicao para jogos que contm um nico
equilbrio de Nash. Contudo, menos convincente para jogos com mltiplos equilbrios
de Nash.
4. Ponto Focal. Normas sociais ou outras caractersticas podem induzir jogadores a preferir algumas estratgias.
5. Aprendizado. Agentes aprendem as estratgias dos outros jogando o mesmo jogo muitas vezes. Por exemplo, pense na interao entre consumidores e vendedores. Eles
interagem repetidas vezes, em muitos casos um particular consumidor interage somente uma vez com um dado vendedor, ou interage repetidamente mas anonimamente
como no caso em que o vendedor uma grande loja. Consumidores e vendedores mais
experientes podem formar crenas baseadas em interaes passadas com outros clientes
para obter um melhor resultado na barganha.
6. Evoluo. Agentes so programados para jogar certas estratgias e so pareados aleatoriamente uns contra os outros. Assuma que agentes no jogam um equilbrio de
Nash inicialmente. Ocasionalmente mutaes ocorrem, isto , agentes que jogam
uma estratgia diferente surgem. Se esta nova estratgia for lucrativa, estes agentes se
multiplicaro a uma taxa mais rpida do que outros agentes e eventualmente passam
a ser maioria. Sob certas circunstncias, este sistema converge para um estado onde os
agentes jogam um equilbrio de Nash, e futuras mutaes no podem mais se beneficiar
de estratgias novas.
importante ressaltar que cada uma dessas interpretaes tem uma hiptese diferente
com respeito ao conhecimento dos agentes. Para o caso de estratgias prescritas suficiente que cada jogador seja racional, e simplesmente acredite no rbitro. Para introspeco
racional, necessrio que seja conhecimento comum que os jogadores so racionais. Para
evoluo, jogadores no precisam nem ser racionais.
3.6. JOGO SIMTRICO EM FORMA NORMAL
46
Algumas interpretaes tm menos problemas em lidar com multiplicidade de equilbrios.

Se acreditarmos que o equilbrio surge por que um rbitro o prescreveu, ento no temos
que nos preocupar com o problema da multiplicidade de equilbrios de Nash. Introspeco
racional bem mais problemtica: cada um dos jogadores podem racionalizar qualquer um
dos mltiplos equilbrios e portanto no tm nenhuma maneira de escolher entre eles.
3.6
Jogo Simtrico em Forma Normal
Em muitas situaes estratgicas, os jogadores envolvidos possuem o mesmo conjunto de

aes e avaliam o resultado do jogo de maneira similar, ou seja, possuem a mesma utilidade
para os perfis de estratgias independente de qual seja a sua posio no jogo. Estes jogos
so chamados de jogos simtricos. Formalmente, temos:
Definio 3.6.1: Um jogo em forma normal = (N, {Ci : i N }, {ui : i N }) simtrico
se (1) Ci = Cj para todo par de jogadores i, j N e (2) se para todo par de jogadores i, j N
e perfil de estratgias c C, temos ui (c) = uj (c ), onde ck = ck para todo k N {i, j},
ci = cj e cj = ci , ou seja, se c for o perfil de estratgias onde apenas as estratgias dos
jogadores i e j so permutadas em relao ao perfil c, e a maneira que j avalia c idntica
a que o jogador i avalia c.
Nessas situaes como os jogadores so simtricos faz sentido buscarmos um ponto de
equilbrio onde os jogadores utilizem a mesma estratgia. Para isto define-se a noo de
equilbrio de Nash simtrico:
Definio 3.6.2: Um equilbrio de Nash simtrico se i = j para todo par de jogadores
i, j N .
O prximo teorema prova que todo jogo em forma normal simtrico finito tem pelo menos
um equilbrio de Nash simtrico.
Teorema 3.6.3: Um jogo em forma normal simtrico finito tem pelo menos um equilbrio
de Nash simtrico.
Prova: A idia da prova anloga a prova da existncia do equilbrio de Nash no caso geral.
Considere a funo Fi : (Ci ) (Ci ):
i (s) + gis ()
,
Fi (i )(s) =
1 + tCi git ()
onde s Ci e o perfil de estratgias mistas onde todos os jogadores jogam i . Vamos
mostrar que os pontos fixos de Fi constituem as estratgias dos equilbrios de Nash simtricos.
J provamos que se for um equilbrio de Nash (simtrico), ento i um ponto fixo de Fi ,
pois neste caso temos gis () = 0 para todo s Ci . Por outro lado, se i for um ponto fixo de
Fi , ento argumento idntico a prova da existncia do equilbrio de Nash, nos leva a concluir
3.6. JOGO SIMTRICO EM FORMA NORMAL
47
que gis () = 0 para todo s Ci , o que por sua vez implica que i uma melhor resposta
para i . Como o jogo simtrico, isto implica que um equilbrio de Nash simtrico.
Apesar de todo jogo simtrico possuir um equilbrio simtrico em estratgias mistas,
isto nem sempre verdade para equilbrios simtricos em estratgias puras. Por exemplo,
considere o seguinte jogo:
A
B
A
0,0
1,1
B
1,1
0,0
Os equilbrios de Nash em estratgia puras deste jogo so ([B], [A]) e ([A], [B]). Portanto
no so simtricos. O nico equilbrio de Nash simtrico aquele no qual ambos os jogadores
escolhem cada uma de suas estratgias puras com probabilidade 1/2.
Exemplo 3.6.4: Considere o seguinte jogo em forma normal simtrico:
A
B
C
A
1,1
1,2
1,4
B
2,1
5,5
6,3
C
4,1
3,6
0,0
Encontre todos os equilbrios de Nash do jogo e determine quais so os equilbrios simtricos.

Soluo: Primeiro note que os equilbrios em estratgias puras so ([A], [A]), ([C], [A]) e
([A], [C]). Vamos considerar se existe algum equilbrio onde o jogador 1 utiliza uma estratgia
com suporte em {A, B}. Neste caso, a melhor resposta para o jogador 2 seria escolher C
com probabilidade 1, o que por sua vez levaria o jogador 1 a escolher A com probabilidade
1. Logo, no existem equilbrios onde o jogador 1 (e por simetria o jogador 2) escolhe uma
estratgia com suporte em {A, B}.
Considere agora o caso em que o jogador 1 escolhe uma estratgia com suporte em
{A, C}. Neste caso, a melhor resposta para o jogador 2 seria escolher A com probabilidade
1. Neste caso, ento o jogador 1 estaria indiferente entre A e C e qualquer distribuio
de probabilidade com que ele escolhe uma dessas aes leva a um equilbrio de Nash. Por
simetria, se o jogador 2 tambm randomizar entre A e C e o jogador 1 escolher A com
probabilidade 1 tambm constitui um equilbrio.
Considere agora o caso em que o jogador 1 escolhe uma estratgia com suporte em {B, C}.
Seja p a probabilidade com que o jogador 1 escolhe B. Ento, as utilidades esperadas para
o jogador 2 das aes A, B e C so respectivamente: 2p + 4(1 p), 5p + 3(1 p) e 6p. Se
p 1/4, ento A uma melhor resposta para o jogador 2. Neste caso, o jogador 1 estaria
indiferente entre B e C e poderia randomizar entre essas estratgias. Se p = 1/4, ento
o jogador 2 indiferente entre A e B, mas j provamos que no existe nenhum equilbrio
onde 2 randomiza entre A e B. Se p = 1/2, ento o jogador 2 ficar indiferente entre A e
C, mas neste caso j vimos que o jogador 1 escolheria A com probabilidade 1, logo no h
equilbrio. Se p = 3/4, ento o jogador 2 ficar indiferente entre B e C, e por simetria, se o
jogador 2 tambm escolher B com probabilidade 3/4, o jogador 1 ficar indiferente entre B
3.7. JOGO DE DOIS AGENTES COM SOMA CONSTANTE
48
e C, ento temos um equilbrio onde ambos jogadores escolhem B com probabilidade 3/4 e
C com probabilidade 1/4.
Finalmente, considere o caso em que o jogador 1 escolhe uma estratgia com suporte em
{A, B, C}. Suponha que o jogador 1 escolhe A, B e C com probabilidades p1 , p2 e 1p1 p2 ,
respectivamente. Neste caso, a utilidade esperada para o jogador 2 das aes A, B e C so
respectivamente: p1 + 2p2 + 4(1 p1 p2 ), p1 + 5p2 + 3(1 p1 p2 ) e p1 + 6p2 . Pela simetria
do problema, s poder existir um equilbrio neste caso se o jogador 2 tambm utilizar
uma estratgia com suporte em {A, B, C}, pois os demais casos j foram analisados. Para
tanto, as utilidades esperadas dessas 3 aes deve ser a mesma. Igualando as trs expresses
obtemos p1 = 1 e p2 = 0, o que no satisfaz a restrio do suporte ser em {A, B, C}, logo
no h equilbrios neste caso. Resumindo, temos os seguintes equilbrios:
([A], [A]), ([C], [A]) e ([A], [C]).
(p[A] + (1 p)[C], [A]) e ([A], p[A] + (1 p)[C]), para qualquer p (0, 1).
(p[B] + (1 p)[C], [A]) e ([A], p[B] + (1 p)[C]), para qualquer p (0, 1/4].
(3/4[B] + 1/4[C], 3/4[B] + 1/4[C]).
Apenas, o primeiro e o ltimo deles so simtricos.
3.7
Jogo de Dois Agentes com Soma Constante
Os primeiros trabalhos em teoria dos jogos se desenvolveram em jogos de soma constante,

em particular em jogos de soma zero. Um jogo com dois agentes com soma constante em
forma normal qualquer jogo = ({1, 2}, C1 , C2 , u1 , u2 ) tal que
u1 (s1 , s2 ) + u2 (s1 , s2 ) = K, s1 C1 , s2 C2 .
Se K = 0, temos um jogo de soma zero. Note que jogos com dois agentes de soma constante
descrevem situaes em que os dois jogadores esto em plena oposio um ao outro, ou seja,
o ganho de um agente exatamente igual a perda do outro. Note que em tais jogos, podemos
descrever o objetivo do jogador 2 como sendo minimizar a utilidade esperada do jogador 1,
tendo em vista que minimizar a utilidade esperada do jogador 1 o mesmo que maximizar
a utilidade esperada do jogador 2. Portanto, no caso de um jogo de soma constante, s
precisamos saber a funo utilidade do jogador 1.
Suponha um jogo de soma constante de dois agentes finito onde o jogador i possui conjunto de estratgias dada por Ci = {si,1 , si,2 , . . . , si,k(i) }. Seja A uma matriz k(1) k(2), onde
o elemento aij representa a utilidade para o jogador 1 quando ele escolhe a estratgia s1,i e o
jogador 2 escolhe a estratgia s2,j , ou seja, aij = ui (s1,i , s2,j ). Define-se um ponto de sela de
uma matriz como sendo um elemento da matriz que menor ou igual a todos na sua linha
e maior ou igual a todos na sua coluna. fcil ver que aij um ponto de sela da matriz
A se, e somente se, (s1,i , s2,j ) for um equilbrio de Nash em estratgias puras do jogo.
O prximo teorema trata do caso mais geral de equilbrios de Nash em estratgia mista
de um jogo de soma constante.
49
Teorema 3.7.1 : (1 , 2 ) um equilbrio de Nash de um jogo finito de soma constante

= ({1, 2}, C1 , C2 , u1 , u2 ), se e somente se,
1 argmax1 (C1 ) min u1 (1 , 2 )
2 (C2 )
e
2 argmin2 (C2 ) max u1 (1 , 2 ).
1 (C1 )
Alm disso, se (1 , 2 ) for um equilbrio de Nash de , ento

u1 (1 , 2 ) = max
min u1 (1 , 2 ) = min
1 (C1 ) 2 (C2 )
max u1 (1 , 2 ).
2 (C2 ) 1 (C1 )
Prova: Suponha primeiro que (1 , 2 ) um equilbrio de Nash. Ento,

max u1 (1 , 2 ) = u1 (1 , 2 ) = min u1 (1 , 2 ).
1 (C1 )
2 (C2 )
Como u1 (1 , 2 ) min2 (C2 ) u1 (1 , 2 ) e u1 (1 , 2 ) max1 (C1 ) u1 (1 , 2 ), temos que

max u1 (1 , 2 ) max
min u1 (1 , 2 )
min u1 (1 , 2 ) min
max u1 (1 , 2 ).
1 (C1 )
1 (C1 ) 2 (C2 )
e
2 (C2 )
2 (C2 ) 1 (C1 )
Alm disso, como 1 (C1 ) e 2 (C2 ), temos que

max
min u1 (1 , 2 ) min u1 (1 , 2 )
min
max u1 (1 , 2 ) max u1 (1 , 2 ).
1 (C1 ) 2 (C2 )
2 (C2 )
e
2 (C2 ) 1 (C1 )
1 (C1 )
Portanto,
u1 (1 , 2 ) = max u1 (1 , 2 )
1 (C1 )
max
min u1 (1 , 2 )
1 (C1 ) 2 (C2 )
min u1 (1 , 2 ) = u1 (1 , 2 )
2 (C2 )
e
u1 (1 , 2 ) = min u1 (1 , 2 )
2 (C2 )
min
max u1 (1 , 2 )
2 (C2 ) 1 (C1 )
max u1 (1 , 2 ) = u1 (1 , 2 ).
1 (C1 )
50
Logo, devemos ter igualdade acima, o que implica que

u1 (1 , 2 ) = max
min u1 (1 , 2 ) = min
1 (C1 ) 2 (C2 )
max u1 (1 , 2 ).
2 (C2 ) 1 (C1 )
Alm disso, como

min u1 (1 , 2 ) = max
min u1 (1 , 2 )
max u1 (1 , 2 ) = min
max u1 (1 , 2 ),
2 (C2 )
1 (C1 ) 2 (C2 )
e
1 (C1 )
2 (C2 ) 1 (C1 )
temos que
1 argmax1 (C1 ) min u1 (1 , 2 )
2 (C2 )
e
2 argmin2 (C2 ) max u1 (1 , 2 ).
1 (C1 )
Para provar a recproca suponha que

1 argmax1 (C1 ) min u1 (1 , 2 )
2 (C2 )
e
2 argmin2 (C2 ) max u1 (1 , 2 ).
1 (C1 )
Como temos um jogo finito, sabe-se que existe um equilbrio de Nash do jogo, ento segue
da primeira parte da prova que
max
min u1 (1 , 2 ) = min
1 (C1 ) 2 (C2 )
max u1 (1 , 2 ).
2 (C2 ) 1 (C1 )
Portanto, segue que

u1 (1 , 2 ) min u1 (1 , 2 )
2 (C2 )
= max
min u1 (1 , 2 )
= min
max u1 (1 , 2 )
1 (C1 ) 2 (C2 )
2 (C2 ) 1 (C1 )
= max u1 (1 , 2 ) u1 (1 , 2 ).
1 (C1 )
Logo, devemos ter igualdade acima, e temos

u1 (1 , 2 ) = max u1 (1 , 2 )
1 (C1 )
e
u1 (1 , 2 ) = min u1 (1 , 2 ) = K max u2 (1 , 2 ).
2 (C2 )
2 (C2 )
Portanto, (1 , 2 ) equilbrio de Nash.

51
Este teorema implica que em todos os equilbrios de um jogo de soma constante os

jogadores tm a mesma utilidade esperada. Vamos ver a seguir que podemos determinar
a soluo de um jogo de soma constante finito atravs da soluo de dois problemas de
programao lineares. Seja A a matriz de dimenso k(1) k(2) de utilidades do jogador
1. Como preferncias so invariantes a transformaes afins positivas da funo utilidade,
podemos assumir sem perda de generalidade que todos os elementos de A so positivos.
Sejam c e b duas matrizes colunas de dimenses k(1) e k(2), respectivamente, onde todos
os elementos so iguais a 1. Neste desenvolvimento vamos associar uma estratgia mista
para o jogador i como sendo um vetor coluna de dimenso k(i), onde os elementos so no
negativos e cuja soma igual a 1. Considere o seguinte problema de programao linear:
max bT y
sujeito a Ay c, y 0.
Como os elementos de A so positivos, fcil ver que o conjunto vivel no vazio e
compacto. Portanto, existe uma soluo. O problema dual pode ser escrito como:
min cT x
sujeito a xT A bT , x 0.
O Teorema da Dualidade de programao linear nos garante que se o problema primal
possui uma soluo y o problema dual tambm possui uma soluo x de tal forma que
bT y = cT x . Defina = bT y . Como os elementos de A so no negativos, temos que > 0.
Note que xT Ay = (multiplique a restrio do problema primal por xT a esquerda para
obter xT Ay e a restrio do problema dual por y a direita para obter xT Ay ).
Vamos provar que 1 = x / e 2 = y / um equilbrio de Nash do jogo. Como xT A bT ,
temos que para qualquer (C2 ), xT A bT = k(2)

i=1 (s2,i ) = 1. Dividindo tudo por
, temos
u1 (1 , ) = 1T A = ()1 xT A ()1
= ()2 xT Ay = 1T A2 = u1 (1 , 2 ).
(3.6)
Portanto, o jogador 2 no tem incentivo a desviar sua estratgia de 2 para

. Similarmente,
k(1)
como Ay c, temos que para qualquer (C1 ), T Ay T c =
i=1 (s1,i ) = 1.
Dividindo tudo por , temos
u1 (, 2 ) = T A2 = T Ay ()1 ()1
= ()2 xT Ay = 1T A2 = u1 (1 , 2 ).
(3.7)
Portanto, o jogador 1 no tem incentivo a desviar sua estratgia de 1 para . Logo, (1 , 2 )

um equilbrio de Nash do jogo. O prximo exemplo ilustra esta metodologia para o clculo
do equilbrio de Nash em jogos de soma constante.
Exemplo 3.7.2: Considere o seguinte jogo de soma constante:
A
B
C
D
A
B
8,2 6,4
5,5 3,7
7,3 10,0
7,3 5,5
C
1,9
7,3
0,10
5,5
52
D
2,8
5,5
6,4
9,1
Neste caso, a matriz A dada por:
8 6 1
5 3 7
7 10 0
7 5 5
2
5
6
9
Resolvendo o problema de programao linear primal acima, chegamos ao vetor y T =

2p 2(1p)
1 1
[0 10
0]. J o problema dual possui uma infinidade de solues da forma xT = [0 5p
],
10
35 35
10
onde p [0, 1]. Desta forma, temos que = 2/10 e que os equilbrios de Nash do jogo so
2p
da forma (1 , 2 ), onde 1 = [0 5p
(1 p)], onde p [0, 1], e 2 = [0 21 12 0].
7 7
Captulo 4
Jogos em Forma Extensa
4.1
Introduo
At o momento estudamos apenas casos onde jogadores se movem ao mesmo tempo e uma
nica vez. Contudo em muitas situaes estratgicas os jogadores implementam suas estratgias ao longo do tempo e podem obter informaes sobre as estratgias que esto sendo
utilizadas pelos outros jogadores. Para analisar tais situaes precisamos de uma outra forma
de representar jogos, que conhecida como representao em forma extensa (ou extensiva)
de jogos. Intuitivamente, um jogo em forma extensa descreve o conjunto de jogadores, quem
se move e quando e quais so suas opes, a utilidade dos jogadores para cada possvel maneira de jogo ser realizado, e finalmente, o que os jogadores sabem quando se movem em
cada situao do jogo. Em um jogo em forma extensa admite-se a possibilidade de eventos
aleatrios influenciarem na realizao do jogo, como por exemplo, o resultado da jogada de
um dado. Tais eventos aleatrios so representados no jogo como se fossem feitos por um outro jogador denominado chance ou natureza, sendo que este jogador no possui preferncias
sobre os possveis resultados do jogo.
4.2
Jogos com Informao Perfeita
Formalmente, temos que um jogo em forma extensa com informao perfeita um vetor
= (N, M, H, P, fc , {ui : i N }), onde
N um conjunto que consiste dos agentes participando do jogo.
M um conjunto cujos elementos so os movimentos ou aes disponveis aos jogadores
ou a chance durante o jogo.
H um conjunto de sequncias de movimentos (elementos de M ) que fechado com
relao a prefixos, isto , se h H e h for um prefixo de h, ento h H.1 Alm disso,
1
Um prefixo de uma sequncia (xn ) de comprimento K qualquer subsequncia de (xn ) que consiste dos
primeiros l K termos de (xn ). Por exemplo, se h = m5 , m8 , m1 os prefixos de h so ,m5 ,m5 , m8 , e
m5 , m8 , m1 . Se h for um prefixo de h mas h no for igual a h diz-se que h um prefixo estrito de h.
53
4.2. JOGOS COM INFORMAO PERFEITA
54
se a1 , . . . aK H para todo inteiro finito K, ento (an )

n=1 H. Denotaremos por
X(h) o conjunto de prefixos de h.
Intuitivamente, cada membro de H uma possvel histria do jogo. Podemos identificar
ns em uma rvore com histrias em H. Cada n n caracterizado por uma sequncia
de aes necessrias para atingirmos n. Uma trajetria completa em H uma histria
terminal, uma que no prefixo estrito de nenhuma outra histria em H. Seja Z o
conjunto de trajetrias completas de H. Seja Mh = {m M : h m H} (onde
utilizamos para denotar concatenao de sequncias); Mh o conjunto de aes que
podem ser tomadas aps a histria h.
P : (H Z) N {c} uma funo que associa cada histria no terminal h a um
elemento de N {c}. (c representa o jogador chance ou natureza.)
Se P (h) = i, ento jogador i se move aps histria h; se P (h) = c, ento chance se
move aps h. Seja Hi = {h : P (h) = i} o conjunto de todas histrias aps as quais o
jogador i se move.
fc um funo que associa a cada histria em que P (h) = c uma medida de probabilidade fc ( | h) em Mh . Intuitivamente, fc ( | h) descreve uma distribuio de
probabilidade sobre as aes disponveis para a natureza uma vez que a histria h
atingida.
ui : Z IR a funo utilidade para o jogador i, que associa um nmero real (utilidade
de i) para cada trajetria completa do jogo.
Um jogo em forma extensa finito se N, M, e H forem finitos. O prximo exemplo
ilustra a relao entre uma rvore de jogo e a definio formal de jogos em forma extensa
dada acima.
Exemplo 4.2.1:
Figura 4.1: Um jogo em forma extensa simples.

No jogo da Figura 4.1, temos
55
N = {A, B}, H = { , downA , acrossA , acrossA , downB , acrossA , acrossB },

P ( ) = A, P (acrossA ) = B,
HA = { }, HB = {acrossA },
Z = {downA , acrossA , downB , acrossA , acrossB }
uA (downA ) = uB (downA ) = 1,
uA (acrossA , downB ) = 2,
uB (acrossA , downB ) = 3,
uA (acrossA , acrossB ) = 0, e
uB (acrossA , acrossB ) = 2.
Exemplo 4.2.2: Competio de Stackelberg. Suponha que uma firma 1 desenvolve uma
nova tecnologia antes que uma firma 2 e como consequncia tem a oportunidade de construir
uma fbrica e escolher um nvel de produo q1 antes que a firma 2 comece sua produo. A
firma 2 ento observa a escolha da firma 1 antes de escolher seu nvel de produo q2 . Por
exemplo, assuma que qi {0, 1, 2}, que o preo de mercado dado por p(q1 , q2 ) = 3 q1 q2 ,
e que o custo de produo zero. As firmas so obrigadas a vender toda a produo pelo
preo de mercado pois no possuem local para armazenagem e a destruio de produtos tem
um custo muito elevado. Deste modo temos que:
N = {1, 2}, H = { , 0, 1, 2, 0, 0, 0, 1, 0, 2, 1, 0, 1, 1, 1, 2, 2, 0, 2, 1,
2, 2},
P ( ) = 1, P (0) = P (1) = P (2) = 2,
u1 (0, q2 ) = u1 (1, 2) = u1 (2, 1) = 0,
u1 (1, 0) = u1 (2, 0) = 2,
u1 (1, 1) = u2 (1, 1) = 1, u1 (2, 2) = u2 (2, 2) = 2,
u2 (q1 , 0) = u2 (1, 2) = u2 (2, 1) = 0, e
u2 (0, 1) = u2 (0, 2) = 2.
4.2.1
56
Estratgias
Definio 4.2.3: Uma estratgia pura para o jogador i em um jogo em forma extensa com
informao perfeita uma funo si que associa cada histria h Hi um elemento de Mh ,
ou seja, uma ao disponvel para i em h.
Definio 4.2.4: Se Ci o conjunto de estratgias puras para o jogador i em um jogo em
forma extensa com informao perfeita, uma estratgia mista para o jogador i em um jogo
em forma extensa uma distribuio de probabilidade i em Ci , ou seja, um elemento de
(Ci ).
Para jogos em forma extensa com informao perfeita existe uma outra noo de estratgia, chamada de estratgia comportamental, que especifica uma randomizao independente
para cada histria em que o jogador se move.
Definio 4.2.5: Uma estratgia comportamental para o jogador i em um jogo em forma
extensa com informao perfeita uma funo i que associa cada histria h Hi um
elemento de (Mh ), ou seja, uma distribuio de probabilidade sobre as aes disponveis
para i em h.
Note que uma estratgia um plano de contingncia completo que explica o que um
jogador ir fazer em cada situao que possa aparecer no jogo. A primeira vista, uma
estratgia parece especificar aes em excesso, pois aes no comeo do jogo podem tornar
impossvel que certas histrias sejam atingidas. Ento, por que temos que especificar como
jogadores se comportam em histrias que nunca sero atingidas se os jogadores seguem certas
aes no comeo do jogo? A razo que como jogadores se comportam fora da trajetria de
equilbrio ser crucial para determinar se um dado perfil de estratgias um equilbrio de
Nash. Ameaas em caminhos fora do equilbrio podem ser essenciais. Falaremos mais sobre
isso adiante.
Exemplo 4.2.6:
Figura 4.2: Um jogo em forma extensa no qual o jogador 1 se move antes e depois do jogador
2.
Neste jogo, jogador 1 possui quatro estratgias puras: AE, AF, BE, BF . Jogador 2
possui duas estratgias puras: C e D. Note que temos que especificar o que o jogador 1 far
aps a histria B, D, mesmo que ele tenha escolhido A no comeo.
4.2.2
57
Representao em Formal Normal de um Jogo em Forma Extensa com Informao Perfeita
Alguns conceitos de soluo para jogos em forma extensiva utilizam uma representao forma
normal que derivada a partir da descrio em forma extensa do jogo. Veremos nesta seo
trs possveis maneiras de representar um jogo em forma extensa em uma forma normal:
forma normal, forma normal reduzida, e forma multiagente.
Forma Normal
Antes de darmos a definio da representao em forma normal de um jogo em forma extensa,
note que dado um perfil de estratgias puras para os jogadores em um jogo em forma extensa,
essas estratgias induzem uma distribuio de probabilidade sobre as possveis histrias
do jogo em forma em extensa. Formalmente, suponha que os jogadores jogam o perfil de
estratgias pura s, ento P rs (h) representa a probabilidade do jogo atingir a histria h dado
que os jogadores seguem as estratgias em s. Temos que P rs ( ) = 1. Se h = h m, o
jogador chance se move aps a histria h , e q a probabilidade com que a chance escolher
a ao m, ento temos que P rs (h) = qP rs (h ). Se h = h m, e h Hi , ento P rs (h) =
P rs (h ) se si (h ) = m, e P rs (h) = 0, se si (h ) = m. Podemos tambm definir de forma
anloga, a probabilidade P r (h) do jogo atingir a histria h dado que os jogadores seguem
as estratgias comportamentais em , a nica diferena da definio anterior que no caso em
que h = h m e h Hi , temos que P r (h) = i (m)P r (h ). A distribuio de probabilidade
induzida por uma estratgia mista iN (Ci ) dada pelo valor esperado
de acordo com
das distribuies induzidas pelas estratgias puras, ou seja, P r (h) = sC (s)P rs (h).
Exemplo 4.2.7: Considere o jogo do Exemplo 4.2.6. Se o perfil de estratgias puras for
s = (BE, C), ento teremos P rs (B) = P rs (B, C) = 1, P rs (A) = P rs (B, D) =
P rs (B, D, E) = P rs (B, D, F ) = 0. Por outro lado, se tivermos um perfil de estratgias
mistas onde cada jogador escolhe suas estratgias puras com igual probabilidade, temos
que P r (A) = P r (B) = 1/2, P r (B, C) = P r (B, D) = 1/4, P r (B, D, E) =
P r (B, D, F ) = 1/8. Finalmente, se for um perfil de estratgias comportamental no
qual todos os jogadores em qualquer histria aps a qual eles se movem escolhem as suas
aes disponveis com igual probabilidade, teremos P r (h) = P r (h), para todo h H.
Definio 4.2.8: A representao em forma normal de um jogo em forma extensa com
informao perfeita = (N, M, H, P, fc , {vi : i N }) o jogo em forma normal n =
(N, {Ci : i N }, {ui : i N }), onde Ci so as estratgias puras do jogador i em e para
todo s iN Ci , temos
ui (s) =
P rs (z)vi (z),
zZ
ou seja, ui a utilidade esperada para o jogador i quando os jogadores implementam as

estratgias especificadas em s.
Exemplo 4.2.9: Por exemplo, a representao em forma normal do jogo em forma extensa
descrito no Exemplo 4.2.6 dada por:
AE
AF
BE
BF
C
1,1
1,1
0,3
0,3
58
D
1,1
1,1
2,2
1,4
Forma Normal Reduzida

Existem alguns jogos em forma extensiva que podemos simplificar sua representao em
forma normal, pois existem vrias estratgias puras para algum jogador i que tm a mesma
utilidade esperada para todos os jogadores no importa qual a estratgia adotada pelos
outros jogadores. Formalmente, dado qualquer jogo em forma normal = (N, {Ci : i
N }, {ui : i N }), duas estratgias puras em di , ei Ci so equivalentes em utilidade se, e
somente se,
uj (di , ci ) = uj (ei , ci ), ci Ci , j N.
Portanto, duas estratgias para o jogador i so equivalentes em utilidade se, e somente se,
no importa o que os outros jogadores faam, nenhum jogador se importar se o jogador i
escolher di ou ei . Por exemplo, no jogo descrito no Exemplo 4.2.9, as estratgias do jogador 1
AE e AF so equivalentes em utilidade. Quando existem estratgias que so equivalentes em
utilidade podemos simplificar a representao em forma normal, denotando as estratgias
equivalentes por uma nica estratgia. O resultado desta simplificao conhecido como
forma normal puramente reduzida.
Exemplo 4.2.10: Por exemplo, a representao em forma normal puramente reduzida do
jogo em forma extensa descrito no Exemplo 4.2.6 dada por:
A
BE
BF
C
D
1,1 1,1
0,3 2,2
0,3 1,4
Se permitirmos estratgias mistas, podemos ter um outro tipo de redundncia em jogos

chamada de redundncia aleatria que pode nos permitir reduzir ainda mais a representao
em forma normal de um jogo. Uma estratgia di Ci aleatoriamente redundante se, e
somente se, existe uma estratgia mista i (Ci ) tal que i (di ) = 0 e
uj (di , ci ) =
i (ei )uj (ei , ci ), ci Ci , j N.
ei Ci
Portanto, di aleatoriamente redundante se, e somente se, existe alguma maneira para o
jogador i escolher aleatoriamente entre suas outras estratgias puras de forma que, no importa qual estratgias sero usadas pelos outros jogadores, todos os jogadores tero a mesma
59
utilidade esperada quando i utiliza di ou i . A forma normal completamente reduzida derivada da forma normal puramente reduzida eliminando estratgias que so aleatoriamente
redundantes.
Exemplo 4.2.11:
A
B
C
D
6,0
0,8
3,4
E
6,0
8,0
7,0
A estratgia C aleatoriamente redundante, pois todos os jogadores recebem o mesmo

pagamento se o jogador linha escolhe C ou a estratgia mista que escolhe A e B com probabilidade igual a 1/2. Portanto a forma normal completamente reduzida deste jogo, no
contm a ltima linha da tabela acima.
Representao Multiagente
Nesta representao cada jogador i do jogo em forma extensiva representado por mltiplos
agentes um para cada histria aps a qual o jogador i se move. Dado um jogo com informao
perfeita = (N, M, H, P, fc , {vi : i N }) seja HN = iN Hi o conjunto de histrias aps a
qual algum jogador i se move.
Definio 4.2.12: A representao multiagente de um jogo em forma extensa com informao perfeita = (N, M, H, P, fc , {vi : i N }) o jogo em forma normal n = (HN , {Mh :
h HN }, {uh : h HN }), onde relembrando se h Hi , temos que Mh so as aes disponveis ao jogador i aps histria h. Para todo perfil de estratgias de n , t hHN Mh ,
seja st um perfil de estratgias de tal que para todo j N e h Hj temos stj (h) = th .
Ento, se
h Hi , uh : aHN Ma IR uma funo utilidade para um jogador h tal que
uh (t) = zZ P rst (z)vi (z).
Exemplo 4.2.13: Considere novamente o jogo a seguir:
Figura 4.3: Um jogo em forma extensa no qual o jogador 1 se move antes e depois do jogador
2.
A representao multiagente tem trs jogadores , B, e B, D, o jogador possui
duas aes disponveis A e B, o jogador B possui tambm duas aes disponveis C e D,
e finalmente o jogador B, D possui tambm duas aes disponveis E e F . As utilidades
so descritas nas duas tabelas a seguir:
Quando o agente B, D escolhe E, temos:
A
B
60
C
D
1,1,1 1,1,1
0,3,0 2,2,2
E quando o agente B, D escolhe F , temos:

A
B
C
D
1,1,1 1,1,1
0,3,0 1,4,1
Quando estamos considerando a representao multiagente, os diferentes agentes do jogo

em forma normal que representa o mesmo jogador no jogo em forma extensa so conhecidos
como agentes temporrios. No exemplo, temos que e B, D so dois agentes temporrios
para o jogador 1 do jogo em forma extensa. importante ressaltar que os diversos agentes
temporrios para um dado jogador i no podem correlacionar suas estratgias e agem de
maneira independente na representao multiagente do jogo, apesar de possurem a mesma
funo utilidade.
4.2.3
Equilbrio de Nash
Como existem trs tipos de estratgias para um jogo em forma extensa, podemos definir trs
tipos de equilbrios de Nash:
Definio 4.2.14: Dado um jogo em forma extensa com informao perfeita = (N, M, H, P, fc , {vi :
i N }), um perfil de estratgias s um equilbrio de Nash em estratgias puras de se, e
somente se,
ui (s) =
P rs (z)vi (z) ui (si , di ) =
P r(si ,di ) (z)vi (z)
zZ
zZ
para todo jogador i e toda estratgia di Ci .

i N }), um perfil de estratgias um equilbrio de Nash em estratgias mistas de se, e
somente se,
ui () =
(s)
P rs (z)vi (z) ui (i , i ) =
i (si )i (si )
P rs (z)vi (z)
sC
zZ
sC
zZ
para todo jogador i e toda estratgia mista i (Ci ).

i N }), um perfil de estratgias um equilbrio de Nash em estratgias comportamentais
de se, e somente se,
ui () =
P r (z)vi (z) ui (i , i ) =
P r(i ,i ) (z)vi (z)
zZ
zZ
para todo jogador i e toda estratgia comportamental i hHi (Mh ).

61
Exemplo 4.2.17: No jogo do Exemplo 4.2.6, temos que (A, C, E), (A, C, F ), e (A, D, F )
so os nicos equilbrios de Nash em estratgias puras.
Equilbrio de Nash no um conceito de soluo muito razovel para alguns jogos extensivos, por que ele permite que muitos perfis de estratgias sejam equilbrios, alguns at
no-intuitivos.
Exemplo 4.2.18:
Figura 4.4: Jogo com equilbrio de Nash no-intuitivo.

Neste jogo temos que (downA ,acrossB ) um equilbrio de Nash do jogo. Neste equilbrio,
jogador A escolhe downA por que ele pensa que o jogador B escolher acrossB . Ento,
a ameaa do jogador B de jogar acrossB faz com que o jogador A escolha downA . Note
que neste equilbrio esta ameaa nunca se concretiza, pois o jogador B no tem chance
de escolher. Contudo, se o jogador B em algum caso tivesse oportunidade de participar
deste jogo, temos que ele no cumpriria sua ameaa, pois lhe vantajoso escolher downB .
Portanto, a ameaa do jogador B inacreditvel. Isto sugere que devemos apenas considerar
um subconjunto dos equilbrios de Nash que no so baseados em ameaas inacreditveis.
O prximo conceito de soluo conhecido como equilbrio de subjogo perfeito e impede que
equilbrios contenham ameaas inacreditveis.
4.2.4
Equilbrio de Subjogo Perfeito
Vimos em geral que quando analisamos equilbrios de Nash de jogos em forma extensiva estes
podem conter muitos equilbrios. Muitos desses equilbrios podem parecer no razoveis pois
so baseados em ameaas inacreditveis. Equilbrio de Subjogo Perfeito um refinamento
de equilbrio de Nash que no permite ameaas inacreditveis.
Definio 4.2.19: Um subjogo G de um jogo em forma extensiva = (N, M, H, P, fc , {vi :
i N }) um outro jogo em forma extensiva que satisfaz:
1. O conjunto de histrias H G em G consiste de uma nica histria em H e todos as
histrias subsequentes a h;
62
2. A distribuio de probabilidade sobre as aes da natureza em G so as mesmas das

correspondentes aes em ;
3. A utilidades de trajetrias completas em G so as mesmas utilidades das correspondentes trajetrias completas em .
Definio 4.2.20: Um perfil de estratgia (puro, misto, ou comportamental) s um equilbrio de subjogo perfeito em estratgias (puras, mistas, ou comportamentais, respectivamente) de se ele for equilbrio de Nash em estratgias (puras, mistas, ou comportamentais,
respectivamente) de todo subjogo de .
Note que um equilbrio de subjogo perfeito tambm um equilbrio de Nash porque o
jogo tambm um subjogo degenerado dele mesmo.
Induo Reversa
A tcnica mais comum para encontrar os equilbrios de subjogo perfeito de um jogo finito
conhecida como induo reversa. Intuitivamente, temos que a tcnica sugere que se comece
pelo fim do jogo e v resolvendo at chegar ao comeo do jogo. Podemos descrever mais
formalmente esta tcnica nos seguintes passos:
1. Seja k = 1 e (k) = .
2. Seja Z 1 o conjunto de todas as histrias que so antecessoras imediatas das histrias
terminais do jogo (k). Para todo i N e h Z 1 Hi , o jogador i enfrenta um
problema de deciso aps histria h, e portanto deve escolher a ao que maximiza
sua utilidade esperada. Se houver mais de uma ao que produza a mesma utilidade
esperada, existir um equilbrio de subjogo perfeito contendo cada uma dessas aes.
Escolha uma delas para ser a ao escolhida por i segundo a estratgia s, isto , faa
si (h) = a argmaxbMh ui (h b). Passe ao passo seguinte.
3. Defina o jogo (k + 1) da seguinte maneira:
(a) Para todo h Z 1 (iN Hi ), substitua as aes em Mh do jogo (k), pelo vetor
de utilidades que corresponde a histria terminal atingida pela ao escolhida no
passo anterior. Passe ao passo seguinte.
(b) Para todo h Z 1 (iN Hi )c , isto uma histria imediatamente antecessora a
uma histria terminal do jogo (k) onde chance se move, substitua as aes em
Mh , pelo vetor de utilidades que corresponde a utilidade esperada dos jogadores
de acordo com a distribuio de probabilidade que descreve as probabilidades do
jogador chance escolher cada uma das aes em Mh . Passe ao passo seguinte.
4. Se o conjunto de todas as histrias de (k +1) em que algum jogador i N se move for
vazio. Pare a iterao e temos que s um equilbrio de subjogo perfeito em estratgias
puras de . Caso contrrio, passe ao passo seguinte.
4.3. JOGOS COM INFORMAO IMPERFEITA
63
5. Faa k = k + 1. Volte ao passo 2.

fcil ver que como o jogo finito, aps um nmero finito de iteraes o algoritmo
acima descrito produzir um equilbrio de subjogo perfeito em estratgias puras. Desta
forma, provamos construtivamente o seguinte teorema:
Teorema 4.2.21: Qualquer jogo em forma extensiva com informao perfeita finito tem um
equilbrio de subjogo perfeito puro.
Exemplo 4.2.22: No jogo do Exemplo 4.2.6, temos que (A, C, E) o nico equilbrio de
subjogo perfeito.
Exemplo 4.2.23: No jogo do Exemplo 4.2.18, temos que (acrossA ,downB ) o nico equilbrio de subjogo perfeito.
4.3
Jogos com Informao Imperfeita
Agora, vamos estudar jogos extensivos onde os jogadores ao tomarem sua deciso aps
alguma histria do jogo, podem ter somente uma informao parcial sobre as aes que j
foram tomadas no jogo. Note que um jogo em forma normal um caso particular de um
jogo extensivo com informao imperfeita, pois neste caso todos os jogadores se movem uma
nica vez e cada um deles no possui nenhuma informao a respeito das aes dos outros
jogadores quando toma a sua deciso.
Formalmente, temos que um jogo em forma extensa com informao imperfeita um
vetor = (N, M, H, P, fc , {Ii : i N }, {ui : i N }), onde
(N, M, H, P, fc , {ui : i N }) um jogo em forma extensa com informao perfeita, e
Ii uma partio de Hi com a propriedade que se h e h esto na mesma clula da
partio, ento Mh = Mh , ou seja, o mesmo conjunto de aes est disponvel em
todas as histrias de uma mesma clula da partio; se h I, onde I uma clula
da partio, denota-se por MI o conjunto Mh de aes disponveis. Intuitivamente,
se h e h esto na mesma clula de Ii , ento h e h so indistinguveis do ponto de
vista do jogador i; i considera a histria h possvel se a verdadeira histria for h, e
vice versa. Uma clula I Ii conhecida como um conjunto de informao para o
jogador i ou como um i-conjunto de informao. Quando desenhamos um jogo em
forma extensa com informao imperfeita em uma rvore circulamos ou interligamos
os ns pertencentes a um mesmo conjunto de informao com uma linha tracejada.
Como anteriormente, um jogo em forma extensa com informao imperfeita finito se
N, M, e H forem finitos.
Exemplo 4.3.1:
No jogo da Figura 4.5, temos
N = {1, 2}, H = { , A, B, C, B, D, C, D, B, E, C, E B, E, F ,
B, E, G, C, E, H, C, E, I},
64
Figura 4.5: Jogo em Forma Extensiva com Informao Imperfeita.

P ( ) = P (B, E) = P (C, E) = 1, e P (B) = P (C) = 2,
I1 = {{ }, {B, E}, {C, E}}, I2 = {{B, C}},
u1 (A) = u2 (A) = u1 (C, D) = u1 (C, E, I) = u1 (B, E, G) = u2 (C, E, H) = 1,
u1 (B, E, F ) = u2 (B, E, F ) = 2,
u2 (B, D) = u2 (C, E, I) = 3,
u2 (B, E, G) = 4, e
u1 (C, E, H) = u2 (C, D) = 5.
4.3.1
Memria Perfeita e Memria Imperfeita
Na maior parte deste curso, como na maioria dos trabalhos em teoria dos jogos, ns assumimos que jogadores tm memria perfeita: eles recordam de todas as aes que eles prprios
tomaram e de todos os conjuntos de informao pelos quais eles passaram. Formalmente,
vamos requerer que
se h e h esto no mesmo conjunto de informao do jogador i e h1 um prefixo de h
tal que P (h1 ) = i, ento existe um prefixo h1 de h tal que h1 e h1 esto no mesmo
conjunto de informao; alm disso, se h1 m for um prefixo de h (de forma que m
foi a ao realizada quando h1 foi atingida na histria h), ento h1 m um prefixo
de h (portanto, i lembra que ele realizou ao m).
Podemos ver um jogo extenso com informao perfeita como um caso particular do jogo
extenso com informao imperfeita onde todos os conjuntos de informao contm uma nica
histria. fcil verificar que em todo jogo com informao perfeita, todos os jogadores tm
memria perfeita.
Podemos distinguir 3 tipos diferentes de memria imperfeita:
65
Falta de memria sobre a sequncia de conjuntos de informao pelo qual o jogador

passou;
Falta de memria sobre aes j realizadas pelo jogador; e
Falta de memria sobre se o jogador j realizou ou no uma dada ao.
A Figura 4.6 ilustra jogos extensivos da esquerda para a direita que apresentam estes 3
tipos de falta de memria, respectivamente.
Figura 4.6: Jogos Extensivos com Memria Imperfeita.

Apesar de no ter recebido muita ateno da literatura, jogos com memria imperfeita
tm tido cada vez mais aplicaes principalmente quando estamos tratando de agentes computacionais que possuem memria finita e tm de realizar uma dada escolha repetidas vezes.
Eventualmente, tais agentes no se recordam das aes que eles realizaram no passado, ou
que conjuntos de informao eles j visitaram. Existem outras situaes onde tambm modelos de jogos com memria imperfeita parecem ser razoveis. Suponha, por exemplo, que
queremos modelar uma partida de xadrez. Parece razovel supor que os jogadores no necessariamente se lembram de todas as jogadas efetuadas ao longo da partida e em que ordem
elas foram executadas.
A anlise de jogos com memria imperfeita envolve sutilezas fora do escopo deste curso.
Portanto, no que se segue estaremos sempre assumindo jogos com memria perfeita, exceto
quando mencionarmos explicitamente o contrrio.
4.3.2
Estratgias
Podemos definir de maneira anloga ao caso de jogos com informao perfeita, o que so
estratgias puras, mistas e comportamentais em jogos com informao imperfeita. A nica
diferena que as definies agora garantem que os jogadores s podem tomar a mesma
deciso em histrias que eles no conseguem distinguir.
Definio 4.3.2: Uma estratgia pura para o jogador i em um jogo em forma extensa com
informao imperfeita uma funo si que associa cada conjunto de informao Ii do jogador
i um elemento de MIi , ou seja, uma ao disponvel para i quando se move no conjunto de
informao Ii .
66
Definio 4.3.3: Se Ci o conjunto de estratgias puras para o jogador i em um jogo em

forma extensa com informao imperfeita, uma estratgia mista para o jogador i em um jogo
em forma extensa uma distribuio de probabilidade i em Ci , ou seja, um elemento de
(Ci ).
Definio 4.3.4: Uma estratgia comportamental para o jogador i em um jogo em forma
extensa com informao imperfeita uma funo i que associa cada conjunto de informao
Ii do jogador i um elemento de (MIi ), ou seja, uma distribuio de probabilidade sobre as
aes disponveis para i quando se move no conjunto de informao Ii .
Exemplo 4.3.5: No jogo do Exemplo 4.3.1, temos que o jogador 1 possui 12 estratgias
puras: AF H,AF I,AGH,AGI,BF H,BF I,BGH,BGI,CF H,CF I,CGH,CGI. O jogador 2
possui 2 estratgias puras: D e E.
Observao 4.3.6: Eventualmente, abusaremos um pouco da notao e para todo h I,
usaremos si (h) e i (h) para denotar as aes escolhidas pelas estratgias si e i no conjunto
de informao I.
Equivalncia entre Estratgias Mistas e Comportamentais
Nosso objetivo nesta seo provar que para jogos extensivos com informao imperfeita
finitos onde os jogadores possuem memria perfeita, existe uma equivalncia entre estratgias
mistas e comportamentais. Antes de enunciarmos e provarmos a equivalncia, precisamos
de duas definies.
Definio 4.3.7: Definem-se duas estratgias (mistas ou comportamentais) de um dado
jogador como equivalentes em utilidade, se para qualquer coleo de estratgias puras para
os demais jogadores, as duas estratgias induzem a mesma distribuio de probabilidade
sobre as histrias terminais do jogo.
Definio 4.3.8: Para qualquer histria h, temos que uma estratgia pura si para o jogador
i consistente com h, se para todo prefixo h m de h, onde P (h ) = i, temos que si (h ) =
m. Intuitivamente, si consistente com h se existe algum perfil de estratgias puras dos
outros jogadores que juntamente com si tornem possvel que a histria h seja atingida com
probabilidade positiva. No jogo do Exemplo 4.3.1, temos que a estratgia BGH do jogador
i consistente com a histria B, D, mas no consistente com a histria B, E, F nem
com a histria C, E. Seja Ci (h) o conjunto de estratgias puras do jogador i consistentes
com a histria h.
Teorema 4.3.9: Se em um jogo em forma extensiva finito, no existe falta de memria
sobre se o jogador j realizou ou no uma dada ao, ento temos que toda estratgia comportamental de um jogador tem uma estratgia mista equivalente em utilidade.
Prova: Seja i uma estratgia comportamental
para o jogador i. Considere a seguinte estra
tgia mista i que d probabilidade IIi i (I)(si (I)) a estratgia pura si . Seja ti um perfil
67
de estratgias puras para os jogadores diferentes de i. Vamos verificar que P r(i ,ti ) (h) =
P r(i ,ti ) (h), h H, e consequentemente i e i so equivalentes em utilidade.
Seja h uma histria qualquer do jogo. Temos que considerar dois casos. Primeiro, assuma
que j N {i} tal que tj
/ Cj (h). Neste caso, temos que P r(i ,ti ) (h) = P r(i ,ti ) (h) = 0.
Assuma ento que j N {i} temos tj Cj (h). Ento, temos que:
fc (m|h )),
i (h )(m))(
P r(i ,ti ) (h) = (
h Hc ,
h mX(h)
h Hi ,
h mX(h)
pois ao longo da histria h as escolhas feitas pelo jogador i so independentes por definio
de e pelo fato que assumimos que no existe falta de memria se um jogador j realizou
ou no uma ao. Por outro lado, para uma estratgia pura si temos que P r(si ,ti ) (h) = 0
se si
/ Ci (h) e, em caso contrrio temos:
P r(si ,ti ) (h) =

fc (m|h ).
h Hc ,
h mX(h)
Logo, temos que

P r(i ,ti ) (h) =
(si )P r(si ,ti ) (h)
si Ci
fc (m|h )
h H
fc (m|h )
h H
A(h) =
fc (m|h ))(
i (I)(si (I))
i (I)(si (I)))
IIi ,
X(h)I=
i (h )(m)) A(h),
h Hi ,
h mX(h)
h Hc ,
h mX(h)
onde
i (I)(si (I))
IIi ,
si Ci (h)
X(h)I=
c,
h mX(h)
=(
si Ci (h) IIi
c,
h mX(h)
fc (m|h )
h Hc ,
h mX(h)
si Ci (h) IIi
i (I)(si (I))
si Ci (h)
si Ci (h)
IIi ,
X(h)I=
i (h)(si (h))
i (I)(si (I))
IIi ,
X(h)I=
, se h
/ Hi
i (I)(si (I)) , se h Hi
Como a nica restrio para uma estratgia pura si pertencer a Ci (h) que ela especifique
uma ao que leve a histria h em qualquer prefixo estrito de h onde o jogador i se move, ento
temos que essas estratgias podem especificar qualquer ao nos conjuntos de informao
para o jogador que contm h ou que no contenham prefixos de estritos de h. Desta forma
68
rearrumando os termos dos somatrio podemos reescrever:
, se h
/ Hi
IIi ,
aMI i (I)(a)
X(h)I=
A(h) =
( aMh i (h)(a))
IIi ,
aMI i (I)(a) , se h Hi
X(h)I=
= 1.
Portanto,
P r(i ,ti ) (h)
=(
fc (m|h ))(
h Hc ,
h mX(h)
i (h )(m))
h Hi ,
h mX(h)
= P r(i ,ti ) (h)
Exemplo 4.3.10 : Considere novamente o jogo do Exemplo 4.3.1. Seja 1 a estratgia

comportamental do jogador 1 que escolhe A com probabilidade 1/2, B e C com probabilidade
1/4 e G e H com probabilidade 1. De acordo com a construo do teorema a estratgia mista
1 que equivalente em utilidade a 1 tal que AGH recebe probabilidade 1/2, BGH e
CGH recebem probabilidade 1/4. Se o jogador 2 escolher a estratgia pura D, ento
1/2, se h = A
1/4, se h = B ou h = C ou h = B, D ou h = C, D
P r(1 ,D) = P r(1 ,D) (h) =
0, caso contrrio
Enquanto se o jogador 2 escolher a estratgia pura E, ento
1/2, se h = A
1/4, se h = B ou h = C ou h = B, E ou h = C, E
P r(1 ,E) = P r(1 ,E) (h) =
ou h = B, E, G ou h = C, E, H
0, caso contrrio
Dada uma
estratgia comportamental i para o jogador i. A estratgia mista i que d
probabilidade IIi i (I)(si (I)) a estratgia pura si chamada uma representao mista de
i .
Para ver um exemplo da necessidade da hiptese que o jogo no pode ter falta de memria se um jogador j realizou ou no uma ao para encontrarmos uma estratgia mista
equivalente considere o seguinte exemplo.
Exemplo 4.3.11:
Considere o Jogo da Figura 4.7. Suponha a estratgia comportamental que escolhe ao
a com probabilidade p (0, 1). Esta estratgia induz probabilidades p2 , p(1 p), 1 p
nas histrias terminais a, a, a, b, b, respectivamente. Contudo qualquer estratgia mista
induz probabilidade zero na histria a, b. Portanto, no existe estratgia mista equivalente
a estratgia comportamental dada neste jogo.
69
Figura 4.7: Jogo extensivo onde no existe estratgia mista equivalente.

O prximo teorema prova a recproca do teorema anterior para jogos com memria perfeita.
Teorema 4.3.12: Para qualquer estratgia mista de um jogo extensivo finito com memria
perfeita, existe uma estratgia comportamental equivalente em utilidade.
Prova: Seja i uma estratgia mista para o jogador i. Para qualquer histria h, seja
(si ),
i (h) =
si Ci (h)
ou seja, i (h) a soma das probabilidades das estratgias puras do jogador i consistentes com
a estratgia h. Dizemos que i consistente com h se, e somente se, i (h) > 0. Como o jogo
tem memria perfeita, para quaisquer histrias h e h no mesmo conjunto de informao do
jogador i, temos que Ci (h) = Ci (h ) e, consequentemente, i (h) = i (h ). Alm disso, como
para qualquer estratgia pura temos que o jogador i deve escolher uma mesma ao em h
e h , temos que Ci (h m) = Ci (h m) e, consequentemente, i (h m) = i (h m).
Vamos agora, definir uma estratgia comportamental i que provaremos ser equivalente em
utilidade a i . Seja I um conjunto de informao qualquer para o jogador i. Seja h I
tal que i (h) > 0, defina i (I)(m) = i (hm)
. Como uma estratgia pura si consistente
i (h)
com
uma histria h m, temos que
h se, e somente se, ela for consistente com exatamente
mMI i (h m) = i (h). Portanto, temos que

mMI i (I)(m) = 1. Se i (h) = 0, defina
i (I) de forma arbitrria. i chamada de uma representao comportamental de i .
Seja ti um perfil de estratgias puras para os jogadores diferentes de i. Vamos verificar
que P r(i ,ti ) (h) = P r(i ,ti ) (h), h H, e consequentemente i e i so equivalentes em
utilidade.
Seja h uma histria qualquer do jogo. Temos que considerar dois casos. Primeiro, assuma
que j N {i} tal que tj
/ Cj (h). Neste caso, temos que P r(i ,ti ) (h) = P r(i ,ti ) (h) = 0.
Assuma ento que j N {i} temos tj Cj (h).
Como temos um jogo finito e i ( ) = 1, para qualquer histria h tal que i (h) = 0
existe um ltimo prefixo h de h que consistente com a estratgia i . Mais formalmente, se
i (h) = 0, ento existe h X(h) tal que i (h ) > 0 e para toda histria h X(h) X(h ),
70
temos que i (h ) = 0. Se h I, e h m X(h), ento i (I)(m) = 0. Consequentemente,

temos que P r(i ,ti ) (h) = 0 = P r(i ,ti ) (h).
Finalmente, considere o caso em que i (h) > 0. Por definio, temos que i (h ) > 0, h
X(h). Note ainda que se h o primeiro prefixo de h no qual o jogador i se move, temos
que i (h ) = 1, e que se h m e h so dois prefixos de h tais que o jogador i se move
em h e h , e no existe nenhum outro prefixo de h entre h e h no qual i se move, ento
i (h m) = i (h ). Alm disso, se h3 e h4 so dois prefixos de h tal que o jogador i no se
move entre h3 e h4 , temos que i (h3 ) = i (h4 ). Ento, temos que:
P r(i ,ti ) (h) = (

i (h )(m))(
fc (m|h ))
=(
h Hi ,
h mX(h)
h Hi ,
h mX(h)
fc (m|h ))
fc (m|h ))
h Hc ,
h mX(h)
(si ))(
si Ci (h)
h Hc ,
h mX(h)
= i (h)(
=(
i (h m)
)(
i (h )
h Hc ,
h mX(h)
fc (m|h ))
h Hc ,
h mX(h)
(si )P r(si ,ti ) (h) = P r(i ,ti ) (h)
si Ci (h)
Exemplo 4.3.13: Considere novamente o jogo do Exemplo 4.3.1. Seja 1 a estratgia mista
do jogador 1 que escolhe AF H com probabilidade 1/2, BF I e BGH com probabilidade
1/4. Temos que 1 ( ) = 1, 1 (A) = 1/2, 1 (B) = 1 (B, E) = 1/2, 1 (C) =
0, 1 (B, E, F ) = 1 (B, E, G) = 1/4. De acordo com a construo do teorema uma
estratgia comportamental 1 que equivalente em utilidade a 1 tal que 1 ( )(A) =
1 ( )(B) = 1/2, 1 (B, E)(F ) = 1 (B, E)(G) = 1/2 e 1 (C, E) escolhe arbitrariamente
entre H e I.
O prximo exemplo ilustra a necessidade da hiptese de memria perfeita para a existncia de uma estratgia comportamental equivalente em utilidade a uma estratgia mista
qualquer.
Exemplo 4.3.14:
Considere o Jogo da Figura 4.8. Considere a estratgia mista na qual o jogador 1 escolhe
LL com probabilidade 12 e RR com probabilidade 12 . Esta estratgia induz probabilidades
1/2, 0, 0, 1/2 nas histrias terminais L, L, L, R, R, L, R, R, respectivamente. Suponha
uma estratgia comportamental i tal que i ({})(L) = p e i ({L, R})(L) = q. Note que
esta estratgia induz probabilidade 0 a histria L, R se, e somente se, p = 0 ou q = 0. Porm
neste caso, temos que ela tambm induz probabilidade 0 a L, L ou a R, R. Portanto, no
existe estratgia comportamental equivalente a estratgia mista dada.
71
Figura 4.8: Jogo extensivo onde no existe estratgia comportamental equivalente.
4.3.3
Representao em Formal Normal de um Jogo em Forma Extensa com Informao Imperfeita
Note que as definies das representaes em forma normal e normal reduzida para jogos
com informao imperfeita so idnticas a definies correspondentes para o caso de jogos
com informao perfeita, apenas levando em conta as mudanas na definio do que so
agora estratgias puras. O caso da definio da representao multiagente precisa de mais
algumas alteraes. Agora ao invs de termos um agente temporrio para cada histria em
que um dado jogador i se move no jogo com informao imperfeita, teremos um agente
temporrio para cada conjunto de informao do jogador i. Formalmente,
Definio 4.3.15: A representao multiagente de um jogo em forma extensa com informao imperfeita = (N, M, H, P, fc , {Ii : i N }, {vi : i N }) o jogo em forma normal
n = ({I : I iN Ii }, {MI : I iN Ii }, {uI : I iN Ii }), onde relembrando se I Ii ,
temos que MI so as aes disponveis ao jogador i no conjunto de informao I. Para todo
perfil de estratgias de n , t JiN Ii MJ , seja st um perfil de estratgias de tal que
para todo j N e J Ij temos stj (J) = tJ . Ento,
uI : JiN Ii MJ IR uma funo
utilidade para um jogador I Ii tal que uI (t) = zZ P rst (z)vi (z).
Novamente temos que todos os agentes temporrios de um mesmo jogador possuem a
mesma funo utilidade.
Exemplo 4.3.16: Considere novamente o jogo a seguir:
A representao multiagente tem quatro jogadores jogadores ,{B, C},B, E, e
C, E. Os jogadores , B, E, e C, E so agentes temporrios do jogador 1 do jogo
em forma extensiva, enquanto o jogador {B, C} o nico agente temporrio do jogador
2. O jogador possui trs aes disponveis A, B e C, o jogador {B, C} possui duas
aes disponveis D e E, o jogador B, E, possui duas aes disponveis F e G, e finalmente
o jogador C, E possui tambm duas aes disponveis H e I. Se escolhe B, {B, C}
escolhe E, B, E, escolhe F , e B, E, escolhe I, temos que todos os agentes temporrios
tm utilidade esperada igual a 2.
72
4.3.4
Equilbrio de Nash
Assim como no caso de jogos em forma extensiva com informao perfeita, podemos definir
trs tipos de Equilbrio de Nash, um para cada tipo de perfil de estratgias:
Definio 4.3.17: Dado um jogo em forma extensa com informao imperfeita = (N, M, H, P, fc , {Ii :
i N }, {vi : i N }), um perfil de estratgias s um equilbrio de Nash em estratgias puras
ui (s) =
P rs (z)vi (z) ui (si , di ) =
P r(si ,di ) (z)vi (z)
zZ
zZ
para todo jogador i e toda estratgia di Ci .
i N }, {vi : i N }), um perfil de estratgias um equilbrio de Nash em estratgias mistas
ui () =
(s)
P rs (z)vi (z) ui (i , i ) =
i (si )i (si )
P rs (z)vi (z)
sC
zZ
sC
zZ
para todo jogador i e toda estratgia mista i (Ci ).
i N }, {vi : i N }), um perfil de estratgias um equilbrio de Nash em estratgias
comportamentais de se, e somente se,
ui () =
P r (z)vi (z) ui (i , i ) =
zZ
zZ
para todo jogador i e toda estratgia comportamental i hHi (Mh ).
73
Exerccio: Encontre os equilbrios de Nash em estratgias puras do jogo do Exemplo 4.3.16.

Pode-se definir equilbrio de subjogo perfeito de maneira anloga para jogos com informao imperfeita. A nica diferena na definio do que um subjogo G de um jogo com
informao imperfeita. Neste caso, temos que a definio idntica, somente com a restrio
que se I H G = , ento I H = I H G , isto todos os conjuntos de informao do subjogo
devem ser idnticos aos conjuntos de informao do jogo original. Isto, por exemplo, implica
que a histria raiz de qualquer subjogo deve pertencer a um conjunto de informao que
contm apenas uma nica histria no jogo original.
Para jogos extensivos com informao imperfeita, existe ainda um outro refinamento que
evita alguns equilbrios de Nash que no so intuitivos conhecido como equilbrio sequencial.
4.3.5
Equilbrio sequencial
Equilbrio sequencial definido com respeito a uma avaliao, um par ( , ) onde um

perfil de estratgias comportamentais e um sistema de crenas, isto , uma funo que
determina para cada conjunto de informao I uma probabilidade I sobre as histrias em I.
Intuitivamente, se I um conjunto de informao para o jogador i, I a avaliao subjetiva
de i da verossimilhana relativa das histrias em I. Informalmente, uma avaliao um
equilbrio sequencial se para todos os jogadores i, em todos os i-conjuntos de informao, (a)
i escolhe uma melhor resposta dada as crenas que ele tem sobre as histrias neste conjunto
de informao e as estratgias dos outros jogadores, e (b) as crenas de i so consistentes
com o perfil de estratgias sendo jogado, no sentido que elas so calculadas condicionando
a distribuio de probabilidade induzida pelo perfil de estratgia sobre as histrias no dado
conjunto de informao.
Note que I definido mesmo se I atingido com probabilidade 0 de acordo com algum
perfil de estratgia . Definir consistncia em um conjunto de informao que atingido
com probabilidade 0 um pouco sutil. Neste caso, intuitivamente, quando o conjunto de
informao I atingido o jogador i que se move em I deve acreditar que o jogo est sendo
jogado de acordo com um perfil de estratgias alternativo. Em um equilbrio sequencial, este
perfil de estratgias alternativo consiste de uma pequena perturbao da avaliao original
onde todas as aes so escolhidas com probabilidade positiva.
Dado um perfil de estratgias , seja P r a distribuio de probabilidade induzida por
sobre as possveis histrias jogo como definido na Seo 4.2.2. Intuitivamente, P r (h)
o produto das probabilidades de cada uma das aes que levam a h. Por simplicidade,
assumimos que fc > 0, de forma que se tal que todo jogador escolhe todas as suas aes
com probabilidade positiva, ento para toda histria h, P r (h) > 0. Para qualquer histria
h do jogo, defina P r ( | h) como a distribuio de probabilidade condicional induzida por
sobre as possveis histrias do jogo dado que a histria atual h. Intuitivamente, P r (h | h)
igual a 0 se h no for um prefixo de h , igual a 1 se h = h , e o produto da probabilidade
de cada uma das aes no caminho que leva h h se h for um prefixo de h . Formalmente,
uma avaliao ( , ) um equilbrio sequencial se ela satisfaz as seguintes condies:
Racionalidade sequencial. Para todo jogador i, conjunto de informao I Ii , e toda
74
estratgia comportamental para o jogador i,

EUi (( , ) | I) EUi (((i , ), ) | I),

onde EUi (( , ) | I) = hI zZ I (h)P r (z | h)ui (z).
Consistncia entre o sistema de crenas e o perfil de estratgias. Se consiste de
estratgias comportamentais que do probabilidade positiva a todas as aes em todos
os conjuntos de informaes, ento para todo conjunto de informao I e histria h
em I,
P r (h)
I (h) =
.
(h )
h I P r
Caso contrrio, existe uma sequncia ( n , n ), n = 1, 2, 3, . . ., de avaliaes tal que
n um perfil de estratgias que d probabilidade positiva a todas as aes em todos
os conjuntos de informao, ( n , n ) consistente no sentido do pargrafo anterior, e
limn ( n , n ) = ( , ).
Podemos agora enunciar dois importantes teoremas que justificam que esta uma noo
razovel de equilbrio.
Teorema 4.3.20: Se (, ) for um equilbrio sequencial de um jogo em forma extensiva com
memria perfeita, ento um equilbrio de Nash em estratgias comportamentais do jogo.
Prova: Suponha, por absurdo, que (, ) um equilbrio sequencial, mas no um
equilbrio de Nash. Ento existe i N e i uma estratgia comportamental para o jogador
i tal que
ui () =
P r (z)vi (z) < ui (i , i ) =
P r(i ,i ) (z)vi (z).
zZ
zZ
Escolha uma estratgia i tal que ui () < ui (i , i ) e ||{I Ii : i (I) = i (I)}|| ||{I
Ii : i (I) = i (I)}|| para toda estratgia comportamental i tal que ui () < ui (i , i ).
Seja I um conjunto de informao para o jogador i tal que i (I ) = i (I ) e para todo
conjunto de informao I Ii tal que I contm somente histrias que possuem prefixos em
I , i (I ) = i (I ), ou seja, i e i coincidem nas histrias que se seguem ao conjunto de
informao I . Defina agora i (I) = i (I), I = I , e i (I ) = i (I ). Iremos provar que
ui () < ui (i , i ), e como ||{I Ii : i (I) = i (I)}|| > ||{I Ii : i (I) = i (I)}||, temos
uma contradio.
Denotaremos por (i.I , i (I)) o perfil de estratgias comportamentais que igual a
exceto na ao do jogador i no conjunto de informao I; neste conjunto de informao I
a ao de i coincide com a ao escolhida por i em I de acordo com a estratgia i . Seja
ainda Z(I) o conjunto de histrias terminais que tem uma histria em I como prefixo. Como
i , i , e i coincidem em todas as histrias que se seguem ao conjunto de informao I ,
temos que EUi ((i , i )|h) = EUi ((i.I , i (I ))|h), h I . Alm disso, como i e i
75
diferem apenas na ao escolhida em I , temos que P r(i ,i ) (h) = P r(i ,i ) (h) para todo
h I (Z Z(I )). Portanto,
ui (i , i ) =
P r(i ,i ) (h)EUi ((i , i )|h) +
=
hI
z(ZZ(I ))
P r(i ,i ) (h)EUi ((i.I , i (I ))|h) +
hI
z(ZZ(I ))
Consideremos agora dois casos. Primeiro, se hI P r(i ,i ) (h)

= 0, neste caso temos
ento que ui (i , i ) = ui (i , i ) > ui (). Segundo, suponha que hI P r(i ,i ) (h) > 0.
Como temos um jogo com memria perfeita, para qualquer estratgia , temos que para
qualquer h I, onde I Ii ,
P r (h)

hI P r (h)
no depende da estratgia i do jogador i, pois i contribui com o mesmo fator multiplicativo
para P r (h) qualquer que seja h I. Ento, como (, ) um equilbrio sequencial:
(I)(h) =
P r(i ,i ) (h)
P r (h)
=
, h I.
hI P r (h)
hI P r(i ,i ) (h)
Logo,
ui (i , i ) = (
P r(i ,i ) (h))(
hI
(I )(h)EUi ((i.I , i (I ))|h)) +
hI
P r(i ,i ) (h)vi (z)
z(ZZ(I ))
Como i (I ) = i (I ) e i sequencialmente racional no conjunto de informao I ,

temos que
(I )(h)EUi (i.I , i (I )|h)

(I )(h)EUi (i.I , i (I )|h)
hI
hI
(I )(h)EUi (i , i |h).
hI
Portanto,
ui (i , i ) = (
P r(i ,i ) (h))(
hI
hI
P r(i ,i ) (h))(
hI
hI
(I )(h)EUi ((i.I , i (I ))|h)) +
z(ZZ(I ))
(I )(h)EUi ((i , i )|h)) +
z(ZZ(I ))
= ui (i , i ) > ui (),
como queramos demonstrar.
Teorema 4.3.21: Para todo jogo finito em forma extensiva com memria perfeita, o conjunto de avaliaes que so equilbrio sequencial no vazio.
76

Prova: Veremos adiante.
Exemplo 4.3.22: Considere mais uma vez o jogo a seguir:
Neste caso, em todos os equilbrios sequenciais temos que o jogador 1 escolhe ao F com
probabilidade 1 aps a histria B, E, escolhe ao H com probabilidade 1 aps a histria
C, E, jogador 2 escolhe ao D com probabilidade 1 no conjunto de informao {B, C},
e o jogador 1 escolhe ao B com probabilidade 0 no incio do jogo. Nos equilbrios sequenciais
em que o jogador 1 escolhe ao C com probabilidade positivo temos que o sistema de
crenas deve d probabilidade 1 a histria C. No caso em que o jogador 1 escolhe A com
probabilidade 1, qualquer sistema de crenas consistente.
Clculo de Equilbrio sequencial
Agora vamos ilustrar com um exemplo, como podemos calcular equilbrios sequenciais em
jogos finitos. O procedimento similar ao que estudamos para o clculo de equilbrio de Nash
em estratgias mistas para jogos em forma normal. Iremos por tentativa, encontrar equilbrios sequenciais cujas estratgias comportamentais tenham determinando suporte. Faremos
isso comeando pelos conjuntos de informao mais perto dos ns terminais do jogo.
Exemplo 4.3.23: Considere o jogo a seguir:
fcil ver que (1.1)(0, 95) = 0, 95 e (1.1)(0, 05) = 0, 05. Alm disso, racionalidade sequencial implica que 2 (2.2)(o) = 1. Vamos ento considerar os possveis suportes
de 1 (1.2). Existem trs suportes possveis para considerar: m, n, m, n. A utilidade
esperada para o jogador 1 de escolher n no conjunto de informao 1.2 8(1.2)(0, 05, g) +
3(1 (1.2)(0, 05, g)), enquanto a utilidade esperada de escolher m 4. Consistncia entre
e implica que:
(1.2)(0, 05, g) =
1
0, 051 (1.1)(g)
=
.
0, 051 (1.1)(g) + 0, 951 (1.1)(g)2 (2.1)(h)
1 + 192 (2.1)(h)
Note que mesmo que 1 (1.1)(g) = 0, consistncia implica a mesma frmula acima.
77
Figura 4.11: Calculando Equilbrios Sequenciais.

Vamos primeiro verificar se existe equilbrio sequencial no qual 1 (1.2)(n) = 1. Ento,
racionalidade sequencial implica que 8(1.2)(0, 05, g)+3(1(1.2)(0, 05, g)) 4, ou seja,
4
(1.2)(0, 05, g) 0, 2. Isto por sua vez, implica que 2 (2.1)(h) 19
. Mas se 1 (1.2)(n) = 1,
a utilidade esperada do jogador 2 de escolher h no conjunto de informao 2.1 9, enquanto
a utilidade esperada de escolher i 5. Portanto, 2 (2.1)(h) = 1, contradizendo a condio
4
2 (2.1)(h) 19
. Logo, no existe equilbrio sequencial no qual 1 (1.2)(n) = 1.
Vamos tentar verificar se existe equilbrio sequencial com 1 (1.2)(n) = 0. Ento, racionalidade sequencial implica que 8(1.2)(0, 05, g) + 3(1 (1.2)(0, 05, g)) 4, ou seja,
4
(1.2)(0, 05, g) 0, 2. Isto por sua vez, implica que 2 (2.1)(h) 19
. Mas se 1 (1.2)(n) = 0,
a utilidade esperada do jogador 2 de escolher h no conjunto de informao 2.1 4, enquanto
a utilidade esperada de escolher i 5. Portanto, 2 (2.1)(h) = 0, contradizendo a condio
4
2 (2.1)(h) 19
. Logo, no existe equilbrio sequencial no qual 1 (1.2)(n) = 0.
Portanto, em qualquer equilbrio sequencial devemos ter 0 < 1 (1.2)(n) < 1. Ento,
racionalidade sequencial implica que 8(1.2)(0, 05, g) + 3(1 (1.2)(0, 05, g)) = 4, ou
4
seja, (1.2)(0, 05, g) = 0, 2. Isto por sua vez, implica que 2 (2.1)(h) = 19
. Portanto, temos
que o jogador 2 deve ser indiferente entre h e i no conjunto de informao 2.1. Mas neste caso,
temos que a utilidade esperada do jogador 2 de escolher h no conjunto de informao 2.1
91 (1.2)(n) + 4(1 1 (1.2)(n)), enquanto a utilidade esperada de escolher i 5. Portanto,
91 (1.2)(n) + 4(1 1 (1.2)(n)) = 5, ou seja, 1 (1.2)(n) = 0, 2.
Resta-nos apenas determinar a estratgia do jogador 1 no conjunto de informao 1.1.
Se ele escolher f , ele tem utilidade esperada 0, enquanto se ele escolher g, ele tem utilidade
esperada
0, 95(1(15/19) + 4(4/19)0, 8 + 3(4/19)0, 2) + 0, 05(4(0, 8) + 8(0, 2)) = 0, 25
Portanto, 1 (1.1)(g) = 1.
Observe que se tivssemos um jogo onde o jogador chance s tivesse a opo de escolher
a alternativa superior, ento no nico equilbrio sequencial do jogo, os jogadores escolheriam
f , i, m, o, com probabilidade 1. Este exemplo, serve para ilustrar o importante papel que
pequenas incertezas no jogo podem gerar no equilbrio.
78
Ao longo deste captulo, vimos alguns refinamentos de equilbrios de Nash para jogos
em forma extensa. No prximo captulo, analisaremos refinamentos de equilbrio de Nash
tambm para jogos em forma normal.
Captulo 5
Refinamentos de Equilbrio de Nash para
Jogos em Forma Normal
5.1
Introduo
Neste captulo, estudaremos alguns exemplos de refinamentos de equilbrio de Nash para

jogos em forma normal. Existem algumas propriedades que desejamos que tais refinamentos
satisfaam.
O conceito de soluo deve ser satisfeito por pelo menos um perfil de estratgias em
todo jogo finito.
Quando existe alguma razo para no considerar um equilbrio de Nash plausvel, o
refinamento deve elimin-lo. Por exemplo, equilbrios onde jogadores escolham estratgias dominadas com probabilidade positiva.
Em jogos extensivos, um equilbrio que no possa ser extendido por algum sistema de
crenas para um equilbrio seqencial deve ser eliminado. Portanto, para refinamentos
de equilbrio para jogos em forma normal, o conceito de soluo deve apenas selecionar equilbrios que correspondam a equilbrios seqenciais de todos os jogos de forma
extensa que possam ser representados pelo dado jogo em forma normal.
Veremos a seguir um primeiro refinamento conhecido como equilbrio perfeito de mo
trmula.
5.2
Equilbrio Perfeito de Mo Trmula
Um dado perfil de estratgias mistas para um jogo em forma normal finito dito ser completamente misto se toda ao do jogo escolhida com probabilidade estritamente positiva.
Definio 5.2.1: Um equilbrio perfeito de mo trmula de um jogo finito em forma normal
um perfil de estratgias mistas com a propriedade que existe uma seqncia ( k )
k=0 de
perfis de estratgia completamente mistos que convergem pontualmente para de tal forma
79
5.2. EQUILBRIO PERFEITO DE MO TRMULA
80
k
que para todo jogador i a estratgia i uma melhor resposta para i
para todos os valores
de k.
Como para todo jogador a utilidade esperada contnua no vetor de estratgias dos
outros jogadores, temos que i tambm uma melhor resposta para i , e portanto, todo
equilbrio perfeito de mo trmula tambm um equilbrio de Nash. O prximo exemplo
demonstra que a recproca desta afirmao no verdadeira.
Exemplo 5.2.2:
A
B
C
A
0,0
0,0
0,0
B
0,0
1,1
0,2
C
0,0
2,0
2,2
Este jogo tem trs equilbrios de Nash (A, A), (B, B), (C, C), mas apenas (B, B) um
equilbrio perfeito de mo trmula.
Note que em um equilbrio de mo trmula, a estratgia dos jogadores continua sendo
uma melhor resposta para estratgias dos demais jogadores que so pequenos desvios das
estratgias de equilbrio. Por este motivo, temos que equilbrio perfeito de mo trmula
robusto a pequenos erros que possam ser realizados pelos jogadores enquanto tentam
implementar suas estratgias de equilbrio. O prximo teorema relaciona equilbrio seqencial
com equilbrio perfeito de mo trmula da representao multiagente de um jogo em forma
extensa.
Teorema 5.2.3: Suponha que um jogo em forma extensiva finito com memria perfeita
e que um equilbrio perfeito de mo trmula da representao multiagente de em forma
normal. Ento, existe um sistema de crenas tal que (, ) um equilbrio seqencial de
.
k
Prova: Seja ( k )
k=0 a seqncia de perfis de estratgia completamente mistos tal que
converge para e para todo conjunto de informao I do jogador i, I uma melhor resposta
k
para I
para todo k. Para todo h I, defina
k (I)(h) =
P rk (h)
.
hI P r k (h)
Como k completamente mista, temos que P rk (h) > 0, h H. Como k pode ser
visto como um vetor de dimenso finita cujas componentes esto entre 0 e 1, temos que
esta seqncia est definida em um espao compacto e, portanto, tem uma subseqncia
convergente. Seja k a subseqncia convergente de k e o limite de k . Seja ainda k a
subseqncia de k correspondente a subseqncia k .
Por construo, temos que (, ) consistente. Queremos provar que esta avaliao
seqencialmente racional. Lembre que para todo I Ii , denotamos por uI () a utilidade
81
esperada do agente I do jogador i. Temos que quando o agente i usa estratgia (I) em I
com as demais estratgias como especificado em k , uI dado por
k
k
uI (I
, (I)) =
P r(I
P r(I
k ,(I)) (h)Eui ((I , (I))|h) +
k ,(I)) (z)vi (z)
=
hI
k
P r k (h)Eui ((I
, (I))|h) +
hI
z(ZZ(I))
P r k (z)vi (z)
z(ZZ(I))
tendo em vista que P r(I

k ,(I)) (h) = P r k (h), h I (Z Z(I)), pois estas probabilidades
no dependem da escolha do jogador i em I. Logo,
k
k
uI (I
, (I)) = (
P r k (h ))(
k (I)(h)Eui ((I
, (I))|h)) +
P r k (z)vi (z)
h I
hI
z(ZZ(I))
k
k
Como k uma subseqncia
de k , temos quek I uma melhor resposta para I ,
e portanto maximiza tambm
hI (I)(h)Eui ((I , (I))|h) por uma escolha de (I).
Fazendo k pela continuidade da utilidade esperada, temos que
(I)(h)Eui ((I , (I))|h),

I argmax(I)
hI
ou seja, (, ) seqencialmente racional.

Resta-nos provar que o conjunto de equilbrios perfeitos de mo trmula no vazio para
todo jogo finito.
Teorema 5.2.4: Para todo jogo finito em forma estratgica existe pelo menos um equilbrio
perfeito de mo trmula.
Prova: Seja = (N, {Ci : i N }, {ui : i N }) qualquer jogo finito em forma normal.
Seja qualquer perfil de estratgias completamente misto, por exemplo, faa i = ||C1i || .
Para qualquer nmero k tal que k 1, definimos uma funo k que associa cada perfil de
estratgias misto () a um perfil de estratgias completamente misto, da seguinte maneira:
1
1
k () = (1 ) + .
k
k
Para qualquer, perfil de estratgias puras c, seja uki (c) = ui ( k ([c])). Defina k = (N, {Ci :
i N }, {uki : i N }). Note que k um jogo em forma normal finito, portanto possui
pelo menos um equilbrio de Nash em estratgias mistas. Seja k um equilbrio de Nash
de k . Como o jogo finito podemos escolher uma subseqncia de k que satisfaz as
seguintes condies: (1) para todo jogador i o mesmo conjunto de estratgias puras tm
probabilidade zero de acordo com todos os ks, e (2) a subseqncia convergente. Chamemos
esta subseqncia de
k . Defina = limk
k e k = k (
k ). Ento, k completamente misto
e limk k = limk
k = . Alm disso, como di Ci
k
k
, k ([di ]))
, [di ]) = ui (i
i
uki (
1
1
k
k
= (1 )ui (i
, [di ]) + ui (i
, i ),
k
k
82
k
k
, [di ]). Portanto, para qualquer ci
i
, [di ]) = argmaxdi Ci ui (i
temos que argmaxdi Ci uki (
Ci , se
k
k
i
, [di ]) = argmaxdi Ci ui (i
, [di ]),
ci
/ argmaxdi Ci uki (
k
ento
ik (ci ) = 0. Logo, i (ci ) = 0. Ento, temos que se ci
/ argmaxdi Ci ui (i
, [di ]), ento
i (ci ) = 0, o que por sua vez implica que
k
, i ).
i argmaxi (Ci ) ui (i
Ento, satisfaz as condies de um equilbrio perfeito de mo trmula.

Observao 5.2.5: Note que os Teoremas 5.2.3 e 5.2.4 implicam que o conjunto de equilbrios seqncias de um jogo em forma extensiva finito com memria perfeita no vazio.
Existe uma outra caracterizao possvel para a definio de equilbrio perfeito de mo
trmula que baseada no conceito de equilbrio -perfeito. Um perfil de estratgias misto
um -equilbrio perfeito se for completamente misto e para todo i N e todo estratgia
pura ci Ci , se ci
/ argmaxei Ci ui (i , [ei ]), ento i (ci ) < . O prximo teorema trata da
relao entre equilbrio perfeito de mo trmula e -equilbrio perfeito.
Teorema 5.2.6: um equilbrio perfeito de mo trmula de se, e somente se, existe
uma seqncia (k , k ) tal que
lim k = 0, lim k = ,
k
e para todo k, um k -equilbrio perfeito.

Prova: Suponha que (k , k ) uma seqncia tal que
k
e para todo k, um k -equilbrio perfeito.

Como existe apenas um nmero finito de subconjuntos de Ci , podemos escolher uma
j
k
subseqncia k de k tal que argmaxei Ci ui (i
, [ei ]) = argmaxei Ci ui (i
, [ei ]) para todo
j, k. Para verificar que um equilbrio perfeito de mo trmula, basta verificar que se
k
k
ci
/ argmaxei Ci ui (i
, [ei ]), ento i (ci ) = 0. Assuma que ci
/ argmaxei Ci ui (i
, [ei ])
k
k
para algum k. Por construo de ( ), temos que ci
/ argmaxei Ci ui (i , [ei ]) para todo k.
Portanto, ik (ci ) < k , k. Logo,
i (ci ) = lim ik (ci ) lim k = 0.
k
Para a recproca, suponha agora que um equilbrio perfeito de mo trmula. Ento,

k
existe k completamente misto tal que se i (ci ) > 0, ento ci argmaxei Ci ui (i
, [ei ]), k,
k
k
k
k
e limk = . Escolha uma subseqncia de tal que argmaxei Ci ui (i
, [ei ]) =
j
k
argmaxei Ci ui (i , [ei ]) para todo j, k. Suponha que ci
/ argmaxei Ci ui (i , [ei ]), ento
k
i (ci ) = 0. Como limk = , temos que para todo j, existe Nj tal que para todo n Nj ,
j
k
, [ei ]) = argmaxei Ci ui (i
, [ei ]) para todo j, k, segue que
in (ci ) < 1j . Como argmaxei Ci ui (i
N
se ci
/ argmaxei Ci ui (ij , [ei ]), ento i j (ci ) < 1j , j, ou seja, Nj um 1j -equilbrio perfeito
para todo j.
5.3. EQUILBRIO PRPRIO
5.3
83
Equilbrio Prprio
Equilbrio prprio um refinamento de equilbrio perfeito de mo trmula. Como vimos no

Teorema 5.2.6, um equilbrio perfeito de mo trmula pode ser aproximado por um perfil
de estratgias completamente misto, mas que satisfaz a condio que qualquer estratgia
pura que no seja uma melhor resposta escolhida com uma probabilidade arbitrariamente
pequena. Um equilbrio prprio tambm pode ser aproximado por um perfil de estratgias
completamente misto, mas que satisfaz a condio de que qualquer estratgia que no for uma
melhor resposta escolhida com uma probabilidade significativamente menor que qualquer
outra estratgia que tenha uma utilidade esperada melhor que a sua. Formalmente, diz-se
que um perfil de estratgias um -equilbrio prprio se for completamente misto e para
todo i N , se para quaisquer ci , ei Ci , se ui (i , [ci ]) < ui (i , [ei ]), ento i (ci ) i (ei ).
Definio 5.3.1: Um perfil de estratgias um equilbrio proprio se existe uma seqncia
(k , k ) tal que
k
e para todo k, um k -equilbrio prprio.

fcil verificar que todo equilbrio prprio tambm um equilbrio perfeito de mo
trmula (Exerccio). O prximo teorema mostra que todo jogo finito em forma normal tem
um equilbrio prprio.
Teorema 5.3.2: Para qualquer jogo finito em forma normal, o conjunto de equilbrios prprios no vazio.
Prova: Dado um jogo finito em forma normal = (N, (Ci )iN , (ui )iN ), para cada nmero
positivo menor que 1, seja um jogo com o mesmo conjunto de jogadores, onde as
estratgias puras do jogador i so todas as maneiras possveis de ordenar as estratgias
de Ci , ou seja, existem ||Ci ||! estratgias do jogador i neste jogo. A utilidade esperada u
dos perfis de estratgia de so determinadas da seguinte maneira. Aps os jogadores
escolherem suas estratgias em , uma estratgia pura em Ci para cada jogador escolhida
de acordo com uma distribuio de probabilidade na qual a primeira estratgia de Ci de
acordo com a ordem escolhida por i tem a maior probabilidade e cada uma das estratgias
puras subseqentes de acordo com a ordem tem probabilidade vezes a probabilidade da
estratgia imediatamente anterior na ordem. A utilidade esperada de um jogador em
determinada pela utilidade esperada em quando as estratgias puras so selecionadas do
modo acima.
Como finito, podemos encontrar um equilbrio de Nash deste jogo para todo . Seja
um equilbrio de Nash em estratgias mistas de . Seja um perfil de estratgias misto
de tal que, i (ci ) a probabilidade com que ci escolhido de acordo com o procedimento
do pargrafo anterior quando i joga i .
, [ei ]).
, [ci ]) < ui (i
Vamos provar que um -equilbrio prprio de . Suponha que ui (i
Ento, dado que os jogadores diferentes de i seguem as estratgias em i , temos que para
quaisquer estratgias i e i de i que s diferem nas probabilidades com que ci e ei so
84
escolhidos, vale ui (i
, i ) < ui (i
, i ) se i (ei ) > i (ei ). Portanto, se i e i so duas es
tratgias puras para i em , temos que ui (i

, [i ]) < ui (i
, [i ]), se i e i diferem apenas
na posio de ci e ei na ordenao das estratgias puras, e na ordenao segundo i ei vem
antes de ci . Logo, como um equilbrio de Nash de , i s d probabilidade positiva a
ordens em que ei vem antes de ci . Portanto, i (ci ) < i (ei ), ou seja, um -equilbrio
prprio de .
Como iN (Ci ) compacto, podemos encontrar uma subseqncia k que converge
para e limk k = 0. Portanto, um equilbrio prprio de .
Vamos ilustrar com um exemplo o fato que nem todo equilbrio perfeito de mo trmula
um equilbrio prprio.
Exemplo 5.3.3: Considere o jogo a seguir:
a1 x1
a1 y1
b1 x1
b1 y1
x2
4,4
4,4
6,6
0,0
y2
4,4
4,4
3,0
2,2
Nosso objetivo mostrar que ([a1 x1 ], [y2 ]) um equilbrio perfeito de mo trmula deste
jogo que no equilbrio prprio. Para provar que um equilbrio perfeito de mo trmula,
considere o seguinte perfil de estratgias
= ((1 )[a1 x1 ] + 0,1[a1 y1 ] + 0,1[b1 x1 ] + 0,8[b1 y1 ], [x2 ] + (1 )[y2 ]).
um -equilbrio perfeito para qualquer < < 1/3, pois note que u1 (a1 x1 , 2 ) =
u1 (a1 y1 , 2 ) = 4, u1 (b1 x1 , 2 ) = 6 + (1 )3 < 4, u1 (b1 y1 , 2 ) = 2(1 ) < 2. Ento, temos
que b1 x1 e b1 y1 no so melhores respostas, ento para que seja um -equilbrio perfeito
precisamos ter 1 (b1 x1 ) < e 1 (b1 y1 ) < , que satisfeito neste exemplo. Tambm note
que u2 (1 , x2 ) = 4(1)+4(0,1)+6(0,1) = 43 e u2 (1 , y2 ) = 4(1)+4(0,1)+2(0,8) =
4 2. Ento, x2 no melhor resposta, ento precisamos ter 2 (x2 ) < , que satisfeito
neste exemplo. Ento, ([a1 x1 ], [y2 ]) um equilbrio perfeito de mo trmula deste jogo.
Contudo, no um -equilbrio prprio para nenhum < 1. A estratgia b1 x1
pior para o jogador 1 que a estratgia a1 y1 contra a estratgia 2 , porm elas so escolhidas
com a mesma probabilidade. Na verdade, temos que b1 x1 melhor para o jogador 1 que
a estratgia b1 y1 contra qualquer estratgia 2 . Portanto, em qualquer -equilbrio prprio,
< 1, devemos ter que a probabilidade de b1 x1 deve ser maior que a probabilidade de
b1 y1 , conseqentemente, x2 uma melhor resposta em qualquer -equilbrio prprio. Ento,
2 (x2 ) = 1 em qualquer equilbrio prprio. Portanto, 1 (b1 x1 ) = 1 em qualquer equilbrio
prprio. Portanto, o nico equilbrio prprio deste jogo (b1 x1 , x2 ). Note que podemos
justificar este equilbrio com a seguinte seqncia de -equilbrios prprios:
((1 0,52 )[b1 x1 ] + 0,52 [b1 y1 ] + 0,5[a1 x1 ] + 0,5[a1 y1 ], (1 0,5)[x2 ] + 0,5[y2 ]).
85
A seguir enunciamos um teorema que prova que existe uma relao entre equilbrios
sequenciais de um jogo em forma extensiva com equilbrios prprios da representao em
forma normal do jogo em forma extensiva.
Teorema 5.3.4: Suponha que um jogo finito em forma extensiva com memria perfeita
e que um equilbrio prprio da representao em forma normal de . Ento, existe
um sistema de crenas e uma perfil de estratgias comportamentais tal que (, ) um
equilbrio seqencial de e uma representao comportamental de .
Prova: Omitida. Consultar prova do Teorema 5.4 em Myerson.
Infelizmente, no existem argumentos que possam provar que jogadores racionais no
possam escolher equilbros de Nash que no so prprios, nem podemos provar que todo
equilbrio prprio deve ser considerado como uma maneira razovel de se comportar em um
jogo. A razo por que importante considerar refinamentos de equilbrio de Nash baseados
em anlise de sensibilidade a pequenas probabilidades de erros, como nos refinamentos de
equilbrio perfeito de mo trmula e equilbrio prprio, que estes conceitos proporcionam
uma maneira de checar se a justificativa para um determinado equilbrio no depende na
suposio de que jogadores ignoram completamente os possveis resultados do jogo que tm
probabilidade zero em equilbrio. Deste modo, podemos argumentar que testar estes (e
outros refinamentos contidos na literatura) uma maneira til de formalizar parte de nossa
intuio como jogadores racionais devem se comportar em jogos.
Captulo 6
Jogos Bayesianos
6.1
Introduo
Jogos Bayesianos so jogos nos quais, no comeo do jogo, antes dos jogadores comearem a
planejar suas aes no jogo, alguns jogadores podem j possuir alguma informao privada
sobre o jogo que os demais jogadores no sabem. Ento freqentemente, queremos analisar
situaes nas quais os jogadores atualmente tm diferentes informaes privadas que eles
possuem a um longo tempo, e no natural definir o incio do jogo como sendo algum ponto
em um distante passado antes dos jogadores lerem suas informaes privadas. Alm disso,
algumas informaes podem ser to bsicas para a identidade de um jogador (por exemplo,
sexo, lngua materna, nvel de averso ao risco) que no faz sentido discutir sobre jogadores
planejando suas aes antes de obterem estas informaes. Estas informaes privadas que
os jogadores possuem no incio do jogo antes de planejar suas aes definem os chamados
tipos dos jogadores.
6.2
Definio
Jogos Bayesianos so uma generalizao de jogos em forma normal que proporcionam uma
maneira de representar jogos onde os jogadores j comeam a planejar suas aes com informaes privadas que definem diversos tipos dos jogadores.
Definio 6.2.1: Um jogo bayesiano um vetor b = (N, {Ci : i N }, {Ti : i N }, {pi :
i N }, {ui : i N }), onde
N o conjunto de jogadores;
Ci o conjunto de aes disponveis para o jogador i;
Ti o conjunto de possveis tipos do jogador i. Note que apesar de no incio do jogo
cada jogador saber seu tipo (pois cada sabe a sua informao privada), precisamos de
um conjunto de tipos para cada jogador para descrever a incerteza que os jogadores
tm sobre os tipos dos demais jogadores.
86
6.2. DEFINIO
87
pi : Ti (Ti ), ou seja, pi associa cada tipo do jogador i com uma distribuio de

probabilidade sobre os tipos dos demais jogadores, descrevendo portanto a incerteza
de cada tipo do jogador i sobre os tipos dos demais jogadores. Portanto, pi (ti |ti )
denota a probabilidade subjetiva que o tipo ti do jogador i associa ao evento que ti
o verdadeiro perfil de tipos dos demais jogadores.
ui : C T IR, ou seja, para cada perfil de estratgias c C e perfil de tipos t T ,
a funo ui especifica um nmero ui (c, t) que representa a utilidade do jogador i se os
tipos dos jogadores forem t e eles escolherem as estratgias em c.
b finito se, e somente se, os conjuntos N, Ci , e Ti para todo i N forem finitos.

Exemplo 6.2.2: Considere um jogo onde o jogador 1 o vendedor de um objeto e o jogador
2 o nico potencial comprador deste objeto. Cada jogador sabe quanto o objeto vale para si
mesmo, mas acredita que o valor do objeto para o outro jogador pode em reais ser qualquer
nmero inteiro entre 1 e 100 reais, cada um com igual probabilidade. Neste jogo cada
jogador deve simultaneamente fazer uma oferta em reais entre 0 e 100 para negociar o objeto.
Se a oferta do comprador for maior ou igual a oferta do vendedor, ento eles negociam o
objeto pelo valor que igual a mdia entre as ofertas, em caso contrrio nenhuma transao
realizada. Assuma que os jogadores maximizam o lucro esperado. Este jogo pode ser
modelado como um jogo bayesiano da seguinte maneira: N = {1, 2}, Ti = {1, 2, . . . , 100}
para todo i, Ci = {0, 1, . . . , 100} para todo i. As funes de probabilidade so:
pi (ti |ti ) =
1
, i N, ti Ti , ti Ti .
100
As utilidades so dadas por:

u1 (c, t) = (c1 + c2 )/2 t1 se c2 c1
u2 (c, t) = t2 (c1 + c2 )/2 se c2 c1
u1 (c, t) = 0 = u2 (c, t) se c2 < c1
Dizemos que as crenas dos jogadores descritas pelas funes pi em um jogo bayesiano
so consistentes com uma distribuio a priori se, e somente se, existe alguma distribuio
a priori comum sobre o conjunto de perfis de tipos T = iN Ti tal que a crena de cada
jogador dado o seu tipo apenas a distribuio condicional de probabilidade que pode ser
computada de acordo com a frmula de Bayes. Por exemplo, no caso finito, crenas so
consistentes se, e somente se, existe alguma distribuio de probabilidade P (T ) tal que
pi (ti |ti ) =
P (t)
, t T, i N.
si Ti P (si , ti )
6.2. DEFINIO
88
Note que no Exemplo 6.2.2, as crenas so consistentes com a distribuio a priori

P (t) =
1
, t T.
10000
A maioria jogos da literatura em jogos bayesianos assume que crenas so consistentes

com uma distribuio a priori. Esta tendncia se deve ao fato que tais modelos de jogos
so mais simples. Note que quando definimos jogos em forma extensiva tambm assumimos
que todos os jogadores descrevem as aes do jogador chance com a mesma distribuio de
probabilidade, porm fcil generalizar esta definio retirando esta suposio. Note que
possvel se imaginar jogos com crenas inconsistentes com uma distribuio a priori. Por
exemplo, em um jogo esportivo, se for conhecimento comum entre os tcnicos que cada um
acredita que seu prprio time tem probabilidade 2/3 de vitria no prximo jogo entre os
times, ento estas crenas no podem ser consistentes com uma distribuio a priori. Se
as crenas forem consistentes, pode acontecer que cada tcnico acredite que seu time tenha
probabilidade 2/3 de vitria, mas esta diferena entre as crenas no pode ser conhecimento
comum entre os tcnicos. No prximo captulo quando estudarmos formalmente conhecimento e conhecimento comum provaremos este resultado.
6.2.1
Estratgias
Quando analisamos jogos bayesianos, assumimos que cada jogador i sabe a estrutura inteira
do jogo e seu tipo e que este fato conhecimento comum entre todos jogadores. Portanto,
uma estratgia para o jogador i deve no s especificar uma ao para o seu verdadeiro tipo,
mas tambm uma ao para todos os demais tipos, pois os demais jogadores ao escolherem
suas aes levam em considerao as aes escolhidas por esses outros tipos. Logo, uma
estratgia pura para o jogador i em um jogo bayesiano uma funo que associa a cada tipo
do jogador i uma ao em Ci . Uma estratgia mista para o jogador i em um jogo bayesiano
uma funo que associa a cada tipo do jogador i uma distribuio de probabilidade em Ci .
6.2.2
Representao em Forma Normal
Podemos representar qualquer jogo bayesiano por um jogo em forma normal. Esta representao conhecida como representao tipo-agente. Nesta representao existe um jogador
para cada tipo de jogador do jogo bayesiano. Formalmente, assumindo sem perda de generalidade que Ti Tj = se i = j, dada um jogo bayesiano b , o conjunto de jogadores da
representao tipo-agente igual a T = iN Ti . Para cada ti Ti , o conjunto de aes
disponveis para este jogador na representao tipo agente Dt = Ci . Finalmente, na representao tipo agente, a utilidade para qualquer jogador t Ti definida como sendo
igual a utilidade esperada condicional para o jogador i em b quando ti o verdadeiro tipo.
Portanto, para todo i N e ti Ti , a funo utilidade vti : sT Ds IR na representao
tipo agente de forma que para todo perfil de estratgias d sT Ds ,
vti (d) =
pi (ti |ti )ui (dt , t).
ti Ti
6.2. DEFINIO
89
Exemplo 6.2.3: A representao tipo-agente do jogo do Exemplo 6.2.2 dada por: T =

{i.t : i {1, 2}, t {1, 2, . . . , 100}}, Di.t = {0, 1, . . . , 100},
1
v1.t (d) =
u1 ((d1.t , d2.s ), (t, s)),
100 s=1
100
1
u2 ((d1.s , d2.t ), (s, t)).
100 s=1
100
v2.t (d) =
6.2.3
Equilbrio Bayesiano
Para um jogo bayesiano, define-se um equilbrio Bayesiano como sendo um equilbrio de Nash
da representao tipo-agente do jogo bayesiano em forma normal. Portanto, um equilbrio
bayesiano especifica uma ao pura ou uma distribuio de probabilidades sobre as aes
para cada tipo de cada jogador de forma que cada um desses tipos maximiza sua utilidade
esperada quando ele sabe o seu tipo mas no sabe o tipo dos demais jogadores. Note que
em um equilbrio bayesiano, a estratgia de um jogador depende apenas do seu tipo mas no
dos tipos dos outros jogadores. Conforme explicamos, uma estratgia deve especificar uma
ao para cada tipo de jogador no apenas para o verdadeiro tipo, pois caso contrrio no
poderamos determinar a utilidade esperada dos outros jogadores que no sabem qual o
verdadeiro tipo dos demais.
Formalmente, um equilbrio bayesiano em estratgias mistas de um jogo bayesiano b
qualquer perfil de estratgias iN ti Ti (Ci ) tal que para todo i N e ti Ti ,

pi (ti |ti )
(
j (cj |tj ))i (ci )ui (c, t),
i (|ti ) argmaxi (Ci )
ti Ti
cC jN {i}
onde j (cj |tj ) a probabilidade com que o tipo tj do jogador j escolhe ao cj .

Exemplo 6.2.4 : Considere um jogo bayesiano com dois jogadores, suponha que C1 =
{x1 , y1 }, C2 = {x2 , y2 }, T1 = {1}, T2 = {2.1, 2.2}, p1 (2.1|1) = 0,6, e as utilidades so
dadas nas tabelas a seguir:
Para o tipo 2.1:
x1
y1
x2
1,2
0,4
y2
0,1
1,3
x1
y1
x2
1,3
0,1
y2
0,4
1,2
Para o tipo 2.2:
6.2. DEFINIO
90
Neste jogo, y2 uma estratgia fortemente dominada para o tipo 2.1 e x2 fortemente
dominada para o tipo 2.2, ento 2.1 deve escolher x2 e 2.2 deve escolher y2 . Portanto, para o
tipo 1, temos que a utilidade esperada de x1 0,6 e a utilidade esperada de y1 0,4. Portanto,
o nico equilbrio bayesiano deste jogo : 1 (x1 |1) = 1, 2 (x2 |2.1) = 1, e 2 (y2 |2.2) = 1.
Exemplo 6.2.5: Considere o seguinte jogo Bayesiano no qual o jogador 1 pode ter tipo
ou , onde segundo o nico tipo do jogador 2, jogador 1 do tipo com probabilidade 0,9.
As utilidades dos jogadores so dadas de acordo com o as tabelas a seguir:
Para o tipo :
x1
y1
x2
y2
2,2 -2,0
0,-2 0,0
x1
y1
x2
y2
0,2 1,0
1,-2 2,0
Para o tipo :
Note que existem trs equilbrios Bayesianos neste jogo: (1) 2 (x2 ) = 1, 1 (x1 |) = 1, e
1 (y1 |) = 1; (2) 2 (y2 ) = 1, 1 (y1 |) = 1, e 1 (y1 |) = 1; e (3) 2 (x2 ) = 1/2, 1 (x1 |) =
5/9, e 1 (y1 |) = 1.
Exemplo 6.2.6: Suponha que duas pessoas esto envolvidas em uma disputa. Pessoa 1 no
sabe se a pessoa 2 forte ou fraca; ela associa probabilidade a pessoa 2 ser forte. Pessoa 2
est perfeitamente informada. Cada pessoa pode lutar ou se entregar. Cada pessoa recebe
uma utilidade 0 se ela se entregar no importa o que a outra pessoa faa. Alm disso, cada
pessoa recebe uma utilidade 1 se ela lutar e seu adversrio se entregar. Se ambas pessoas
lutarem, ento suas utilidades so (1; 1) se a pessoa 2 for forte e (1; 1) se a pessoa 2 for
fraca. Formule esta situao como um jogo Bayesiano e encontre os equilbrios bayesianos
se < 21 e se > 12 .
Soluo: O jogo Bayesiano : N = {1, 2}; Ci = {L, E}, i N ; T1 = {1}; T2 = {F t, F r};
p(F t|1) = ; e as utilidades so dadas por:
se o jogador 2 for forte:
L
E
L
E
-1,1 1,0
0,1 0,0
L
E
L
E
1,-1 1,0
0,1 0,0
se o jogador 2 for fraco:
6.2. DEFINIO
91
Seja 1 (L), 2 (L|F t), e 2 (L|F r) o perfil de estratgias misto. Ento, a utilidade esperada
do jogador 2 forte de lutar 1, e de se entregar 0. Logo, este tipo do jogador 2 sempre
luta, isto em qualquer equilbrio Bayesiano 2 (L|F t) = 1. A utilidade esperada do jogador
2 fraco de lutar
1 (L) + (1 1 (L)),
e de se entregar 0. Portanto, ele ir lutar se 1 (L) < 21 ; se entregar se 1 (L) > 12 ; e
indiferente se 1 (L) = 21 . A utilidade esperada do jogador 1 de lutar
[2 (L|F t) (1) + (1 2 (L|F t))] + (1 ) = 1 22 (L|F t),
e de se entregar 0. Portanto, ele ir lutar se 2 (L|F t) < 21 ; se entregar se 2 (L|F t) > 12 ;
e est indiferente se 2 (L|F t) = 21 . Como j vimos que em todo equilbrio Bayesiano
2 (L|F t) = 1, ento o jogador 1 ir lutar se < 12 , e se entregar se > 12 . Logo, se < 12 ;
ento o nico equilbrio bayesiano dado por 1 (L) = 1; 2 (L|F t) = 1; e 2 (L|F r) = 0.
Se > 12 ; ento o nico equilbrio bayesiano dado por 1 (L) = 0; 2 (L|F t) = 1; e
2 (L|F r) = 1.
Em um problema de deciso ter mais informao nunca prejudicial, pois o tomador
de deciso pode sempre ignorar a informao recebida. Em um jogo, is to nem sempre
verdade. Se um jogador possui mais informao e os outros jogadores souberem disso, ento
o jogador pode estar numa situao pior como mostra o seguinte exemplo.
Exemplo 6.2.7: Considere que ambos jogadores consideram igualmente provveis que esto
participando dos seguintes jogos, onde 0 < < 12 :
T
B
L
M
1,2 1,0
2,2 0,0
R
1,3
0,3
T
B
L
M
R
1,2 1,3 1,0
2,2 0,3 0,0
ou
Ento, a estratgia L estritamente dominante para o jogador 2, pois se 1 escolher T , L

ter uma utilidade esperada de 2 enquanto M e R tero utilidade esperada 23 , e se 1 escolher
B, L ter utilidade esperada 2, enquanto M e R tero utilidade esperada 32 . Sabendo disto,
1 ento escolher B e no nico equilbrio de Nash, teremos que ambos jogadores recebem 2.
Suponha agora que o jogador 2, antes do jogo recebe um sinal indicando qual o verdadeiro jogo. Neste caso, a estratgia R estritamente dominante para o tipo do jogador 2
que acredita que o jogo o primeiro, enquanto que a estratgia M estritamente dominante
para o tipo do jogador 2 que acredita que o jogo o segundo. Sabendo disto, o jogador 1,
escolher T . Ento, neste equilbrio o jogador 1 recebe 1 enquanto o jogador 2 recebe 3 < 2.
Ento, ambos os jogadores saem perdendo com a informao extra adquirida pelo jogador
2.
Captulo 7
Conhecimento e Conhecimento Comum
7.1
Introduo
Neste captulo descrevemos um modelo para conhecimento e usamos este modelo para formalizar a idia do que conhecimento comum. Utilizaremos este modelo para expressar
formalmente as suposies sobre o conhecimento dos jogadores que esto por trs dos conceitos de equilbrio de Nash e racionalizabilidade.
7.2
Um Modelo para Conhecimento
Quando analisamos jogos, estamos interessados no s no conhecimento dos jogadores sobre

as regras do jogo, mas tambm no conhecimento dos jogadores sobre os conhecimentos dos
demais. Vamos iniciar introduzindo um modelo para conhecimento de um nico agente.
A base deste modelo um conjunto de estados . Os estados podem ser interpretados
como uma descrio de todos os fatos relevantes para o problema de deciso sendo considerado. Uma maneira de definir o conhecimento do agente sobre o verdadeiro estado definir
uma funo de informao K que associa cada estado w com um conjunto no vazio
K(w) de . A interpretao que quando o verdadeiro estado da natureza w o agente
apenas sabe que o verdadeiro estado est em K(w), portanto excluindo os estados fora de
K(w).
Quando utilizamos uma funo de informao para modelar o conhecimento de um agente
freqentemente assume-se que o par (, K) satisfaz as seguintes condies:
P1. w K(w), w .
P2. Se w K(w), ento K(w ) K(w).
P3. Se w K(w), ento K(w) K(w ).
P1 afirma que o agente nunca exclui o verdadeiro estado do conjunto de estados que ele
considera possvel. P2 e P3 afirmam que o agente capaz de realizar introspeco para checar
inconsistncias entre os estados e suas informaes para inferir sobre o verdadeiro estado.
92
7.2. UM MODELO PARA CONHECIMENTO
93
Isto , se w K(w) e w K(w ), ento como quando o verdadeiro estado w o agente

considera w possvel, e quando o verdadeiro estado w ele considera w possvel, ento
quando o verdadeiro estado w, ele tambm deve considerar w possvel, caso contrrio
ele conseguiria distinguir entre w e w . Portanto, w K(w). Alm disso, se w K(w)
e w
/ K(w ), ento como o agente no consegue distinguir entre w e w , e quando w
o verdadeiro estado w no considerado possvel pelo agente, temos que w tambm no
deve ser considerado possvel pelo agente quando w for o verdadeiro estado da natureza.
Definio 7.2.1: Uma funo de informao K para um conjunto particional se existe
uma partio de tal que para todo w , o conjunto K(w) o elemento da partio que
contm w.
O prximo lema d uma caracterizao alternativa para uma funo de informao particional.
Lema 7.2.2: Uma funo de informao particional se, e somente se, ela satisfaz P1, P2,
e P3.
Prova: Se K for particional ela claramente satisfaz P1, P2, e P3. Agora suponha que K
satisfaz P1, P2, e P3. Se w K(w) K(w ), ento por P2 e P3, temos que K(w) = K(w ) =
K(w ). P1 por sua vez implica que w K(w) = . Portanto, K particional.
Exemplo 7.2.3: Seja = [0, 1) e assuma que o agente observa apenas os primeiros quatro
dgitos da expanso decimal do nmero. Ento, para todo w o conjunto K(w) o
conjunto de todos os estados w que possuem os mesmos quatro primeiros dgitos da
expanso decimal de w. Note que esta funo de informao particional.
Um evento qualquer subconjunto de . Dizemos que um evento ocorre se o verdadeiro
estado pertence a este evento. Ento, dada uma funo de informao, se K(w) E, ento
o evento E ocorre em todos os estados que o agente considera possvel quando o verdadeiro
estado w. Dizemos que o agente sabe o evento E no estado w. Podemos ento definir uma
funo de conhecimento K por
K(E) = {w : K(w) E},
ou seja, K(E) o conjunto de todos os estados nos quais o agente sabe E. Qualquer funo
de conhecimento satisfaz as trs propriedades a seguir:
K1 K() = . Portanto, em todos os estados o agente sabe que ocorre.
K2 Se E F , ento K(E) K(F ). Portanto, se E implica F , e o agente sabe que E
ocorre ento ele sabe que F ocorre.
K3 K(E) K(F ) = K(E F ). Portanto, o agente sabe E e sabe F se, e somente se, ele
sabe E F .
7.2. UM MODELO PARA CONHECIMENTO
94
Se K satisfaz P1, ento a funo de conhecimento associada satisfaz a seguinte propriedade:

K4 (Axioma do Conhecimento.) K(E) E. Portanto, o agente no pode saber algum
evento que seja falso.1 Prova: Se w K(E), ento K(w) E. Como P1 implica que
w K(w), temos que w E.
Se K satisfaz P2, ento a funo de conhecimento associada satisfaz a seguinte propriedade:
K5 (Axioma da Transparncia.) K(E) K(K(E)). Portanto, se o agente sabe E, ele
sabe que ele sabe E. Este axioma tambm conhecido como axioma da introspeco
positiva. Prova: Se w K(E), ento K(w) E. Como P2 implica que para todo
w K(w), temos K(w ) K(w). Ento, para todo w K(w), temos que K(w ) E.
Portanto, K(E) K(w), ou seja, w K(K(E)).
Finalmente, se K satisfaz P3, ento a funo de conhecimento associada satisfaz a seguinte
propriedade:
K6 (Axioma da Sabedoria.) K(E) K( K(E)). Portanto, se o agente no sabe
E, ele sabe que ele no sabe E. Este axioma tambm conhecido como axioma da
introspeco negativa. Prova: Se w
/ K(E), ento K(w) * E. Como P3 implica
que para todo w K(w), temos K(w) K(w ). Ento, para todo w K(w), temos
que K(w ) * E. Portanto, K(E) K(w) = , ou seja, K(w) K(E). Portanto,
w K( K(E)).
O prximo exemplo ilustra alguns desses conceitos que apresentamos.
Exemplo 7.2.4: Suponha que n agentes perfeitamente racionais esto sentados ao redor de
uma mesa. Todos esto usando um chapu que ou branco ou preto. Todos os agentes
s podem ver o chapu dos outros agentes. Suponha que um observador anuncia: Cada
um de vocs est usando um chapu que ou branco ou preto; pelo menos um branco.
Vou contar devagar e aps cada nmero, voc tem a oportunidade de levantar a mo quando
souber a cor do seu chapu. Qual o primeiro instante em que um agente levantar sua mo?
Note que, aps o anncio do observador, temos 2n 1 possveis estados que descrevem
todas as combinaes de cores pretas e brancas para os n chapis dos agentes, exceto o caso
em que todos seriam pretos. Ou seja,
= {w {B, P }n : |{i : wi = B}| 1},
onde wi representa a cor do chapu do i-simo agente. Inicialmente, temos que a funo de
informao do i-simo agente dada por: Ki1 (w) = {(wi , B), (wi , P )} se wi = {P }n1 ,
1
Esta propriedade que diferencia conhecimento de crena. Apesar de um agente no poder saber algo
que seja falso, ele pode acreditar em algo que seja falso.
7.3. CONHECIMENTO COMUM
95
e Ki (w) = {w} se wi = {P }n1 . Note que {w : wi = B} o evento o chapu do i-simo

agente branco, ento o evento o i-simo agente sabe a cor do seu chapu :
Ei = {w : Ki (w) {w : wi = B} ou Ki (w) {w : wi = P }}.
Quando Ki = Ki1 para todo i, note que apenas nos estados w em que somente um agente
i tem chapu branco temos w Ej para algum j. Neste caso, temos que w Ei , de modo
que apenas i levanta sua mo quando o observador conta 1.
Seja F 1 = {w : |{i : wi = B}| = 1}, o conjunto de estados nos quais algum levanta a
mo na primeira rodada. Se ningum levanta sua mo, ento os agentes reconhecem uma
nova informao que w
/ F 1 . Portanto, para todo i e w
/ F 1 , temos que Ki (w) = Ki2 (w) =
Ki1 (w) F 1 . Agora note que apenas nos estados w em que somente dois agentes i e h tm
chapu branco, temos que w Ej para algum j. Neste caso, temos que w Ei Eh , de
modo que apenas i e h levantam a mo quando o observador conta 2.
Seja F 2 = {w : |{i : wi = B}| = 2}, o conjunto de estados nos quais algum levanta a
mo pela primeira vez na segunda rodada. Se ningum levanta a mo at a segunda rodada,
ento os agentes reconhecem que w
/ F 1 F 2 , e o processo continua com Ki (w) = Ki3 (w) =
Ki2 (w) F 2 , para todo i e w
/ F 1 F 2 . fcil ver que se k chapis so brancos, ento
ningum levanta a mo at o observador contar k, perodo no qual todos os agentes que tm
chapu branco levantam a mo.
7.3
Conhecimento Comum
Suponha que no Exemplo 7.2.4 os agentes soubessem que todos tinham chapu branco ou
preto, que pelo menos um indivduo tinha chapu branco, e que todos os outros agentes
soubessem deste fato. Ento, se nenhum observador fizesse nenhum anncio, mas apenas a
contagem e aguardasse algum levantar a mo, se pelo menos trs indivduos tivessem chapu
branco ento ningum nunca levantaria a mo. Mas se o observador apenas anunciou o que
os agentes j sabiam, o que mudou nas duas situaes? O que mudou foi que o observador
tornou conhecimento comum entre os agentes que pelo menos um chapu branco. Aps o
anncio os agentes alm de saberem que tinha pelo menos um chapu branco e que todos
os agentes sabiam disso, eles passaram a saber que os outros sabem que eles sabem que
tem pelo menos um chapu branco, e assim por diante em todos os nveis de iterao de
conhecimento. Isto ilustra a importncia de nveis iterados de conhecimento dos agentes.
Formalmente, dizemos que um evento de conhecimento mtuo em um grupo de agentes se todo agente neste grupo sabe o evento. Por outro lado, um evento conhecimento
comum em um grupo de agentes se alm do evento ser conhecimento mtuo entre os agentes do grupo, todos os agentes sabem que os outros agentes sabem do evento, e todos
sabem que todos sabem que todos sabem do evento, e assim por diante. Por simplicidade, vamos nos restringir ao caso de 2 agentes. Neste caso, se K1 e K2 so as funes
de conhecimentos dos agentes, um evento E por definio conhecimento comum entre
1 e 2 em um estado w se w pertence a todos os eventos na seguinte seqncia infinita:
K1 (E), K2 (E), K1 (K2 (E)), K2 (K1 (E)), K1 (K2 (K1 (E))), . . .
7.3. CONHECIMENTO COMUM
96
Se K1 e K2 so as funes de informao dos agentes 1 e 2, um evento F auto-evidente

entre 1 e 2 se para todo w F , temos Ki (w) F para 1 e 2. Portanto, se um evento
auto-evidente entre 1 e 2 verdadeiro, ele conhecimento mtuo entre os agentes 1 e 2. O
prximo lema estabelece algumas caracterizaes equivalentes para eventos auto-evidentes.
Lema 7.3.1: Sejam K1 e K2 funes de informao particionais, sejam K1 e K2 as funes
de conhecimento associadas, e E um evento qualquer. Ento as seguintes condies so
equivalentes:
(a) Ki (E) = E para i = 1, 2.
(b) E auto-evidente entre 1 e 2.
(c) E igual uma unio de membros da partio induzida por Ki , para i = 1, 2.
Prova: Assuma que (a) verdadeiro. Ento, para todo w E, temos Ki (w) E para
i = 1, 2, portanto (b) verdadeiro. Assuma agora que vale (b). Ento, E = wE Ki (w)
(recorde que w Ki (w)) para i = 1, 2, portanto vale (c). Finalmente, se vale (c), temos que
para todo w E, Ki (w) E, ou seja, w Ki (E). Por outro lado, como Ki particional,
temos que Ki (E) E. Logo, vale (a).
Podemos agora utilizar o Lema 7.3.1 para dar uma nova caracterizao para conhecimento
comum em termos de eventos auto-evidentes.
Teorema 7.3.2: Seja um conjunto de estados finito, sejam K1 e K2 funes de informao
particionais, e sejam K1 e K2 as funes de conhecimento associadas. Ento um evento E
conhecimento comum entre 1 e 2 no estado w se, e somente se, existir um evento autoevidente F entre 1 e 2, tal que w F E.
Prova: Assuma que o evento E conhecimento comum entre 1 e 2 no estado w. Pelo axioma
K4, temos que para cada i {1, 2} e j = i, E Ki (E) Kj (Ki (E)) Ki (Kj (Ki (E)))
. Como E conhecimento comum em w, temos que w pertence a todos os eventos
na seqncia anterior, logo todos eles so no vazios. Como finito, existe um evento
Fi = Ki (Kj (Ki Ki (E) )) para o qual Kj (Fi ) = Fi . Por K4 e K5, temos que Ki (Fi ) = Fi .
Ento, pelo Lema 7.3.1, temos que Fi auto-evidente entre 1 e 2. Alm disso temos que
w Fi E.
Para a recproca, assuma que exista um evento auto-evidente F entre 1 e 2 e um estado
w, tal que w F E. Como F auto-evidente, pelo Lema 7.3.1, temos que todos os
eventos do tipo Ki (Kj (Ki Ki (F ) )) so iguais a F . Como w F , segue de K2 que w
membro de todos os eventos do tipo Ki (Kj (Ki Ki (E) )). Portanto, E conhecimento
comum entre 1 e 2.
Exemplo 7.3.3: Seja = {w1 , w2 , . . . , w6 }, K1 e K2 funes de informao particionais, e
sejam K1 e K2 as funes de conhecimento associadas. Sejam as parties induzidas por K1
e K2 dadas por:
K1 = {{w1 , w2 }, {w3 , w4 , w5 }, {w6 }}
K2 = {{w1 }, {w2 , w3 , w4 }, {w5 }, {w6 }}
7.4. IMPOSSIBILIDADE DE CONCORDAR EM DISCORDAR
97
O evento E = {w1 , w2 , w3 , w4 } no contm nenhum evento no vazio que seja autoevidente entre 1 e 2, portanto, E no conhecimento comum em nenhum estado. O evento
F = {w1 , w2 , w3 , w4 , w5 } auto-evidente entre 1 e 2, portanto conhecimento comum entre
1 e 2 em qualquer estado em F .
7.4
Impossibilidade de Concordar em Discordar
Nesta seo provaremos que se as funes de informao de agentes so particionais, no

possvel que seja conhecimento comum entre dois agentes que tm uma probabilidade a
priori comum sobre os estados que o agente 1 associa probabilidade 1 a um evento e que
o agente 2 associa probabilidade 2 = 1 ao mesmo evento. Isto , impossvel que seja
conhecimento comum entre agentes com a mesma distribuio a priori que eles discordam da
distribuio a posteriori de um mesmo evento. Portanto, se queremos modelar uma situao
em que conhecimento comum que existe diferena na distribuio a posteriori de eventos,
no podemos assumir que existe uma distribuio a priori comum entre os agentes, como,
por exemplo, freqentemente assume-se em jogos bayesianos.
Seja uma medida de probabilidade no conjunto de estados , interpretada como a
probabilidade a priori comum entre os agentes, e seja K1 e K2 as funes de informao dos
agentes. Se E um evento e (E|Ki (w)) = i , onde (E|Ki (w)) a probabilidade do evento
E condicionada em Ki (w), ento no estado w o agente i associa probabilidade i ao evento
E. Logo, o evento agente i associa probabilidade i ao evento E {w : (E|Ki (w)) = i }.
Teorema 7.4.1: Suponha que o conjunto de estados finito e que os agentes 1 e 2 tm
a mesma probabilidade a priori. Se as funes de informao dos agentes so particionais
e conhecimento comum entre 1 e 2 em algum estado w que o agente 1 associa
probabilidade 1 a algum evento E e o agente 2 associa probabilidade 2 a algum evento E,
ento 1 = 2 .
Prova: Se as hipteses so satisfeitas, ento existe um evento auto-evidente F tal que
w F e F um subconjunto de 2i=1 {w : (E|Ki (w)) = i }, onde a probabilidade a
priori comum e Ki a funo de probabilidade do agente i. Pelo Lema 7.3.1, F a unio de
membros da partio induzida pela funo de informao do agente i para i = 1, 2. Como
finito, o nmero de membros das parties so finitos. Ento F = nk=1 Ak , onde Ak
membro da partio induzida por K1 e F = m
k=1 Bk , onde Bk membro da partio induzida
por K2 . Como para todo k, (E|Ak ) = 1 , segue que (E|F ) = 1 . Similarmente, obtemos
(E|F ) = 2 . Logo, 1 = 2 .
Captulo 8
Jogos Repetidos
8.1
Introduo
Agentes podem se comportar de maneira diferente em relao a outros agentes com os quais
eles esperam interagir novamente em comparao a outros agentes com os quais eles esperam
nunca mais interagir. Para entender como o comportamento racional e inteligente pode ser
afetado pela estrutura de futuras interaes entre os agentes, estudam-se jogos repetidos.
Em geral, temos duas classes de modelos para jogos repetidos: o horizonte pode ser finito
ou infinito. Veremos que os resultados podem ser diferentes quando analisamos um ou outro
tipo de modelo. Um modelo com um horizonte infinito apropriado se aps cada perodo de
interao os agentes acreditam que o jogo continuar, enquanto um modelo com horizonte
finito apropriado se os agentes claramente percebem um perodo final de interao para o
jogo.
8.2
Jogos Repetidos Infinitas Vezes
O modelo para jogos repetidos infinitas vezes captura uma situao na qual agentes interagem
repetidas vezes em um jogo em forma normal G. Assumiremos que G = (N, (Ai )iN , (ui )iN ),
onde Ai compacto e ui uma funo contnua e limitada em A = jN Aj .
Definio 8.2.1: A repetio infinita de um jogo G um jogo em forma extensiva com
informao perfeita e movimentos simultneos (N, H, P, (ui )iN ), onde
t
H = {} (
o conjunto de todas as
t=1 A ) A , onde a histria inicial e A
de
perfis
de
estratgias
de
G.
seqncias infinitas (at )
t=1
P (h) = N para toda histria no terminal, de forma que todos os jogadores se movem
aps cada repetio do jogo G.
ui uma funo utilidade em A que estende a funo utilidade ui no sentido que ela
satisfaz a seguinte condio de separabilidade fraca: se (at ) A , a A, a A, e
ui (a) ui (a ), ento
ui (a1 , . . . , at1 , a, at+1 , . . .) ui (a1 , . . . , at1 , a , at+1 , . . .),
98
8.2. JOGOS REPETIDOS INFINITAS VEZES
99
para todos os valores de t.
Uma histria terminal se, e somente se, ela for infinita. Aps qualquer histria no
terminal, cada jogador escolhe uma ao em Ai . Portanto, uma estratgia para o jogador i
uma funo que associa uma ao em Ai para cada seqncia finita de perfis de estratgias
de G.
Podemos impor outras condies nas funes utilidades dos agentes alm da separabilidade fraca. Primeiro, podemos assumir que a funo utilidade ui do jogo repetido baseada
t
somente na funo utilidade do jogo G, isto , assumimos que se ui ((at )
t=1 ) ui ((b )t=1 )
depende apenas da relao entre as correspondentes seqncia de utilidades ui (at ) e ui (bt )
de G. Consideraremos trs possveis condies na forma da funo utilidade, a primeira
definida a seguir:
Definio 8.2.2: Desconto. Existe algum nmero (0, 1), chamado de fator de desconto,
tal que a seqncia
de nmeros reais vit pelo menos to boa quanto a seqncia wit se, e
t1
somente se, i=1 (vit wit ) 0. Como assumimos que vit limitada, temos que a srie
t1 t
vi convergente e representa como o agente i avalia a seqncia (vit ) de utilidades.
i
Quandoa funo utilidade de todos os agentes tomam esta forma, nos referimos ao perfil
t1 t
((1)
vi )iN como o perfil de utilidades no jogo repetido associado com a seqncia
t=1
t
(v ) de perfil de utilidades do jogo G.
Note que utilidades que satisfazem este critrio do desconto tratam os perodos de forma
diferente, pois o valor de um ganho diminui com o tempo. As outras condies tratam os
perodos de forma simtrica. No primeiro critrio os jogadores
uma seqncia (vit )
T avaliam
1
t
essencialmente pelo limite de sua mdia aritmtica limT T t=1 vi , contudo como este limite
pode no existir o critrio se torna o seguinte:
Definio 8.2.3: Limite das Mdias. De acordo com este critrio, a seqncia
de nmeros
reais (vit ) melhor que a seqncia (wit ) se, e somente se, lim inf T T1 Tt=1 (vit wit ) > 0.
Quando
a funo utilidade de todos os agentes tomam esta forma, nos referimos ao perfil
1
(limT T Tt=1 vit )iN , se ele existe, como o perfil de utilidades no jogo repetido associado com
a seqncia (v t ) de perfil de utilidades do jogo G.
Note que ao contrrio do caso do desconto onde a mudana de utilidade em apenas um
nico perodo pode alterar a preferncia entre seqncias, no caso do critrio do limite de
mdias, qualquer mudana em um nmero finito de perodos no altera como a seqncia
avaliada. Portanto, este critrio til para modelar situaes onde os agentes pe toda
importncia no longo prazo mesmo que isso signifique prejuzos considerveis no curto prazo.
O terceiro e ltimo critrio trata os perodos simetricamente, coloca nfase no longo
prazo, mas ao mesmo tempo sensvel a uma mudana de utilidade em um nico perodo.
Definio 8.2.4: Ultrapassagem. De acordo com este critrio,a seqncia de nmeros
reais (vit ) melhor que a seqncia (wit ) se, e somente se, lim inf T Tt=1 (vit wit ) > 0.
8.3. ESTRATGIAS COMO MQUINAS
100
Observao 8.2.5: Quando utilizamos este critrio, no pode-se definir um perfil de utilidades do jogo repetido associado
seqncia de utilidades v t do jogo G, pois na grande
a uma
maioria dos casos de interesse t vit uma srie divergente.
Os seguintes exemplos ilustram algumas diferenas entre esses trs critrios. A seqncia
(1, 1, 0, 0, . . .) melhor para qualquer (0, 1) pelo critrio do desconto que a seqncia (0, 0, . . .), mas de acordo com os outros dois critrios as seqncias so indiferentes. A
seqncia (1, 2, 0, 0, . . .) melhor que a seqncia (0, 0, . . .) segundo o critrio da ultrapassagem, mas as duas so indiferentes segundo o critrio do limite das mdias. A seqncia
(0, . . . , 0, 1, 1, . . .) na qual M zeros so seguidos por uma seqncia constante de 1s melhor
pelo critrio do limite das mdias que a seqncia (1, 0, 0, . . .) para qualquer valor de M , mas
para qualquer existe um M grande o suficiente tal que para todo M > M , esta ltima
seqncia melhor que a anterior pelo critrio do desconto para este valor de .
Denotaremos por u(a) o perfil (ui (a))iN . Um vetor v IRN um perfil de utilidades
de (N, (Ai ), (ui )) se existe um perfil de estratgias a A para o qual v = u(a). Nos
referimos a um vetor v IRN como um perfil de utilidades possvel
de (N, (Ai ), (ui )) se ele
for uma combinao convexa de perfis de utilidades, isto ,se v = aA a u(a) para alguma
coleo (a )aA de nmeros racionais no-negativos com aA a = 1.1 Note que um perfil
de utilidades possvel de (N, (Ai ), (ui )) no necessariamente um perfil de utilidades de
(N, (Ai ), (ui )).
8.3
Estratgias como Mquinas
Nesta seo apresentamos uma linguagem para descrever convenientemente as estratgias

utilizadas por jogadores em jogos repetidos. Comeamos definindo o que uma mquina,
que uma abstrao do processo utilizado por um jogador para implementar uma estratgia.
Uma mquina para o jogador i de um jogo G = (N, (Ai ), (ui )) repetido infinitas vezes tm
as seguintes componentes:
Um conjunto de estados Qi .
Um estado inicial qi0 Qi .
Uma funo de sada fi : Qi Ai que especifica uma estratgia do jogo G para cada
estado.
Uma funo de transio i : Qi A Qi que associa um estado a cada par de estado
e perfil de estratgias do jogo G.
Para ilustrar este conceito de mquina considere os seguintes exemplos de mquinas para
um jogador no Dilema do Prisioneiro representado na tabela a seguir repetido infinitas vezes.
1
Seguimos a restrio de requerer que a seja racional sugerida por Osborne e Rubistein (1994), esta
restrio pode ser retirada complicando argumentos que veremos a seguir.
8.3. ESTRATGIAS COMO MQUINAS
C
D
101
C
3,3
4,0
D
0,4
1,1
Exemplo 8.3.1: A mquina (Qi , qi0 , fi , i ) definida a seguir a mais simples que implementa
a estratgia que escolhe C enquanto ambos jogadores tenham sempre escolhido C no passado,
e escolhe D no caso contrrio.
Qi = {C, D}.
qi0 = C.
fi (C) = C e fi (D) = D.
i (C, (C, C)) = C e i (X, (Y, Z)) = D se (X, (Y, Z)) = (C, (C, C)).
Exemplo 8.3.2: A seguinte mquina implementa a estratgia para o jogador 1 escolha C

enquanto 2 escolhe C, se o jogador 2 escolhe D quando o jogador 1 escolhe C, o jogador
1 jogar D por trs perodos seguidos e retornar a escolher C aps esses trs perodos
independente das escolhas de 2 nestes trs perodos, ou seja, 1 pune 2 por trs perodos e
depois perdoa 2.
Q1 = {P0 , P1 , P2 , P3 }.
q10 = P0 .
f1 (P0 ) = C e f1 (P ) = D se P = P0 .
1 (P0 , (, C)) = P0 , 1 (P0 , (, D)) = P1 , 1 (P1 , (, )) = P2 , 1 (P2 , (, )) = P3 , e 1 (P3 , (, )) =
P0 .
Exemplo 8.3.3: A seguinte mquina implementa a estratgia para o jogador 2, comece

jogando C e continue se o jogador 1 escolhe D. Se o jogador 1 escolher C, ento escolha D,
continue a jogar D at que o jogador 1 escolha D novamente, quando 2 dever escolher C,
e assim por diante.
Q2 = {R0 , R1 }.
q20 = R0 .
f2 (R0 ) = C e f2 (R1 ) = D.
2 (R0 , (D, )) = R0 , 2 (R0 , (C, )) = R1 , 2 (R1 , (C, )) = R1 , e 2 (R1 , (D, )) = R0 .
8.4. ESTRATGIAS GATILHO: TEOREMAS DE NASH FOLK
8.4
102
Estratgias Gatilho: Teoremas de Nash Folk
Estudamos agora o conjunto de equilbrios de Nash de um jogo repetido infinitas vezes.

Mostramos que este conjunto inclui perfis de estratgias que no so repeties de equilbrios
de Nash do jogo que se repete a cada perodo. Para justificar este perfil, cada jogador deve ser
impedido de desviar atravs de uma punio. Esta punio pode tomar vrias formas. Uma
possibilidade que cada jogador use uma estratgia gatilho: qualquer desvio dos outros
jogadores leva o jogador a realizar uma estratgia punitiva que dura para sempre. Nesta
seo estudaremos equilbrios em que os jogadores utilizam tais tipos de estratgias.
Dado um jogo G = (N, (Ai ), (ui )), uma utilidade minimax para o jogador i, denotada
por vi , a menor utilidade que os demais jogadores podem forar jogador i receber:
vi = min max ui (ai , ai ).
ai Ai ai Ai
Um perfil de utilidades w para o qual temos wi vi para todo i N chamado individualmente racional; se wi > vi para todo i N , ento w individualmente racional estrito. Se
a A um perfil de estratgias de G para o qual u(a) individualmente racional (estrito),
ento nos referimos a a como um perfil de estratgias individualmente racional (estrito) de
G. Seja pi Ai uma das solues do problema de minimizao acima. A coleo de
estratgias pi a punio mais severa que os demais jogadores podem impor ao jogador i.
Mostraremos que existe uma relao entre o conjunto de perfis de utilidade dos equilbrios
de Nash de um jogo repetido infinitas vezes e o conjunto de perfis de utilidade possveis
e individualmente racionais do jogo G, quando utilizamos ou o critrio do desconto ou o
critrio do limite das mdias.
Teorema 8.4.1: Todo perfil de utilidades de um equilbrio de Nash do jogo G = (N, (Ai ), (ui ))
repetido infinitas vezes quando se utiliza os critrios do limite das mdias ou do desconto
para qualquer fator de desconto (0, 1) um perfil de utilidades individualmente racional
de G.
Prova: Suponha que w um perfil de utilidades do jogo que no individualmente racional
em G. Ento, existe i N tal que wi < vi . w no pode ser um perfil de utilidades de um
equilbrio de Nash do jogo repetido infinitas vezes quando se utiliza os critrios do limite das
mdias ou do desconto para qualquer fator de desconto (0, 1), pois para qualquer perfil
de estratgias do jogo repetido s, a estratgia si do jogador i que uma melhor resposta a
si (h) para cada histria h garante ao jogador i utilidade de pelo menos vi em cada perodo.
Portanto, utilizando qualquer um desses dois critrios, temos que vantajoso para o jogador
i mudar de estratgias quando estamos considerando qualquer perfil de estratgias que d
ao jogador i utilidade menor que vi . Logo, tais perfis no podem ser equilbrios de Nash do
jogo repetido.
O prximo teorema prova a recproca para o caso do critrio do limite das mdias.
Teorema 8.4.2: Teorema de Nash Folk para o Critrio do Limite das Mdias.
Todo perfil de utilidades possvel e individualmente racional de um jogo G = (N, (Ai ), (ui ))
um perfil de utilidades de um equilbrio de Nash do jogo G repetido infinitas vezes quando
utilizamos o critrio do limite das mdias.
8.4. ESTRATGIAS GATILHO: TEOREMAS DE NASH FOLK
103
Prova: Seja w = aA ( a )u(a) um perfil de utilidades possvel e individualmente racional,
onde a um nmero inteiro e = aA a . (Note que sempre possvel escrever um perfil

de utilidades possvel e individualmente racional desta forma pois assumimos que a um
nmero racional na definio de um perfil de utilidades possvel.) Seja (at ) uma seqncia
cclica de perfis de estratgia do jogo G onde o ciclo de comprimento possui a repeties
do perfil de estratgias a para todo a A. Seja si a estratgia para o jogo repetido do
jogador i que escolhe ati em cada perodo t exceto quando existir algum perodo anterior
t onde um nico jogador diferente de i desviou da estratgia especificada pelo perfil at ,

neste caso, se j foi o primeiro jogador a desviar em um tal perodo t , temos que i jogar
a estratgia (pj )i em todos os perodos subseqentes a t independente do que os demais
jogadores faam no futuro. O perfil de estratgias s um equilbrio de Nash do jogo repetido
visto que um jogador j que desvia da estratgia sj recebe no mximo sua utilidade minimax
vj em todo perodo subseqente ao primeiro desvio, portanto segundo o critrio do limite
das mdias a utilidade desta outra estratgia menor ou igual a vj . Mas de acordo com o
perfil s, a utilidade de j igual a wj vj segundo este critrio, portanto nenhum jogador
tem incentivo a desviar da estratgia determinada pelo perfil s.
O prximo teorema o resultado anlogo para o critrio do desconto.
Teorema 8.4.3: Seja w um perfil de utilidades possvel e individualmente racional estrito
de um jogo G = (N, (Ai ), (ui )). Para todo > 0, existe < 1 tal que se 1 > > , ento o
jogo G repetido infinitas vezes quando se utiliza o critrio do desconto com fator de desconto
possui um equilbrio de Nash com perfil de utilidades w satisfaz |w w| < .
Prova: Exerccio.
Exemplo 8.4.4: Para ilustrar equilbrios de Nash nos quais jogadores utilizam estratgias
gatilho, considere dois jogos repetidos infinitas vezes. O primeiro G1 o Dilema do Prisioneiro
descrito na tabela a seguir:
C
D
C
3,3
4,0
D
0,4
1,1
O segundo G2 o jogo descrito na tabela a seguir:

C
D
C
2,3
0,1
D
1,5
0,1
Em G1 e G2 temos que a utilidade minimax para ambos os jogadores 1 e jogando D

cada jogador garante que o outro no pode conseguir uma utilidade maior que este valor
(p1 = p2 = D). Em ambos os casos, a estratgia gatilho utilizada na prova do Teorema 8.4
envolve os jogadores mudar para utilizar D em resposta a algum desvio das estratgias de
equilbrio. Em G1 como D domina C, ento esta ameaa justificvel. Por outro lado, em
G2 como a estratgia C domina a estratgia D para o jogador 1, o jogador 1 sofre com a
punio que ele impe ao jogador 2. Portanto, esta ameaa no jogo G2 parece inacreditvel.
8.5. PUNINDO POR TEMPO LIMITADO: UM TEOREMA DE FOLK PERFEITO

PARA O CRITRIO DO LIMITE DAS MDIAS
104
Este exemplo nos leva a necessidade de analisar equilbrios de subjogo perfeito, pois neste
caso todos os jogadores tm que agir otimamente aps cada histria.
8.5
Punindo por Tempo Limitado: Um Teorema de Folk

Perfeito para o Critrio do Limite das Mdias
As estratgias gatilho utilizadas na prova do Teorema de Nash Folk punem os jogadores que
desviam da estratgia de equilbrio indefinidamente. Esta punio pode ser desnecessariamente severa, s necessrio manter a utilidade do jogador que desvia da estratgia prescrita
no nvel minimax por uma quantidade de perodos suficientemente grande para que o desvio
no seja lucrativo; deste modo, inibindo tal comportamento. Se as preferncias dos jogadores obedecem o critrio do limite das mdias, ento esta estratgia que retorna a trajetria
de equilbrio tem a vantagem que ela proporciona a mesma utilidade que a trajetria de
equilbrio, visto que elas diferem em apenas um nmero finito de perodos. Portanto, esta
estratgia no causa nenhum prejuzo ao jogador que precisa impor uma punio a algum
oponente. Veremos que tal estratgia constitui um equilbrio de subjogo perfeito do jogo
repetido infinitas vezes quando o critrio do limite das mdias utilizado.
Teorema 8.5.1: Todo perfil de utilidades possvel e individualmente racional estrito de um
jogo G = (N, (Ai ), (ui )) um perfil de utilidades de um equilbrio de subjogo perfeito do jogo
G repetido infinitas vezes quando consideramos o critrio do limite das mdias.
Prova: Seja w = aA ( a )u(a) um perfil de utilidades possvel e individualmente racional
estrito, onde a um nmero inteiro e = aA a . Seja ainda (ak )k=1 uma seqncia de
perfis de estratgia de G que consiste de a repeties de a para cada a A.
Vamos construir um perfil de estratgias para o jogo repetido que gera uma seqncia
de perfis de estratgias de G que consiste de infinitas repeties do ciclo (ak )k=1 . Cada
jogador pune um desvio dos demais por um perodo limitado de tempo, que por convenincia
assumiremos que s inicia aps o fim de um ciclo (ak )k=1 . Aps o perodo de punio todos os
jogadores retomam as repeties de (ak )k=1 . Se houverem desvios simultneos de jogadores
esses so ignorados e no so punidos. Como estamos considerando o critrio do limite das
mdias, se todos os jogadores, seguem este tipo de estratgia temos que qualquer trajetria
tm perfil de utilidade w.
Formalmente, seja g = maxiN,ai Ai ,aA ui (ai , ai ) ui (a), isto , g o maior ganho que
qualquer jogador pode ter desviando de qualquer perfil de estratgias. Como wi > vi , existe
um inteiro m grande o suficiente tal que m (wi vi ) g para todo i N . A estratgia
de qualquer jogador i pune qualquer jogador que desvie por m perodos e descrita pela
seguinte mquina:
Qi = {(N ormk , d): ou k = 1 e d = 0, ou 2 k e d {0} N } {P (j, t) : j N
e 1 t m }.
O estado (N ormk , 0) significa que estamos no k-simo perodo de um ciclo e
nenhum jogador merece punio.
8.5. PUNINDO POR TEMPO LIMITADO: UM TEOREMA DE FOLK PERFEITO

PARA O CRITRIO DO LIMITE DAS MDIAS
105
O estado (N ormk , j) significa que estamos no k-simo perodo de um ciclo e o

jogador j merece punio.
O estado P (j, t) significa que o jogador j est sendo punido e ainda restam t
perodos de punio.
qi0 = (N orm1 , 0).
fi ((N ormk , d)) = aki , fi (P (j, t)) = (pj )i se j = i e fi (P (i, t)) = bi (pi ), onde bi (pi )
uma melhor resposta para pi em G.
De P (j, t) mude para P (j, t 1) se 2 t m , de P (j, 1) mude para (N orm1 , 0).
De (N ormk , d) mude para (N ormk+1(mod) , d), exceto quando
d = 0 e apenas o jogador j desviou de ak , neste caso, de (N ormk , 0) mude para
(N ormk+1 , j) se k = e de (N orm , 0) mude para P (j, m ).
d = 0 e k = , neste caso de (N orm , d) mude para P (d, m ).
Vamos agora verificar que este perfil de estratgias constitui um equilbrio de subjogo
perfeito do jogo repetido quando usamos o critrio do limite das mdias. Primeiro, aps
qualquer histria na qual nenhum jogador tenha desviado ainda, nenhum jogador pode desviar da estratgia de equilbrio e obter ganhos, pois o maior ganho possvel por ciclo g e
a perda que o jogador i sofrer pela punio dos demais m (wi vi ) por ciclo, que maior
ou igual a g para todo i N .
Suponha agora que estamos em qualquer histria na qual o jogador j merece ser punido ou
est sendo punido. Note que aps o ciclo de punio para o jogador j, segundo as estratgias
de equilbrio, o jogo retornar ao estado inicial, e j provamos que deste ponto em diante
no vantajoso para nenhum jogador desviar da estratgia de equilbrio. Portanto, como
at o fim do ciclo da punio temos uma quantidade finita de no mximo ( + m ) perodos,
segundo o critrio do limite das mdias nenhum jogador pode desviar com vantagem.
Considere novamente o jogo do Dilema do Prisioneiro da tabela a seguir repetido infinitas
vezes.
C
D
C
2,3
0,1
D
1,5
0,1
Neste jogo, temos v1 = v2 = 1. Considere o perfil de estratgias do jogo repetido

definido na prova do Teorema 8.5.1 que suporta a seqncia de perfis de estratgia (at ), onde
at = (C, C) que toma a seguinte forma: cada jogador escolhe C em todo perodo a no ser
que os outros jogadores desviaram no perodo anterior, neste caso o jogador escolhe D por
2 perodos e depois retorna a escolher C.
Apesar desta estratgia ser um equilbrio de subjogo perfeito quando considera-se o critrio do limite das mdias, ela no um equilbrio de considerarmos ou a regra da ultrapassagem ou a regra do desconto. Note que aps um desvio do jogador 2, o jogador 1 deve
8.6. PUNINDO QUEM NO PUNE: UM TEOREMA DE FOLK PERFEITO PARA O

CRITRIO DA ULTRAPASSAGEM
106
escolher D por 2 perodos antes de retornar a C. Contudo, jogador 1 estaria melhor escolhendo C que punindo o jogador 2, pois a seqncia de utilidades (1, 1, 2, 2, 2, . . .) melhor
segundo os critrios de ultrapassagem e do desconto que a seqncia (0, 0, 2, 2, 2, . . .). Para
justificar uma trajetria de equilbrio na qual o perfil de estratgias (C, C) utilizado em
todo perodo, jogador 2 precisa punir o jogador 1 se este no punir o jogador 2. Alm disso,
jogador 2 tem que ser punido se ele no punir jogador 1 por no punir o jogador 2, e assim
por diante. A seguir usaremos estratgias que satisfazem este critrio para provar Teoremas
Perfeitos de Folk para os critrios de ultrapassagem e desconto.
8.6
Punindo quem no Pune: Um Teorema de Folk Perfeito para o Critrio da Ultrapassagem
O prximo teorema utiliza estratgias que punem quem no punir para provar um teorema
de Folk Perfeito para o critrio da ultrapassagem. Por simplicidade, construiremos uma
estratgia apenas para o caso onde a trajetria de equilbrio consiste de repeties de um
nico perfil de estratgia individualmente racional estrito.
Teorema 8.6.1: Para todo perfil de estratgias individualmente racional estrito a de um
jogo G = (N, (Ai ), (ui )), existe um um equilbrio de subjogo perfeito do jogo G repetido
infinitas vezes quando consideramos o critrio da ultrapassagem que gera a trajetria (at ),
onde at = a , t.
Prova: Seja M o mximo de ui (a) para todo i N e a A. Considere o perfil de estratgias
onde o jogador i utiliza a estratgia descrita pela seguinte mquina:
Qi = {N orm} {P (j, t) : j N e t IN }.
No estado N orm ningum necessita ser punido.
No estado P (j, t) jogador j necessita ser punido por t perodos.
qi0 = N orm.
fi (N orm) = ai , fi (P (j, t)) = (pj )i se j = i e fi (P (i, t)) = bi (pi ), onde bi (pi ) uma
melhor resposta para pi em G.
Em resposta a um perfil de estratgia a:
De N orm fique em N orm exceto quando aj = aj para um e somente um j, neste
caso mude para P (j, t), onde t o menor inteiro tal que M + tvj < (t + 1)uj (a ).
(Lembre que como a individualmente racional estrito uj (a ) > vj j N .)
De P (j, t):
se aj = pj ou al = (pj )l para pelo menos dois jogadores diferentes de j, ou
seja, ou todos punem j ou pelo menos dois no punem, mude para P (j, t 1)
se t 2, e para N orm se t = 1.
8.7. RECOMPENSANDO QUEM PUNE: UM TEOREMA DE FOLK PERFEITO PARA

O CRITRIO DO DESCONTO
107
se al = (pj )l para um e somente um jogador l, ento mude para P (l, T (j, t)),
onde T (j, t) um inteiro grande o suficiente tal que a soma da utilidade de l
no estado P (j, t) e nos T (j, t) perodos seguintes se l no desviar maior ou
igual sua utilidade no estado P (j, t) quando ele desvia mais T (j, t)vl . (Este
nmero T (j, t) existe pois aps t perodos os jogadores retornariam ao perfil
de equilbrio a e ul (a ) > vl ).
Com este perfil de estratgias, qualquer tentativa de algum jogador de aumentar sua
utilidade desviando sozinho aps qualquer histria, incluindo histrias aps a qual punio
deve ocorrer, no vantajosa devido a punio imposta pelos outros jogadores. Um argumento similar ao do Teorema 8.5.1 prova que este perfil realmente um equilbrio de subjogo
perfeito. Verifique!
8.7
Recompensando quem Pune: Um Teorema de Folk

Perfeito para o Critrio do Desconto
Como na estratgia utilizada na seo anterior um jogador, que no pune um outro jogador
j que deveria ser punido no perodo t, deve ser penalizado durante T (j, t) perodos no futuro,
temos que estes perodos de penalizao podem ser cada vez maiores, portanto no importa
quo prximo de 1 seja o fator de desconto pode ser que seja impossvel que a pena futura
seja maior que o ganho presente do jogador quando utilizamos o critrio do desconto.
Para estabelecer um resultado anlogo para o caso do critrio do desconto, para tanto
usaremos estratgias segundo as quais jogadores que punem jogadores que desviam da estratgia de equilbrio so recompensados no futuro tornando o ato de punir vantajoso para tais
jogadores. Como anteriormente, por simplicidade, construiremos uma estratgia apenas para
o caso onde a trajetria de equilbrio consiste de repeties de um nico perfil de estratgia
individualmente racional estrito. Neste, teorema precisamos restringir a classe de jogos G.
Dizemos que um jogo G = (N, (Ai ), (ui )) tem dimensionalidade completa em relao a um
perfil de estratgias a individualmente racional e estrito se existe uma coleo (a(i))iN de
perfis de estratgias individualmente racionais e estritos de G de forma que para todo i N ,
temos a i a(i) e a(j) i a(i) para todo j N {i}.
Teorema 8.7.1: Seja a um perfil de estratgias individualmente racional e estrito de um
jogo G = (N, (Ai ), (ui )) com dimensionalidade completa em relao a a . Ento, existe < 1
tal que para todo > existe um equilbrio de subjogo perfeito do jogo G repetido infinitas
vezes quando utilizamos o critrio do desconto com fator de desconto que gera a trajetria
(at ) na qual at = a para todo t.
Prova: Iremos descrever as estratgias utilizadas pelos jogadores neste tipo de equilbrio
de subjogo perfeito utilizando uma mquina com trs tipos de estados. No estado C(0) o
perfil de estratgias de G escolhido pelos jogadores a . Para cada j N o estado C(j)
um estado de reconciliao que ocorre aps uma punio ao jogador j ser completada,
neste estado o perfil de estratgias escolhido a(j). Para cada jogador j e perodo t entre
8.7. RECOMPENSANDO QUEM PUNE: UM TEOREMA DE FOLK PERFEITO PARA

O CRITRIO DO DESCONTO
108
1 e L, que especificaremos depois, o estado P (j, t) um no qual ainda restam t perodos

para o jogador j ser punido, neste estado todo jogador i exceto j escolhe a estratgia (pj )i ,
e o jogador j escolhe uma melhor resposta para pj . Se um nico jogador i se desviar da
trajetria de equilbrio ocorre uma transio para o estado P (i, L). Se em nenhum dos L
perodos houver um desvio por um nico jogador diferente de i o estado se torna C(i). Note
que o conjunto de estados {C(i)} serve como um sistema que pune jogadores que desviam
durante a fase de punio: se algum jogador i no pune jogador j como ele deveria fazer,
ento aps a fase de punio ao invs do estado se tornar C(j) se tornar C(i), ento o
perfil de estratgias escolhido ser pior para o jogador i, pois a(j) i a(i). Formalmente,
assumindo que a(0) = a , temos
Qi = {C(j) : j {0} N } {P (j, t) : j N e 1 t L}.
qi0 = C(0).
fi (C(j)) = (a(j))i , fi (P (j, t)) = (pj )i se j = i e fi (P (i, t)) = bi (pi ), onde bi (pi )
uma melhor resposta para pi em G.
Em resposta a um perfil de estratgia a:
De C(j) fique em C(j) exceto quando ak = (a(j))k para um e somente um k,
neste caso mude para P (k, L).
De P (j, t):
se aj = pj ou ak = (pj )k para pelo menos dois jogadores diferentes de
j, ou seja, ou todos punem j ou pelo menos dois no punem, mude para
P (j, t 1) se t 2, e para C(j) se t = 1.
se ak = (pj )k para um e somente um jogador k = j, ento mude para
P (k, L).
Resta-nos agora especificar os valores de e L. Seja M o mximo de ui (a) para todo
i N e a A. Devemos escolher e L grandes o suficiente para que qualquer desvio no
seja vantajoso. Considere que estamos em um estado C(j), ento a utilidade esperada para
qualquer jogador i desviar da estratgia de equilbrio no mximo igual a:
M+
k=1
vi +
k ui (a(i)).
k=L+1
Por outro lado se i no desviar, sua utilidade esperada :

ui (a(j)) +
k=1
k ui (a(j)) +
k ui (a(j)).
k=L+1
Note que or suposio temos que ui (a(j)) > ui (a(i)). Como ui (a(j)) > vi para todo i,
podemos escolher L tal que M ui (a(j)) < L(ui (a(j)) vi ) para todo i N e j {0} N .
8.8. JOGOS REPETIDOS FINITAS VEZES
109
Podemos ainda escolher prximo o suficiente de 1 tal que para todo > , i N e
j {0} N , temos
L
L
M+
k vi < ui (a(j)) +
k ui (a(j)).
k=1
k=1
Portanto, para tais escolha de L e no vantajoso para nenhum jogador i desviar em um

estado C(j). Suponha agora que estamos em um estado P (j, t), ento a utilidade esperada
para qualquer jogador i = j desviar da estratgia de equilbrio no mximo igual a:
L
M+
k vi +
k=1
k ui (a(i)).
k=L+1
Por outro lado se i no desviar, sua utilidade esperada :

t1
k ui (pj , bj (pj )) +
k ui (a(j)).
k=t
k=0
Como L + 1 > t e ui (a(j)) > ui (a(i)), podemos escolher > prximo o suficiente de 1 tal
que para todo > , i N e j {0} N , temos
M+
k=1
<
k=t
k vi
t1
k=0
ui (a(j))
k
k ui (pj , bj (pj ))
k ui (a(i)).
k=L+1
Como M > vi temos que no vantajoso para o jogador i desviar em um estado P (j, t).
Como j utiliza uma melhor resposta em um estado P (j, t) no vantajoso para ele desviar
desta estratgia.
8.8
Jogos Repetidos Finitas Vezes
Vamos agora estudar jogos repetidos finitas vezes. Seja G = (N, (Ai )iN , (ui )iN ), onde Ai
compacto e ui uma funo contnua e limitada em A = jN Aj .
Definio 8.8.1 : A repetio finita de um jogo G um jogo em forma extensiva com
informao perfeita e movimentos simultneos (N, H, P, (ui )iN ), onde
H = {} (Tt=1 At ), onde a histria inicial.
P (h) = N para toda histria no terminal, de forma que todos os jogadores se movem
aps cada repetio do jogo G.
ui uma funo utilidade em AT que estende a funo utilidade ui . Vamos nos
restringir
ao caso do critrio do limite das mdias, ou seja, assumiremos que ui (a) =
T
1
t
1 2
T
t=1 ui (a ), onde a = (a , a , . . . , a ).
T
110
Uma histria a terminal se, e somente se, a AT . Aps qualquer histria no terminal,
cada jogador i escolhe uma ao em Ai . Portanto, como no caso infinito uma estratgia para
o jogador i uma funo que associa uma ao em Ai para cada seqncia finita de perfis
de estratgias de G. Este jogo conhecido como a repetio do jogo G durante T perodos.
8.8.1
Equilbrio de Nash
O argumento intuitivo por trs dos Teoremas de Folk para jogos repetidos infinitas vezes
que qualquer perfil de utilidades que seja desejvel por todos os jogadores pode ser um
equilbrio de Nash se todos acreditam que quando se desviarem da trajetria de equilbrio
sero punidos pelos demais jogadores. No caso de jogos finitos, este argumento no pode ser
aplicado em todos os casos, pois sempre teremos que os jogadores devem jogar um equilbrio
de Nash no ltimo perodo de repetio T . Portanto, quando analisamos o perodo anterior
T 1 as ameaas de punio podem se tornar inacreditveis. O prximo teorema mostra que
no caso especial em que todos os equilbrios de Nash o perfil de utilidades igual ao perfil
de utilidades minimax de G (como no caso do Dilema do Prisioneiro), ento em qualquer
perodo os jogadores devero utilizar um equilbrio de Nash de G.
Teorema 8.8.2: Se o perfil de utilidades em qualquer equilbrio de Nash de um jogo em
forma normal G o perfil (vi )iN de utilidades minimax de G, ento para qualquer valor
de T , todo equilbrio de Nash do jogo G repetido T vezes gera uma trajetria de perfis de
estratgias (a1 , . . . , aT ) do jogo G com a propriedade que at um equilbrio de Nash de G,
para todo t = 1, 2, . . . , T .
Prova: Seja s o perfil de estratgias do jogo repetido que gera a trajetria de equilbrio
a = (a1 , . . . , aT ). Suponha que exista um perodo t tal que at no seja um equilbrio de Nash
de G. Ento, existe i N tal que ui (ati , ai ) > ui (at ). Considere a estratgia si do jogador
i que difere de si apenas no fato que aps a histria (a1 , a2 , . . . , at1 ) ela escolhe ai , e aps
qualquer histria h que se segue, ela escolhe uma ao melhor resposta para si (h), obtendo
portanto uma utilidade pelo menos igual a utilidade minimax vi . A trajetria gerada por
(si , si ) uma histria terminal b AT que idntica a a at o perodo t 1, ui (bt ) > ui (at ),
e ui (br ) vi = ui (ar ) para todo r t + 1. Portanto, jogador i prefere b a a, contradizendo
a suposio que s um equilbrio de Nash do jogo repetido.
Este resultado se aplica a uma classe muito pequena de jogos. Por exemplo, se o jogo G
possuir um equilbrio de Nash a no qual a utilidade de algum jogador excede sua utilidade
minimax, ento este jogador pode ser punido no ltimo perodo se ele tiver desviado no
penltimo perodo e a estratgia que seria utilizada no ltimo perodo fosse igual a a . Se
esta punio no for suficiente, ento existe L grande o suficiente tal que se a for a estratgia
a ser jogada nos ltimos L perodos, ento qualquer desvio antes destas ltimas L jogadas
pode ser punido impondo um pagamento minimax ao jogador que desviar at o fim do jogo.
O valor de L independente da durao do jogo T . portanto para T grande o suficiente
podemos obter como mdia das utilidades em um equilbrio de Nash do jogo repetido T vezes
111
qualquer perfil de utilidades possvel e individualmente racional estrito. O prximo teorema

ilustra este fato.
Teorema 8.8.3: Se G = (N, (Ai ), (ui )) tem um equilbrio de Nash a no qual a utilidade de
qualquer jogador i excede sua utilidade minimax vi , ento para qualquer perfil de estratgia
a de G individualmente racional estrito e qualquer > 0, existe um inteiro T tal que se
T > T o jogo G repetido T vezes tem um equilbrio de Nash no qual o pagamento de cada
jogador i difere de ui (a ) por menos que .
Prova: Considere a estratgia do jogador i descrita pela seguinte mquina.
Qi = {N ormt : 1 t T L} {P (j) : j N } {N ash}.
qi0 = N orm1 .
fi (N ormt ) = ai , fi (N ash) = ai , fi (P (j)) = (pj )i se j = i e fi (P (i)) = bi (pi ), onde
bi (pi ) uma melhor resposta para pi em G.
De N ormt mude para N ormt+1 exceto quando t = T L, neste caso mude para N ash,
ou quando apenas um jogador j desviou de a , neste caso mude para P (j).
De P (j) permanea em P (j) para todo j N , e de N ash permanea em Nash.
Resta-nos especificar L. Um desvio s pode ser vantajoso em um dos estados N ormt .
Para impedir tal desvio requeremos que L seja grande o suficiente tal que maxai Ai ui (ai , ai )
ui (a ) L(ui (a ) vi ) para todo i N . Finalmente, para obter um perfil de utilidades que
difere de ui (a ) por menos de , escolhemos T de forma que
|
8.8.2
(T L)ui (a ) + Lui (a )
ui (a )| < , i N.
T
Equilbrio de Subjogo Perfeito
Em qualquer equilbrio de subjogo perfeito de um jogo repetido finitas vezes, o perfil de

estratgias utilizado no ltimo perodo aps qualquer histria (no apenas aps a histria
que ocorre se os jogadores seguem suas estratgias) deve ser um equilbrio de Nash de G.
Portanto, a estratgia utilizada no teorema anterior no constitui um equilbrio de subjogo
perfeito. Na verdade nenhuma punio possvel se G tem um nico equilbrio de Nash.
Teorema 8.8.4: Se todos os equilbrios de Nash de um jogo em forma normal G possuem
um nico perfil de utilidades, ento para qualquer valor de T o perfil de estratgias escolhido
aps qualquer histria em qualquer equilbrio de subjogo perfeito do jogo G repetido T vezes
um equilbrio de Nash de G.
112
Prova: O perfil de estratgias utilizado em qualquer subjogo que comea no perodo T em

qualquer equilbrio de subjogo perfeito do jogo repetido T vezes deve ser um equilbrio de
Nash de G. Portanto, a utilidade de qualquer jogador no ltimo perodo independente da
histria. Conseqentemente, em qualquer subjogo que comece no perodo T 1 temos que
em qualquer equilbrio de subjogo perfeito o perfil de estratgias utilizado em T 1 deve ser
um equilbrio de Nash de G. O restante da prova segue por induo.
No caso em que o jogo G possua mais de um equilbrio de Nash que produzam diferentes
perfis de utilidades, ento podemos realizar punio em um equilbrio de subjogo perfeito.
Considere o seguinte exemplo:
Exemplo 8.8.5: Considere o jogo em forma normal a seguir:
C
D
E
C
3,3
4,0
0,0
D
0,4
1,1
0,0
E
0,0
0,0
0,0
Existe um equilbrio de subjogo perfeito deste jogo repetido T vezes no qual o perfil
de estratgias (C, C) utilizado em todos exceto nos ltimos 3 perodos, nos quais o perfil
utilizado (D, D). No equilbrio ambos jogadores utilizam a seguinte estratgia, escolha C
em qualquer perodo at o perodo T 3 a no ser que D j tenha sido usada no passado,
neste caso escolha E at o fim do jogo. Se C for utilizada por ambos at o perodo T 3,
escolha D nos ltimos 3 perodos. Um jogador que desviar para D at o perodo T 3 aps
uma histria que consiste somente de perfis (C, C) nos perodos anteriores ganhar 1 em
utilidade neste perodo e perder pelo menos 3 em utilidade j que o outro jogador escolher
E nos perodos seguintes. Observe que esta punio justificada pois, (E, E) tambm
um equilbrio de Nash de G. interessante ressaltar que este jogo difere de um Dilema do
Prisioneiro apenas pela incluso de uma ao fracamente dominada para cada jogador.
O prximo teorema caracteriza o conjunto de perfis de utilidade que podem ser obtidos
atravs de um equilbrio de subjogo perfeito do jogo G repetido infinitas vezes para uma
grande classe de jogos G.
Teorema 8.8.6: Seja a um perfil de estratgias individualmente racionais estrito de G =
(N, (Ai ), (ui )). Assuma que (a) para cada i N existem dois equilbrios de Nash de G que
diferem na utilidade do jogador i e (b) existe uma coleo (a(i))iN de perfis de estratgias
individualmente racionais estritos de G tal que para todo jogador i N , temos a i a(i) e
a(j) i a(i) para todo j N {i}. Ento, para todo > 0, existe um inteiro T tal que se
T > T o jogo G repetido T vezes tem um equilbrio de subjogo perfeito no qual a utilidade
do jogador i difere de ui (a ) por menos de para todo i N .
Prova: A prova formal omitida, mas intuitivamente, o perfil de estratgias do jogo repetido
infinitas vezes tem o seguinte formato. Existem trs etapas. Durante as duas primeiras
etapas os jogadores escolhem a enquanto nenhum jogador desviar. Caso no haja desvios
nas duas primeiras etapas, na terceira etapa os jogadores implementam uma seqncia de
113
equilbrios de Nash do jogo G para o qual a utilidade mdia de cada jogador maior que a
pior utilidade do jogador em algum equilbrio de Nash do jogo G. Desvios so punidos da
seguinte maneira. Um desvio na primeira etapa punido com os demais jogadores forando
a utilidade minimax no jogador que desviou por um longo perodo e depois entrando em uma
fase de reconciliao como no caso de teorema de Folk Perfeito para o critrio do desconto.
Um desvio na segunda etapa punido com os jogadores implementando no incio da terceira
etapa o pior equilbrio de Nash para o jogador que desviou. Como na terceira etapa, os
jogadores s implementam equilbrios de Nash no h incentivo a desvios.
Referncias Bibliogrficas
1. Myerson, R. (1997), Game Theory - Analysis of Conflict - Harvard University Press.
2. Osborne, M. e Rubinstein, A. (1994), A Course in Game Theory, The MIT press.
3. Osborne, M. (2003), An Introduction to Game Theory, Oxford University Press.
Alguns captulos esto disponveis on-line em
http://www.chass.utoronto.ca/osborne/igt/index.html.
4. Osborne, M. e Rubinstein, A. (1990), Bargaining and Markets, Academic Press.
Disponvel on-line em http://ww2.economics.utoronto.ca/osborne/bm/.
5. Rubinstein, A. (2006), Lecture Notes in Microeconomic Theory: The Economic Agent,
Princeton University Press. Disponvel on-line em http://press.princeton.edu/rubinstein/.
6. Kreps, D. (1988) Notes on the Theory of Choice, Underground Classics in Economics.
7. Campello de Souza, F. M. (2007), Decises Racionais em Situaes de Incerteza, 2a.
edio.
8. Joseph Halpern e Leandro Chaves Rgo, Extensive Games with Possibly Unaware
Players, publicado nos anais da AAMAS06 - 5th International Joint Conference on
Autonomous Agents and Multiagent Systems, pp. 744751, Maio/2006, Japo. Verso
completa disponvel em http://arxiv.org/PS_cache/arxiv/pdf/0704/0704.2014v1.pdf .
114

Aulas Teoria Dos Jogos 2011-1

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aulas Teoria Dos Jogos 2011-1

Enviado por

Direitos autorais:

Formatos disponíveis

Notas de Aula do Curso de Ps-Graduao em

Teoria dos Jogos

1 Introduo Teoria dos Jogos

2 Jogos de Uma Pessoa - Teoria da Deciso

3 Jogos em Forma Normal

4 Jogos em Forma Extensa

5 Refinamentos de Equilbrio de Nash

3.5.4 Risco Dominante . . . . . . . . . . .

7 Conhecimento e Conhecimento Comum

O que Teoria dos Jogos?

1.2. EXPERIMENTOS DE MOTIVAO

1.2. EXPERIMENTOS DE MOTIVAO

Autor: Leandro Chaves Rgo

Escolha sob Certeza.

Para um dado conjunto X, denotamos por X X o produto Cartesiano usual, ou seja, o

2.1. ESCOLHA SOB CERTEZA.

2.1. ESCOLHA SOB CERTEZA.

Exemplo 2.1.6: Seja Z o conjunto dos inteiros no nulos e seja B a relao em Z Z

2.1. ESCOLHA SOB CERTEZA.

Proposio 2.1.8: Se uma relao de preferncia, ento

Autor: Leandro Chaves Rgo

2.1. ESCOLHA SOB CERTEZA.

2.1. ESCOLHA SOB CERTEZA.

Autor: Leandro Chaves Rgo

2.2. ESCOLHA SOB INCERTEZA.

Escolha sob Incerteza.

Se utilizarmos a regra de Maximin, temos a4 a3 a1 a2 . Se o agente porm achasse

Autor: Leandro Chaves Rgo

2.2. ESCOLHA SOB INCERTEZA.

Se utilizarmos a regra de Maximax, temos a2 a4 a3 a1 .

Autor: Leandro Chaves Rgo

2.2. ESCOLHA SOB INCERTEZA.

Podemos ento, determinar a melhor ao em cada estado da natureza.

Existe tambm uma noo multiplicativa de arrependimento, onde o arrependimento em um estado s

Autor: Leandro Chaves Rgo

2.2. ESCOLHA SOB INCERTEZA.

Autor: Leandro Chaves Rgo

2.2. ESCOLHA SOB INCERTEZA.

O Princpio da Razo Insuficiente

Nenhuma das regras de deciso anteriores so capazes de distinguir a1 e a2 . Porm, muitas

2.2. ESCOLHA SOB INCERTEZA.

Minimizao do Arrependimento Esperado

Autor: Leandro Chaves Rgo

2.2. ESCOLHA SOB INCERTEZA.

Qual a Regra Correta?

Uma maneira de determinar a regra correta caracterizar as regras atravs de axiomas, ou

2.2. ESCOLHA SOB INCERTEZA.

Se voc gostar de Maximin, considere Sociedade 1 , onde 999 pessoas tm utilidade

Suponha agora que o agente possa escolher aes aleatoriamente, isto , a ao pa +

De acordo com a regra do otimismo-pessimismo a1 a2 (para todos os ndices ).

2.2. ESCOLHA SOB INCERTEZA.

2.2. ESCOLHA SOB INCERTEZA.

Denotamos por fs g a ao que igual a g em s, e igual a f nos demais estados da natureza.

A princpio no claro que existe alguma maneira de quantificar a incerteza subjetiva

representao da seguinte forma: Existem funes : S [0, 1] com

2.2. ESCOLHA SOB INCERTEZA.

Considere os seguintes axiomas.

2.2. ESCOLHA SOB INCERTEZA.

f g se, e somente se,

2.2. ESCOLHA SOB INCERTEZA.

2.2. ESCOLHA SOB INCERTEZA.

Autor: Leandro Chaves Rgo

3.2. ALGUNS EXEMPLOS IMPORTANTES

Alguns Exemplos Importantes