Você está na página 1de 6

Gibbons – CAP 2 – Jogos Dinâmicos de Informação Completa

2.0 – Introdução: o ponto central de jogos dinâmicos é a credibilidade.


 Consideremos o seguinte jogo de duas jogadas:
1- Jogador 1 (J1) escolhe entre dar ao jogador 2 (J2) R$1.000,00 ou R$0,00.
2- J2 observa a jogada de J1 e escolhe se explode ou não uma granada que matará os dois.
Analisando a ameaça de J2 de explodir a granada se J1 não der os R$1.000,00 a ele. Se
J1 acredita na ameaça, então a melhor resposta para J1 é pagar os R$1.000,00. Contudo, J1 não
deveria acreditar na ameaça, porque ela não possui credibilidade: se J2 tiver a opção de por em
prática a ameaça (explodir a granada), ele não o fará. Dessa forma, J1 não deveria pagar J2.
O jogo da granada pertence os grupo dos jogos dinâmicos de informação perfeita, onde J1
joga, J2 observa a jogada de J1, dá a sua resposta (sua jogada), e o jogo acaba. Outro exemplo é
o modelo de duopólio de Stackelberg .
2.1 – Jogos Dinâmicos de Informações Completas e Perfeitas:
 2.1.A. Teoria: Backward Induction:
O exemplo da granada acima pertence a uma classe de jogos simples de informação
completa e perfeita, em que o jogador 1 escolhe a ação a 1 do conjunto A1, o jogador 2 observa a 1
e joga a 2 do conjunto A2. Os payoffs são u1 ( a1 , a2 ) e u2 (a 1 , a2 ). Muitos problemas econômicos
seguem essa descrição.
Resolvemos esse tipo de jogo por backward induction da seguinte forma: quando o jogador
2 possui a oportunidade de jogar, ele se depara com o seguinte problema, dada a ação a 1 de J1:
max u1 ( a1 , R2 (a 1) ¿ )¿
a 1 ∈ A1
em que R(a1) é a melhor resposta de J2 a a 1. Uma vez que J1 pode resolver o problema de J2 da
mesma forma que J2 está fazendo, J1 pode antecipar a reação de J2 a a 1, então J1 possui o
seguinte problema no primeiro estágio do jogo
max u1 (a1 , R2 (a 1) ¿ ). ¿
a 1 ∈ A1
¿
Assumimos que essa otimização possui uma solução única, a 1. Assim, o resultado do jogo por
¿ ¿
backward Induction é (a 1 , R2 ( a1 ) ). O resultado obtido por backward induction não envolve ameaças
não críveis, uma vez que apenas se assume que J2 obtém sua resposta ótima por R2 (a 1).
Além disso, assumimos racionalidade nos argumentos feitos em backward induction.
Considere o seguinte jogo:
Por backward induction, temos que o jogo acaba no primeiro estágio,
com J1 jogando L. Contudo, uma parte importante do argumento
consiste em considerar o que aconteceria se o jogo não acabasse no
primeiro estágio. Se J1 joga R no primeiro estágio, não podemos
assumir common knowledge de que ambos os jogadores são racionais,
mas há algumas razões para J1 escolher R que não contradizem o fato
de J2 assumir que J1 é racional. Uma é assumir que é common
knowledge que J1 é racional, mas J2 não. Assim, J1 jogaria R
esperando que J2 jogaria R’ e, então, J1 jogaria L’’. Outra possibilidade
é assumir que é common knowledge que J2 é racional e J1 não é: se
J1 é racional mas pensa que J2 acredita que ele é irracional, então J1 joga R, esperando que J2
jogue R’ (esperando que J1 jogará R’’, por ser irracional). Backwar Induction assume que J1 jogar
R poderia ser explicado por esses pensamentos.
 2.1.B. Modelo de Duopólio de Stackelberg: jogo dinâmico de escolha de quantidade
(usando backward induction).
1. Primeiro fazemos a função reação, melhor respostas ao maximizar o lucro, para a firma 2.
2. Após, jogamos este valor na função maximizadora da firma 1.
3. Maximizamos o lucro e achamos a estratégia(q1) para a firma 1.
Com isto em mãos, achamos a melhor resposta, estratégia melhor resposta(q2), da firma
2.
Há um ponto que a firma 1 poderia ter escolhido a quantidade de cournout, o que forçaria a
firma 2 a mesma quantidade. Assim, ambas teriam o lucro de Cournout. Logo, a firma 1 só vai
escolher a quantidade que não seja igual a de Cournout se o lucro atingido por essa quantidade
for maior que de Cournot.
 2.1.C Barganha Sequencial: Uma vez que J1 pode resolver o problema do segundo período
de J2, J1 sabe que J2 pode receber 1−s 2 no segundo período rejeitando a oferta s1 de J1 no
¿

primeiro período, mas esse valor no próximo período será δ (1−s2 ). Assim, J2 aceitará 1−s1 se
¿

1−s1 ≥ δ (1−s ¿2). Assim, J1 escolhe, no primeiro período, entre receber 1−δ (1−s ¿2) nesse
período (oferecendo 1−s1 =δ( 1−s2 )). O valor descontado da última opção é δ s ¿2=δ 2 s, que é
¿

¿
menor que 1−δ ( 1−s2 ) =1−δ(1−δs), da primeira opção, então a resposta ótima de J1 no
¿ ¿
primeiro período é oferecer s1=1−δ ( 1−s 2 )=1−δ(1−δs). Assim, por backward induction, o
¿ ¿
resultado seria ( s1 ,1−s 1).
2.2 – Jogos de Dois Estágios de Informação Completa e Imperfeita:
 2.2.B. Corrida Bancária:
Suponha que 2 investidores investem o valor D cada um em um banco, e que esse banco
investe esse dinheiro dos dois investidores em um papel de longo prazo. Se o banco retirar esse
D
dinheiro no primeiro período (1),antes do fim projeto,, ele recolhe 2 r, onde D>r > .
2
Se o banco retirar o dinheiro no segundo período (2),após o fim projeto, ele recolhe 2 R,
onde R> D
Os investidores podem retirar o dinheiro em t=1 ou t=2.
1. Se os dois investidores retiram o dinheiro em t=1, cada um recebe r, e o jogo acaba. Se
apenas um deles decidir retirar em t=1, ele recebe D, e, o outro, 2 r−D, e o jogo acaba.
2. Se os dois investidoreambos retiram o dinheiro em t=2, ou se nenhum deles retira, os
dois recebem R, e o jogo acaba. Se apenas um deles retira em t=2, este ganha 2 R−D,
e o outro recebe D.
Por Backward Induction,
3. Sacar em t=2 domina estritamente esperar. Assim, Eq Nash=(S , S) e, os payoffs, ( R , R).
Com isso, em t=1, se ambos os jogadores optam por não sacar, ambos receberão ( R , R).
Assim, em t=1, há dois Eq de Nash, ambos sacarem em t=1, onde cada um recebe (r , r ), e
nenhum dos dois sacar em t=1 (e, portanto, sacar em t=2), onde cada um recebe ( R , R).
Sacar em t=1 depende das crenças acerca do outro jogador. Se um deles acredita que o
outro vai sacar em t=1, ele também o fará, pois, mas que a estratégia de ambos sacarem em t=2
retorne um payoff maior, se apenas um deles sacar em t=1, o outro não recebe nada. Isso
constitui um Bank Run.
2.3 – Jogos Repetidos
 2.3.A. Jogo de Duas Etapas Repetido:
Suponhamos o dilema do prisioneiro onde dois jogadores jogam
J2
simultaneamente duas vezes, observando os outcomes da primeira jogada
L2 R 2
antes de jogarem pela segunda vez. Suponha, também, que o payoff do
jogo é a soma dos payoffs das duas etapas. Chamaremos esse jogo de J L1 1,1 5,0
Dilema do Prisioneiro de Duas Etapas. 1 R1 0,5 4,4
O Dilema do Prisioneiro de Duas Etapas satisfaz a premissa de que
para cada outcome possível da primeira etapa (a 1 , a2), a segunda etapa possui um único equilíbrio
¿ ¿
de Nash, denotado por (a 3 ( a 1 , a2 ) , a 4 (a1 , a3 )). Apesar disso, no Dilema do Prisioneiro de Duas
Etapas, o equilíbrio da segunda etapa é ( L1 , L2 ), independente do outcome da primeira etapa.
Analisamos a primeira etapa do Dilema de Prisioneiro de Duas Etapas levando em conta
que o outcome do jogo remanescente na segunda etapa será o equilíbrio de Nash dela ( ( L1 , L2 )
com payoff (1 , 1)). Assim, a primeira etapa dos jogadores equivale ao jogo de uma única etapa,
representado abaixo, onde o payoff (1 , 1) de equilíbrio da segunda etapa foi J2
somado à cada payoff da primeira etapa. L2 R 2
Esse segundo jogo também possui um único equilíbrio de Nash, L1 2,2 6,1
( L1 , L2 ). Assim, o único outcome do subjogo perfeito do Dilema do J
R1 1,6 5,5
Prisioneiro de Duas Etapas é ( L1 , L2 ) na primeira etapa, seguido de ( L1 , L2 ) 1
na segunda.
GENERALIZANDO: tome G={ A 1 , … , A n ; u1 , … ,u n } como a representação de uma jogo estático de
informação completa em que o jogador 1 toma n decisões simultâneas, com ações de a 1 a a n dos
espaços de ação A1 a An , respectivamente, e os payoffs são u1 (a 1 , … , an ) até un ( a1 , … , a n). O jogo
G será chamado de jogo modelo dos jogos repetidos.
DEFINIÇÃO: dado o jogo modelo G, tomemos G(T ) como um jogo repetido finito em que G é
jogado T vazes, com outcomes de todos os jogadores observados antes da próxima jogada
começar. Os payoffs de G(T ) são simplesmente a some dos payoffs das T etapas do jogo.
PROPOSIÇÃO: de o jogo G possui um único equilíbrio de Nash então, para qualquer finito T , o
jogo repetido G(T ) possui um único outcome de subjogo perfeito: o equilíbrio de Nash de G é
jogado em toda etapa.

 2.3E – Políticas Monetárias Consistentes no Tempo:


Considere um jogo sequencial em que trabalhadores e empregadores negociam os
salários nominais, depois de a autoridade monetária escolher a taxa de inflação. Se o contrato
salarial não pode ser indexado, empregadores e trabalhadores tentarão prever a inflação no
salário. Uma vez que o salário nominal foi imperfeitamente indexado (com a previsão), a inflação
real irá “comer” o salário real, fazendo com que os empregadores aumentem os empregos e a
produção. Assim, a autoridade monetária se vê com um trade-off: custos da inflação X menor
desemprego e maior produção.
Vamos analisar um modelo simplificado deste modelo. Primeiro, os empregadores
preveem uma inflação π e. Segundo, a autoridade monetária observa essas previsões e escolhe
2
um inflação π. O payoff dos empregadores é −( π−π e ) . Portanto, os empregadores atingem seu
payoff máximo quando π e =π . A autoridade monetária gostaria que a inflação fosse nula mas que
¿
o output ( y ) estivesse em seu nível eficiente ( y ). Assim, o payoff da autoridade monetária é
2
U ( π , y )=−c π 2− ( y− y ¿ )
onde c >0 reflete o tradeoff da autoridade monetária entre seus dois objetivos. Suponha que y
seja a seguinte função de ( y ) e inflação surpresa: y=b y ¿ +d ( π−π e ) , onde b< 1 reflete a presença
¿

do poder do monopólio em mercados de produtos e d >0 mede o efeito da inflação surpresa no y


através dos salários reais. Assim, podemos reescrever o payoff da autoridade monetária como
2
W ( π , π e ) =−c π 2− [ ( b−1 ) y ¿ + d ( π−π e ) ] .
Para resolvermos o subjogo perfeito desse “stage game”, primeiro computamos a escolha ótima
da autoridade monetário π dada a expectativa dos empregadores π e. Maximizando W ( π , π e ):
d
π ¿ ( π e )= 2
[ ( 1−b ) y ¿ +d π e ] ( I )
c +d
Uma vez que os empregadores antecipam que a autoridade monetária irá escolher π ¿ (π e ),
2
eles escolhem π e para maximizar −[ π ¿ ( π e )−π e ] , que nos retorna π ¿ ( π e )=π e , ou
d (1−b) ¿
πe= y =π s ,
c
onde o subscrito s denota “stage game”. De forma equivalente, poderíamos dizer que a
expectativa racional dos empregadores de manter a previsão será a confirmada pela autoridade
monetária, uma vez que π ¿ ( π e )=π e , portanto, π e =π s . Quando os empregadores mantém a
expectativa em π e =π s , o custo marginal para a autoridade monetária de escolher um π um pouco
acima de π s que balanceia exatamente o benefício marginal da inflação surpresa. Nesse subjogo
perfeito, espera-se que a autoridade monetária ponha uma inflação e ela o faz, apesar de o
melhor ser não ter inflação. Assim, se os empregadores têm expectativas racionais, então
inflação zero maximiza o payoff da autoridade monetária.
Agora considere que esse jogo é repetido infinitas vezes em que ambos os jogadores
dividem o fator de desconto δ. Iremos demonstrar as condições em que π=π e =0 em todo período
em um equilíbrio de nash de um subjogo perfeito envolvendo as seguintes estratégias. No
primeiro período, os empregadores mantém π e =0. Nos períodos subsequentes eles mantém
π e =0 e todas as inflações anteriores foram π=0; ou, de outro forma, os empregadores mantém
π e =π s – a expectativa racional do “stage game”. De forma similar, a autoridade monetária escolhe
π=0, dado que a expectativa é que π e =0, já que as expectativas anteriores foram π e =0; ou, de
outra forma, a autoridade monetária escolhe π=π ¿ (π e ) - a melhor resposta para a expectativa dos
empregadores, dado por ( I ).
Suponha que os empregadores mantenham as expectativas em π e =0 no primeiro período.
Dada a estratégia dos empregadores, a autoridade monetária pode restringir sua atenção a duas
escolhas: (a) π=0, que acarretará em π e =0 no próximo período, e, consequentemente, para a
¿
mesma decisão da autoridade monetária no próximo período; (b) π=π (0) de ( I ), que acarretará
em π e =π s para sempre, onde a autoridade monetária encontrará que a melhor resposta é π=π s
para sempre. Tomando π=0 nesse período, resulta no payoff W ( 0,0) em cada período, enquando
¿
tomando π=π (0) nesse período, resulta no payoff W ( π ( 0 ) ,0) nesse período, mas W ( π s , π s ) para
¿

sempre. Assim, a melhor resposta da autoridade monetária para os empregadores é


1 δ
W ( 0,0 ) ≥W ( π ¿ ( 0 ) ,0 )+ W ( π s , π s ) (II)
1−δ 1−δ
c
Simplificando ( II ) nos retorna δ ≥ . Cada um dos parâmetros c e d possui dois
2 c+ d2
efeitos. Um aumento em d faz com que a inflação surpresa tenha um maior efeito no aumento do
produto, e, então, faz com que fique mais tentador para a autoridade monetária colocar na
inflação supresa, contudo, pela mesma razão, um aumento em d também aumenta o outcome π s ,
uma punição maior para a autoridade monetária. Da mesma forma, um aumento em c torna a
inflação mais dolorosa, o que faz com que a inflação surpresa menos tentadora, mas, também,
diminui π s . Nos dois casos, o último efeito supera o anterior, então o valor crítico do fator de
c
desconto necessário para suportar o equilíbrio decresce em d e cresce em c.
2 c+ d2

2.4 – Jogos Dinâmicos de Informações Completas e Imperfeitas


 2.4.A. Representação de Jogos em Forma Extensiva:
Definição: a representação em forma extensiva de um jogo especifica os jogadores, quando
um jogador tem uma jogada, o que cada jogador pode fazer em cada oportunidade de
movimento, o que cada jogador sabe sobre suas oportunidades de movimento e o payoff recebido
por cada jogador para cada combinação de movimentos que podem ser escolhidas pelos
jogadores.

Exemplo de jogo na forma extensiva, da classe dos jogos de duas etapas de informação
completa e perfeita:

1- Jogador 1 escolhe uma ação a 1 do conjunto A1={L , R }.

2- Jogador 2 observa a 1 e escolhe uma ação a 2 do conjunto A2={L' , R' }.

3- Os payoffs são dados por u1 { a1 , a2 } e u2 {a 1 , a2 }.

Este jogo começa com o nó de decisão do jogador 1, que pode escolher entre L e R. Se
escolhe L, o jogador 2 deve escolher entre L' e R' . Se o jogador 1 escolhe R, o jogador 2 deve
escolher entre L' e R' . Após a escolha do jogador 2, um nó terminal é atingido e os payoffs
recebidos estão indicados.

Definição de Estratégia: um estratégia para um jogador é um plano de ação completo – ela


especifica uma ação possível para o jogador em toda situação que o jogador possa vir a jogar.
As estratégias do jogo acima, para o jogador 2, são quatro, apesar de apenas duas ações:
S1 :se o j 1 joga L , j2 joga L' . Se j1 joga R , j2 joga L' : { L' , L' } .
S2 :se o j 1 joga L , j2 joga L' . Se j1 joga R , j2 joga R ' : { L' , R' } .
S3 :se o j 1 joga L , j2 joga R' . Se j 1 joga R , j 2 joga L' : { R' , L' } .
S4 : se o j1 joga L, j 2 joga R' . Se j 1 joga R , j 2 joga R' :{R ' , R' }.
Contudo, o jogador 1 possui apenas duas ações possíveis e duas estratégias possíveis. Jogar L
ou R. O jogador 1 possui apenas duas estratégias pois há apenas uma situação em que ele pode
agir. Logo, o espaço de estratégia do jogador 1 é A1={L , R }
Tendo os espaços de estratégia definidos, podemos representar os jogos dinâmicos na
forma normal da seguinte forma:
Jogador 2
( L' , L' ) ( L' , R ' ) ( R ' , L ' ) ( R ' , R ' )
Jogador L 3,1 3,1 1,2 1,2
1 R 2,1 0,0 2,1 0,0
De forma alternativa, o jogador 2 poderia jogar antes, e o jogador 1 jogaria sem saber a
jogada de J2. Para representar essa ignorância de jogadas prévias em jogos na forma extensiva,
definimos o conceito de Conjunto de Informação.
Definição de Conjunto Informação: um conjunto informação para um jogador é uma coleção de
“nós de decisão” que satisfazem:
1. Em todo nó no conjunto informação, o jogador tem uma jogada.
2. Quando o jogar do jogo atinge um nó no conjunto informação, o jogador que possui a próxima
jogada não sabe qual nó do conjunto informação foi (ou não) atingido.
A parte 2 dessa definição implica que o jogador possui o mesmo conjunto de jogadas
possíveis em cada nó de decisão em um conjunto de informação, além disso, o jogador deve ser
capaz de inferir, a partir do conjunto de ações possíveis que alguns nós foram ou não atingidos.
Em um jogo na forma extensiva, indicamos que uma coleção de nós de decisão constitui
um conjunto de informação conectando os nós de decisão por uma linha pontilhada.
 2.4.B. Equilíbrio de Subjogo Perfeito:
Definição de Subjogo: um subjogo em um jogo na forma extensiva:
1- Começa em um nó de decisão n, com um conjunto informação único (mas não é o primeiro nó
de decisão do jogo).
2- Inclui todas as decisões e todos os nós abaixo do nó “n”.
3- Nenhum nó pode estar sendo cortado por uma linha tracejada para fora dos nó sucessores de
n.

Definição de Equilíbrio Perfeito de Subjogo: um equilíbrio de nash é equilíbrio perfeito de


subjogo se as estratégias dos jogadores constituírem um equilíbrio de Nash em todo subjogo.

Definição: em um jogo de dois estágios de informação completa e perfeita, as respostas por


¿ ¿
backward induction são ( a1 , R2 ( a 1) ), enquanto em um equilíbrio perfeito de subjogo é ( a1 , R 2 ( a1 ) ) .
¿

¿ ¿
A diferença entre ( a1 , R2 ( a 1) ) e ( a1 , R 2 ( a1 ) ) é que R2 ( a 1) é uma função melhor resposta, ou seja, uma
¿

¿ ¿
estratégia, enquanto R2 ( a1 ) é a melhor resposta para a 1, ou seja, uma ação.
Uma estratégia é chamada de Subgame Perfect Nash Equilibrium(SPE) se a estratégia
especificar um NE para cada subjogo do jogo original.
Como fazer:
- Primeiro se identifica todos os possíveis eq. de Nash
- Depois, se identifica, dentre eles, quais são equilíbrio de nash em subjogos. Aqueles que forem
equilíbrio de nashapresentam SPE, ou seja, quais deles apresentam NE em todos os subjogos.
Assim, SPE é visto como um refinamento de NE.

4.3 – Outras aplicações de Equilíbrio Bayesiano Perfeito:


 4.3.B. Barganha Sequencial sob Informação Assimétrica:
Considera uma firma e um sindicato negociando sobre salários. Por simplicidade
assumimos quem os empregos são fixos. A reserva do sindicado, a quantia que os membros
recebem se não forem empregados pela firma, é w r. O lucro da firma é uniformemente distribuído
entre [π l , π h ], mas o valor verdadeiro de π só a firma conhece. Simplificamos a análise assumindo
que w r=π l =0. A barganha dura, no máximo, dois períodos. O sindicado oferece w 1 no primeiro
período. Se a firma aceita, o payoff do sindicato é w 1 e, o da firma, é π−w1. Se a firma rejeitar w 1,
o sindicato oferece w 2. Se a firma aceita, o payoff do sindicato será δ w2 e, o da firma, δ ( π−w2),
onde δ representa o fator de desconto durante o tempo.
Definir e derivar o Equilíbrio Bayesiano Perfeito nesse modelo é um pouco complicado,
mas um eventual resposta é simples. Assim, começamos esboçando o único equilíbrio bayesiano
perfeito desse jogo.
¿ ( 2−δ )2
A oferta do sindicato no primeiro período é w 1= π . Se o lucro da firma exceder
2 ( 4−3 δ ) h
2 w1 2−δ ¿ ¿
π h, então a firma aceita w 1. Caso contrário, rejeita w 1.Se a oferta do primeiro
¿
π 1= =
2−δ 4−3 δ
período é rejeitada, o sindicato melhora seu conhecimento sobre o lucro da empresa,
¿ π ¿1 2−δ
uniformemente distribuído em [0 , π 1 ]. Assim, o sindicato oferece w 2= =¿
π h< w¿1 . Se o
2 2(4−3 δ)
¿
lucro π da firma for maior que w 2, a firma aceita a proposta. Caso contrário, não.

Você também pode gostar