Você está na página 1de 70

UnB- Universidade de Brasília

Projeto: Jogos Aplicados á Promoção do Desempenho Cognitivo de Idosos (ProDC)

Professora: Lourdes Mattos Brasil

Aluna: Dandara Pereira Aranha

Resumo

Livro: Teoria dos Jogos – 2° Edição . Editora: Pearson

Autores: H. Scott Bierman , Luis Fernandez

Introdução

Embora dirigido a estudantes de graduação em economia, este livro pode


ser útil para quem quiser aprender a linguagem e as idéias da teoria dos jogos em
um nível de introdução. O livro dá ênfase na aplicação de um conjunto
relativamente pequeno de ferramentas da teoria dos jogos para entender
fenômenos econômicos importantes.

Ele seleciona exemplos de uma ampla gama de áreas para que os


estudantes possam perceber o poder da teoria dos jogos para quem estuda
economia. Podemos encontrar aplicações da teoria na economia do trabalho, na
economia do setor público, no comércio internacional, na economia de recursos
naturais, na macroeconomia, e finanças corporativas, em atividades bancárias e,
é claro na organização industrial, citando apenas algumas. Lendo o livro inteiro,
além de aprender muito sobre teoria dos jogos, vê-se muita coisa sobre a
moderna modelagem em economia.
Parte I – Jogos Estáticos com informação Completa

Teoria dos jogos

A teoria dos jogos preocupa-se com o modo como indivíduos tomam


decisões quando estão cientes de que suas ações afetam uns aos outros e
quando cada indivíduo leva isso em conta. É a interação entre tomadores de
decisões individuais, todos eles com um propósito em vista, cuja decisões tem
implicações para outras pessoas,o que torna as decisões estratégicas diferentes
de outras decisões.

É uma teoria matemática criada para se modelar fenômenos que podem


ser observados quando dois ou mais “agentes de decisão” interagem entre si. Ela
fornece a linguagem para a descrição de processos de decisão conscientes e
objetivos envolvendo mais do que um indivíduo.

A Teoria dos jogos é usada para se estudar assuntos tais como eleições,
leilões, balança de poder, evolução genética, etc. Ela é também uma teoria
matemática pura, que pode e tem sido estudada como tal, sem a necessidade de
relacioná-la com problemas comportamentais ou jogos per se.

Algumas pessoas acreditam que a Teoria dos Jogos formará em algum dia
o alicerce de um conhecimento técnico estrito de como decisões são feitas e de
como a economia funciona. O desenvolvimento da teoria ainda não atingiu este
patamar e, hoje, a Teoria dos Jogos é mais estudada em seus aspectos
matemáticos puros e, em aplicações, ela é usada como uma ferramenta ou
alegoria que auxiliam no entendimento de sistemas complexos.

Assim concluímos que a teoria dos jogos pode ser definida como a teoria
dos modelos matemáticos que estuda a escolha de decisões ótimas sob
condições de conflito. O elemento básico em um jogo /e o conjunto de jogadores
que dele participam. Cada jogador tem um conjunto de estratégias. Quando cada
jogador escolhe sua estratégia, temos então uma situação ou contigência no
espaço de todas as situações (contigências) possíveis. Cada jogador tem
interesse ou preferências para cada situação no jogo. Em termos matemáticos,
cada jogador tem uma função utilidade que atribui um número real (o ganho ou
payoff do jogador) a cada situação do jogo.

Mais especificamente, um jogo tem os seguintes elementos básicos: existe


um conjunto finito de jogadores, representado por G = {g1, g2, . . . , gn}. Cada
jogador gi ∈ G possui um conjunto finito Si = {si1, si2, . . . , simi} de opções,
denominadas estratégias puras do jogador gi (mi ≥ 2).
Um vetor s = (s1j1, s2j2, . . . , snjn), onde siji é uma estratégia pura para o
jogador gi ∈ G, é denominado um perfil de estratégia pura. O conjunto de todos
os perfis de estratégia pura formam, portanto, o produto cartesiano:

denominado espaço de estratégia pura do jogo. Para jogador gi ∈ G, existe uma


função utilidade
ui : S → R
s : → ui(s)
que associa o ganho (payoff) ui(s) do jogador gi a cada perfil de estratégia pura s
∈ S.

Um exemplo: Dilema do prisioneiro.

Possivelmente o exemplo mais conhecido na teoria dos jogos é o dilema


do prisioneiro. Ele foi formulado por Albert W. Tucker em 1950, em um seminário
para psicólogos na Universidade de Stanford, para ilustrar a dificuldade de se
analisar certos tipos de jogos.
A situação é a seguinte: dois ladrões, Al e Bob, são capturados e acusados
de um mesmo crime. Presos em selas separadas e sem poderem se comunicar
entre si, o delegado de plantão fez a seguinte proposta: cada um pode escolher
entre confessar ou negar o crime. Se nenhum deles confessar, ambos serão
submetidos a uma pena de 1 ano. Se os dois confessarem, então ambos terão
pena de 5 anos. Mas se um confessar e o outro negar, então o que confessou
será libertado e o outro será condenado a 10 anos de prisão.
Neste contexto, temos

G = {Al, Bob}, SAl = {confessar, negar}, SBob = {confessar, negar},

S={(confessar,confessar),(confessar, negar),(negar, confessar),(negar, negar)}.

As duas funções utilidade

uAl : S → R e uBob : S → R

são dadas por

uAl(confessar, confessar) = −5, uAl(confessar, negar) = −10,


uAl(negar, confessar) = 0, uAl(negar, negar) = −1,

(que representam os ganhos (payoffs) de Al) e

uBob(confessar, confessar) = −5, uBob(confessar, negar) = 0,


uBob(negar, confessar) = −10, uBob(negar, negar) = −1

(que representam os ganhos (payoffs) de Bob). É uma prática se representar os


payoffs dos jogadores através de uma matriz, denominada matriz de payoffs.
BOB

ALL
Confessar Negar
Confessar (-5,-5) (0,-10)
Negar (-10,0) (-1,-1)

Nesta matriz, os números de cada célula representam, respectivamente, os


payoffs de Al e Bob para as escolhas de Al e Bob correspondentes a célula.

Equilíbrio de Nash

Diz-se que uma combinação de estratégias constitui um equilíbrio de Nash


quando cada estratégia é a melhor resposta possível às estratégias dos demais
jogadores, e isso é verdade para todos os jogadores. Ou seja, cada um dos
jogadores que fazem parte do jogo, ao definir sua estratégia, estará fazendo o
melhor que pode, levando em conta o que seus oponentes estão fazendo.

Definição: em um jogo simultâneo, as estratégias (a*1,....,a*n) constituem


um Equilíbrio de Nash se, para todo jogador i, a*i é a melhor resposta às
estratégias especificadas dos outros (N-1) jogadores, a*-i , isto é, se:
ui(a*i, a*-i) ≥ ui(ai,a*-i)

para todo aiЄ Ai , para todo jogador i = 1,......,N.


De forma equivalente, podemos definir as estratégias (a*1,...,a*n) como um
Equilíbrio de Nash caso, para todo jogador i, a estratégia a*i resolver o problema
de max ui(ai, a-i*), escolhendo entre todos aiЄ Ai
.
Podemos, ainda, dizer que um conjunto de estratégias constitui um
“Equilíbrio de Nash” se, caso todos os jogadores N - 1 (menos um), joguem as
estratégias definidas pelo E.N, de modo que, para o N-ésimo jogador não exista
nada melhor a fazer a não ser, também, escolher a estratégia para ele definida no
“Equilíbrio de Nash”. Isso deve valer para todos os jogadores tomados
individualmente.
Para encontrar um Equilíbrio de Nash, basta identificar a(s) melhor(es)
resposta(s) de um jogador, diante de cada estratégia escolhida pelo(s) outro(s)
jogador(es). Ao proceder assim para todos eles, quando houver uma coincidência
entre as melhores respostas para todos os envolvidos, esse conjunto de
estratégias será identificada como um “equilíbrio de Nash”.
Uma forma de fazer isso seria:
Primeiro: indicar a estratégia que resulta na “maior recompensa” para o jogador
que está situado nas linhas, para cada uma das estratégias escolhidas pelo
jogador que se encontra nas colunas. Podemos fazer isso colocando a letra “l” no
lado da recompensa, bem como, sublinhando ou circulando a recompensa obtida
pelo jogador da linha.
Segundo: indicar a estratégia que resulta na “maior recompensa” para o jogador
que está situado nas colunas, para cada uma das estratégias escolhidas pelo
jogador que se encontra nas linhas. Podemos fazer isso colocando a letra “c” no
lado da recompensa, bem como, sublinhando ou circulando a recompensa obtida
pelo jogador da coluna.
Este processo se repete para cada uma das linhas, bem como, para
cada uma das colunas.
Após aplicarmos o método de assinar a melhor resposta do jogador nas
linhas para cada estratégia do jogador nas colunas, bem como, assinalar a
melhor resposta do jogador nas colunas para cada estratégia do jogador nas
linhas, sempre que uma combinação de estratégias estiver assinalada
“simultaneamente”, essa combinação de estratégias será um “Equilíbrio de Nash”.
Oligopólios

Muitos mercados importantes não são nem perfeitamente competitivos nem


perfeitamente monopolizados. Citamos, como alguns exemplos, automóveis,
redes de transmissões televisivas, serviços telefônicos de longa distância,
aeronaves militares de auto desempenho e equipamentos de geração de
eletricidade. Esses mercados são geralmente denominados Oligopolistas ou
Imperfeitamente competitivos. Em mercados oligopolistas, as decisões de
precificação e produção de cada empresa no setor tem um efeito significativo
sobre a lucratividade de seus competidores. Essas empresas nem são
competitivas tomadoras de preços, nem são monopolistas definidoras de preços.
Seus preços e níveis de produção são escolhas estratégicas em um jogo de
oligopólio.

Oligopólio de Cournot

Um oligopólio é uma estrutura de mercado intermediária entre os casos


limites de monopólio e de competição perfetia. Nesse sentido a definição decorre
de imediato: em um oligopólio há um número de firmas n > 1 tal que nenhuma das
firmas é capaz, sozinha, de determinar o preço do produto no mercado (como
seria o caso de um ambiente monopolista) mas no entanto cada uma dessas
firmas é capaz de influenciar em alguma medida o preço que se estabelecerá.

O modelo de Cournot é um dos mais tradicionais modelos de oligopólios


existentes na literatura. Embora originalmente, no trabalho de Cournot (1897, com
a primeira edição em 1838), não tenha sido utilizado o conceito de equilíbrio de
Nash (dado que esse não havia nem mesmo sido definido), a abordagem é
necessariamente de teoria dos jogos - assim como é a maior parte da literatura
moderna de organização industrial. A hipótese básica do modelo é que os
jogadores (as firmas envolvidas) escolhem isoladamente a quantidade a se
produzir, ignorando a escolha da(s) outra(s) firma(s).

O preço de mercado torna-se, portanto, endógeno: dada a quantidade total


produzida no mercado, ele é definido com base na demanda agregada do setor.
Outra hipótese é que os produtos de cada firma não são diferenciados pelos
consumidores, i.e., são homogêneos. Definiremos as funções de custo de cada
firma e a de demanda do mercado da maneira mais simples possível, assim como
faz Gibbons (1992), de modo a evitar .algebrismos desnecessários e a destacar o
mais importante, que é o processo de resolução do modelo.

Segue então que o modelo de Cournot diz respeito a um jogo estático onde
as firmas escolhem simultaneamente o quanto produzir. Ainda que numa primeira
aproximação possa parecer estranho conceber firmas decidindo
simultâneamente, como num jogo de par ou ímpar, isso tem uma apelo intuitivo
imediato: significa apenas que cada firma, ao fazer a sua escolha, não sabe qual
foi a escolha da rival, situação essa que é extremamente comum no mundo real.
Cada firma sabe apenas que a rival sabe que ela também não conhece a sua
escolha e que a rival sabe que ela sabe que a rival não conhece
a sua escolha e assim infinitamente. Como é habitual, o problema da firma
consiste em fazer suas escolhas de forma a obter o maior lucro possível. No
entanto - e distintamente do modelo competitivo - a firma toma sua escolha
considerando o fato de que as escolhas alheias (no caso as decisões de
produção de suas competidoras) vão afetar o seu payo¤, caracterizando um
elemento estratégico. Basicamente, ao tomar suas decisões, as firmas vão
considerar um conjunto de restrições dadas pelas demanda dos consumidores do
bem (especificada pela curva de demanda pelo produto), por restrições
tecnológicas (que serão incorporadas na estrutura de custo de cada firma) e por
restrições de competição dadas pelo número e pelas características dos seus
competidores.

Vamos considerar um modelo simples onde duas firmas, 1 e 2, produzem


um bem homogêneo cuja demanda é dada por

P (Q) = a – Q

onde a > 0 e Q = q1 + q2 é a oferta da indústria, dada pela soma do produto das


firmas que compões essa indústria. Vamos considerar que para ambas as firmas
o custo fixo é nulo é que o custo marginal (aqui ao custo médio) é constante e
idêntico para as empresas,

C1 (q1) = cq1
C2 (q2) = cq2

onde C pertence (0; a] por um motivo que ficará claro adiante. Podemos então
representar esse jogo na forma normal

G = (S1; S2; u1; u2)

tal que temos

1. os jogadores: as firmas 1 e 2;

2. os espaços de estratégias dos jogadores, S1e S2 onde vamos supor que


Si = [0; qi], i = 1; 2 . Note que nesse caso os conjuntos de escolhas das firmas é
dado pelo espaço aonde as firmas podem escolher produzir: no mínimo zero e no
máximo uma quantidade muito grande porém finita;

3. a função de ganho dos jogadores, u1 e u2. No caso de firmas, essas funções


de ganhos são exatamente a função de lucro de cada uma delas, dadas por

π1 (q1; q2) = P (Q) q1 - cq1


π2 (q1; q2) = P (Q) q2 - cq2

que se expressa na diferença entre a receita e o custo da firma. Note que, como
esperado, a função de ganho caracteriza o elemento de comportamento
estratégico.O ganho de cada firma é determinado não só pela sua escolha - pela
quantidade que ela resolveu produzir - como também pela escolha da
concorrente.

Como dito anteriormente, no modelo de Cournot o problema das firmas é


escolher quantidades simultaneamente, procurando maximizar seus respectivos
lucros. Tomemos o caso da firma 1 inicialmente. O seu problema é:

de modo que as condições de primeira ordem do problema acima nos mostram


que
tal que, resolvendo,

o que nos dá exatamente a melhor resposta que a firma 1 pode dar para toda
conjectura a respeito da produção da firma 2. Chamamos essa expressão de
função de reação da firma 1 e colocamos o termo entre aspas pelo fato de se
tratar de um jogo de escolha simultânea: as firmas não estão reagindo
exatamente à uma ação que elas observaram, mas sim à uma ação esperada
da(s) concorrente(s). No entanto essa expectativa não é tomada aleatoriamente,
mas assumindo que a .rma rival está operando também na
sua função de reação correspondente.

Uma outra observação relevante diz respeito à inclinação da .função de


reação.. Observe que

o que nos mostra que a melhor reação que uma firma pode tomar em relação à
variações na oferta da concorrente é seguir na direção contrária.

Procedendo da mesma forma para a firma 2, decorre (faça as contas) que

será a .função de reação. da firma 2, a melhor resposta que ela pode dar às
escolhas da rival. Uma vez que temos em mãos as respectivas melhores
respostas das firmas, fica trivial determinar o equilíbrio de Nash desse jogo: como
definimos anteriormente, esse é dado pela interseção das melhores respostas.
Substituindo q2 (q1) em q1 (q2), é fácil verificar que

q1 = (a - c)

de modo que o equilíbrio de Nash desse jogo é dado por

(q*1; q*2) = ( (a - c); (a - c))

Como qi [0; qi], concluímos que a ≥ c. A oferta da indústria é

e o preço de mercado

de modo que o lucro da firma 1 seria

Analogamente,
Π2=

Por fim note que as hipóteses utilizadas de que há apenas duas firmas com
estruturas de custos idênticos produzindo são apenas para simplificar a nossa
análise. Na verdade, não há problemas algum em relaxá-las. Mostraremos abaixo
o caso onde existem n oligopolistas e manteremos a hipótese de custos marginais
iguais entre as firmas, apenas para obter um resultado de comparação mais fácil
com o caso inicial, com duas firmas. Resolva como exercício o duopólio de
Cournot onde, por exemplo, o custo marginal das duas firmas se diferem,
comparando os resultados com os obtidos acima.
Utilizando a mesma estrutura anterior, teremos certamente quantidades
produzidas idênticas para todas as n firmas, uma vez que suas estruturas de
custos são as mesmas, o que de resto vai caracterizar um equilíbrio simétrico.
Segue o problema de uma firma i qualquer é

de modo que as CPO.s nos mostram que

A .função de reação do jogador i é dada por


onde, notemos, ; a função de reação, como usual em
Cournot, tem inclinação negativa. Nesse ambiente, com bens homogêneos e
tecnologias similares (função custo), a implicação imediata de um equilíbrio
simétrico é que, em equilíbrio, q1 = q2 = ::: = qn, de modo que

Segue que a expressão acima fica

Logo, em equilíbrio,

O equilíbrio de Nash desse jogo é portanto cada firma produzir (a - c). A

oferta da indústria e o preço do produto serão, respectivamente,

.
Segue que o lucro da i-ésima firma em equilíbrio será

Se n ∞, então podemos verificar (L.Hopital) que a oferta da indústria e o preço


serão, respectivamente,

e o lucro de equilíbrio

πi = 0, i = 1; 2; :::; n

caracterizando um equilíbrio em competição perfeita (veri.que). Se n = 1, então

como esperaríamos em um monopólio.

Dito de outra maneira, quanto maior for o número de firmas do mercado, n,


menor será a produção de cada firma. Particularmente, se existirem apenas duas
firmas, voltaríamos ao caso anterior, como mostramos. Por outro lado, se n tende
a infinito, a produção tende a zero, denotando o reduzido espaço que cada uma
teria no mercado. Note por fim que o resultado acima nos dá outra interpretação
genérica para esse ambiente: se a estrutura da indústria for um duopólio, o
mercado corresponderá a apenas 2/3 do mercado de concorrência perfeita. Para
uma indústria com 3 firmas, seria 3/4. Para 4 firmas, 4/5 e assim sucessivamente

dado pelo termo .

Oligopólio de Bertrand

• Betrand (1883): como Cournot, trata-se de um jogo de escolha simultânea


e de informação completa, mas aqui as firmas competem entre si via
escolha de preço, não de quantidade.

• Hipóteses:
- duas firmas, 1 e 2, que produzem um bem homogêneo.
- custo fixo é nulo e o custo marginal é constante e idêntico para ambas as
firmas, c > 0.
- assuma uma curva de demanda linear (para compararmos com Cournot) no
produto total

Q=a–p

onde p é o preço de mercado.

• as firmas declaram simultaneamente os preços e se dispõem a ofertar tudo


o que for demandado àqueles preços.

- os consumidores compram da firma que cobra mais barato: segue que a firma
anuncia o menor preço detém todo o mercado enquanto a outra firma fica
forma do mercado.
- se ambas as firmas declaram o mesmo preço, então elas dividem o mercado
igualmente, cada uma com metade.

• o lucro de cada firma, como habitual, depende não apenas de sua própria
escolha mas também é afetado pela escolha da rival. Tome o caso da firma
1, por exemplo, seu lucro será
- note que o lucro de 1 é positivo se p1 > c. Além disso, ele será tanto maior se
seu preço for menor do que o da rival e apenas a metade se for igual. Por fim o
lucro nunca será negativo na medida em que cada firma tem a prerrogativa de
cobrar um preço igual ao custo marginal e assegurar lucro 0 na pior das
hipóteses.

- como a situação é a mesma para a firma 2, vamos restringir nossa atenção para
preços tais que
pi ≥ c, i = 1; 2

• qual o equilíbrio de Nash desse mercado?


- paradoxo de Bertrand: o único equilíbrio de Nash será ambas as firmas
cobrarem um preço igual ao custo marginal e ambas terem lucro zero.
- como a função lucro é descontínua, nós não podemos mostrar esse resultado
pelos argumentos padrões, diferenciando e resolvendo as condições de primeira
ordem.
- então, o que fazer???

• observe que a firma com o menor preço detém todo o mercado. Segue que
cada firma tem um incentivo a anunciar um preço menor do que o da rival.
Em última instância, isso direcionará o preço de equilíbrio para baixo, até o
custo marginal.
Vejamos agora o argumento formal para isso.

1. note que um equilíbrio de Nash do jogo é cada firma cobrar o custo marginal:
nesse caso cada firma tem metade do mercado e aufere lucro zero porque cada
unidade é vendida ao seu custo de produção.
- porque é um equilíbrio? Se ela elevar seu preço, ela perderá toda a demanda
que tinha posto que o preço da rival será estritamente menor! nenhuma firma tem
incentivos a desviar.
- segue que não é possível que nenhuma firma tenha lucro maior do que zero, de
modo que a escolha de preço de cada firma é ótima dada a escolha alheia
(melhor resposta).

2. agora vamos mostrar que não há outro equilíbrio de Nash. Como cada firma
i = 1; 2 escolhe pi ≥ c, é suficiente mostrar que não há equilíbrio para pi > c.
Então, deixe (p1; p2) ser um equilíbrio.
- se p1 > c, então porque p2 maximiza o lucro de 2 dada a escolha de 1, teremos
p2 € (c; p1], de modo a ter um lucro estritamente positivo – fora desse intervalo
seria nulo.
- além disso, p1 p2, pois se firma 2 pode ter lucro positivo escolhendo p2 = p1 e
dividindo o mercado com 1, ela pode ter um lucro maior ainda cobrando um preço
um pouco abaixo de p1 e desfrutando de todo mercado quase ao mesmo preço.
Logo

p1 > c → p2 > c e p2 < p1

- mas para uma estória similar para as firmas com os papéis trocados

p2 > c → p1 > c e p1 < p2

de modo que se o preço de uma firma está acima do custo marginal, ambos os
preço devem estar acima do custo marginal e cada firma deve anunciar um preço
um pouco menor do que a rival, o que é impossível.

• no modelo de Bertrand, o preço será igual ao custo marginal com apenas


duas firmas. Isso está em forte contraste com o que ocorre em Cournot,
onde a diferença entre o preço e o custo marginal cai apenas na medida
em que o número de firmas no mercado aumenta.
Parte II – Jogos Dinâmicos com Informação Completa

Na parte I, consideramos situações nas quais os jogadores se moviam


“simultaneamente” , isto é, sem saber quais eram os movimentos dos outros
participantes do jogo. Na parte II, analisamos jogos nos quais os jogadores se
movimentam em uma sequência fixa . Em tais jogos dinâmicos , os jogadores que
se movem mais tarde sabem quais movimentos os demais fizeram antes deles.
Os que se movem mais ced0 devem levar isso em conta quando projetam a sua
estratégia ótima. Um exemplo bem conhecido de jogo dinâmico é o xadrez. Isso
deve servir como uma advertência de que prever comportamento em jogos
dinâmicos nem sempre é direto. Muitas vezes a barganha por um contrato de
trabalho ou por um carro novo desenvolve-se com ofertas e contraofertas
seqüenciais . Decidir onde comprar uma casa muitas vezes depende de quem
tomou a decisão de morar em um bairro antes e quem se pode esperar que se
mudará pra lá . Por conseqüência, esse também é um jogo dinâmico.

A questão central nos jogos dinâmicos diz respeito à credibilidade das


ameaças e promessas dos agentes. Às vezes, por exemplo, pode ser ótimo saber
que o outro jogador observa sua atitude antes de tomar suas decisões.

Nós representamos os jogos até agora apenas pela forma normal (ou
estratégica). Veremos, entretanto, que há uma outra forma de representação: a
forma extensiva, uma forma mais detalhada do que a forma normal. Segue daí
que um jogo na forma extensiva em geral sofre perdas de informação quando o
passamos para a forma normal, enquanto o inverso nem sempre é possível de se
fazer. Nos jogos estáticos, não há problemas em tratá-lo apenas na forma
estratégica, sendo inclusive mais conveniente. Todavia, isso com certeza
ocorreria nos jogos dinâmicos. Por isso, os abordaremos utilizando a forma
extensiva.
Um jogo (de informação completa e perfeita) na forma extensiva nos dá as
seguintes informações:
• quais são os jogadores participantes,
• quais são as ações possíveis para cada jogador em cada vez em que ele
for chamado a decidir,
• a ordenação do jogo: quem age e quando,
• toda a história pregressa do jogo quando cada jogador tem de tomar uma
decisão,
• os payoffs dos jogadores para cada conjunto possível de ações que
tenham sido tomadas, até o final do jogo.

Exemplo

Na figura acima temos a representação de um jogo na forma extensiva. Por


convenção (mas, novamente, nem sempre) o jogador 1 (j.1) é o primeiro a jogar.
Esse ponto é dito "nó inicial"e é único, no sentido a ficar claro ao longo do texto.
Esse jogador pode jogar duas estratégias, ou e ou d. Diferentemente de jogos
estáticos, agora o jogador 2 observa a escolha de 1 e só então faz a sua escolha.
Ele também ou joga e ou joga d. No entanto é fundamental dizer que em jogos
dinâmicos a noção de estratégia (e de conjunto de estratégias) de um jogador é
mais complexa do que a mesma noção em jogos de escolha simultânea. Aqui
uma estratégia deve ser vista como "um plano completo de ação", deve
especificar para o jogador em questão as suas possibilidades de ação
contingentes à todas as ações possíveis dos jogadores que jogaram antes dele.
No jogo acima, por exemplo, o espaço de estratégias do jogador 2 é

Uma vez que os jogadores 1 e 2 fizeram as suas escolhas, o payoffs são


dados pelos números situados após os últimos nós de decisão, ditos nós
terminais. Por convenção, o primeiro número se refere ao payoffs do jogador que
jogou primeiro, o segundo número ao payoff do jogador que jogou em segundo
lugar e assim sucessivamente no caso de jogos com mais de dois jogadores.
Logo, lendo o jogo acima na forma extensiva, temos

1. os jogadores: 1 e 2,
2. os espaços de estratégias, S1 = fe; dg e S2 como acima exposto,
3. a ordenação: 1 joga primeiro, 2 observa a escolha de 1 e então faz a sua
escolha,
4. a história pregressa do jogo: quando 2 é chamado a jogar ele sabe
inequivocadamente qual foi a escolha de 1,
5. os payoffs: os ganhos dos jogadores para toda combinação possível de
escolhas dos jogadores.

Note então que a representação na forma extensiva apresenta todas as


características destacadas acima. Ela possui em geral (mas nem sempre, como
veremos em exemplos abaixo) o formato de “árvores crescendo para baixo” E a
título de curiosidade - discutiremos isso logo - o resultado desse jogo será "o
jogador 1 jogar d e o jogador 2 jogar e se 1 jogou e, jogar d se 1 jogou d". Os
payoffs serão (4; 1).

Indução Retroativa: jogos de informação completa e perfeita

Os jogos de informação completa e perfeita podem ser sintetizados da


seguinte forma (para o caso de dois jogadores; com mais de dois, não há
mudança significativa):

1. o jogador 1 escolhe uma ação entre as suas possibilidades delimitadas pelo


conjunto de possibilidades de estratégias,

2. o jogador 2 observa a escolha do jogador 1 e então escolhe uma ação no seu


conjunto de estratégias factíveis, que agora depende da ação que o jogador 1
tomou,
3. o jogo termina e os payoffs cada jogador são determinados em função da sua
escolha e também do elemento de interação estratégica, a escolha do outro
jogador.

Essa definição simples segue a apresentação de Gibbons (1992), mas


pode ser muito ampliada. Além da possibilidade de existência de mais de dois
jogadores, poderia ocorrer que dentro de um mesmo jogo um ou mais jogadores
pudessem vir a jogar mais de uma vez. Além de diversas situações mais
relevantes, inclusive de natureza econômica, mesmo outras mais simples se
adaptariam claramente a esses casos. Pense, por exemplo, na maior parte dos
jogos de cartas ou de tabuleiros: em geral, jogam de duas a seis pessoas, uma
após a outra, com ações tomadas um grande número de vezes durante o jogo.
Normalmente, pelo menos a maioria deles pode ser analisada como
jogos dinâmicos de informação perfeita e completa.
A forma de se resolver situações dessa natureza é a descrita a seguir.
Assim como em jogos estáticos, solucionar jogos dinâmicos é também um
exercício de previsão em que o analista busca antever o comportamento dos
jogadores envolvidos tendo em mente algumas premissas sobre a postura geral
dos jogadores. Mas se antes os jogadores consideravam estratégias que fossem
racionalizáveis apenas, agora eles têm de trabalhar com estratégias que sejam
sequencialmente racionais. Isto é, aquelas que não envolvam
promessas/ameaças não críveis (como a do sequestrador que ameaça explodir a
granada e se matar).

Definição - Uma estratégia que seja sequencialmente racional deve prescrever


formas de agir que sejam racionais em cada ponto de decisão que o jogador
possa estar. Ou seja, o jogador não joga apenas estratégias racionalizáveis, ele
jogará estratégias racionalizáveis sempre que for chamado a jogar. Ou seja, caso
o jogador esteja em determinado ponto na árvore de decisão, ele deve ter
estratégias que são ótimas a partir daí, dadas as possíveis estratégias e escolhas
futuras dos outros jogadores.

Trabalhando inicialmente apenas com o exemplo mais simples de jogos de


informação perfeita e completa dado acima (com apenas dois jogadores fazendo
uma escolha cada um durante o desenrolar do jogo), o procedimento que
adotamos para resolvê-lo é dito indução retroativa ("backward induction") e é
descrito da seguinte forma. Começamos sempre pelo final do jogo, analisando o
jogador que joga por último, no caso o jogador 2. Esse jogador já observou a
escolha do jogador 1 e deve escolher uma estratégia tal que, condicional à
escolha de 1, lhe dê o maior payoff possível. O jogador 2 faz então a sua escolha.
Passamos a seguir para a análise do problema de escolha do jogador 1. O
fundamental aqui é entender que, como se trata de um ambiente de informação
completa, o jogador 1 também sabe qual será a melhor atitude que o jogador 2
pode tomar para cada escolha que ele, jogador 1, venha a fazer. O jogador 1, por
isso, não escolherá aleatoriamente sua estratégia ficando, depois, “torcendo” para
que o outro jogador faça algo que também seja favorável a ele. Na verdade, no
momento de fazer a opção da melhor estratégia a se tomar ele já considerará
que, dependendo do que ele escolher, isso afetará a escolha do jogador 2 e esse
pensará apenas no seu próprio bem-estar no momento de definir sua estratégia.
Procedendo assim, e dado que a forma de resposta do jogador 2 é dada pela sua
escolha condicional à decisão de 1, o seu problema é o problema de escolher
uma estratégia que lhe dê o maior payoff possível dado que o jogador 2 reagirá
de forma ótima à sua tomada de decisão. Da solução desse conjunto de tomadas
de decisão, do jogador 1 e do jogador 2, teremos um (ou mais) par de estratégias
que caracterizará o resultado de indução retroativa desse jogo. Esse
resultado elimina qualquer tipo de ameaça ou promessa que não sejam críveis,
pois o jogador 1 antecipa o que o jogador 2 fará em cada uma das situações
possíveis, buscando o seu próprio bem-estar. Assim, jogador 1 não acredita em
eventuais ameaças que possam ser feitas pelo jogador 2 e que incorporem
atitudes desse último que não sejam ótimas para ele mesmo, uma vez que o
jogador 1 já fez a sua ação.
Exemplo1

Qual o resultado de indução retroativa do jogo acima? Vejamos o que o jogador 2


deve fazer em cada uma das situações possíveis:
• se o jogador 1 joga e, o jogador 2 deve jogar e também e obter payoff de 3
unidades (dando 1 para o jogador 1), pois a alternativa seria obter apenas
2 unidades, caso escolhesse d.
• se o jogador 1 joga d, o jogador 2 deve também jogar d e obter payoff de 1
unidade (gerando 2 para o jogador 1), preferível a zero, que é o que seria
obtido se nesse caso ele escolhesse e.

Como o jogador 1 antecipa isso perfeitamente, ele sabe que as opções


efetivamente alcançáveis são apenas (e; e) e (d; d). Diante disso, irá jogar d e
assim garantirá utilidade de 2 unidades. O resultado de indução retroativa é,
portanto, (d; jogar d dado que 1 jogou d).
Note, por outro lado, que esse resultado está longe de constituir algo próximo
do que se poderia denominar .socialmente ótimo., eficiente ou afim. Se ele fosse,
por exemplo, (e; d), ambos os jogadores estariam melhor. Sendo assim, por que
não sugerir um acordo entre os jogadores que possa levar a esse resultado?
Porque o jogador 1 sabe que, uma vez que ele cumprisse sua parte no acordo, o
jogador 2 não teria incentivos em mantê-lo, pois poderia obter um payoff superior.
Ciente disso, o jogador 1 não se deixa levar por promessas como essas, por não
serem críveis. Da mesma forma, mesmo que o jogador 2 ameace jogar e, caso o
jogador 1 jogue d, esse último sabe que tal ameaça também não é crível, e
portanto não a aceita. Tudo isso é simples consequência do pleno conhecimento
de racionalidade (sequencial) entre os jogadores. Nesse caso, não se requer
muito, bastando que ambos os indivíduos sejam racionais e que o jogador 1 saiba
que o jogador 2 também o seja.
É importante lembrar também que não é necessário que cada jogador jogue
apenas uma vez durante o jogo, como já comentamos antes. Cada um deles pode
ser chamado a escolher mais de uma vez, sendo que a lógica de resolução não
se altera. Sempre se olhará inicialmente para o .m do jogo, destacando as
respostas ótimas em cada situação, e se encontrará o resultado de indução
retroativa tomando como base tais possibilidades.

Exemplo 2
Considere o tradicional jogo onde uma firma está instalada (I) em um mercado
enquanto monopolista e uma outra firma (E) está considerando entrar nesse
mercado. Ela escolhe entre entrar ou não. Caso entre, a antiga monopolista
escolhe entre lutar (fazer uma guerra de preços, por exemplo) ou acomodar-se
(constituir um duopólio, um mercado onde apenas duas firmas produzem).

Vejamos a forma extensiva deste jogo :

Na forma extensiva teríamos:

1. os jogadores: as firmas E e I,

2. os espaços de estratégia:
SE = (fora, entra)
SI = (luta se a firma E entra, acomoda se a firma E entra)

3. ordenação: a firma E decide se entra ou não, a firma I observa a decisão de E e


então decide se reage ou se acomoda,

4. a história pregressa: I, ao fazer sua escolha, sabe o que E jogou,

5. os payoffs.
O resultado por indução retroativa será a firma E entrar no mercado e a
firma I acomodar-se. Isto porque, se E entra, o payoff de I é maior caso ela
acomode.
Como E sabe disso, ela irá entrar, apesar de uma eventual ameaça da
firma I de lutar caso ela faça isso.
Podemos representar o jogo acima também na forma normal:

Nota-se, portanto, que há dois equilíbrios de Nash no jogo acima: o


resultado por indução retroativa e o conjunto de estratégias onde E não entra e I
luta se E entra. A questão central aqui é que essa última ameaça não é crível e
portanto não deveria ser considerada. Temos, portanto, que o conceito de
equilíbrio de Nash não elimina tais possibilidades, pois ele não incorpora a idéia
de que as estratégias devem ser sequencialmente racionais. Apenas um equilíbrio
de Nash no jogo acima pode ser obtido via indução retroativa e, portanto, apenas
esse equilíbrio é um resultado sequencialmente racional.
Um outro resultado muito importante na teoria de jogos dinâmicos é o
chamado Teorema de Zermelo. Ele nos diz que todo jogo finito de informação
perfeita possui um equilíbrio de Nash em estratégias puras que pode ser obtido
via indução retroativa (e que será, portanto, sequencialmente racional). Além
disso, se nenhum jogador possui payoffs iguais em pontos terminais distintos,
então existe apenas um equilíbrio de Nash que pode ser derivado dessa forma.

Barganha seqüencial

Barganha é algum tipo de situação que encontramos corriqueiramente no


dia-a-dia.Observamos desde situações muito simples, quando um filho
adolescente barganha com o pai o horário que ele pode chegar em casa nas
noites de sexta-feira e sábado, em que ele propõe chegar mais tarde em troca de
algum tempo a mais de estudo diário, até situações complexas, em que
presidiários barganham com os representantes do Estado o fim de uma rebelião,
ou países que barganham tarifas comerciais sobre o conjunto de produtos que
eles comercializam. Na verdade, exemplos de situações de barganha são
extremamente fáceis de encontrar e nós de fato nos deparamos com tais
situações em todos os momentos - ainda que não tenhamos em mente que tal
caso específico possa ser analisado teoricamente como um jogo dinâmico de
informação completa.
O processo de barganha é geralmente interpretado como o processo de
construção de um acordo mútuo sobre a provisão de um contrato. No mundo real,
o protótipo básico é a negociação entre um vendedor e um comprador sobre um
bem em troca de dinheiro: o contrato especifica o preço a ser pago pelo ítem. Em
uma negociação salarial, por exemplo, o sindicato é o vendedor, a firma o
comprador e o preço é o salário-base.
Tanto em contextos econômicos quanto legais, um acordo pode ser
retardado na medida em que as partes prolonguem a negociação. Eventualmente
pode acontecer de as partes interessadas nunca chegarem a um acordo. Via de
regra esse atraso implica em algum tipo de custo às partes interessadas: um
custo de oportunidade da negociação, ou seja, dos ganhos que cada parte
poderia estar obtendo se o acordo já tivesse sido fechado, e um custo pecuniário
inerentes à negociação, como por exemplo custos processuais. Esses custos de
oportunidade podem ser representados pela produção que não se realizou e os
custos pecuniários pelos gastos com a intermediação do acordo. Tais custos
podem ser significativos em casos importantes, como aquisições corporativas,
greves patrocinadas por sindicatos de trabalhadores e em diversos litígios civis.
Se não se chega a um acordo, então em algum período de tempo as partes
param de barganhar, como no caso em que comprador e vendedor buscam
parceiros alternativos para fazer seus negócios. Nesse caso, se pensarmos no
contexto legal, uma corte impõe alguma regra que as partes devem seguir. Nesse
sentido, essas cortes legais são um exemplo de resolução judicial de impasses.
No que se segue vamos analisar o modelo teórico de barganha tendo como
pano de fundo um processo de negociação entre um sindicato de trabalhadores e
uma entidade patronal, representante das empresas na quais esses trabalhadores
são funcionários. Não custa uma palavra de precaução aqui: como em todo
modelo teórico, essa representação é uma simplificação das negociações que de
fato ocorrem no mundo real e nesse sentido não buscamos generalizar os
resultados que obtivermos para enriquecer a nossa compreensão de negociações
como um todo, mas tão somente entender esses
processos de negociações como jogos dinâmicos de informação completa.
O jogo se dá como se segue. Há, dois jogadores, 1 e 2, onde vamos
considerar que 1 representa uma associação patronal e que 2 representa um
sindicato de trabalhadores.
Eles estão a negociar sobre a divisão dos benefícios da produção de um
determinado período, um ano por exemplo. Esse benefício é de conhecimento
comum e, obviamente, sua totalidade soma 100%. A negociação se dá entre as
partes de forma a decidir o percentual que cada um dos interessados tem direito
sobre essa totalidade. Ambas as associações desejam obter o máximo possível
para os seus associados e a dinâmica da negociação se dá do seguinte modo:
1. a associação patronal propõe uma divisão;
2. o sindicato pode aceitar ou rejeitar a proposta: se o sindicato aceita, o jogo
termina e cada jogador obtém o acordado. Caso contrário, ele não aceita, o jogo
continua;
3. o sindicato propõe uma divisão;
4. a associação patronal pode aceitar ou rejeitar a proposta: se aceita o jogo
termina e cada parte recebe o combinado. Se rejeita a proposta, então a Justiça
do Trabalho impõem uma divisão de 50% para cada uma das partes e o jogo
também termina.
É necessário algum tempo para preparar cada proposta e contra proposta.
Por isso, se o acordo for fechado em 2, então os jogadores têm 1 (100%) para
repartir. Se terminar com a associação patronal aceitando a proposta no quaem 4,

os benefícios serão apenas de € (0; 1); e se a barganha terminar com a

intervenção da Justiça, então os benefícios são apenas de ². Esse termo é


dito taxa de desconto intertemporal e reflete o fato de que as pessoas (e
instituições) avaliam de maneira distinta uma mesma quantia monetária em
diferentes períodos de tempo, captando portanto o custo de oportunidade acima
discutido. Ou seja, reflete o custo de oportunidade de não receber o valor
imediatamente. Em geral essa taxa de desconto é determinada pela taxa de juros
da seguinte forma,

onde r é a taxa de juros de mercado. Observe que quanto maior r, menor a taxa
de desconto, de forma que os agentes estariam descontando com peso maior o
tempo. Observe ainda que essa taxa pode refletir caracterísiticas específicas das
partes engajadas na barganha. Imagine por exemplo o custo de uma greve seja
maior para uma das partes. Ou que um trabalhador específico assumiu
compromissos tais com sua renda que uma paralisação no seu fluxo de renda
nesse período específico pode lhe ser particularmente custosa. Para facilitar a
nossa análise e sem perda de generalidade, vamos considerar que ambas as
partes têm a mesma taxa de desconto.
Logo há dois jogadores (1 e 2), as estratégias são as descritas na árvore,
assim como a ordenação e os payoffs. Como trata-se de um ambiente de
memória perfeita, os movimentos dos jogadores em cada nó de decisão é de
conhecimento comum em cada um desses nós.
Sendo mais específico, observe o que acontece no primeiro movimento: o
jogador 1 diz ao jogador 2 que do total que eles estão barganhando, ele quer x €
[0; 1], ou x%, de forma que ele está oferecendo a 2 (1 - x)%. Como dito, 2 pode
ou não aceitar. Se aceita a barganha termina e os ganhos são dados. Caso
contrário 2 faz a contraproposta ao jogador 1: do total a ser dividido, ele que (1 -
y)%, de modo que oferece a 1 y%.
Da mesma forma o jogador 1 pode aceitar ou rejeitar. Se 1 aceita o jogo
termina e os ganhos são dados. Note porém que agora já estamos no segundo
estágio do jogo, de forma que as partes já incorreram em algum custo decorrente
do fato de que elas não chegaram a um acordo no primeiro período.
De
Pede-se:
1. Taxa de desconto intertemporal (já está feita em jogos repetidos, mas ter em
mente a questão da in.ação, taxa de juros, reputação e o exemplo do sorvete
derretendo).
2. Represente o jogo na sua forma extensiva.

• Os payoffs são (x; 1 - x) no primeiro estágio, no

segundo estágio caso seja necessária a intervenção da Justiça


do Trabalho.
2. Quanto cada jogador vai obter em equilíbrio perfeito.
• Por indução retroativa, no segundo (e último) estágio da barganha, o
sindicato oferece (y) aos empresários, que aceitam se e somente se

Logo a proposta será

e os ganhos nesse estágio seriam No


primeiro estágio do jogo os empresários ofertam (1 - x) aos trabalhadores que

aceitam se e somente se

de modo que a oferta ótima será

e os ganhos
Logo o equilíbrio de Nash perfeito em subjogos (o que nesse jogo equivale ao
resultado por indução retroativa) será a associação patronal ofertar

aos trabalhadores no primeiro estágio, os trabalhadores


aceitarem a proposta feita, o jogo terminarbe os ganhos serão dados por

3. Se você representasse os trabalhadores, você preferiria fazer a proposta em


primeiro lugar ou ouvir primeiro a oferta dos empresários?
• A primeira coisa a ser feita é representar o jogo na forma extensiva
supondobque o sindicato de trabalhadores faça a oferta em primeiro lugar,
no primeiro estágio. Nesse caso os payo¤s seriam (1 - x; x) no primeiro

estágio, no segundo estágio e


caso fosse necessária a intervenção da Justiça do Trabalho. Resolvemos o jogo
da mesma maneira, de modo que no segundo estágio da barganha, os
empresários oferecem (1 - y) aos trabalhadores, que aceitam se e somente se

Logo a proposta será

e os ganhos nesse estágio seriam


No primeiro estágio do jogo os trabalhadores ofertam x aos empresários. Estes
aceitam se e somente se

de modo que a oferta ótima será


e os ganhos seriam
Segue que o equilíbrio de Nash perfeito em subjogos será o sindicato dos

trabalhadores ofertar aos patrões no primeiro estágio, os


empresários aceitarem essa proposta o jogo terminar ali. Os ganhos seriam

dados por .
Note que os trabalhadores estarão melhor fazendo a oferta no primeiro estágio se

ou seja, se

o que é sempre verdade para todo

Equilíbrio Perfeito em Subjogos


Até agora estudamos separadamente jogos dinâmicos e jogos estáticos.
Entretanto, é bastante usual trabalharmos com jogos que tenham partes
simultâneas e outras não simultâneas, i.e., que tenham informação imperfeita em
pelo menos algum de seus estágios. A forma de resolução segue a mesma lógica
anterior: começar de trás para diante até chegarmos no início do jogo. Entretanto,
sempre quando nos depararmos com um “mini-jogo” com lances simultâneos (ou,
no mesmo sentido, que tenha informação imperfeita), devemos resolvê-lo como
visto anterioriormente e então tomarmos seu resultado (o equilíbrio de Nash
encontrado) como os payoffs a serem distribuídos caso o jogo atinja essa parte
simultânea. Vamos a uma definição:
Um subjogo de um jogo J na forma extensiva é um subconjunto do jogo
que tem as seguintes propriedades:
• inicia-se em um ponto de decisão único (não ligado a nenhum outro por
.linhas tracejadas.)
• contém todos os pontos de decisão que o sucedem, e apenas esses
pontos;
• não divide nenhum subjogo, no sentido de que se um determinado ponto
de decisão pertence a um subjogo, então todo ponto ligado a ele por
alguma “linha tracejada”, também pertence, i.e., os subjogos não cortam
tais linhas.

Vimos em geral que quando analisamos equilíbrios de Nash de jogos em


forma extensiva estes podem conter muitos equilíbrios. Muitos desses equilíbrios
podem parecer não razoáveis pois são baseados em ameaças inacreditáveis.
Equilíbrio de Subjogo Perfeito é um refinamento de equilíbrio de Nash que não
permite ameaças inacreditáveis.

Indução Reversa

A técnica mais comum para encontrar os equilíbrios de subjogo perfeito de


um jogo finito Γ é conhecida como indução reversa. Intuitivamente, temos que a
técnica sugere que se comece pelo fim do jogo e vá resolvendo até chegar ao
começo do jogo. Podemos descrever mais formalmente esta técnica nos
seguintes passos:

1. Seja k = 1 e Γ(k) = Γ.
2. Seja Z−1 o conjunto de todas as histórias que são antecessoras imediatas das
histórias terminais do jogo Γ(k). Para todo i ∈ N e h ∈ Z−1 ∩ Hi, o jogador i
enfrenta um problema de decisão após história h, e portanto deve escolher a ação
que maximiza sua utilidade esperada. Se houver mais de uma ação que produza
a mesma utilidade esperada, existirá um equilíbrio de subjogo perfeito contendo
cada uma dessas ações. Escolha uma delas para ser a ação escolhida por i
segundo a estratégia s, isto é, faça si(h) = a ∈ argmaxb∈Mhui(h · (b)). Passe ao
passo seguinte.
3. Defina o jogo Γ(k + 1) da seguinte maneira:
(a) Para todo h ∈ Z−¹ ∩(∪i∈ NHi), substitua as ações em Mh do jogo Γ(k), pelo
vetor de utilidades que corresponde a história terminal atingida pela ação
escolhida no passo anterior. Passe ao passo seguinte.
(b) Para todo h ∈ Z−1 ∩ (∪i∈NHi)c, isto é uma história imediatamente
antecessora a uma história terminal do jogo Γ(k) onde chance se move, substitua
as ações em Mh, pelo vetor de utilidades que corresponde a utilidade esperada
dos jogadores de acordo com a distribuição de probabilidade que descreve as
probabilidades do jogador chance escolher cada uma das ações em Mh. Passe
ao passo seguinte.
4. Se o conjunto de todas as histórias de Γ(k+1) em que algum jogador i ∈ N se
move for vazio. Pare a iteração e temos que s é um equilíbrio de subjogo perfeito
em estratégias puras de Γ. Caso contrário, passe ao passo seguinte.
5. Faça k = k + 1. Volte ao passo 2.

É fácil ver que como o jogo é finito, após um número finito de iterações o
algoritmo acima descrito produzirá um equilíbrio de subjogo perfeito em
estratégias puras. Desta forma, provamos construtivamente o seguinte teorema:

Teorema: Qualquer jogo em forma extensiva com informação perfeita finito tem
um equilíbrio de subjogo perfeito puro.

Jogos Repetidos

Nesse tópico analisaremos novamente se ameaças e promessas em


relação ao futuro podem influenciar o comportamento atual dos agentes. Ao fazer
isso, buscamos mostrar o que muda em uma análise de previsão do resultado de
jogos quando esses são jogados mais de uma vez. Uma das principais idéias é a
de cooperação: será possível obtê-la caso o jogo se repita? Intuitivamente,
poderíamos pensar que sim, pois um jogador poderia cooperar “hoje” para que os
outros cooperem com ele “amanhã”, e isso poderia valer para todos os
envolvidos. Deve-se, portanto, verificar quando e sob que condições essa intuição
de fato poderá se manifestar na realidade.
Os jogos repetidos são divididos em dois grupos: aqueles repetidos um número
finito de vezes e aqueles repetidos “infinitamente”. Em relação ao primeiro grupo,
a intuição fundamental pode ser apreendida apenas analisando-se o caso de
jogos repetidos duas vezes, o que iremos fazer a seguir.

Jogos repetidos finitos

A característica fundamental dos jogos repetidos finitos é que todos os


jogadores envolvidos sabem, antecipadamente, quantas vezes aquele jogo se
repetirá. Pense, por exemplo, em um Congresso X de três dias que ocorrerá em
um determinado hotel. Existindo dois vendedores de pipoca naquela região, eles
sabem que esse jogo (o mercado que vende pipocas na porta do hotel naqueles
dias com demanda especialmente ampliada) durará exatamente três dias, e com
base nessa informação é que definem suas estratégias. A questão a se verificar é
o que muda no caso onde o jogo é jogado apenas uma vez, como visto até agora,
e quando se repete um número específico de vezes.
Como sempre, vamos iniciar a exposição através do um exemplo do
“dilema dos prisioneiros”. Suponha então que o jogo fosse jogado duas vezes,
sendo que, quando se reinicia o jogo, o resultado do primeiro estágio já é
conhecimento comum. Os payoffs dos jogadores serão tidos como simplesmente
a soma dos payoffs nas duas vezes em que se joga.
Na forma de resolução de jogos de tal natureza deve-se analisar de trás
para frente. No caso específico citado acima, os jogadores, uma vez que se
iniciará a segunda rodada do dilema dos prisioneiros, sabem que o resultado do
primeiro estágio já foi consolidado e, portanto, não têm mais como mudá-lo.
Sendo assim, eles se preocupam apenas com o que virá, ou seja, a segunda
rodada do jogo em questão. Pensando dessa forma, o que eles irão fazer no
segundo estágio do jogo? Irão proceder como fariam se o jogo fosse jogado
apenas uma vez (pois, afinal, o que ocorreu na primeira rodada não poderá mais
ser mudado): como ambos têm uma estratégia dominante, que é confessar, a
jogarão na segunda vez.

Como dito acima, a idéia por trás dos jogos repetidos é que, como ele será
jogado mais de uma vez, pode ser que valha a pena cooperar no início para que o
outro também coopere com você nos estágios subsequentes. Todavia, perceba
que uma vez que se saiba que se alcançou o último estágio do jogo, ninguém
mais irá cooperar, pois não mais se necessitará que o outro também coopere no
futuro, uma vez que o futuro, para tal jogo, não existirá - pois aquela é a última
rodada. Portanto, podemos concluir que:

Observação Em um jogo repetido um número finito de vezes, onde os payoffs


dos jogadores são a soma dos payoffs obtidos em cada vez que o jogo é
repetido, na última rodada será jogado um Nash do jogo não repetido em
questão, ainda que exista uma combinação de estratégias que dê payoffs
maiores para todos os jogadores mas que não seja em equilíbrio de Nash. Esta
seria atingível apenas via cooperação, mas essa não existirá na última vez em
que o jogo é repetido.
No dilema dos prisioneiros jogado duas vezes, no primeiro estágio, os
jogadores, portanto, sabem que na rodada seguinte ambos irão confessar e,
assim, obter um payoff de -6 cada. Eles podem então pensar o jogo repetido duas
vezes apenas como o jogo em seu primeiro estágio acrescido de -6 para ambos
nos payoffs referentes a todos os resultados possíveis, uma vez que eles
antecipam que esse será o ganho de cada um na última rodada. O jogo original é,
portanto, encarado como se fosse o seguinte:
O que se fez acima foi simplesmente adicionar .�6.em todos os payo¤s
possíveis de todos os jogadores. Visualizando esse jogo, eles devem então
novamente confessar, dado que essa permanece sendo uma estratégia
dominante para ambos. Conclui-se que o resultado do dilema dos prisioneiros
repetido duas vezes será os dois jogadores confessarem em todas elas. A
cooperação não pode, portanto, ser atingida em nenhum estágio, ainda que
houvesse a promessa de um deles de que iria cooperar na primeira vez, por
exemplo. Ainda assim o outro não cooperaria, porque ele saberia que, agindo
assim, uma vez que o resultado do primeiro estágio emergisse, no segundo
ninguém iria cooperar. E então não cooperar no primeiro daria um payoff total
superior a ele, independente do que o outro fizesse, sendo, pois, uma estratégia
dominante. Essas conclusões permanecem inalteradas mesmo se mudássemos
apenas o número de vezes em que o jogo é repetido. Isto é, o resultado é válido
mesmo para o “dilema” - ou qualquer outro jogo de informação completa - jogado
n vezes, sendo n um número finito. Imagine que ele fosse repetido quatro vezes.
Na última ninguém cooperaria, pois não haveria um “futuro” para o jogo que
justificasse essa atitude. Na penúltima rodada, também ninguém cooperaria,
porque todos saberiam que na última não haveria cooperação. O mesmo
ocorreria na segunda rodada: cooperar para quê, dado que na terceira e na
quarta ninguém o fará? Na primeira, o mesmo raciocínio se manteria. O resultado
geral pode ser apresentado da seguinte maneira:
Observação Definindo um jogo repetido T vezes como J (T), sendo J o jogo si-
multâneo de informação completa que é repetido e tendo que, quando se reinicia
um estágio de J (T), todos sabem quais são os resultados dos estágios anteriores;
e definindo-se os payoffs dos jogadores como simplesmente a soma dos payoffs
obtidos nos T estágios de J (T), se cada um dos estágios (J) de J (T) possui um
equilíbrio de Nash único, J (T) possui um único ENPS, qual seja, o equilíbrio de
Nash de J em todo estágio de J (T). Se o jogo J é dinâmico (mas também com
informação completa) e possui um único ENPS, o ENPS do jogo repetido, J (T)47,
será também o ENPS de J em cada estágio. Em suma, se um jogo com apenas
um Nash - ou ENPS - (e com informação completa, como todos os que vimos até
agora) for repetido um número finito de vezes, o ENPS
do jogo repetido será o equilíbrio de Nash - ou ENPS - sendo jogado em todos os
seus estágios - desde que os payoffs do jogo repetido seja apenas a soma dos
payoffs obtidos em cada estágio.
Apesar do resultado “desanimador” visto acima, de que mesmo se o jogo
for repetido n vezes a cooperação não será atingida em nenhum estágio - dadas
nossas hipóteses adicionais -, um caso diferente emerge se existem mais de um
Nash no jogo que será jogado mais de uma vez.

Parte III – Jogos com resultados incertos

Todos os jogos que analisamos até aqui eram determinísticos. Isso


significa que todos os jogadores sabem com certeza o resultado de qualquer perfil
de estratégia. É claro que o mundo é muito mais complicado do que isso.
Empresas nunca sabem exatamente quanto venderão a mais quando reduzem
seus preços. Negociadores de sindicatos de trabalhadores nunca sabem ao certo
quais contratos serão aceitos por seus afiliados. Operadores de bolsas de valores
não sabem o valor de liquidação de todas as empresas cujas ações negociam .
Nesta parte mostraremos como incorporar incerteza em um jogo.

Ou seja, quando um jogador escolhe entre suas estratégias, ele não sabe
quais estratégias os outros jogadores escolheram, por isso não tem certeza
quanto às consequências de suas escolhas. Para analisar as decisões dos
jogadores em um jogo, seria útil então ter uma teoria de tomada de decisão que
nos permita expressar as preferências de um agente sobre escolhas com
consequências incertas em termos de sua atitude perante as consequências.
Existem muitas regras de decisão que podem ser adotadas dependendo da
situação por um agente que tem que realizar uma escolha sob incerteza.
Assumiremos que o agente escolhe ações que são funções do estado da
natureza para consequências ou prêmios e que o agente é capaz de determinar
qual a utilidade dessas consequências, onde um estado da natureza é uma
descrição de todos os aspectos do mundo relevantes ao problema de decisão.
Algumas regras requerem que o agente seja capaz de determinar uma
probabilidade sobre o espaço dos estados da natureza, outras não precisam
desta descrição probabilística e podem ser usadas em casos onde tal informação
não é disponível ao agente.

Teoria da Utilidade Esperada

A Teoria da Utilidade ou Teoria da Preferência surge como um método de


análise de investimentos capaz de considerar as preferências individuais dos
decisores em relação ao risco. Esta importante ferramenta deve ser sempre
aplicada em situações onde estão envolvidos riscos e incertezas. A grande
vantagem da Teoria da Utilidade é que sua aplicação é possível não apenas em
análises de decisões que envolvam resultados quantitativos, mas também
qualitativos. A quantificação é realizada pela associação de um valor abstrato de
utilidade para cada uma das situações possíveis. Portanto, um evento que não
tem correspondente numérico ou monetário pode ser transformado em valores de
utilidade.
A primeira apresentação de utilidade como unidade para medir
preferências foi realizada por Daniel Benoulli em um artigo publicado em 1738, no
qual estão descritas idéias básicas como: quantificação do quanto gostamos mais
de um bem do que de outro, e quanto maior quantidade temos de algo, menos
estamos dispostos a pagar mais por ele. No entanto, o grande marco na Teoria da
Utilidade foi a publicação de Theory of games and economic behaviour por John
von Neumann e Oskar Morgenstern em 1944, quando houve a associação da
Teoria da Utilidade com a Teoria da Decisão e a Teoria dos Jogos.

Preferência ao Risco

O nível de aversão ao risco de determinada empresa pode ser definido


através de entrevistas, visando à determinação da utilidade que cada valor
monetário representa para os tomadores de decisão. Ela é fundamental para
modelarmos a melhor decisão a ser tomada pelos gerentes, através da definição
dos projetos a serem priorizados em um ambiente de recursos limitados.

Durante as entrevistas, deve ficar claro ao tomador de decisão que o


analista deseja conhecer suas reais preferências e esperanças, e que isso é
fundamental para o sucesso do processo. Deve haver ciência de que não existem
utilidades corretas ou incorretas, mas utilidades que representem realmente os
sentimentos subjetivos do indivíduo.

Normalmente, os investidores buscam oportunidades de negócio com


maior retorno esperado diante de um mesmo risco ou de menor risco, quando
apresentam o mesmo retorno. Portanto, este é o comportamento racional no
mundo dos negócios, onde empresários sempre procuram maximizar o retorno
esperado e minimizar o risco do empreendimento.

No entanto, a situação crítica é a que se tem que decidir entre um investimento de


elevado retorno monetário, mas alto risco e um de menor retorno, porém de baixo
risco. E, na realidade, são estes os tipos de decisões de investimento que
definem o sucesso ou o fracasso da maioria dos empresários. Portanto,
focaremos nossa análise no comportamento dos gerentes em situações onde eles
devem ponderar suas preferências individuais e subjetivas entre o retorno e o
risco dos projetos.

Este tipo de ponderação é bastante conhecido como “tradeoff” entre risco e


retorno, e ocorre quando o investidor abre mão de um maior retorno para evitar
maior exposição ao risco ou dá prioridade ao projeto mais atrativo
financeiramente apesar de seu elevado risco. O primeiro tipo de comportamento é
típico do gerente avesso ao risco, e o segundo caracteriza um indivíduo propenso
ao risco, ou seja, aquele que se arrisca sem temer o fracasso, colocando tudo a
perder, pois sempre acredita que alcançará o atraente resultado de sucesso.
Dessa forma, este novo modelo decisório será capaz de determinar a melhor
estratégia a ser tomada levando em consideração a disposição do investidor em
assumir riscos.

Por fim, o último tipo de indivíduo é o indiferente ao risco, que baseia suas
decisões apenas no critério de maximização do valor monetário esperado, sem
considerar sua limitação de recursos.

Abaixo estão ilustradas as funções-utilidade dos três tipos de


comportamento frente ao risco.
A partir de agora iremos concentrar nossa discussão em como se define a
utilidade de cada valor monetário para os tomadores de decisão.

Função-Utilidade

A forma mais conveniente de expressar a preferência de um indivíduo ao


risco é através da construção de sua função-utilidade, também conhecida como
função de preferência. Conforme apresentado na Figura , os mais variados
comportamentos dos indivíduos frente ao risco são apresentados através dessas
funções

As funções-utilidade foram primeiramente definidas por Von Neumann,em


1953. Posteriormente, foram aprimoradas e desenvolvidas por vários outros.

Elas podem ser determinadas analiticamente através do uso de funções


matemáticas, que têm seus parâmetros ajustados de modo a melhor se
adequarem ao comportamento da organização. As mais usualmente aplicadas
são a linear, exponencial, logarítmica e quadrada.
O coeficiente de aversão ao risco está sempre presente nas funções-utilidade.
Trata-se de um valor individualizado e único para cada empresa, que reflete
quantitativamente seu comportamento mais ou menos avesso ao risco. Ele é
inversamente proporcional à tolerância ao risco:

A função-utilidade exponencial é a mais aplicada devido à facilidade de


modelagem do coeficiente de aversão ao risco, que coincide exatamente com o
parâmetro c da função, como pode ser verificado pela formulação:

Essas funções são obtidas através da definição da utilidade para o tomador


de decisão de cada um dos possíveis resultados do evento incerto. Como não
poderia ser diferente, o melhor resultado tem máxima utilidade e o pior, mínima.

A utilidade é um valor abstrato que serve para quantificar o quão desejável


é cada uma das ocorrências para determinada pessoa. Portanto, é flagrante o
elevado grau de subjetividade envolvido na definição das funções-utilidade. E, por
esta razão, elas são absolutamente específicas para determinada pessoa em
determinada situação, não podendo jamais serem extrapoladas para outro decisor
ou outro cenário.

Valor Esperado da Utilidade


A melhor decisão a ser tomada é definida com auxílio da função utilidade
através do critério de maximização do Valor Esperado da Utilidade (VEU).

O Valor Esperado da Utilidade de um projeto é dado por:

Onde

VPLs ⇒ Valor Presente Líquido do Sucesso; ps ⇒ Probabilidade de Sucesso;

VPLf ⇒ Valor Presente Líquido do Fracasso; e pf ⇒ Probabilidade de Fracasso.

Assim como a metodologia do VME, a tomada de decisão através do Valor


Esperado da Utilidade (VEU) estabelece que o projeto deve ser aceito e
empreendido se apresentar um VEU positivo; do contrário, deve ser abandonado.
Vamos resolver o mesmo exemplo ilustrado na Figura , só que, dessa vez,
através da maximização do Valor Esperado da Utilidade (VEU) que,
diferentemente da resolução anterior pelo critério do VME, leva em consideração
a preferência do decisor frente ao risco financeiro.

Inicialmente, vamos obter junto ao tomador de decisão fictício sua opinião


pessoal a respeito da utilidade de cada um dos resultados possíveis nas duas
loterias oferecidas, considerando uma escala de utilidade de (-100) a 100:

Para a Loteria A:

U(R$ 1.200.000,00) = 80

U( - R$ 200.000,00) = -90

Para a Loteria B:

U(R$ 12,00) = 20

U( - R$ 2,00) = - 5

Vamos agora calcular o valor esperado da utilidade:

VEUA = 0,5(80)+0,5(-90) ⇒ VEUA = -5

VEUB = 0,5(20)+0,5(-5) ⇒ VEUB = 7,5

Portanto, o decisor, assim como a maioria dos brasileiros, nem se arriscaria


na Loteria A – tem utilidade negativa –, pois não seria capaz de suportar a perda
de R$ 200.000,00. A loteria de valores de menor vulto seria aceita, tendo utilidade
positiva para o indivíduo.

Através deste exemplo fica nítida a vantagem de se utilizar a Teoria da


Utilidade como ferramenta de suporte à tomada de decisão, que sempre se dá de
maneira individual e subjetiva.

Equivalente Certo

Outro conceito fundamental para a aplicação da Teoria da Utilidade é o de


Equivalente Certo. Ele corresponde ao menor valor monetário certo e seguro que
o investidor aceita para deixar de se aventurar em uma determinada situação
incerta, também conhecida como loteria.

O Equivalente Certo surge da comparação entre uma opção de


investimento incerto e arriscado, com possibilidade de perdas, e outra sem
incertezas ou risco, bastando colocar o dinheiro no bolso. Então ele é o valor
certo oferecido para o qual ficamos indiferentes entre recebê-lo ou participar de
um determinado jogo.

No que diz respeito a um projeto em que estejam envolvidos riscos e


incertezas, o Equivalente Certo é o valor mínimo que estaríamos dispostos a
receber para nos desfazermos dele, ou seja, é o valor justo de venda do projeto.

Em uma decisão de investimentos sob incertezas, podemos definir o


comportamento do indivíduo frente ao risco através da comparação entre o
Equivalente Certo (EqC) e o Valor Monetário Esperado (VME) do negócio.
Vejamos:

• Indiferente ao Risco: EqC = VME

• Propenso ao Risco: EqC > VME

• Avesso ao Risco: EqC < VME


Alguns autores gostam de apresentar a aversão ao risco como um temor
do desconhecido e incerto, um sentimento de estar fora do controle da situação.
Nesses casos de aversão ao risco, a diferença entre o Valor Monetário Esperado
e o Equivalente Certo do investidor é chamada de “Prêmio de Risco”. Assim
sendo, o tomador de decisão será recompensado com este prêmio pelo risco de
perda ao decidir pela opção arriscada em detrimento ao ganho certo, dado pelo
EqC. De maneira análoga, seria o valor que o indivíduo avesso ao risco abre mão
para se prevenir do risco de perder.

O melhor entendimento do que realmente é o Equivalente Certo na prática


será possível com o exemplo apresentado: Um milionário excêntrico propõe a
referida Loteria I, incluindo em seu jogo o risco financeiro de perdas. Ele lançará
uma moeda não viciada ao ar e, no caso de a face que estiver voltada para cima
ser cara, lhe paga R$ 1.200,00 e, se for coroa, lhe exige R$ 200,00. Qual seria o
mínimo valor monetário certo que você aceitaria dele para não entrar neste jogo?
Ou seja, qual é o menor valor que o torna indiferente entre recebê-lo com certeza
ou arriscar-se no jogo proposto pelo milionário?

Ressaltemos que o milionário fará ofertas partindo de R$ 50,00, e


crescentes de forma aritmética em R$ 50,00 até que o indivíduo abordado aceite
o montante oferecido para abandonar a loteria.

Sabemos que o Valor Monetário Esperado (VME) deste jogo é de R$ 500,00.


No entanto, como já vimos anteriormente, o comportamento dos indivíduos frente
ao risco é muito variável, e influenciado principalmente por suas capacidades
financeiras. O milionário oferece a loteria a três pessoas bem diferentes:

• Maurício: Engenheiro com renda mensal de R$ 2.000,00;

• Alexandre: Presidente de uma corretora com renda mensal de R$ 40.000,00;


e

• João: Assalariado com renda mensal de R$ 200,00.

Maurício, que estava estacionando seu carro quando encontrou o


milionário, usaria seu raciocínio lógico, tendo um comportamento frio, sem se
deixar levar muito pela emoção, frente a essa boa oportunidade de
complementação do orçamento mensal. A perda de R$ 200,00 não seria bem-
vinda, mas em nada mudaria o rumo de sua vida. De forma que se portou de
forma indiferente ao risco e aceitou não jogar quando o milionário lhe ofereceu R$
500,00 – o Valor Monetário Esperado da loteria.

Alexandre, que estava apressado nas ruas do centro da cidade quando


reencontrou um antigo amigo – o milionário excêntrico –, não pôde perder muito
tempo com a loteria oferecida. No entanto, como comumente se arrisca em jogos
de azar porque sempre acredita ser possível ganhar o maior prêmio, apostava que
iria conseguir os R$ 1.200,00, até porque passar aquele encontro perdendo
somente R$ 200,00 lhe faria pouca falta. Dessa forma, se comportou como
propenso ao risco e só aceitou deixar a loteria quando lhe foram oferecidos R$
700,00.

João tinha acabado de sacar da agência bancária todo o seu salário


quando foi abordado pelo milionário excêntrico. Ponderando bastante os efeitos
negativos da opção arriscada, percebeu que a perda dos R$ 200,00 seria trágica
para toda a sua família, cuja subsistência no mês dependia de seus rendimentos.
Apesar da probabilidade de ganhar uma quantia maior ser a mesma da de perder
uma menor, as pessoas avessas ao risco temem mais a segunda situação do que
acreditam na primeira. Ele acabou tendo um comportamento avesso ao risco,
bastante comedido, aceitando abandonar o jogo quando a oferta alcançou R$
300,00, valor que representava o salário de um mês e meio de trabalho duro.

O milionário, que tinha por “hobby” analisar o complexo comportamento


dos seres humanos em relação ao dinheiro, resolveu refinar um pouco seu jogo
pedindo para os três participantes relacionarem utilidades, em uma escala
definida entre (-100) e 100, para cada um dos valores monetários oferecidos.

Veremos como cada um dos três considerou as utilidades para cada um dos
resultados:

Maurício (EqC = R$ 500,00):

UM (R$1.200,00) = 30 e UM ( - R$200,00) = -10.

VEUM = 0,5(30)+ 0,5(-10) ⇒ VEUM = 10.


UM (EqC) = UM (R$500,00) = 10.

Alexandre (EqC = R$ 700,00):

UA (R$1.200,00) = 10 e UA ( - R$200,00) = -2.

VEUA = 0,5(10)+ 0,5(-2) ⇒ VEUA = 4.

UA (EqC) = UA (R$700,00) = 4.

João (EqC = R$ 300,00):

UJ (R$1.200,00) = 90 e UJ (- R$200,00) = -50.

VEUJ = 0,5(90)+ 0,5(-50) ⇒ VEUJ = 20.

UJ (EqC) = UJ (R$300,00) = 20.

Apresentamos plotada na Figura a função-utilidade de cada um dos três


participantes, que nos permite concluir graficamente como cada um se comporta
frente ao risco. A função-utilidade linear de Maurício explicita seu comportamento
indiferente ao risco. João nitidamente se comporta com aversão ao risco, como
mostra sua função-utilidade convexa. A curva de Alexandre é a mais difícil de ser
interpretada, pois o jogo oferecido apresenta baixa utilidade para ele. Se os
valores monetários fossem superiores, perceberíamos com maior clareza a forma
côncava de sua função-utilidade.
Através deste exemplo simples e descontraído pudemos verificar como o
dinheiro apresenta utilidades variadas para os indivíduos. E comprovamos através
de uma ferramenta quantitativa sem grandes complexidades matemáticas, aquilo
que já esperávamos: a loteria oferecida pelo milionário excêntrico apresenta maior
utilidade para João que para Mauro, e muito pouca utilidade para Alexandre.

Conforme apresentado anteriormente, a capacidade de absorver perdas


financeiras é um dos critérios principais que definem o comportamento frente ao
risco. A tolerância ao risco destes três personagens pode ser vista de forma
análoga a das companhias de petróleo. Quanto maior a renda mensal, no caso
das pessoas físicas, ou maior o capital exploratório das empresas de petróleo,
maior a capacidade financeira de suportar perdas, e, conseqüentemente, maior
tolerância ao risco.

A apresentação teórica e a aplicação prática do conceito de Equivalente


Certo nos permite concluir que para determinado indivíduo ou organização existe
a mesma preferência ou utilidade entre o recebimento da quantia do Equivalente
Certo e a participação no evento incerto e arriscado. Dessa forma:
Verificamos anteriormente que o decisor racional em condições de risco e
incerteza deixa de lado o critério de maximização do VME, que apresenta
limitações, passando a adotar o de maximização do VEU. Mas observamos pela
definição acima que atingiremos este objetivo através da maximização da
utilidade do EqC, ou simplesmente pela própria maximização dele, uma vez que
quanto maior ele for, maior sempre será sua utilidade para o tomador de decisão.

Portanto, no processo de tomada de decisão em investimentos sob risco e


incerteza devemos sempre buscar a maximização do Equivalente Certo através
da definição do nível ótimo de participação no projeto.
Parte IV- Jogos Estáticos com Informação Incompleta

Uma das novas idéias mais importantes na economia é que informação


privada constitui um recurso valioso cujo uso pode afetar o bem-estar econômico
e social tanto quanto o uso de trabalho, terra ou tecnologia. Aqui , “informação
privada” quer dizer conhecimento sobre o estado do mundo que alguns jogadores
possuem, mas outros não. Exemplos de informação privada são a financeira de
uma empresa que alguns acionistas sabem qual é e outros não; a disposição de
um candidato a um novo emprego tem de fazer horas extras de última hora que
não é do conhecimento de seu empregador potencial; e os resultados de um
levantamento entre afiliados de um sindicato trabalhista sobre um novo contrato
de trabalho proposto por uma empresa e que não é compartilhado com o
negociador da empresa. Tais casos são conhecidos como jogos com Informação
Incompleta, também ditos jogos bayesianos. Lembre-se que em jogos,
estáticos e dinâmicos, de informação completa, por definição, a função de ganho
dos jogadores era de conhecimento comum. Em contraste, nos jogos de
informação incompleta, a função payoff de pelo menos um dos jogadores não
será de conhecimento comum, o que denota um elemento de incerteza na medida
em que pelo menos um jogador estará incerto sobre a função payoff dos outros
jogadores.
Manteremos o formato que estamos seguindo desde o começo e
apresentaremos primeiro jogos bayesianos estáticos e posteriormente trataremos
de jogos dinâmicos.
Um exemplo padrão de jogos estáticos de informação incompleta são
leilões fechados. Cada participante (“bidder”) sabe a sua própria avaliação do
bem leiloado mas não conhece as avaliações dos demais participantes. O lances
(“bids”) são submetidos em envelopes fechados, de modo que os movimentos dos
jogadores podem ser considerados simultâneos. No entanto, a maioria dos jogos
bayesianos interessantes economicamente são dinâmicos. Como nós veremos no
próximo tópico, a existência de informação privada leva naturalmente à tentativas
da parte informada de se comunicar (ou enganar) e à tentativas da parte não
informada de aprender e responder. Essas questões são inerentemente
dinâmicas.
Na próxima seção vamos definir a forma de representar de um jogo
bayesiano estático e a noção de equilíbrio correspondente, qual seja equilíbrio
bayesiano de Nash.
Como tais noções são mais complexas e abstratas do que as vistas até
aqui, faremos isso através de um exemplo, um oligopólio de Cournot sob
informação incompleta.

Cournot sob informação incompleta

Considere um duopólio de Cournot padrão em que as firmas escolhem


simultaneamente o quanto produzir. A curva de demanda inversa é

P (Q) = a - Q e Q = q1 + q2
A função custo da firma 1 é dada por

C1 (q1) = cq1

e isso é de conhecimento comum. Já a função custo da firma 2 não. Ela é dada


por

A firma 1 não sabe ao certo qual é a função custo da firma 2 (essa firma
pode ser uma firma nova no mercado ou pode ter inventado uma nova
tecnologia): o que é de conhecimento comum aqui é a distribuição de
probabilidades sobre a eficiência da firma 2 e a própria estrutura de informação,
no sentido de que a firma 1 sabe que 2 tem informação superior, a firma 2 sabe
que a firma 1 sabe isso e assim sucessivamente.
Como resolver esse jogo? Considere primeiro o caso da firma 2, a firma
que tem mais informação. Caso ela seja ineficiente, o seu problema será
E analogamente, caso ela seja mais eficiente, vai

Decorre das CPO´s dos problemas acima que

que são as melhores respostas que a firma 2 pode dar às escolhas de 1 caso ela
seja de custo alto ou de custo baixo.
Já o problema da firma 1, a firma não informada, é maximizar o seu ganho
esperado em função da chance de 2 ser ou não eficiente. Ou seja, a firma 1

tal que as CPO´s implicam que

tal que
será a melhor resposta (esperada) que a firma 1 pode dar às escolhas de 2. Da
interseção dessas 3 equações de melhores respostas segue que

Substituindo essa expressão acima em q2 (cH) e em q2 (cL), teremos as


demais ex- pressões de equilíbrio,

Analogamente, a firma 2 de custo baixo produzirá


Logo em equilíbrio as firmas produzirão

A oferta esperada da indústria será

Ou seja,

Logo

ou ainda,
tal que

O preço esperado por sua vez será

Já com relação aos lucros das firmas em equilíbrio, observe que o lucro da firma 1
será

Para mostrarmos que o raciocínio acima está correto, tome a função lucro
da firma1 um pouco mais “aberta”,

Ou seja,
tal que

exatamente a mesma expressão inicial. Como é comum em Cournot, repare que

O lucro da firma 2 ineficiente, de custo alto, será por sua vez


e portanto agora teremos , o que é bastante comum em
Cournot.
Para podermos ter uma interpretação mais direta do lucro da firma 2 de
custo alto, considere a expressão abaixo
Logo

Analogamente para a firma 2 de custo baixo, teremos

de modo que o lucro dessa firma não será negativo se e somente se

“ A representação na forma normal de um jogo bayesiano estático com n


jogadores especifica os espaços das ações dos jogadores A1 , A2 , …, An , os
espaços dos tipos dos jogadores T1 , T2 , …, Tn , suas crenças p1, p2 , …, pn ,
e suas funções de ganhos u1, u2 , …, un. O tipo ti do jogador i é uma informação
privada deste jogador, determina sua função de ganhos ui(a1 , …, an ; ti) , e é
elemento do conjunto Ti dos possíveis tipos para este jogador. A crença pi(t-i| ti)
do jogador i descreve a incerteza de i a respeito dos tipos possíveis t-i dos n-1
outros jogadores dado o tipo ti de i . Este jogo é denotado por G = { A1, A2 , …,
An ; T1 , T2 , …, Tn ; p1 , p2 , …, pn ; u1, u2 , …, un }.”
Conforme Harsanyi, supõe-se que inicialmente a natureza sorteia um vetor
de tipos ti ∈ Ti , segundo uma distribuição a priori de probabilidades p(t). A
natureza revela a cada jogador i seu tipo i, ignorado pelos outros jogadores. A
seguir os jogadores escolhem simultaneamente suas ações ai ∈ Ai . Finalmente
os ganhos ui(a1, …, an; ti) são distribuidos. Observe que desta maneira,
introduzindo o jogador fictício natureza, um jogo com informação incompleta é
transformado em jogo com informação imperfeita. Note que quando a natureza
revela ao jogador i seu tipo i, este e os outros jogadores podem calcular sua
crença pi(t-i| ti) segundo a regra de Bayes:

Note também que um jogador i pode dispor de informações privadas


relativas as funções de payoff dos outros jogadores além daquelas relativas a sua
função de payoff. Neste caso sua função de ganho depende dos tipos t1 , …, tn e
a escrevemos ui(a1 , …, an ; ti , …, tn ).

Definição de um equilíbrio de Nash bayesiano: Uma estratégia pura para o


jogador i num jogo bayesiano estático deve contemplar uma ação para cada tipo ti
possível. Os conjunto Si das estratégias possíveis é o conjunto de todas as
funções com domínio Ti e contradomínio Ai :

No jogo bayesiano estático G = { A1, A2 , …, An ; T1 , T2 , …, Tn ; p1 , p2 , …, pn


; u1, u2 , …, un } uma estratégia do jogador i é uma função si(ti) onde para cada
tipo ti ∈ Ti , si(ti) determina a ação pertecente ao conjunto das ações possíveis Ai
que o tipo ti escolheria se sorteado pela natureza. As estratégias s* = (s1*, …,
sn*) são um equilíbrio de Nash bayesiano (em estratégias puras) se para cada
jogador i e para cada ti∈ Ti , si* (ti) é solução de
Em outras palavras, a estratégia de cada jogador (atenção: uma estratégia é
agora uma função) deve ser a melhor resposta às estratégias dos outros.
3.2 Aplicações
3.2.A Reinterpretando a estratégia mista (Harsanyi)
Um NE em estratégias mistas num jogo com informação completa pode ser
reinterpretando enquanto BNE em estatégias puras num jogo semelhante com um
pouco de informação incompleta. Exemplo: batalha dos sexos
3.2.B Leilões de primeiro preço, envelopes fechados com valores privados vi
distribuidos uniformamente e se as estratégias bi(vi) forem estritamente
crescentes e diferencíaveis o único BNE simétrico é bi(vi) = vi /2.
3.2.C Jogos de dupla oferta
Neste jogo o vendedor e o comprador simultaneamente propõem um preço de
venda pv e um preço de compra pc. A venda é realizada a um preço p = (pv +
pc) / 2 somente se pc ≥ pv.

Myerson e Satterthwaite obtiveram um importante resultado negativo: não


existe BNE onde uma troca voluntária será realizada se ela for eficiente; por
exemplo se uma firma possui uma informação privada sobre a produtividade
marginal m de seu empregado e se este empregado possui uma informação
privada sobre seu salário v de reservação, nenhum acordo voluntário ocorrerá se
for eficiente (i.e. se v ≤ m).
Parte V – Jogos Dinâmicos com Informação Incompleta

Em um jogo dinâmico, jogadores mal informados podem aprender alguma


coisa sobre o jogo observando os movimentos de oponentes mais bem
informados. Visto que incorporar tal aprendizado á análise é difícil, começamos
esta parte apresentando conceitos importantes, como o teorema de Bayes.

Teorema de Bayes: Suponha que os eventos A1, …, Ak formem uma partição do


espaço S de maneira que P(Ai) > 0, ∀i , e seja B um evento tal que P(B) >0.
Então

O teorema de Bayes oferece uma regra simples para calcular a


probabilidade condicional de cada evento Aj dado B a partir da probabilidade
condicional de B dado cada evento Aj e da probabilidade não condicionada
de cada evento Aj.

Exemplo: suponha que, conforme as estatísticas do ministério da saúde, a


probabilidade de ser portador de um virus seja de 1 / 10 000. Um teste permite
detectar esta doença com um grau de confiabilidade de 90 %(i.e. caso um
indivíduo seja portador da doença e faça o teste, o resultado será positivo em 90
% dos casos;enquanto que caso um indivíduo não seja portador da doença e faça
o teste, o resultado será positivo em 10% dos casos). Vocé realiza o teste e o
resultado é positivo. Qual é agora sua probabilidade de ter esta doença (não é 90
% !)? A resposta é 9 / 10 000 .

Equilíbrio Bayesiano

Para um jogo bayesiano, define-se um equilíbrio Bayesiano como sendo


um equilíbrio de Nash da representação tipo-agente do jogo bayesiano em forma
normal. Portanto, um equilíbrio bayesiano especifica uma ação pura ou uma
distribuição de probabilidades sobre as açõesbpara cada tipo de cada jogador de
forma que cada um desses tipos maximiza sua utilidade esperada quando ele
sabe o seu tipo mas não sabe o tipo dos demais jogadores. Note que em um
equilíbrio bayesiano, a estratégia de um jogador depende apenas do seu tipo mas
não dos tipos dos outros jogadores. Conforme explicamos, uma estratégia deve
especificar uma ação para cada tipo de jogador não apenas para o verdadeiro
tipo, pois caso contrário não poderíamos determinar a utilidade esperada dos
outros jogadores que não sabem qual é o verdadeiro tipo dos demais.
Formalmente, um equilíbrio bayesiano em estratégias mistas de um jogo
bayesiano Γb é qualquer perfil de estratégias σ ∈ ×i∈N ×ti∈Ti Δ(Ci) tal que para
todo i ∈ N e ti ∈ Ti,

onde σj(cj |tj) é a probabilidade com que o tipo tj do jogador j escolhe ação cj .

Exemplo: Considere um jogo bayesiano com dois jogadores, suponha que


C1={x1, y1}, C2 = {x2, y2}, T1 = {1}, T2 = {2.1, 2.2}, p1(2.1|1) = 0,6, e as utilidades
são dadas nas tabelas a seguir:

Para o tipo 2.1:


Para o tipo 2.2:

Neste jogo, y2 é uma estratégia fortemente dominada para o tipo 2.1 e x2 é


fortemente dominada para o tipo 2.2, então 2.1 deve escolher x2 e 2.2 deve
escolher y2. Portanto, para o tipo 1, temos que a utilidade esperada de x1 é 0,6 e
a utilidade esperada de y1 é 0,4. Portanto, o único equilíbrio bayesiano deste jogo
é: σ1(x1|1) = 1, σ2(x2|2.1) = 1, e σ2(y2|2.2) = 1.

Exemplo: Considere o seguinte jogo Bayesiano no qual o jogador 1 pode ter tipo
α ou β, onde segundo o único tipo do jogador 2, jogador 1 é do tipo α com
probabilidade 0,9. As utilidades dos jogadores são dadas de acordo com o as
tabelas a seguir:
Para o tipo α:

Para o tipo β:
Note que existem três equilíbrios Bayesianos neste jogo: (1) σ2(x2) = 1, σ1(x1|α)
= 1, e σ1(y1|β) = 1; (2) σ2(y2) = 1, σ1(y1|α) = 1, e σ1(y1|β) = 1; e (3) σ2(x2) = 1/2,
σ1(x1|α) = 5/9, e σ1(y1|β) = 1.

Exemplo: Suponha que duas pessoas estão envolvidas em uma disputa. Pessoa
1 não sabe se a pessoa 2 é forte ou fraca; ela associa probabilidade α a pessoa 2
ser forte. Pessoa 2 está perfeitamente informada. Cada pessoa pode lutar ou se
entregar. Cada pessoa recebe uma utilidade 0 se ela se entregar não importa o
que a outra pessoa faça. Além disso, cada pessoa recebe uma utilidade 1 se ela
lutar e seu adversário se entregar. Se ambas pessoas lutarem, então suas
utilidades são (−1; 1) se a pessoa 2 for forte e (1;−1) se a pessoa 2 for fraca.
Formulando esta situação como um jogo Bayesiano e encontrando os equilíbrios
bayesianos se α < 1 2 e se α > 1 2 .
Solução: O jogo Bayesiano é: N = {1, 2}; Ci = {L,E}, i ∈ N; T1 = {1}; T2 = {Ft,Fr};
p(Ft|1) = α; e as utilidades são dadas por:

• se o jogador 2 for forte:

• se o jogador 2 for fraco:

Seja σ1(L), σ2(L|Ft), e σ2(L|Fr) o perfil de estratégias misto. Então, a


utilidade esperada do jogador 2 forte de lutar é 1, e de se entregar é 0. Logo, este
tipo do jogador 2 sempre luta, isto é em qualquer equilíbrio Bayesiano σ2(L|Ft) =
1. A utilidade esperada do jogador 2 fraco de lutar é −σ1(L) + (1 − σ1(L)), e de se
entregar é 0. Portanto, ele irá lutar se σ1(L) < 1 2 ; se entregar se σ1(L) > 1 2 ; e é
indiferente se σ1(L) = 1 2 . A utilidade esperada do jogador 1 de lutar é α[σ2(L|Ft)
× (−1) + (1 − σ2(L|Ft))] + (1 − α) = 1 − 2ασ2(L|Ft), e de se entregar é 0. Portanto,
ele irá lutar se ασ2(L|Ft) < 1 2 ; se entregar se ασ2(L|Ft) > 1 2 ;
e está indiferente se ασ2(L|Ft) = 1 2 . Como já vimos que em todo equilíbrio
Bayesiano σ2(L|Ft) = 1, então o jogador 1 irá lutar se α < 1 2 , e se entregar se α
> 1 2 . Logo, se α < 1 2 ; então o único equilíbrio bayesiano é dado por σ1(L) = 1;
σ2(L|Ft) = 1; e σ2(L|Fr) = 0.
Se α > 1 2 ; então o único equilíbrio bayesiano é dado por σ1(L) = 0; σ2(L|
Ft) = 1; e σ2(L|Fr) = 1.
Em um problema de decisão ter mais informação nunca é prejudicial, pois o
tomador de decisão pode sempre ignorar a informação recebida. Em um jogo, isto
nem sempre é verdade. Se um jogador possui mais informação e os outros
jogadores souberem disso, então o jogador pode estar numa situação pior como
mostra o seguinte exemplo.

Exemplo: Considere que ambos jogadores consideram igualmente prováveis que


estão participando dos seguintes jogos, onde 0 < ϵ < 1 2 :

Ou

Então, a estratégia L é estritamente dominante para o jogador 2, pois se 1


escolher T, L terá uma utilidade esperada de 2ϵ enquanto M e R terão utilidade
2 ϵ, e se 1 escolher B, L terá utilidade esperada 2, enquanto M e R terão
utilidade esperada 3 2 . Sabendo disto, 1 então escolherá B e no único equilíbrio
de Nash, teremos que ambos jogadores recebem 2.
Suponha agora que o jogador 2, antes do jogo recebe um sinal indicando
qual é o verdadeiro jogo. Neste caso, a estratégia R é estritamente dominante
para o tipo do jogador 2 que acredita que o jogo é o primeiro, enquanto que a
estratégia M é estritamente dominante para o tipo do jogador 2 que acredita que o
jogo é o segundo. Sabendo disto, o jogador 1, escolherá T. Então, neste equilíbrio
o jogador 1 recebe 1 enquanto o jogador 2 recebe 3ϵ<2.
Então, ambos os jogadores saem perdendo com a informação extra
adquirida pelo jogador 2.

Você também pode gostar