Slide Formaextensa

Informação Perfeita Estratégias Representação Equilíbrio de Nash Subjogo Perfeito Informação Imperfeita
Jogos em Forma Extensa
Prof. Leandro Chaves Rêgo

Programa de Pós-Graduação em Estatística - UFPE
Programa de Pós-Graduação em Engenharia de Produção - UFPE
Recife, 12 de Setembro de 2014

Jogos em Forma Extensa
Até o momento estudamos apenas casos onde jogadores se movem ao mesmo

tempo e uma única vez. Contudo em muitas situações estratégicas os jogadores
implementam suas estratégias ao longo do tempo e podem obter informações
sobre as estratégias que estão sendo utilizadas pelos outros jogadores. Para
analisar tais situações precisamos de uma outra forma de representar jogos, que
é conhecida como representação em forma extensa de jogos.
Intuitivamente, um jogo em forma extensa descreve o conjunto de jogadores,

quem se move e quando e quais são suas opções, a utilidade dos jogadores para
cada possível maneira de jogo ser realizado, e finalmente, o que os jogadores
sabem quando se movem em cada situação do jogo. Em um jogo em forma
extensa admite-se a possibilidade de eventos aleatórios influenciarem na
realização do jogo, como por exemplo, o resultado da jogada de um dado. Tais
eventos aleatórios são representados no jogo como se fossem feitos por um
outro jogador denominado chance ou natureza, sendo que este jogador não
possui preferências sobre os possíveis resultados do jogo.
Jogos com Informação Perfeita
Definição
Formalmente, temos que um jogo em forma extensa com informação perfeita é
um vetor Γ = (N, M, H, P, fc , {ui : i ∈ N}), onde
N é um conjunto que consiste dos agentes participando do jogo.
M é um conjunto cujos elementos são os movimentos ou ações
disponíveis aos jogadores ou a chance durante o jogo.
H é um conjunto de seqüências de movimentos (elementos de M) que é
fechado com relação a prefixos, isto é, se h ∈ H e h′ for um prefixo de h,
então h′ ∈ H.a Além disso, se ha1 , . . . aK i ∈ H para todo inteiro finito K ,
então (an )∞
n=1 ∈ H. Denotaremos por X (h) o conjunto de prefixos de h.
a
Um prefixo de uma seqüência (xn ) de comprimento K é qualquer
subseqüência de (xn ) que consiste dos primeiros l ≤ K termos de (xn ). Por
exemplo, se h = hm5 , m8 , m1 i os prefixos de h são hi,hm5 i,hm5 , m8 i, e
hm5 , m8 , m1 i.
Definição
Intuitivamente, cada membro de H é uma possível história do jogo. Podemos
identificar nós em uma árvore com histórias em H. Cada nó n é caracterizado
por uma seqüência de ações necessárias para atingirmos n. Uma trajetória
completa em H é uma história terminal, uma que não é prefixo estrito de
nenhuma outra história em H. Seja Z o conjunto de trajetórias completas de
H. Seja Mh = {m ∈ M : h · hmi ∈ H} (onde utilizamos · para denotar
concatenação de seqüências); Mh é o conjunto de ações que podem ser
tomadas após a história h.
P : (H − Z ) → N ∪ {c} é uma função que associa cada história não

terminal h a um elemento de N ∪ {c}. (c representa movimentos
aleatórios que podem ocorrer durante o jogo, usualmente chama-se c de
jogador chance ou natureza.)
Se P(h) = i, então jogador i se move após história h; se P(h) = c, então
chance se move após h. Seja Hi = {h : P(h) = i} o conjunto de todas
histórias após as quais o jogador i se move.
Definição
fc é um função que associa a cada história em que P(h) = c uma medida
de probabilidade fc (· | h) em Mh . Intuitivamente, fc (· | h) descreve uma
distribuição de probabilidade sobre as ações disponíveis para a natureza
uma vez que a história h é atingida.
ui : Z → IR é a função utilidade para o jogador i, que associa um número
real (utilidade de i) para cada trajetória completa do jogo.

Exemplo
Um jogo em forma extensa é finito se N, M, e H forem finitos. O próximo
exemplo ilustra a relação entre um árvore de jogo e a definição formal de jogos
em forma extensa dada acima.
Figura: Um jogo em forma extensa simples.

Exemplo
No jogo da Figura 1, temos
N = {A, B}, H = {h i, hdownA i, hacrossA i,
hacrossA , downB i, hacrossA , acrossB i},
P(h i) = A, P(hacrossA i) = B,
uA (hdownA i) = uB (hdownA i) = 1,
uA (hacrossA , acrossB i) = 0,
uB (hacrossA , acrossB i) = 2,
uA (hacrossA , downB i) = 2, e
uB (hacrossA , downB i) = 3.
Competição de Stackelberg
Exemplo
Suponha que uma firma 1 desenvolve uma nova tecnologia antes que uma
firma 2 e como conseqüência tem a oportunidade de construir uma fábrica e
escolher um nível de produção q1 antes que a firma 2 comece sua produção. A
firma 2 então observa a escolha da firma 1 antes de escolher seu nível de
produção q2 . Por exemplo, assuma que qi ∈ {0, 1, 2}, que o preço de mercado
é dado por p(q1 , q2 ) = 3 − q1 − q2 , e que o custo de produção é zero. As
firmas são obrigadas a vender toda a produção pelo preço de mercado pois não
possuem local para armazenagem e a destruição de produtos tem um custo
muito elevado.
Competição de Stackelberg
Exemplo
Deste modo temos que:
N = {1, 2}, H = {h i, h0i, h1i, h2i, h0, 0i, h0, 1i, h0, 2i, h1, 0i, h1, 1i,
h1, 2i, h2, 0i, h2, 1i, h2, 2i},
P(h i) = 1, P(h0i) = P(h1i) = P(h2i) = 2,
u1 (h0, q2 i) = u1 (h1, 2i) = u1 (h2, 1i) = 0,
u1 (h1, 0i) = u1 (h2, 0i) = 2,
u1 (h1, 1i) = u2 (h1, 1i) = 1,
u1 (h2, 2i) = u2 (h2, 2i) = −2,
u2 (hq1 , 0i) = u2 (h1, 2i) = u2 (h2, 1i) = 0, e
u2 (h0, 1i) = u2 (h0, 2i) = 2.
Estratégias
Definição 2.1
Uma ação para um jogador é uma opção disponível que pode escolher após
uma determinada história do jogo, onde uma história do jogo é uma
sequência de ações realizadas pelos jogadores no passado e pelo jogador
chance. Por exemplo, definição da capacidade instalada, quantidade de
recursos destinados ao marketing, preços, etc.
Definição 2.2
Uma estratégia pura para o jogador i em um jogo em forma extensa com
informação perfeita é uma função si que associa cada história h ∈ Hi um
elemento de Mh , ou seja, uma ação disponível para i em h.
Definição 2.3
Se Ci é o conjunto de estratégias puras para o jogador i em um jogo em
forma extensa com informação perfeita, uma estratégia mista para o
jogador i em um jogo em forma extensa é uma distribuição de
probabilidade δi em Ci , ou seja, um elemento de ∆(Ci ).
Estratégia Comportamental
Para jogos em forma extensa com informação perfeita existe uma outra noção
de estratégia, chamada de estratégia comportamental, que especifica uma
randomização independente para cada história em que o jogador se move.
Definição 2.4
Uma estratégia comportamental para o jogador i em um jogo em forma
extensa com informação perfeita é uma função σi que associa cada história
h ∈ Hi um elemento de ∆(Mh ), ou seja, uma distribuição de probabilidade
sobre as ações disponíveis para i em h.
Observação
Note que uma estratégia é um plano de contingência completo que explica o

que um jogador irá fazer em cada situação que possa aparecer no jogo. Como
uma estratégia é um plano de contingência completo, ao contrário das ações,
ela não é observável. Uma ação é física, porém uma estratégia é apenas
mental. A primeira vista, uma estratégia parece especificar ações em excesso,
pois ações no começo do jogo podem tornar impossível que certas histórias
sejam atingidas. Então, por que temos que especificar como jogadores se
comportam em histórias que nunca serão atingidas se os jogadores seguem
certas ações no começo do jogo? A razão é que como jogadores se comportam
fora da trajetória de equilíbrio será crucial para determinar se um dado perfil de
estratégias é um equilíbrio de Nash. Ameaças em caminhos fora do equilíbrio
podem ser essenciais. Falaremos mais sobre isso adiante.
Exemplo
Figura: Um jogo em forma extensa no qual o jogador 1 se move antes e

depois do jogador 2.
Neste jogo, jogador 1 possui quatro estratégias puras: AE , AF , BE , BF .

Jogador 2 possui duas estratégias puras: C e D. Note que temos que
especificar o que o jogador 1 fará após a história hB, Di, mesmo que ele tenha
escolhido A no começo.
Representação em Formal Normal
Alguns conceitos de solução para jogos em forma extensiva utilizam uma

representação forma normal que é derivada a partir da descrição em forma
extensa do jogo. Veremos nesta seção três possíveis maneiras de representar
um jogo em forma extensa em uma forma normal: forma normal, forma normal
reduzida, e forma multiagente.
Forma Normal
Antes de darmos a definição da representação em forma normal de um jogo em

forma extensa, note que dado um perfil de estratégias puras para os jogadores
em um jogo em forma extensa, essas estratégias induzem uma distribuição de
probabilidade sobre as possíveis histórias do jogo em forma em extensa.
Formalmente, suponha que os jogadores jogam o perfil de estratégias pura s,
então Prs (h) representa a probabilidade do jogo atingir a história h dado que os
jogadores seguem as estratégias em s.
Temos que Prs (h i) = 1.
Se h = h′ · hmi, o jogador chance se move após a história h′ , e q é a
probabilidade com que a chance escolherá a ação m, então temos que
Prs (h) = qPrs (h′ ).
Se h = h′ · hmi, e h′ ∈ Hi , então Prs (h) = Prs (h′ ) se si (h′ ) = m, e
Prs (h) = 0, se si (h′ ) 6= m.
Forma Normal

Prs (h) = 0, se si (h′ ) 6= m.
Forma Normal

Prs (h) = 0, se si (h′ ) 6= m.
Forma Normal
Podemos também definir de forma análoga, a probabilidade Prσ (h) do

jogo atingir a história h dado que os jogadores seguem as estratégias
comportamentais em σ, a única diferença da definição anterior é que no
caso em que h = h′ · hmi e h′ ∈ Hi , temos que Prσ (h) = σi (m)Prσ (h′ ).
A distribuição de probabilidade induzida por uma estratégia mista
δ ∈ ×i ∈N ∆(Ci ) é dada pelo valor esperado de acordo com δ das
distribuições
P induzidas pelas estratégias puras, ou seja,
Prδ (h) = s∈C δ(s)Prs (h).
Forma Normal
Podemos também definir de forma análoga, a probabilidade Prσ (h) do

jogo atingir a história h dado que os jogadores seguem as estratégias
comportamentais em σ, a única diferença da definição anterior é que no
caso em que h = h′ · hmi e h′ ∈ Hi , temos que Prσ (h) = σi (m)Prσ (h′ ).
A distribuição de probabilidade induzida por uma estratégia mista
δ ∈ ×i ∈N ∆(Ci ) é dada pelo valor esperado de acordo com δ das
distribuições
P induzidas pelas estratégias puras, ou seja,
Prδ (h) = s∈C δ(s)Prs (h).
Definição
Definição 3.1
A representação em forma normal de um jogo em forma extensa com
informação perfeita Γ = (N, M, H, P, fc , {vi : i ∈ N}) é o jogo em forma
normal Γn = (N, {Ci : i ∈ N}, {ui : i ∈ N}), onde Ci são as estratégias puras
do jogador i em Γ e para todo s ∈ ×i ∈N Ci , temos
X
ui (s) = Prs (z)vi (z),
z∈Z
ou seja, ui é a utilidade esperada para o jogador i quando os jogadores

implementam as estratégias especificadas em s.
Exemplo
Por exemplo, a representação em forma normal do jogo em forma extensa

descrito no exemplo da figura anterior é dada por:
C D
AE 1,1 1,1
AF 1,1 1,1
BE 0,3 2,2
BF 0,3 1,4
Forma Normal Reduzida
Existem alguns jogos em forma extensiva que podemos simplificar sua

representação em forma normal, pois existem várias estratégias para algum
jogador i que têm a mesma utilidade esperada para todos os jogadores não
importa qual é a estratégia adotada pelos outros jogadores. Formalmente, dado
qualquer jogo em forma normal Γ = (N, {Ci : i ∈ N}, {ui : i ∈ N}), duas
estratégias puras em di , ei ∈ Ci são equivalentes em utilidade se, e somente se,
uj (di , c−i ) = uj (ei , c−i ), ∀c−i ∈ C−i , ∀j ∈ N.
Portanto, duas estratégias para o jogador i são equivalentes em utilidade se, e

somente se, não importa o que os outros jogadores façam, nenhum jogador se
importará se o jogador i escolherá di ou ei . Por exemplo, no jogo descrito no
exemplo anterior, as estratégias do jogador 1 AE e AF são equivalentes em
utilidade. Quando existem estratégias que são equivalentes em utilidade
podemos simplificar a representação em forma normal, denotando as
estratégias equivalentes por uma única estratégia. O resultado desta
simplificação é conhecido como forma normal puramente reduzida.
Exemplo
Por exemplo, a representação em forma normal puramente reduzida do jogo em

forma extensa descrito no exemplo anterior é dada por:
C D
A 1,1 1,1
BE 0,3 2,2
BF 0,3 1,4
Forma Normal Completamente Reduzida
Se permitirmos estratégias mistas, podemos ter um outro tipo de redundância

em jogos chamada de redundância aleatória que pode nos permitir reduzir
ainda mais a representação em forma normal de um jogo. Uma estratégia
di ∈ Ci é aleatoriamente redundante se, e somente se, existe uma estratégia
mista δi ∈ ∆(Ci ) tal que δi (di ) = 0 e
X
uj (di , c−i ) = δi (ei )uj (ei , c−i ), ∀c−i ∈ C−i , ∀j ∈ N.
ei ∈Ci
Portanto, di é aleatoriamente redundante se, e somente se, existe alguma

maneira para o jogador i escolher aleatoriamente entre suas outras estratégias
puras de forma que, não importa qual estratégias serão usadas pelos outros
jogadores, todos os jogadores terão a mesma utilidade esperada quando i utiliza
di ou δi . A forma normal completamente reduzida é derivada da forma normal
puramente reduzida eliminando estratégias que são aleatoriamente redundantes.
Exemplo
D E
A 6,0 6,0
B 0,8 8,0
C 3,4 7,0
A estratégia C é aleatoriamente redundante, pois todos os jogadores recebem o

mesmo pagamento se o jogador linha escolhe C ou a estratégia mista que
escolhe A e B com probabilidade igual a 1/2. Portanto a forma normal
completamente reduzida deste jogo, não contém a última linha da tabela acima.
Representação Multiagente
Nesta representação cada jogador i do jogo em forma extensiva é representado

por múltiplos agentes um para cada história após a qual o jogador i se move.
Dado um jogo com informação perfeita Γ = (N, M, H, P, fc , {vi : i ∈ N}) seja
HN = ∪i ∈N Hi o conjunto de histórias após a qual algum jogador i se move.
Definição 3.2
A representação multiagente de um jogo em forma extensa com informação
perfeita Γ = (N, M, H, P, fc , {vi : i ∈ N}) é o jogo em forma normal
Γn = (HN , {Mh : h ∈ HN }, {uh : h ∈ HN }), onde relembrando se h ∈ Hi ,
temos que Mh são as ações disponíveis ao jogador i após história h. Para
todo perfil de estratégias de Γn , t ∈ ×h∈HN Mh , seja s t um perfil de
estratégias de Γ tal que para todo j ∈ N e h ∈ Hj temos sjt (h) = th . Então,
se h ∈ Hi , uhP
: ×a∈HN Ma → IR é uma função utilidade para um jogador h tal
que uh (t) = z∈Z Prs t (z)vi (z).
Exemplo
Considere novamente o jogo a seguir:
Figura: Um jogo em forma extensa no qual o jogador 1 se move antes e

depois do jogador 2.
A representação multiagente tem três jogadores h i, hBi, e hB, Di, o jogador h i

possui duas ações disponíveis A e B, o jogador hBi possui também duas ações
disponíveis C e D, e finalmente o jogador hB, Di possui também duas ações
disponíveis E e F . As utilidades são descritas nas duas tabelas a seguir:
Exemplo
Quando o agente hB, Di escolhe E , temos:
C D
A 1,1,1 1,1,1
B 0,3,0 2,2,2
Exemplo
E quando o agente hB, Di escolhe F , temos:
C D
A 1,1,1 1,1,1
B 0,3,0 1,4,1
Quando estamos considerando a representação multiagente, os diferentes

agentes do jogo em forma normal que representa o mesmo jogador no jogo em
forma extensa são conhecidos como agentes temporários. No exemplo, temos
que h i e hB, Di são dois agentes temporários para o jogador 1 do jogo em
forma extensa. É importante ressaltar que os diversos agentes temporários para
um dado jogador i não podem correlacionar suas estratégias e agem de maneira
independente na representação multiagente do jogo, apesar de possuírem a
mesma função utilidade.
Equilíbrio de Nash
Como existem três tipos de estratégias para um jogo em forma extensa,

podemos definir três tipos de equilíbrios de Nash:
Definição 4.1
Dado um jogo em forma extensa com informação perfeita
Γ = (N, M, H, P, fc , {vi : i ∈ N}), um perfil de estratégias s é um equilíbrio
de Nash em estratégias puras de G se, e somente se,
X
ui (s) = Prs (z)vi (z)
z∈Z
X
≥ ui (s−i , di ) = Pr(s−i ,di ) (z)vi (z)
z∈Z
para todo jogador i e toda estratégia di ∈ Ci .

Equilíbrio de Nash
Definição 4.2
Γ = (N, M, H, P, fc , {vi : i ∈ N}), um perfil de estratégias δ é um equilíbrio
de Nash em estratégias mistas de G se, e somente se,
X X
ui (δ) = δ(s) Prs (z)vi (z)
s∈C z∈Z
X X
≥ ui (δ−i , βi ) = δ−i (s−i )βi (si ) Prs (z)vi (z)
s∈C z∈Z
para todo jogador i e toda estratégia mista βi ∈ ∆(Ci ).

Equilíbrio de Nash
Definição 4.3
Γ = (N, M, H, P, fc , {vi : i ∈ N}), um perfil de estratégias σ é um equilíbrio
de Nash em estratégias comportamentais de G se, e somente se,
X
ui (σ) = Prσ (z)vi (z)
z∈Z
X
≥ ui (σ−i , τi ) = Pr(σ−i ,τi ) (z)vi (z)
z∈Z
para todo jogador i e toda estratégia comportamental τi ∈ ×h∈Hi ∆(Mh ).

Exemplo
Exemplo 4.4
No jogo do Exemplo 13, temos que (A, C , E ), (A, C , F ), e (A, D, F ) são os
únicos equilíbrios de Nash em estratégias puras.
Como veremos no exemplo a seguir, o Equilíbrio de Nash não é um conceito de

solução muito razoável para alguns jogos extensivos, por que ele permite que
muitos perfis de estratégias sejam equilíbrios, alguns até não-intuitivos.
Exemplo
Figura: Jogo com equilíbrio de Nash não-intuitivo.

Exemplo
Neste jogo temos que (downA ,acrossB ) é um equilíbrio de Nash do jogo. Neste
equilíbrio, jogador A escolhe downA por que ele pensa que o jogador B
escolherá acrossB . Então, a ameaça do jogador B de jogar acrossB faz com que
o jogador A escolha downA . Note que neste equilíbrio esta ameaça nunca se
concretiza, pois o jogador B não tem chance de escolher. Contudo, se o
jogador B em algum caso tivesse oportunidade de participar deste jogo, temos
que ele não cumpriria sua ameaça, pois lhe é vantajoso escolher downB .
Portanto, a ameaça do jogador B é inacreditável. Isto sugere que devemos
apenas considerar um subconjunto dos equilíbrios de Nash que não são
baseados em ameaças inacreditáveis. O próximo conceito de solução é
conhecido como equilíbrio de subjogo perfeito e impede que equilíbrios
contenham ameaças inacreditáveis.
Equilíbrio de Subjogo Perfeito
Definição de Subjogo
Um subjogo G de um jogo em forma extensiva
Γ = (N, M, H, P, fc , {vi : i ∈ N}) é um outro jogo em forma extensiva que
satisfaz:
1 O conjunto de histórias H G em G consiste de uma única história em H e
todos as histórias subseqüentes a h;
2 A distribuição de probabilidade sobre as ações da natureza em G são as
mesmas das correspondentes ações em Γ;
3 A utilidades de trajetórias completas em G são as mesmas utilidades das
correspondentes trajetórias completas em Γ.
Definição de Subjogo
Definição 5.1
Um perfil de estratégia (puro, misto, ou comportamental) s ∗ é um equilíbrio
de subjogo perfeito em estratégias (puras, mistas, ou comportamentais,
respectivamente) de Γ se ele for equilíbrio de Nash em estratégias (puras,
mistas, ou comportamentais, respectivamente) de todo subjogo de Γ.
Note que um equilíbrio de subjogo perfeito também é um equilíbrio de Nash

porque o jogo Γ também é um subjogo degenerado dele mesmo.
Indução Reversa
A técnica mais comum para encontrar os equilíbrios de subjogo perfeito de um

jogo finito Γ é conhecida como indução reversa. Intuitivamente, temos que a
técnica sugere que se comece pelo fim do jogo e vá resolvendo até chegar ao
começo do jogo. Podemos descrever mais formalmente esta técnica nos
seguintes passos:
1 Seja k = 1 e Γ(k) = Γ.
2 Seja Z −1 o conjunto de todas as histórias que são antecessoras imediatas
das histórias terminais do jogo Γ(k). Para todo i ∈ N e h ∈ Z −1 ∩ Hi , o
jogador i enfrenta um problema de decisão após história h, e portanto
deve escolher a ação que maximiza sua utilidade esperada. Se houver
mais de uma ação que produza a mesma utilidade esperada, existirá um
equilíbrio de subjogo perfeito contendo cada uma dessas ações. Escolha
uma delas para ser a ação escolhida por i segundo a estratégia s, isto é,
faça si (h) = a ∈ argmaxb∈Mh ui (hh, bi). Passe ao passo seguinte.
Indução Reversa
3 Defina o jogo Γ(k + 1) da seguinte maneira:

1 Para todo h ∈ Z −1 ∩ (∪i∈N Hi ), substitua as ações em Mh do
jogo Γ(k), pelo vetor de utilidades que corresponde a ação
escolhida no passo anterior. Passe ao passo seguinte.
2 Para todo h ∈ Z −1 ∩ (∪i∈N Hi )c , isto é uma história
imediatamente antecessora a uma história terminal do jogo
Γ(k) onde chance se move, substitua as ações em Mh , pelo
vetor de utilidades que corresponde a utilidade esperada dos
jogadores de acordo com a distribuição de probabilidade que
descreve as probabilidades do jogador chance escolher cada
uma das ações em Mh . Passe ao passo seguinte.
4 Se o conjunto de todas as histórias de Γ(k + 1) em que algum jogador
i ∈ N se move for vazio. Pare a iteração e temos que s é um equilíbrio de
subjogo perfeito em estratégias puras de Γ. Caso contrário, passe ao
passo seguinte.
5 Faça k = k + 1. Volte ao passo 2.
Indução Reversa
É fácil ver que como o jogo é finito, após um número finito de iterações o
algoritmo acima descrito produzirá um equilíbrio de subjogo perfeito em
estratégias puras. Desta forma, provamos construtivamente o seguinte teorema:
Teorema 5.2
Qualquer jogo em forma extensiva com informação perfeita finito tem um
equilíbrio de subjogo perfeito puro.
Exemplo 5.3
No jogo do Exemplo 13, temos que (A, C , E ) é o único equilíbrio de subjogo
perfeito.
Exemplo 5.4
No jogo do Exemplo 31, temos que (acrossA ,downB ) é o único equilíbrio de
subjogo perfeito.
Jogo Extensivo com Informação Imperfeita
Agora, vamos estudar jogos extensivos onde os jogadores ao tomarem sua

decisão após alguma história do jogo, podem ter somente uma informação
parcial sobre as ações que já foram tomadas no jogo. Note que um jogo em
forma normal é um caso particular de um jogo extensivo com informação
imperfeita, pois neste caso todos os jogadores se movem uma única vez e cada
um deles não possui nenhuma informação a respeito das ações dos outros
jogadores quando toma a sua decisão.
Definição
Formalmente, temos que um jogo em forma extensa com informação imperfeita

é um vetor Γ = (N, M, H, P, fc , {Ii : i ∈ N}, {ui : i ∈ N}), onde
(N, M, H, P, fc , {ui : i ∈ N}) é um jogo em forma extensa com
informação perfeita, e
Ii é uma partição de Hi com a propriedade que se h e h′ estão na mesma
célula da partição, então Mh = Mh′ , ou seja, o mesmo conjunto de ações
está disponível em todas as histórias de uma mesma célula da partição; se
h ∈ I , onde I é uma célula da partição, denota-se por MI o conjunto Mh
de ações disponíveis. Intuitivamente, se h e h′ estão na mesma célula de
Ii , então h e h′ são indistinguíveis do ponto de vista do jogador i; i
considera a história h′ possível se a verdadeira história for h, e vice versa.
Uma célula I ∈ Ii é conhecida como um conjunto de informação para o
jogador i ou como um (i-)conjunto de informação. Quando desenhamos
um jogo em forma extensa com informação imperfeita em uma árvore
circulamos ou interligamos os nós pertencentes a um mesmo conjunto de
informação com uma linha tracejada.
Como anteriormente, um jogo em forma extensa com informação imperfeita é
finito se N, M, e H forem finitos.
Exemplo
Figura: Jogo em Forma Extensiva com Informação Imperfeita.

Exemplo
No jogo da figura anterior, temos

N = {1, 2},
H = {h i, hAi, hBi, hC i, hB, Di, hC , Di, hB, E i, hC , E i hB, E , F i,
hB, E , G i, hC , E , Hi, hC , E , I i},
P(h i) = P(hB, E i) = P(hC , E i) = 1, e P(hBi) = P(hC i) = 2,
I1 = {{h i}, {hB, E i}, {hC , E i}}, I2 = {{hBi, hC i}},
u1 (hAi) = u2 (hAi) = u1 (hC , Di) = u1 (hC , E , I i) = u1 (hB, E , G i) =
u2 (hC , E , Hi) = 1,
u1 (hB, E , F i) = u2 (hB, E , F i) = 2,
u2 (hB, Di) = u2 (hC , E , I i) = 3,
u2 (hB, E , G i) = 4, e
u1 (hC , E , Hi) = u2 (hC , Di) = 5.
Memória Perfeita e Memória Imperfeita
Na maior parte deste curso, como na maioria dos trabalhos em teoria dos
jogos, nós assumimos que jogadores têm memória perfeita: eles recordam de
todas as ações que eles tomaram e de todos os conjuntos de informação pelos
quais eles passaram. Formalmente, vamos requerer que
se h e h′ estão no mesmo conjunto de informação do jogador i e h1 é um
prefixo de h tal que P(h1 ) = i, então existe um prefixo h1′ de h′ tal que
h1 e h1′ estão no mesmo conjunto de informação; além disso, se h1 · hmi
for um prefixo de h (de forma que m foi a ação realizada quando h1 foi
atingida na história h), então h1′ · hmi é um prefixo de h′ (portanto, i
lembra que ele realizou ação m).
Podemos ver um jogo extenso com informação perfeita como um caso
particular do jogo extenso com informação imperfeita onde todos os conjuntos
de informação contém uma única história. É fácil verificar que em todo jogo
com informação perfeita, todos os jogadores têm memória perfeita.
Memória Imperfeita
Podemos distinguir 3 tipos diferentes de memória imperfeita:

Falta de memória sobre a seqüência de conjuntos de informação pelo qual
o jogador passou;
Falta de memória sobre ações já realizadas pelo jogador; e
Falta de memória sobre se o jogador já realizou ou não uma dada ação.
Exemplos
A próxima figura ilustra jogos extensivos da esquerda para a direita que

apresentam estes 3 tipos de falta de memória, respectivamente.
Figura: Jogos Extensivos com Memória Imperfeita.

Observações
Apesar de não ter recebido muita atenção da literatura, jogos com memória
imperfeita tem tido cada vez mais aplicações principalmente quando estamos
tratando de agentes computacionais que possuem memória finita e têm de
realizar uma dada escolha repetidas vezes. Eventualmente, tais agentes não se
recordam das ações que eles realizaram no passado, ou que conjuntos de
informação eles já visitaram. Existem outras situações onde também modelos
de jogos com memória imperfeita parecem ser razoáveis. Suponha, por
exemplo, que queremos modelar uma partida de xadrez. Parece razoável supor
que os jogadores não necessariamente se lembram de todas as jogadas
efetuadas ao longo da partida e em que ordem elas foram executadas.
A análise de jogos com memória imperfeita envolve sutilezas fora do escopo
deste curso. Portanto, no que se segue estaremos sempre assumindo jogos com
memória perfeita, exceto quando mencionarmos explicitamente o contrário.
Estratégias
Podemos definir de maneira análoga ao caso de jogos com informação perfeita,

o que são estratégias puras, mistas e comportamentais em jogos com
informação imperfeita. A única diferença é que as definições agora garantem
que os jogadores só podem tomar a mesma decisão em histórias que eles não
conseguem distinguir.
Definição 6.1
Uma estratégia pura para o jogador i em um jogo em forma extensa com
informação imperfeita é uma função si que associa cada conjunto de
informação Ii do jogador i um elemento de MIi , ou seja, uma ação
disponível para i quando se move no conjunto de informação Ii .
Definição 6.2
Se Ci é o conjunto de estratégias puras para o jogador i em um jogo em
forma extensa com informação imperfeita, uma estratégia mista para o
jogador i em um jogo em forma extensa é uma distribuição de
probabilidade δi em Ci , ou seja, um elemento de ∆(Ci ).
Estratégias
Definição 6.3
Uma estratégia comportamental para o jogador i em um jogo em forma
extensa com informação imperfeita é uma função σi que associa cada
conjunto de informação Ii do jogador i um elemento de ∆(MIi ), ou seja,
uma distribuição de probabilidade sobre as ações disponíveis para i quando
se move no conjunto de informação Ii .
Estratégias
Exemplo
No jogo do Exemplo 40, temos que o jogador 1 possui 12 estratégias puras:
AFH, AFI , AGH, AGI , BFH, BFI , BGH, BGI , CFH, CFI , CGH, e CGI . O
jogador 2 possui 2 estratégias puras: D e E .
Observação
Eventualmente, abusaremos um pouco da notação e para todo h ∈ I , usaremos
si (h) e σi (h) para denotar as ações escolhidas pelas estratégias si e σi no
conjunto de informação I .
Equivalência entre Estratégias Mistas e

Comportamentais
Nosso objetivo nesta seção é provar que para jogos extensivos com informação
imperfeita finitos onde os jogadores possuem memória perfeita, existe uma
equivalência entre estratégias mistas e comportamentais. Antes de enunciarmos
e provarmos a equivalência, precisamos de duas definições.
Definição 6.4
Definem-se duas estratégias (mistas ou comportamentais) de um dado
jogador como equivalentes em utilidade, se para qualquer coleção de
estratégias puras para os demais jogadores, as duas estratégias induzem a
mesma distribuição de probabilidade sobre as histórias terminais do jogo.
Equivalência entre Estratégias Mistas e

Comportamentais
Definição 6.5
Para qualquer história h, temos que uma estratégia pura si para o jogador i é
consistente com h, se para todo prefixo h′ · hmi de h, onde P(h′ ) = i, temos
que si (h′ ) = m. Intuitivamente, si é consistente com h se existe algum perfil
de estratégias puras dos outros jogadores que juntamente com si tornem
possível que a história h seja atingida com probabilidade positiva. No
Exemplo do Jogo com Informação Imperfeita visto anteriormente, temos
que a estratégia BGH do jogador i é consistente com a história hB, Di, mas
não é consistente com a história hB, E , F i nem com a história hC , E i. Seja
Ci (h) o conjunto de estratégias puras do jogador i consistentes com a
história h.
Teorema 6.6
Se em um jogo em forma extensiva finito, não existe falta de memória sobre se o
jogador já realizou ou não uma dada ação, então temos que toda estratégia
comportamental de um jogador tem uma estratégia mista equivalente em
utilidade.
Prova
Seja σi uma estratégia comportamental para Q o jogador i. Considere a seguinte

estratégia mista δi que dá probabilidade I ∈Ii σi (I )(si (I )) a estratégia pura si .
Seja t−i um perfil de estratégias puras para os jogadores diferentes de i. Vamos
verificar que Pr(σi ,t−i ) (h) = Pr(δi ,t−i ) (h), ∀h ∈ H, e consequentemente σi e δi
são equivalentes em utilidade.
Seja h uma história qualquer do jogo. Temos que considerar dois casos.
Primeiro, assuma que ∃j ∈ N − {i} tal que tj ∈ / Cj (h). Neste caso, temos que
Pr(σi ,t−i ) (h) = Pr(δi ,t−i ) (h) = 0. Assuma então que ∀j ∈ N − {i} temos
tj ∈ Cj (h). Então, temos que:
σi (h′ )(m))( fc (m|h′ )),

Y Y
Pr(σi ,t−i ) (h) = (
h′ ∈Hi , h′ ∈Hc ,
h′ ·hmi∈X (h) h′ ·hmi∈X (h)
pois ao longo da história h as escolhas feitas pelo jogador i são independentes

por definição de σ e pelo fato que assumimos que não existe falta de memória
se um jogador já realizou ou não uma ação.
Prova
Por outro lado, para uma estratégia pura si temos que Pr(si ,t−i ) (h) = 0 se
/ Ci (h) e, em caso contrário temos:
si ∈
fc (m|h′ ).
Y
Pr(si ,t−i ) (h) =
h′ ∈Hc ,
h′ ·hmi∈X (h)
Logo, temos que

Prova
X
Pr(δi ,t−i ) (h) = δ(si )Pr(si ,t−i ) (h)
si ∈Ci
fc (m|h′ )
X Y Y
= σi (I )(si (I ))
si ∈Ci (h) I ∈Ii ′
h ∈Hc ,
h′ ·hmi∈X (h)
fc (m|h′ )
Y X Y
= σi (I )(si (I ))
h′ ∈Hc , si ∈Ci (h) I ∈Ii
h′ ·hmi∈X (h)
fc (m|h′ )
Y X Y Y
= ( σi (I )(si (I )) σi (I )(si (I )))
h′ ∈Hc , si ∈Ci (h) I ∈Ii , I ∈Ii ,
h′ ·hmi∈X (h) X (h)∩I 6=∅ X (h)∩I =∅
fc (m|h′ ))( σi (h′ )(m)) × A(h),

Y Y
=(
′ ′
h ∈Hc , h ∈Hi ,
Prova
onde
, se h ∈
 P Q
 si ∈Ci (h) I ∈Ii , σi (I )(si (I )) / Hi
X (h)∩I
Q=∅
A(h) =
, se h ∈ Hi
P
 si ∈Ci (h) σi (h)(si (h)) I ∈Ii , σi (I )(si (I ))
X (h)∩I =∅
Prova
Como a única restrição para uma estratégia pura si pertencer a Ci (h) é que ela
especifique uma ação que leve a história h em qualquer prefixo estrito de h
onde o jogador i se move, então temos que essas estratégias podem especificar
qualquer ação nos conjuntos de informação para o jogador que contém h ou
que não contenham prefixos de estritos de h. Desta forma rearrumando os
termos dos somatório podemos reescrever:
, se h ∈
 Q P
 I ∈Ii , a∈MI σi (I )(a) / Hi
X (h)∩I =∅
A(h) =
, se h ∈ Hi
P Q P
 ( a∈M σi (h)(a)) I ∈Ii , a∈MI σi (I )(a)
h
X (h)∩I =∅
= 1.
Prova
Portanto,
Pr(δi ,t−i ) (h)

fc (m|h′ ))( σi (h′ )(m))
Y Y
=(
′ ′
h ∈Hc , h ∈Hi ,
= Pr(σi ,t−i ) (h)

Exemplo
Considere novamente o Exemplo de Jogo com Informação Imperfeita visto

anteriormente. Seja σ1 a estratégia comportamental do jogador 1 que escolhe
A com probabilidade 1/2, B e C com probabilidade 1/4 e G e H com
probabilidade 1. De acordo com a construção do teorema a estratégia mista δ1
que é equivalente em utilidade a σ1 é tal que AGH recebe probabilidade 1/2,
BGH e CGH recebem probabilidade 1/4. Se o jogador 2 escolher a estratégia
pura D, então
1/2, se h = hAi


1/4, se h = hBi ou h = hC i ou h = hB, Di


Pr(σ1 ,D) = Pr(δ1 ,D) (h) =

 ou h = hC , Di
0, caso contrário

Exemplo
Enquanto se o jogador 2 escolher a estratégia pura E , então
1/2, se h = hAi


1/4, se h = hBi ou h = hC i ou h = hB, E i


Pr(σ1 ,E ) = Pr(δ1 ,E ) (h) =

 ou h = hC , E i ou h = hB, E , G i ou h = hC , E , Hi
0, caso contrário

Representação Mista
Dada uma estratégia comportamental σi para o jogador i. A estratégia mista
δi que dá probabilidade I ∈Ii σi (I )(si (I )) a estratégia pura si é chamada uma
Q
representação mista de σi .
Jogo Sem Estratégia Mista Equivalente
Para ver um exemplo da necessidade da hipótese que o jogo não pode ter falta
de memória se um jogador já realizou ou não uma ação para encontrarmos uma
estratégia mista equivalente considere o seguinte exemplo.
Exemplo
Figura: Jogo extensivo onde não existe estratégia mista equivalente.

Exemplo
Suponha a estratégia comportamental que escolhe ação a com probabilidade

p ∈ (0, 1). Esta estratégia induz probabilidades p 2 , p(1 − p), 1 − p nas histórias
terminais ha, ai, ha, bi, hbi, respectivamente. Contudo qualquer estratégia mista
induz probabilidade zero na história ha, bi. Portanto, não existe estratégia
mista equivalente a estratégia comportamental dada neste jogo.
A Recíproca
O próximo teorema prova a recíproca do teorema anterior para jogos com

memória perfeita.
Teorema 6.7
Para qualquer estratégia mista de um jogo extensivo finito com memória
perfeita, existe uma estratégia comportamental equivalente em utilidade.
Prova
Seja δi uma estratégia mista para o jogador i. Para qualquer história h, seja
X
πi (h) = δ(si ),
si ∈Ci (h)
ou seja, πi (h) é a soma das probabilidades das estratégias puras do jogador i

consistentes com a estratégia h. Dizemos que δi é consistente com h se, e
somente se, πi (h) > 0. Como o jogo tem memória perfeita, para quaisquer
histórias h e h′ no mesmo conjunto de informação do jogador i, temos que
Ci (h) = Ci (h′ ) e, consequentemente, πi (h) = πi (h′ ). Além disso, como para
qualquer estratégia pura temos que o jogador i deve escolher uma mesma ação
em h e h′ , temos que Ci (h · hmi) = Ci (h′ · hmi) e, consequentemente,
πi (h · hmi) = πi (h′ · hmi).
Prova
Vamos agora, definir uma estratégia comportamental σi que provaremos ser

equivalente em utilidade a δi . Seja I um conjunto de informação qualquer para
o jogador i. Seja h ∈ I tal que πi (h) > 0, defina σi (I )(m) = πi (h·hmi)
πi (h)
. Como
uma estratégia pura si é consistente com h se, e somente se, ela for consistente
com exatamente umaP história h · hmi, temos que m∈MI πi (h · hmi) = πi (h).
P
Portanto, temos que m∈MI σi (I )(m) = 1. Se πi (h) = 0, defina σi (I ) de
forma arbitrária. σi é chamada de uma representação comportamental de δi .
Prova
Seja t−i um perfil de estratégias puras para os jogadores diferentes de i. Vamos

verificar que Pr(σi ,t−i ) (h) = Pr(δi ,t−i ) (h), ∀h ∈ H, e consequentemente σi e δi
são equivalentes em utilidade.
Seja h uma história qualquer do jogo. Temos que considerar dois casos.
Primeiro, assuma que ∃j ∈ N − {i} tal que tj ∈ / Cj (h). Neste caso, temos que
Pr(σi ,t−i ) (h) = Pr(δi ,t−i ) (h) = 0. Assuma então que ∀j ∈ N − {i} temos
tj ∈ Cj (h).
Como temos um jogo finito e πi (h i) = 1, para qualquer história h tal que
πi (h) = 0 existe um último prefixo h′ de h que é consistente com a estratégia
δi . Mais formalmente, se πi (h) = 0, então existe h′ ∈ X (h) tal que πi (h′ ) > 0
e para toda história h′′ ∈ X (h) − X (h′ ), temos que πi (h′′ ) = 0. Se h′ ∈ I , e
h′ · hmi ∈ X (h), então σi (I )(m) = 0. Consequentemente, temos que
Pr(σi ,t−i ) (h) = 0 = Pr(δi ,t−i ) (h).
Prova
Finalmente, considere o caso em que πi (h) > 0. Por definição, temos que
πi (h′ ) > 0, ∀h′ ∈ X (h). Note ainda que se h′ é o primeiro prefixo de h no qual
o jogador i se move, temos que πi (h′ ) = 1, e que se h′ · hmi e h′′ são dois
prefixos de h tais que o jogador i se move em h′ e h′′ , e não existe nenhum
outro prefixo de h entre h′ e h′′ no qual i se move, então πi (h′ · hmi) = πi (h′′ ).
Além disso, se h3 e h4 são dois prefixos de h tal que o jogador i não se move
entre h3 e h4 , temos que πi (h3 ) = πi (h4 ). Então, temos que:
Prova
σi (h′ )(m))( fc (m|h′ ))

Y Y
Pr(σi ,t−i ) (h) = (
′ ′
h ∈Hi , h ∈Hc ,
πi (h′ · hmi)
fc (m|h′ ))
Y Y
=( )(
′
πi (h′ ) ′
h ∈Hi , h ∈Hc ,
fc (m|h′ ))
Y
= πi (h)(
h′ ∈Hc ,
h′ ·hmi∈X (h)
fc (m|h′ ))
X Y
=( δ(si ))(
si ∈Ci (h) ′
h ∈Hc ,
h′ ·hmi∈X (h)
X
= δ(si )Pr(si ,t−i ) (h) = Pr(δi ,t−i ) (h)
si ∈Ci (h)
Exemplo
Considere novamente o jogo do Exemplo 40. Seja δ1 a estratégia mista do

jogador 1 que escolhe AFH com probabilidade 1/2, BFI e BGH com
probabilidade 1/4. Temos que π1 (h i) = 1, π1 (hAi) = 1/2,
π1 (hBi) = π1 (hB, E i) = 1/2, π1 (hC i) = 0,
π1 (hB, E , F i) = π1 (hB, E , G i) = 1/4. De acordo com a construção do teorema
uma estratégia comportamental σ1 que é equivalente em utilidade a δ1 é tal
que σ1 (h i)(A) = σ1 (h i)(B) = 1/2, σ1 (hB, E i)(F ) = σ1 (hB, E i)(G ) = 1/2 e
σ1 (hC , E i) escolhe arbitrariamente entre H e I .
O próximo exemplo ilustra a necessidade da hipótese de memória perfeita para
a existência de uma estratégia comportamental equivalente em utilidade a uma
estratégia mista qualquer.
Jogo Sem Estratégia Comportamental Equivalente
Figura: Jogo extensivo onde não existe estratégia comportamental

equivalente.
Exemplo
Considere a estratégia mista na qual o jogador 1 escolhe LL com probabilidade

1
2
e RR com probabilidade 12 . Esta estratégia induz probabilidades 1/2, 0, 0, 1/2
nas histórias terminais hL, Li, hL, Ri, hR, Li, hR, Ri, respectivamente. Suponha
uma estratégia comportamental σi tal que σi ({∅})(L) = p e
σi ({hLi, hRi})(L) = q. Note que esta estratégia induz probabilidade 0 a
história hL, Ri se, e somente se, p = 0 ou q = 0. Porém neste caso, temos que
ela também induz probabilidade 0 a hL, Li ou a hR, Ri. Portanto, não existe
estratégia comportamental equivalente a estratégia mista dada.
Representação em Forma Normal

Note que as definições das representações em forma normal e normal reduzida
para jogos com informação imperfeita são idênticas a definições
correspondentes para o caso de jogos com informação perfeita, apenas levando
em conta as mudanças na definição do que são agora estratégias puras. O caso
da definição da representação multiagente precisa de mais algumas alterações.
Agora ao invés de termos um agente temporário para cada história em que um
dado jogador i se move no jogo Γ com informação imperfeita, teremos um
agente temporário para cada conjunto de informação do jogador i.
Formalmente,
Definição 6.8
A representação multiagente de um jogo em forma extensa com informação
imperfeita Γ = (N, M, H, P, fc , {Ii : i ∈ N}, {vi : i ∈ N}) é o jogo em forma
normal Γn = ({I : I ∈ ∪i ∈N Ii }, {MI : I ∈ ∪i ∈N Ii }, {uI : I ∈ ∪i ∈N Ii }), onde
relembrando se I ∈ Ii , temos que MI são as ações disponíveis ao jogador i
no conjunto de informação I . Para todo perfil de estratégias de Γn ,
t ∈ ×J∈∪i ∈N Ii MJ , seja s t um perfil de estratégias de Γ tal que para todo
j ∈ N e J ∈ Ij temos sjt (J) = tJ . Então, uI : ×J∈∪i ∈N Ii MP J → IR é uma
função utilidade para um jogador I ∈ Ii tal que uI (t) = z∈Z Prs t (z)vi (z).
Exemplo
Considere novamente o jogo a seguir:

Exemplo
A representação multiagente tem quatro jogadores jogadores

h i,{hBi, hC i},hB, E i, e hC , E i. Os jogadores h i, hB, E i, e hC , E i são agentes
temporários do jogador 1 do jogo em forma extensiva, enquanto o jogador
{hBi, hC i} é o único agente temporário do jogador 2. O jogador h i possui três
ações disponíveis A, B e C , o jogador {hBi, hC i} possui duas ações disponíveis
D e E , o jogador hB, E i, possui duas ações disponíveis F e G , e finalmente o
jogador hC , E i possui também duas ações disponíveis H e I . Se h i escolhe B,
{hBi, hC i} escolhe E , hB, E i, escolhe F , e hB, E i, escolhe I , temos que todos
os agentes temporários tem utilidade esperada igual a 2.
Equilíbrio de Nash
Assim como no caso de jogos em forma extensiva com informação perfeita,

podemos definir três tipos de Equilíbrio de Nash, um para cada tipo de perfil de
estratégias:
Definição 6.9
Dado um jogo em forma extensa com informação imperfeita
Γ = (N, M, H, P, fc , {Ii : i ∈ N}, {vi : i ∈ N}), um perfil de estratégias s é
um equilíbrio de Nash em estratégias puras de Γ se, e somente se,
X
ui (s) = Prs (z)vi (z)
z∈Z
X
≥ ui (s−i , di ) = Pr(s−i ,di ) (z)vi (z)
z∈Z
para todo jogador i e toda estratégia di ∈ Ci .

Equilíbrio de Nash
Definição 6.10
Γ = (N, M, H, P, fc , {Ii : i ∈ N}, {vi : i ∈ N}), um perfil de estratégias δ é
um equilíbrio de Nash em estratégias mistas de Γ se, e somente se,
X X
ui (δ) = δ(s) Prs (z)vi (z)
s∈C z∈Z
X X
≥ ui (δ−i , βi ) = δ−i (s−i )βi (si ) Prs (z)vi (z)
s∈C z∈Z
para todo jogador i e toda estratégia mista βi ∈ ∆(Ci ).

Equilíbrio de Nash
Definição 6.11
Γ = (N, M, H, P, fc , {Ii : i ∈ N}, {vi : i ∈ N}), um perfil de estratégias σ é
um equilíbrio de Nash em estratégias comportamentais de Γ se, e somente
se,
X
ui (σ) = Prσ (z)vi (z)
z∈Z
X
≥ ui (σ−i , τi ) = Pr(σ−i ,τi ) (z)vi (z)
z∈Z
para todo jogador i e toda estratégia comportamental τi ∈ ×h∈Hi ∆(Mh ).

Pode-se definir equilíbrio de subjogo perfeito de maneira análoga para jogos

com informação imperfeita. A única diferença é na definição do que é um
subjogo G de um jogo com informação imperfeita. Neste caso, temos que a
definição é idêntica, somente com a restrição que se I ∩ H G 6= ∅, então
I ∩ H = I ∩ H G , isto é todos os conjuntos de informação do subjogo devem ser
idênticos aos conjuntos de informação do jogo original. Isto, por exemplo,
implica que a história raiz de qualquer subjogo deve pertencer a um conjunto
de informação que contém apenas uma única história no jogo original.
Equilíbrio Sequencial
Para jogos extensivos com informação imperfeita, existe ainda um outro

refinamento que evita alguns equilíbrios de Nash que não são intuitivos
conhecido como equilíbrio seqüencial.
Equilíbrio sequencial é definido com respeito a uma avaliação, um par (~σ, µ)
onde ~σ é um perfil de estratégias comportamentais e µ é um sistema de
crenças, isto é, uma função que determina para cada conjunto de informação I
uma probabilidade µI sobre as histórias em I . Intuitivamente, se I é um
conjunto de informação para o jogador i, µI é a avaliação subjetiva de i da
verossimilhança relativa das histórias em I . Informalmente, uma avaliação é um
equilíbrio sequencial se para todos os jogadores i, em todos os i-conjuntos de
informação, (a) i escolhe uma melhor resposta dada as crenças que ele tem
sobre as histórias neste conjunto de informação e as estratégias dos outros
jogadores, e (b) as crenças de i são consistentes com o perfil de estratégias
sendo jogado, no sentido que elas são calculadas condicionando a distribuição
de probabilidade induzida pelo perfil de estratégia sobre as histórias no dado
conjunto de informação.
Note que µI é definido mesmo se I é atingido com probabilidade 0 de acordo

com algum perfil de estratégia ~σ . Definir consistência em um conjunto de
informação que é atingido com probabilidade 0 é um pouco sutil. Neste caso,
intuitivamente, quando o conjunto de informação I é atingido o jogador i que
se move em I deve acreditar que o jogo está sendo jogado de acordo com um
perfil de estratégias alternativo. Em um equilíbrio sequencial, este perfil de
estratégias alternativo consiste de uma pequena perturbação da avaliação
original onde todas as ações são escolhidas com probabilidade positiva.
Dado um perfil de estratégias ~σ , seja Pr~σ a distribuição de probabilidade
induzida por ~σ sobre as possíveis histórias jogo como definido anteriormente.
Intuitivamente, Pr~σ (h) é o produto das probabilidades de cada uma das ações
que levam a h. Por simplicidade, assumimos que fc > 0, de forma que se ~σ é
tal que todo jogador escolhe todas as suas ações com probabilidade positiva,
então para toda história h, Pr~σ (h) > 0. Para qualquer história h do jogo,
defina Pr~σ (· | h) como a distribuição de probabilidade condicional induzida por
~σ sobre as possíveis histórias do jogo dado que a história atual é h.
Intuitivamente, Pr~σ (h′ | h) é igual a 0 se h não for um prefixo de h′ , é igual a 1
se h = h′ , e é o produto da probabilidade de cada uma das ações no caminho
que leva h à h′ se h for um prefixo de h′ .
Formalmente, uma avaliação (~σ , µ) é um equilíbrio sequencial se ela satisfaz as

seguintes condições:
Racionalidade sequencial. Para todo jogador i, conjunto de informação
I ∈ Ii , e toda estratégia comportamental τ para o jogador i,
EUi ((~σ, µ) | I ) ≥ EUi (((~σ−i , τ ), µ) | I ),
onde EUi ((~σ, µ) | I ) = h∈I z∈Z µI (h)Pr~σ (z | h)ui (z).

P P
Consistência entre o sistema de crenças e o perfil de estratégias. Se ~σ

consiste de estratégias comportamentais que dão probabilidade positiva a
todas as ações em todos os conjuntos de informações, então para todo
conjunto de informação I e história h em I ,
Pr~σ (h)
µI (h) = P .
h′ ∈IPr~σ (h′ )
Caso contrário, existe uma sequência (~σ n , µn ), n = 1, 2, 3, . . ., de

avaliações tal que ~σ n é um perfil de estratégias que dá probabilidade
positiva a todas as ações em todos os conjuntos de informação, (~σ n , µn ) é
consistente no sentido do parágrafo anterior, e limn→∞ (~σ n , µn ) = (~σ , µ).
Equilíbrio Sequencial versus Equilíbrio de Nash
Podemos agora enunciar dois importantes teoremas que justificam que esta é
uma noção razoável de equilíbrio.
Teorema 6.12
Se (σ, µ) for um equilíbrio sequencial de um jogo em forma extensiva com
memória perfeita, então σ é um equilíbrio de Nash em estratégias
comportamentais do jogo.
Prova
Suponha, por absurdo, que (σ, µ) é um equilíbrio sequencial, mas σ não é um

equilíbrio de Nash. Então existe i ∈ N e τi uma estratégia comportamental
para o jogador i tal que
X X
ui (σ) = Prσ (z)vi (z) < ui (σ−i , τi ) = Pr(σ−i ,τi ) (z)vi (z).
z∈Z z∈Z
Escolha uma estratégia τi tal que ui (σ) < ui (σ−i , τi ) e

||{I ∈ Ii : τi (I ) 6= σi (I )}|| ≤ ||{I ∈ Ii : ϕi (I ) 6= σi (I )}|| para toda estratégia
comportamental ϕi tal que ui (σ) < ui (σ−i , ϕi ).
Seja I ∗ um conjunto de informação para o jogador i tal que τi (I ∗ ) 6= σi (I ∗ ) e
para todo conjunto de informação I ∈ Ii tal que I contém somente histórias
que possuem prefixos em I ∗ , τi (I ∗ ) = σi (I ∗ ), ou seja, τi e σi coincidem nas
histórias que se seguem ao conjunto de informação I ∗ . Defina agora
τi∗ (I ) = τi (I ), ∀I 6= I ∗ , e τi∗ (I ∗ ) = σi (I ∗ ). Iremos provar que
ui (σ) < ui (σ−i , τi∗ ), e como
||{I ∈ Ii : τi (I ) 6= σi (I )}|| > ||{I ∈ Ii : τi∗ (I ) 6= σi (I )}||, temos uma
contradição.
Prova
Denotaremos por (σ−i .I , τi (I )) o perfil de estratégias comportamentais que é

igual a σ exceto na ação do jogador i no conjunto de informação I ; neste
conjunto de informação I a ação de i coincide com a ação escolhida por i em I
de acordo com a estratégia τi . Seja ainda Z (I ) o conjunto de histórias
terminais que tem uma história em I como prefixo. Como σi , τi , e τi∗
coincidem em todas as histórias que se seguem ao conjunto de informação I ∗ ,
temos que EUi ((σ−i , τi∗ )|h) = EUi ((σ−i .I ∗ , τi∗ (I ∗ ))|h), ∀h ∈ I ∗ . Além disso,
como τi e τi∗ diferem apenas na ação escolhida em I ∗ , temos que
Pr(σ−i ,τi∗ ) (h) = Pr(σ−i ,τi ) (h) para todo h ∈ I ∗ ∪ (Z − Z (I ∗ )). Portanto,
ui (σ−i , τi∗ ) = Pr(σ−i ,τi∗ ) (h)EUi ((σ−i , τi∗ )|h) +

X X
Pr(σ−i ,τi∗ ) (z)vi (z)
h∈I ∗ z∈(Z −Z (I ∗ ))
Pr(σ−i ,τi ) (h)EUi ((σ−i .I ∗ , τi∗ (I ∗ ))|h) +

X X
= Pr(σ−i ,τi ) (z)vi (z)
h∈I ∗ z∈(Z −Z (I ∗ ))
Prova
Consideremos agora dois casos. Primeiro, se h∈I ∗ Pr(σ−i ,τi ) (h) = 0, neste
P
caso temos então que ui (σ−i , τi∗ ) = ui (σ−i , τi ) > ui (σ). Segundo, suponha que
h∈I ∗ Pr(σ−i ,τi ) (h) > 0. Como temos um jogo com memória perfeita, para
P
qualquer estratégia ρ, temos que para qualquer h ∈ I , onde I ∈ Ii ,
Prρ (h)
P
h∈IPrρ (h)
não depende da estratégia ρi do jogador i, pois ρi contribui com o mesmo fator

multiplicativo para Prρ (h) qualquer que seja h ∈ I . Então, como (σ, µ) é um
equilíbrio sequencial:
Prσ (h) Pr(σ−i ,τi ) (h)

µ(I )(h) = P = P , ∀h ∈ I .
h∈I Pr σ (h) h∈I Pr(σ−i ,τi ) (h)
Prova
Logo,
ui (σ−i , τi∗ ) µ(I ∗ )(h)EUi ((σ−i .I ∗ , τi∗ (I ∗ ))|h))

X X
= ( Pr(σ−i ,τi ) (h))(
h∈I ∗ h∈I ∗
X
+ Pr(σ−i ,τi ) (h)vi (z)
z∈(Z −Z (I ∗ ))
Como τi∗ (I ∗ ) = σi (I ∗ ) e σi é sequencialmente racional no conjunto de

informação I ∗ , temos que
µ(I ∗ )(h)EUi (σ−i .I ∗ , τi∗ (I ∗ )|h) ≥ µ(I ∗ )(h)EUi (σ−i .I ∗ , τi (I ∗ )|h)

X X
h∈I ∗ h∈I ∗
µ(I ∗ )(h)EUi (σ−i , τi |h).

X
=
h∈I ∗
Prova
Portanto,
ui (σ−i , τi∗ ) µ(I ∗ )(h)EUi ((σ−i .I ∗ , τi∗ (I ∗ ))|h))

X X
= ( Pr(σ−i ,τi ) (h))(
h∈I ∗ h∈I ∗
X
z∈(Z −Z (I ∗ ))
µ(I ∗ )(h)EUi ((σ−i , τi )|h))

X X
≥ ( Pr(σ−i ,τi ) (h))(
h∈I ∗ h∈I ∗
X
z∈(Z −Z (I ∗ ))
= ui (σ−i , τi ) > ui (σ),
como queríamos demonstrar.

Existência do Equilíbrio Sequencial
Teorema 6.13
Para todo jogo finito em forma extensiva com memória perfeita, o conjunto de
avaliações que são equilíbrio sequencial é não vazio.
Prova: Veremos adiante.

Exemplo
Considere mais uma vez o jogo a seguir:

Exemplo
Neste caso, em todos os equilíbrios sequenciais temos que o jogador 1 escolhe

ação F com probabilidade 1 após a história hB, E i, escolhe ação H com
probabilidade 1 após a história hC , E i, jogador 2 escolhe ação D com
probabilidade 1 no conjunto de informação {hBi, hC i}, e o jogador 1 escolhe
ação B com probabilidade 0 no início do jogo. Nos equilíbrios sequenciais em
que o jogador 1 escolhe ação C com probabilidade positivo temos que o sistema
de crenças deve dá probabilidade 1 a história hC i. No caso em que o jogador 1
escolhe A com probabilidade 1, qualquer sistema de crenças é consistente.
Cálculo de Equilíbrio Sequencial
Agora vamos ilustrar com um exemplo, como podemos calcular equilíbrios

sequenciais em jogos finitos. O procedimento é similar ao que estudamos para
o cálculo de equilíbrio de Nash em estratégias mistas para jogos em forma
normal. Iremos por tentativa, encontrar equilíbrios sequenciais cujas estratégias
comportamentais tenham determinando suporte. Faremos isso começando
pelos conjuntos de informação mais perto dos nós terminais do jogo.
Exemplo
Considere o jogo a seguir:
Figura: Calculando Equilíbrios Sequenciais.

Exemplo
É fácil ver que µ(1.1)(h0, 95i) = 0, 95 e µ(1.1)(h0, 05i) = 0, 05. Além disso,
racionalidade sequencial implica que σ2 (2.2)(o) = 1. Vamos então considerar
os possíveis suportes de σ1 (1.2). Existem três suportes possíveis para
considerar: hmi, hni, hm, ni. A utilidade esperada para o jogador 1 de escolher
n no conjunto de informação 1.2 é
8µ(1.2)(h0, 05, g i) + 3(1 − µ(1.2)(h0, 05, g i)), enquanto a utilidade esperada
de escolher m é 4. Consistência entre µ e σ implica que:
0, 05σ1 (1.1)(g )
µ(1.2)(h0, 05, g i) =
0, 05σ1 (1.1)(g ) + 0, 95σ1 (1.1)(g )σ2 (2.1)(h)
1
= .
1 + 19σ2 (2.1)(h)
Note que mesmo que σ1 (1.1)(g ) = 0, consistência implica a mesma fórmula
acima.
Exemplo
Vamos primeiro verificar se existe equilíbrio sequencial no qual σ1 (1.2)(n) = 1.

Então, racionalidade sequencial implica que
8µ(1.2)(h0, 05, g i) + 3(1 − µ(1.2)(h0, 05, g i)) ≥ 4, ou seja,
4
µ(1.2)(h0, 05, g i) ≥ 0, 2. Isto por sua vez, implica que σ2 (2.1)(h) ≤ 19 . Mas se
σ1 (1.2)(n) = 1, a utilidade esperada do jogador 2 de escolher h no conjunto de
informação 2.1 é 9, enquanto a utilidade esperada de escolher i é 5. Portanto,
4
σ2 (2.1)(h) = 1, contradizendo a condição σ2 (2.1)(h) ≤ 19 . Logo, não existe
equilíbrio sequencial no qual σ1 (1.2)(n) = 1.
Exemplo
Vamos tentar verificar se existe equilíbrio sequencial com σ1 (1.2)(n) = 0.

8µ(1.2)(h0, 05, g i) + 3(1 − µ(1.2)(h0, 05, g i)) ≤ 4, ou seja,
4
µ(1.2)(h0, 05, g i) ≤ 0, 2. Isto por sua vez, implica que σ2 (2.1)(h) ≥ 19 . Mas se
σ1 (1.2)(n) = 0, a utilidade esperada do jogador 2 de escolher h no conjunto de
informação 2.1 é 4, enquanto a utilidade esperada de escolher i é 5. Portanto,
4
σ2 (2.1)(h) = 0, contradizendo a condição σ2 (2.1)(h) ≥ 19 . Logo, não existe
equilíbrio sequencial no qual σ1 (1.2)(n) = 0.
Exemplo
Portanto, em qualquer equilíbrio sequencial devemos ter 0 < σ1 (1.2)(n) < 1.

8µ(1.2)(h0, 05, g i) + 3(1 − µ(1.2)(h0, 05, g i)) = 4, ou seja,
4
µ(1.2)(h0, 05, g i) = 0, 2. Isto por sua vez, implica que σ2 (2.1)(h) = 19 .
Portanto, temos que o jogador 2 deve ser indiferente entre h e i no conjunto de
informação 2.1. Mas neste caso, temos que a utilidade esperada do jogador 2
de escolher h no conjunto de informação 2.1 é 9σ1 (1.2)(n) + 4(1 − σ1 (1.2)(n)),
enquanto a utilidade esperada de escolher i é 5. Portanto,
9σ1 (1.2)(n) + 4(1 − σ1 (1.2)(n)) = 5, ou seja, σ1 (1.2)(n) = 0, 2.
Exemplo
Resta-nos apenas determinar a estratégia do jogador 1 no conjunto de

informação 1.1. Se ele escolher f , ele tem utilidade esperada 0, enquanto se ele
escolher g , ele tem utilidade esperada
0, 95(−1(15/19) + 4(4/19)0, 8 + 3(4/19)0, 2) + 0, 05(4(0, 8) + 8(0, 2)) = 0, 25
Portanto, σ1 (1.1)(g ) = 1.
Observe que se tivéssemos um jogo onde o jogador chance só tivesse a opção
de escolher a alternativa superior, então no único equilíbrio sequencial do jogo,
os jogadores escolheriam f , i, m, o, com probabilidade 1. Este exemplo, serve
para ilustrar o importante papel que pequenas incertezas no jogo podem gerar
no equilíbrio.
Observação
Vimos alguns refinamentos de equilíbrios de Nash para jogos em forma extensa.
A seguir, analisaremos refinamentos de equilíbrio de Nash também para jogos
em forma normal.

Slide Formaextensa

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Slide Formaextensa

Enviado por

Direitos autorais:

Formatos disponíveis

Informação Perfeita Estratégias Representação Equilíbrio de Nash Subjogo Perfeito Informação Imperfeita

Jogos em Forma Extensa

Prof. Leandro Chaves Rêgo

Recife, 12 de Setembro de 2014

Jogos em Forma Extensa

Até o momento estudamos apenas casos onde jogadores se movem ao mesmo

Intuitivamente, um jogo em forma extensa descreve o conjunto de jogadores,

Jogos com Informação Perfeita

Jogos com Informação Perfeita

P : (H − Z ) → N ∪ {c} é uma função que associa cada história não

Jogos com Informação Perfeita

Jogos com Informação Perfeita

Figura: Um jogo em forma extensa simples.

Jogos com Informação Perfeita

Note que uma estratégia é um plano de contingência completo que explica o

Figura: Um jogo em forma extensa no qual o jogador 1 se move antes e

Neste jogo, jogador 1 possui quatro estratégias puras: AE , AF , BE , BF .

Representação em Formal Normal

Alguns conceitos de solução para jogos em forma extensiva utilizam uma

Antes de darmos a definição da representação em forma normal de um jogo em

Antes de darmos a definição da representação em forma normal de um jogo em

Antes de darmos a definição da representação em forma normal de um jogo em

Podemos também definir de forma análoga, a probabilidade Prσ (h) do

Podemos também definir de forma análoga, a probabilidade Prσ (h) do

ou seja, ui é a utilidade esperada para o jogador i quando os jogadores

Por exemplo, a representação em forma normal do jogo em forma extensa

Forma Normal Reduzida

Existem alguns jogos em forma extensiva que podemos simplificar sua

uj (di , c−i ) = uj (ei , c−i ), ∀c−i ∈ C−i , ∀j ∈ N.

Portanto, duas estratégias para o jogador i são equivalentes em utilidade se, e

Por exemplo, a representação em forma normal puramente reduzida do jogo em

Forma Normal Completamente Reduzida

Se permitirmos estratégias mistas, podemos ter um outro tipo de redundância

Portanto, di é aleatoriamente redundante se, e somente se, existe alguma

A estratégia C é aleatoriamente redundante, pois todos os jogadores recebem o

Nesta representação cada jogador i do jogo em forma extensiva é representado

Considere novamente o jogo a seguir:

Figura: Um jogo em forma extensa no qual o jogador 1 se move antes e

A representação multiagente tem três jogadores h i, hBi, e hB, Di, o jogador h i

Quando o agente hB, Di escolhe E , temos:

E quando o agente hB, Di escolhe F , temos:

Quando estamos considerando a representação multiagente, os diferentes

Como existem três tipos de estratégias para um jogo em forma extensa,

para todo jogador i e toda estratégia di ∈ Ci .

para todo jogador i e toda estratégia mista βi ∈ ∆(Ci ).

para todo jogador i e toda estratégia comportamental τi ∈ ×h∈Hi ∆(Mh ).

Como veremos no exemplo a seguir, o Equilíbrio de Nash não é um conceito de

Figura: Jogo com equilíbrio de Nash não-intuitivo.

Equilíbrio de Subjogo Perfeito

Equilíbrio de Subjogo Perfeito

Note que um equilíbrio de subjogo perfeito também é um equilíbrio de Nash

A técnica mais comum para encontrar os equilíbrios de subjogo perfeito de um

3 Defina o jogo Γ(k + 1) da seguinte maneira:

Jogo Extensivo com Informação Imperfeita

Agora, vamos estudar jogos extensivos onde os jogadores ao tomarem sua

Formalmente, temos que um jogo em forma extensa com informação imperfeita

Figura: Jogo em Forma Extensiva com Informação Imperfeita.

No jogo da figura anterior, temos

Memória Perfeita e Memória Imperfeita

Podemos distinguir 3 tipos diferentes de memória imperfeita:

A próxima figura ilustra jogos extensivos da esquerda para a direita que

Figura: Jogos Extensivos com Memória Imperfeita.

Podemos definir de maneira análoga ao caso de jogos com informação perfeita,

Equivalência entre Estratégias Mistas e