Escolar Documentos
Profissional Documentos
Cultura Documentos
I.
Introducci
on
En 1928 el matematico h
ungaro-judo John von Neumann [1903-1957] reporto un
curioso descubrimiento a la Sociedad Matematica de Gotinga: haba encontrado una
estrategia racional al problema al que se enfrentan dos oponentes a la hora de
elegir en el lanzamiento de una moneda al aire. Y aunque esto, a primera vista, no
pareciera un gran logro, era el comienzo de una nueva rama de la ciencia: la teora
de juegos.
La prueba de von Neumann, publicada como Zur Theorie der Gesellschaftspiele, se
extenda a otros juegos como el ajedrez y las cartas, y mostraba que exista, en cada
caso, un mejor metodo posible de juego, que era matematicamente determinable.
La mejor estrategia posible o estrategia racional era aquella que le aseguraba
a un jugador la m
axima ventaja, sin importar lo que los oponentes hicieran. Esta
1
Juli
an Arevalo, Francisco Lozano, Sergio Monsalve y Edgar
Villa.
15
16
17
dos personas y suma cero (es decir, lo que pierde un jugador lo recibe el otro). El
captulo V estudia los juegos de tres personas y suma cero. El VI, VII y VIII, los
juegos generales de n personas y suma cero; de cuatro personas y suma cero; y cinco
o mas personas y suma cero, respectivamente; y, al final, el captulo XI lo dedican a
los juegos generales de suma no-cero. A continuacion presentamos, entonces, algunas
de las ideas basicas del trabajo de von Neumann y Morgenstern.
Jugador 1
1 , 2
11
11
1 , 2
12
12
1 , 2
21
21
1 , 2
22
22
1 , 2
31
31
1 , 2
32
32
..
.
..
.
..
.
1 , 2
i1
i1
1 , 2
i2
i2
..
.
..
.
..
.
1 , 2
m1
m1
1 , 2
m2
m2
n
1 , 2
1n
1n
1 , 2
2n
2n
1 , 2
3n
3n
..
.
..
.
1 , 2
in
in
..
.
..
.
1 , 2
mn
mn
1 = 2 , y la descripci
para todo i = 1, 2, . . . , m; j = 1, 2, . . . , n, entonces ij
on del
ij
juego dada por la tabla anterior ahora se simplifica:
1
O tal vez son los juegos de un u
nico jugador? El lector podra pensar quiz
as en Robinson
Crusoe o en el juego del solitario para las cartas, pero estos son problemas fundamentales de
elecci
on y no de interacci
on.
2
Esta forma de ilustrar un juego recibe este nombre porque cada celda tiene dos n
umeros; en
una matriz ordinaria cada celda contiene s
olo uno.
18
Jugador 1
11
12
1n
21
22
2n
31
32
3n
..
.
..
.
..
.
..
.
..
.
i1
i2
in
..
.
..
.
..
.
..
.
..
.
m1
m2
mn
1 = 2
donde ij ij
ij
A este valor lo llamaron un punto (de equilibrio) de silla 3 del juego o, simplemente, el valor del juego.
3
19
Construirle a B
Evadir el tema
Construirle a A
45 %
50 %
40 %
Construirle a B
60 %
55 %
50 %
Evadir el tema
45 %
55 %
40 %
Encontremos ahora el valor minmax; para las elecciones del candidato 2 Construirle
a A, Construirle a B y Evadir el tema, los maximos pagos para el candidato 1
son 60 %, 55 % y 50 %, respectivamente. Como el candidato 2 debe minimizar estos
pagos, elige Evadir el tema, con lo que el valor minmax es v 2 = 0,5. Observemos
que, en este juego, v1 = v2 = 0,5.
M
Ejemplo 2 (lanzar la moneda).
El juego de lanzar la moneda (matching pennies), originalmente planteado por von
Neumann y Morgenstern en 1944, consiste en dos jugadores que, simultaneamente,
eligen una cara de una moneda. Si en ambas monedas aparece cara, o en ambas
aparece sello, el jugador 1 gana la moneda; pero si en una moneda aparece cara y
en la otra sello, sera el jugador 2 el que la gana. Este juego es uno de dos jugadores
y suma cero que puede representarse mediante la siguiente matriz:
20
Sello
Cara
-1
Sello
-1
Jugador 1
Aqu, 11 = 1, 12 = 1, 21 = 1, 22 = 1, y
v1 = max mn ij = max{ 12 = 1, 21 = 1 } = 1
i
v2 = mn max ij = mn{ 11 = 1, 22 = 1 } = 1
j
Sin embargo aqu, obviamente, v1 6= v2 y no existe valor minmax para este juego.
Mas adelante discutiremos por que sucede esto.
M
Ejemplo 3 (piedra-papel-tijera).
Este
es el conocido juego infantil piedra-papel-tijera propuesto tambien por von
Neumann y Morgenstern, en el que piedra vence a tijera, tijera vence a papel
y papel vence a piedra, y es un empate en los otros casos. Podemos describir este
juego en una matriz como la de la figura 3.
Figura 3: Piedra-papel-tijera
Jugador 2
Jugador 1
piedra
papel
tijera
piedra
-1
papel
-1
tijera
-1
Aqu,
v1 = max mn ij = max{ 12 = 1, 23 = 1, 31 = 1 } = 1
i
v2 = mn max ij = mn{ 21 = 1, 32 = 1, 13 = 1 } = 1
j
21
-2
-1
2
M
mos que las estrategias puras pueden verse como casos particulares de las mixtas.
As, por ejemplo, ( 0, 0, 1, 0, . . . , 0 ) es la representaci
on mixta de la tercera estrategia
pura por parte de alguno de los jugadores).
22
23
E( p, cara ) = 2p 1
1
2
E( p, sello ) = 2p + 1
E( p, sello ) = p( 1 ) + ( 1 p )( 1 ) = 2p + 1
La lnea resaltada, formada por los dos segmentos, es la grafica de la funcion
E( p ) = mn{ E( p, cara ), E( p, sello ) } =
2p 1
2p + 1
si p 1/2
si p 1/2
Ejemplo 6 (piedra-papel-tijera).
La situacion en piedra-papel-tijera es enteramente similar a la de lanzar la moneda.
El sentido com
un dice que la forma correcta de jugar este juego es jugar las tres
alternativas cada una con probabilidad 13 . Y la teora lo corrobora. Decamos antes
que la matriz de pagos en este caso era la de la figura 6.
24
[q2 ]
[1 q1 q2 ]
piedra (Pi)
papel (Pa)
tijera (Ti)
[p1 ]
piedra (Pi)
-1
[p2 ]
papel (Pa)
-1
[1 p1 p2 ]
tijera (Ti)
-1
E( p, P a ) = p1 ( 1 ) + p2 ( 0 ) + ( 1 p1 p2 )( 1 )
E( p, T i ) = p1 ( 1 ) + p2 ( 1 ) + ( 1 p1 p2 )( 0 )
Luego,
E( p ) = mn{ E( p, P i ), E( p, P a ), E( p, T i ) }
= mn{ p1 + 2p2 1,
p1 + 2p2 1
2p1 p2 + 1
p1 p 2
2p1 p2 + 1, p1 p2 }
si
0 p1 ; p2 13 ; o si
0 p2 23 p1
1
3
p1 23 ,
si
1
3
p1 1,
2
3
p1 p2 1
si
0 p1 13 ,
2
3
p2 1
25
[p]
[1 p]
Soluci
on
Para el jugador 1 se tiene que
E( p, a ) = 3p + 2( 1 p )
E( p, b ) = 4p
E( p, c ) = p + 3( 1 p )
y estas funciones lineales estan ilustradas en la siguiente figura:
E(p)
E( p, b )
E( p, a )
E( p, c )
1
2
E( p ) = mn{E( p, a ), E( p, b ), E( p, c )}
All, la lnea punteada muestra la funcion E( p ) formada por dos segmentos lineales:
(
4p
si 0 p 1/2
E( p ) =
p + 3( 1 p ) si 1/2 p 1
Claramente, E( p ) es maximo cuando p = 1/2 y, as, v 1 = 2. Similarmente, para el
jugador 2 se tiene que q = 1/2 y v2 = 2. El valor del juego es entonces v1 = v2 = 2.
M
Ejemplo 8.
Los grupos armados irregulares de izquierda y derecha de un pas estan decidiendo de forma independiente sobre el n
umero de comandos que van a enviar a cada
uno de dos frentes de batalla: X e Y . El grupo de derecha cuenta con 2 comandos
26
armados, mientras que el de izquierda cuenta con 4. El grupo armado que enve
mas comandos a un frente dado gana el combate en ese frente. En caso de que enven
el mismo n
umero de comandos hay un empate. En la matriz de la figura 8 aparecen
las victorias del ejercito de derecha para las posibles decisiones de ambos ejercitos
sobre el n
umero de comandos enviados al frente X.
Figura 8: Victorias de cada ejercito
Ejercito de Izquierda
Ejercito de Derecha
-1
-2
-1
-1
-2
-1
-1
-2
-1
Ejercito de derecha
[1 q1 q2 ]
[q1 ]
[q2 ]
[p1 ]
-2
-1
[p2 ]
-1
-2
-1
[1 p1 p2 ]
-1
-2
27
E(p, 2) = 1 p2
E(p, 3) = 2p1 + p2 2
y, para el jugador 2, que
E(0, q) = 2q1 q2
E(1, q) = 1 q2
E(2, q) = 2q1 + q2 2
Buscando los puntos donde E(p) alcanza su valor maximo, que resulta de igualar
los pagos esperados para las tres posibles estrategias de su oponente, se obtiene
p1 = 1/2; p2 = 0; 1 p1 p2 = 1/2; de forma analoga, para el jugador 2, encontramos q1 = 1/2; q2 = 0; 1 q1 q2 = 1/2, luego el valor del juego es v1 = v2 = 1.
La conclusion de lo anterior es que, solo con la informacion de que disponen, el
ejercito de derecha debe optar por lanzar una moneda para determinar si va con
todos sus comandos al frente X o al frente Y , mientras que el ejercito de izquierda
enva 3 comandos a un frente y 1 al otro; para decidir a cual frente enviar mas
comandos tambien debe lanzar una moneda.
M
El Teorema Minmax (von Neumann [1928])
Cuando tenemos dos jugadores, 1 y 2, el primero con m posibles estrategias, y el
segundo con n estrategias, y el juego es de suma cero (lo que pierde un jugador
lo gana el otro), se acostumbra llamarlo un juego de matriz pues, obviamente, la
descripcion del juego es una matriz m n de la forma
11 1n
..
A = ...
.
m1
mn
donde la entrada ij representa el pago recibido por el jugador 1 cuando este escoge
la estrategia i y su oponente, el jugador 2, escoge la estrategia j. Aun as, la existencia
de un punto de equilibrio de silla no es, en absoluto, obvia.
28
Esto puede escribirse mas facilmente en notacion matricial como qAp T .4 Es decir,
lo que el jugador 1 busca maximizar y el jugador 2 minimizar
Por ejemplo, en el juego de lanzar la moneda,
1 1
A=
1
1
se tiene que
1 1
qAp = ( q, 1 q )
1
1
T
p
1p
= ( q, 1 q ) ( 2p 1, 1 2p )
= 2pq q + 1 2p q + 2pq
= ( 2 + 4q )p 2q + 1;
T
en tal caso es, efectivamente, q Ap = 0.
Regresando al problema general, hemos entonces entendido que el jugador 1 ha
garantizado que ganara al menos la cantidad
max mn qApT
p
y no puede esperar ganar mas; y el jugador 2 hace lo opuesto: escogera de tal manera
que no pierda mas de
mn max qApT
q
29
y no espera mejorar mas esta situacion. Luego si queremos asegurar que la cantidad
que 1 busca ganar coincida con la que 2 esta dispuesto a perder, la existencia de p
y q tales que resuelvan
max mn qApT = mn max qApT
p
debera probarse. Como dijimos, la existencia de este punto de silla fue probado
por von Neumann en 1928 (16 a
nos antes de su Theory of Games and Economic
Behavior ) en un artculo que, en su momento, paso desapercibido: Zur Theorie der
Gesellschaftspiele, inicialmente publicado en Mathematische Annalen y traducido al ingles en 1959 en Contributions to the Theory of Games (A. W. Tucker y D.
Luce [eds.]). En version moderna dice as:
Teorema 1 (Teorema Minmax (von Neumann [1928])).
Para cualquier matriz Amn , existen distribuciones de probabilidad p Rn y q
Rm tales que
max mn q ApT = mn max q ApT ;
p
es decir, el valor minmax sobre todas las estrategias mixtas iguala al valor maxmin;
m
as a
un, si el m
aximo en el lado izquierdo se alcanza en p y el mnimo en el lado
derecho se alcanza en q , entonces ninguno querr
a cambiar su estrategia unilateralmente; es decir,
q ApT q ApT qApT
para todos los vectores de probabilidad p, q.
Demostraci
on.
Ver von Neumann [1928]
Sin embargo, debemos hacer aqu la observacion que el teorema minmax haba sido
previamente verificado por Emile Borel en 1924, pero solo para casos especiales:
nunca obtuvo una prueba general como la que von Neumann alcanzo en 1928. Por
muchos a
nos el teorema minmax fue considerado como la pieza maestra de la teora
de juegos. Y no debera reducirse su aporte. De hecho, el concepto fundamental de
la teora de juegos de suma no-cero (el equilibrio de Nash [1950b]) es un resultado
del teorema del minmax, y la prueba original de la existencia del equilibrio de Nash
se model
o imitando la conocida prueba del minmax. Tambien, como veremos, el
concepto de minmax aparece en el estudio de los juegos repetidos y en la teora
de los juegos coalicionales, y es pensable que si un concepto aparece en lugares
aparentemente diferentes en la teora entonces, quizas, deberamos creer que algo
importante hay en el.
30
Ejercicios 1.
1. Encuentre los valores de los siguientes seis juegos:
0 5
,
1 3
3 2 1
1
0
1,
0 3 1
5 3 2
,
3 4 0
2 1
4
3 2 1 ,
0 3
2
2 1
0 0
0
0
1 2
1
0 1 1
1 2
1 0
4 5 3
1 2 1
5 3 3
1
1
1
2
1
,
0 3
0
3
1
2 2
0
1
2 1
3
2
0
2
1
0 1 2
0
0
2
1
1
1 1
0 2
1
verifique que
p = (5/52, 0, 11/52, 17/26, 1/26)
q = (21/52, 3/13, 0, 3/52, 4/13) y
v = 19/52
es una solucion.
4. Para el juego de la matriz
0 2 3/2
2 0 1/2
31
0 1
1
A= 1
0 1
1
1
0
es antisimetrica, pues AT = A. Esto tiene un significado que no debera
escapar al comentario. Cuando la matriz es antisimetrica los agentes enfrentan
similares decisiones ya que aij = aij y lo que gana 1 por jugar i, mientras 2
juega j, que es aij , es exactamente igual a lo que recibe 2 por jugar i, mientras
1 juega j, que es aij . A este tipo de juegos suele llamarseles juegos justos.
Es natural que el valor esperado en tales casos sea q ApT = 0 y p = q .
Claramente el juego de lanzar la moneda no es justo. Por que?
32
III.
Juegos Est
aticos con Informaci
on Sim
etrica
33
pd
0,-2
5,-5
pd
-2,2
3,3
Pas grande
a armarse;
pd permanecer desarmado
Por convencion, el primer puesto en cada celda corresponde al pago del jugador fila
(en este caso, pas grande) y el segundo corresponde al pago del jugador columna
(en este caso, pas peque
no).
5
De all la condici
on de finitud del juego.
Observemos c
omo la funci
on de utilidad captura la noci
on de interacci
on estrategica; es decir,
el pago que un agente recibe al realizar su propia acci
on depende tambien de las acciones de los
dem
as.
7
Una interpretaci
on est
andar subyacente a la definici
on de un juego finito en forma estrategica
con informaci
on completa es la de que el grupo de jugadores elijan sus estrategias simult
aneamente;
o, secuencialmente pero sin que ninguno de los dos jugadores sepa que estrategia eligi
o su adversario
en el momento de hacer su elecci
on.
8
Termino acu
nado por Luce y Raiffa [1957].
9
Termino acu
nado por D.K. Lewis [1964].
6
34
Todo juego en bimatriz es, a menos que se diga algo distinto, un juego con informaci
on completa pero imperfecta. La imperfecci
on en la informacion proviene de
la hipotesis implcita de que los agentes toman sus decisiones, o bien simultaneamente, o sin que ninguno conozca la decision del otro, hasta tanto ambas decisiones
hayan sido tomadas. La completitud en la informacion proviene de la hipotesis de
conocimiento com
un del juego por parte de los jugadores.
Teniendo presente esto, analicemos, entonces, el dilema de seguridad. Si ambos
pases eligen armarse, pas grande no resulta afectado ni beneficiado, pero pas
peque
no incurre en una perdida porque, digamos, podra haber asignado los recursos destinados a armarse a una actividad diferente que generara mayor bienestar
para la sociedad del que genera haberse armado, dado que su vecino grande tambien lo hizo. En caso de que ambos decidan permanecer desarmados, ambos se
ven beneficiados por haber detenido una eventual costosa carrera armamentista. En
caso de que uno de los dos se arme y el otro no, el pas que se arma obtiene un
beneficio igual a la perdida del otro.
Ejercicios 2.
Para cada uno de los juegos finitos en forma estrategica que se presentan a continuacion, describa, si es posible, alguna situacion que se ajuste al juego presentado:
IV.
10,10
0,0
0,0
3,3
4,4
4,10
-2,0
3,3
1,1
-5,-5
5,-5
-10,-10
4,4
1,5
5,1
2,2
Principios-Soluci
on Fundamentales
Una vez reducida la interaccion entre los agentes a un juego en forma estrategica,
el siguiente paso es resolver el conflicto; es decir, resolver el juego. Hacer esto
significa establecer los principios que seguiran los agentes al escoger las estrategias
e indicar, en consecuencia, las acciones que los agentes podran tomar.
35
36
grande. Notemos, sin embargo, que todava no podemos afirmar nada acerca del
comportamiento de pas peque
no ya que ninguna de sus estrategias domina a la
otra: su mejor eleccion depende de la eleccion de pas grande.
M
Ejemplo 10.
Consideremos el siguiente ejemplo que describe alguna situacion interactiva que es
representada por la siguiente bimatriz:
Jugador 2
a2
b2
a1
8,5
6,4
b1
7,3
5,2
Jugador 1
Aqu,
N = {1, 2}, C1 = {a1 , b1 }, C2 = {a2 , b2 }
37
nc
-4,-4
0,-5
nc
-5,0
-1,-1
Sospechoso 1
c confesar; nc no confesar
Para resolver el juego, bastara eliminar estrategias estrictamente dominadas: observemos que para ambos jugadores confesar domina estrictamente a no confesar.
De modo que la soluci
on predecible por eliminacion de estrategias estrictamente
dominadas es (confesar, confesar) con pagos de -4 para cada uno (es decir, 4 a
nos
de carcel), que no es necesariamente la mejor eleccion de los jugadores: si ninguno
confesara obtendran ambos solo un a
no de carcel, en lugar de los cuatro a
nos a que
son condenados a raz de su confesion. Sobre esta aparente paradoja volveremos mas
adelante.
M
Ejemplo 12 (Juego del Ultimatum).
Este es un juego de dos individuos, uno de los cuales debe hacer una oferta al otro
acerca de la reparticion de 4 unidades monetarias 11 . Las propuestas que el oferente puede hacer son una reparticion equitativa (E) o una en la que el se vea mas
favorecido (F ). En caso de que la oferta sea equitativa, es llevada a cabo independientemente de lo que planee hacer el jugador 2 quien, en caso de que deba jugar,
solo puede decidir si acepta (A) o no acepta (N ) la oferta recibida. Con el fin de
eliminar del juego su apariencia secuencial, supongamos, por ahora, que cada uno
debe tomar su decision de antemano y que los resultados estan determinados por la
combinacion de sus elecciones. Representamos este juego por medio de la bimatriz
de la figura 12.
En este juego, la estrategia A del jugador 2 domina debilmente a su estrategia N .
Si eliminamos esta estrategia, la prediccion es (F, A) y reciben pagos de 3 para el
jugador 1 y de 1 para el jugador 2; sin embargo, como veremos, no es conveniente
eliminar por dominancia debil ninguna de las estrategias de este juego. Ya veremos
por que resolver un juego a traves de este criterio nos puede conducir a descartar
soluciones tambien factibles.
M
El principio de solucion de dominancia estricta es bastante debil ya que, por ejemplo, en el caso de pas grande y pas peque
no (figura 10) solo nos dice lo que
11
38
2,2
2,2
3,1
0,0
Jugador 1
A Acepta
N No acepta
E Oferta equitativa
F Oferta favorable
hara pas grande. Recordemos que en tal caso no es posible utilizar este concepto
para predecir el comportamiento de pas peque
no; como dijimos, ninguna de las
estrategias disponibles a pas peque
no domina estrictamente a la otra; cualquier
accion de este pas podra ser mejor o peor que la otra, dependiendo de lo que haga
pas grande. Basados en esto, establecemos el segundo principio-solucion.
b. Segundo principio de soluci
on: eliminaci
on iterada de estrategias
estrictamente dominadas
Podemos refinar el primer principio de solucion y asumir, no solo que cada agente
adoptara estrategias estrictamente dominantes y desechara las estrictamente dominadas, sino que cada agente sabe que los otros har
an lo mismo y actuar
an en consecuencia. De esta forma:
Todo jugador aplica el primer principio de soluci
on en su decisi
on. Y
cada jugador sabe que los otros tambien aplicar
an ese principio, y los
otros saben que los otros tambien aplicar
an ese principio; etc.
Como su nombre lo indica, el proceso de eliminacion iterada de estrategias estrictamente dominadas consiste en eliminar a traves de rondas las estrategias que son
dominadas por otras. Observemos que bajo este supuesto, podramos predecir que
pas peque
no sabe que pas grande se armara y, actuando en consecuencia,
tambien se armara ya que en tal caso su pago sera 2, en lugar de permanecer
desarmado, caso en el cual su pago sera 5.
Ejemplo 13 (Solucion por rondas de eliminacion).
Consideremos el juego de la figura 13. En la primera ronda de eliminacion iterada
del juego de la figura 13, podemos eliminar la estrategia c 2 del jugador 2 ya que su
estrategia b2 la domina estrictamente. De esta forma, el juego queda reducido a un
juego de dos estrategias para cada jugador, como se muestra en la figura 14.
Ahora: como el jugador 1 preve que el 2 nunca jugara c 2 , elimina su estrategia b1 ya
39
b2
c2
a1
2, 4
3, 2
3, 1
b1
0, 3
1, 6
7, 5
Jugador 1
b2
a1
2, 4
3, 2
b1
0, 3
1, 6
Jugador 1
a2
b2
2, 4
3, 2
Ejercicios 3.
1. La Guardia Imperial de Napoleon Bonaparte se enfrenta a las tropas inglesas
del general Wellington. Para esta contienda, hay diez campos de batalla con
valores militares a1 < ... < a10 . Cada jugador (Bonaparte y Wellington) es
dotado con ni < 10 escuadrones (i = 1, 2). La estrategia de cada jugador es
12
N
otese que a1 no domina a b1 a menos que la estrategia c2 haya sido eliminada en una ronda
de eliminaci
on previa.
40
J. 2
8,2
6,4
3,9
4,2
J. 1
10,5
1,2
6,10
10,7
J. 1
J. 2
J. 2
5,4
3,8
1,5
6,6
6,-2
-5,-3
J. 1
8,8
6,-2
2,1
0,-2
4,8
0,1
J. 1
41
J. 1
73, 25
57, 42
66, 32
80, 26
35, 12
32, 54
28, 27
63, 31
54, 29
J. 2
J. 1
V.
63,-1
28,-1
-2,0
-2,45
-3,19
32,1
2,2
2,5
33,0
2,3
54,1
95,-1
0,2
4,-1
0,4
1,-33
-3,43
-1,39
1,-12
-1,17
-22,0
1,-13
-1,88
-2,-57
-3,72
Principio-Soluci
on de Equilibrios de Nash en
Estrategias Puras
En la mayora de los juegos estudiados en la teora sucede, sin embargo, que asumir
solo el segundo principio de solucion nos puede dejar, todava, con muchas predicciones posibles. Es el caso del juego de la figura 16 en donde, adicional a la situacion
descrita en la figura 10, cada pas tiene una nueva estrategia (anunciar el problema
ante una comision internacional (ap), y unos nuevos pagos (debido a la penalizacion
que tal comision impone sobre los pases en caso de encontrar armamento). Se puede
observar que ninguno de estos tiene una estrategia estrictamente dominante.
Una forma con la que podemos resolver este tipo de juegos esta fundamentada en el
siguiente principio:
La combinaci
on de estrategias que los jugadores predeciblemente escoger
an
es aquella en la cual ning
un jugador podra mejorar su pago escogiendo
unilateralmente una estrategia diferente, si supone que los otros siguen
eligiendo la estrategia previamente escogida.
El concepto-solucion basado en este principio se conoce como equilibrio de Nash
del juego. Fue introducido por John Nash [1950b] 13 en su artculo Equilibrium
13
42
Jugador 1
a armarse
pd
ap
0, 2
5, 5
5, 2
pd
2, 2
4, 4
0, 0
ap
2, 5
0, 0
3, 3
pd permanecer desarmado
ap anunciar el problema
Figura 17: B
usqueda de equilibrios de Nash
Jugador 2
t
3, 1
1, 3
5, 5
4, 2
Jugador 1
Para buscar los equilibrios de Nash de este juego, procederemos tomando cada posible combinacion de estrategias, y verificaremos si, en cada una de estas, al menos
un jugador tiene incentivos unilaterales para desviarse. Para empezar, tomemos la
combinacion de estrategias en la que el jugador 1 juega la estrategia k y el jugador
2 juega la estrategia t. Si el jugador 1 espera que el 2 juegue t, para el sera mejor
43
2,1
0,0
0,0
1,2
Esposo
F F
utbol;
T Teatro
44
De manera que (F, F ) es un equilibrio de Nash del juego que deja a cada uno de los
jugadores (esposo, esposa) con pagos (2, 1). Si, por el contrario, la esposa cree que
su esposo ira al teatro (T ), lo mejor que puede hacer es ir al teatro (T ), ya que esta
eleccion la dejara con un pago de 2 mientras que ir al f
utbol la dejara con un pago
de cero. De igual forma, si el esposo piensa que su esposa ira al teatro (T ), lo mejor
que puede hacer es ir al teatro (T ). Por lo tanto (T, T ) tambien es un equilibrio de
Nash del juego y deja a cada uno de los jugadores (esposo, esposa) con pagos (1, 2),
respectivamente. De esta manera, seg
un Nash, que ambos vayan juntos al f
utbol o
al teatro son posibilidades predichas por la teora.
M
Ejemplo 16 (El Dilema de Seguridad, otra vez).
Habamos visto que en el dilema de seguridad extendido no haba solucion por medio
del concepto de eliminacion de estrategias estrictamente dominadas, sin embargo
podemos ver que s hay solucion por medio del concepto de equilibrio de Nash. Notemos que la combinacion de estrategias (ap, ap) es estrategicamente estable; esto es,
si ambos jugadores eligen su estrategia anunciar el problema, ninguno tendra incentivos unilaterales para desviarse, ya que los pagos que obtendran por hacerlo son
estrictamente menores a los que obtendran por seguir fieles a su estrategia: en ap
cada uno de los jugadores obtiene un pago de 3; desviarse a pd le genera un pago de
0, mientras que desviarse a a le genera un pago de -5. As, (ap, ap) es un equilibrio de
Nash. Notese, sin embargo, que la combinacion de estrategias (pd, pd) genera pagos
estrictamente mayores y, no obstante, no es un equilibrio de Nash. Es decir, tenemos
una situacion similar a la observada en el dilema del prisionero. El analisis de estos
dos casos lo veremos en breve.
M
Ejemplo 17 (Juego de Coordinacion Schelling [1957]).
Consideremos el juego de la figura 19.
Figura 19: Juego de coordinacion
Jugador 2
D
10,10
0,0
0,0
1,1
Jugador 1
D Derecha;
I Izquierda
Este juego tampoco se puede resolver por dominancia estricta ya que ninguna estrategia pura es estrictamente dominada. Sin embargo, el juego tiene dos equilibrios
de Nash en estrategias puras: (D, D) y (I, I). Si el jugador 1 cree que el jugador 2
escogera su estrategia D, su mejor-respuesta a esta eleccion es la estrategia D. De
45
igual forma, si el jugador 2 cree que el jugador 1 escogera su estrategia D, la mejorrespuesta a esta eleccion es su estrategia D. Por lo tanto, (D, D) es un equilibrio
de Nash del juego que deja a cada uno de los jugadores con un pago de 10. Ahora:
si el jugador 1 cree que el jugador 2 elegira la estrategia I, su mejor-respuesta es
la estrategia I, y si el jugador 2 cree que el jugador 1 escogera la estrategia I, su
mejor-respuesta es tambien escoger I. Entonces (I, I) es otro equilibrio de Nash del
juego que deja a cada uno de los jugadores con un pago de 1. Observese que para
los dos jugadores es mejor jugar el primer equilibrio porque los deja con un pago
mas alto. Este juego se conoce como un juego de coordinacion porque los jugadores
podran alcanzar el pago mas alto posible del juego cuando act
uan coordinadamente
y eligiendo, en concordancia, la estrategia del pago mas alto.
Un ejemplo claro de un juego de coordinacion como el de la figura 19 se refiere
a la decision cotidiana sobre el lado de la calle por el cual deben desplazarse dos
conductores que se dirigen en sentido contrario. Si cada uno escoge la derecha, pasan
sin ning
un problema y tienen acceso facil a la se
nalizacion de la calle. Si ambos
escogen la izquierda, la se
nalizacion se hace mas difcil, pero tampoco se accidentan,
por lo cual ninguno tiene incentivos a desviarse. Caso contrario ocurre cuando uno
de los conductores decide irse por la derecha y el otro por la izquierda; en tal caso,
el pago que obtienen es el menor posible. Este u
ltimo caso no es un equilibrio de
Nash ya que, por ejemplo, asumiendo como dada la eleccion del conductor 2, el
conductor 1 tendra incentivos a cambiar de estrategia. Los dos tipos de equilibrio
(todos conducen por la derecha o todos conducen por la izquierda) se ven claros
en pases como Colombia y Gran Breta
na.
Sin embargo, el campo de aplicacion de los juegos de coordinacion es mucho mas
amplio que lo que hemos mostrado, hasta el punto en que se han constituido en un
destacado tema de estudio en las ciencias sociales. Supongamos, por ejemplo, que
dos amigos estan perdidos en la selva y quieren encontrarse, a donde deben ir? y,
en caso de que contaran con radios para comunicarse, que frecuencia elegiran para
hacerlo? Por otro lado, si una sociedad reconoce que llevar a cabo sus transacciones
por medio del trueque es demasiado costoso, y cada individuo es consciente de que
utilizar un metal como medio de pago solucionara el problema, que metal elegira?
Suponga ahora que mientras un par de amigos hablan por telefono la llamada se
interrumpe, quien debera realizar la nueva llamada y quien debera esperar?
Este es el tipo de situaciones que se pueden analizar por medio de los juegos de
coordinacion; observemos que en cada uno de los ejemplos anteriores, para cada
jugador no hay una mejor eleccion y, mas a
un, no hay ning
un procedimiento
formal que determine que se debe hacer. Esta en el interes de cada jugador intentar
descifrar lo que los otros piensan que el hara, y actuar en consecuencia. Es decir, para
obtener el mejor resultado para s mismo, y para el grupo, cada jugador debe hacer
parte del proceso social; esto es, prescindir de un calculo aislado sobre posibles
estados del mundo y sustituirlo por normas que considere determinantes no solo
para su toma de decisiones sino, principalmente, para la toma de decisiones de los
demas; tengamos en cuenta que en estos juegos un jugador gana si los demas ganan,
46
y pierde si los demas pierden, luego su interes esta en buscar actuar de tal forma
que sus acciones sean compatibles con las de los demas.
Aspectos externos a los juegos, de la manera en que los hemos presentado, pueden
servir para ayudar a coordinar a los jugadores en ciertos equilibrios. Siguiendo a
Schelling [1960]:
...entre todas las opciones posibles suele haber alguna en particular que
parece ser el punto focal de una seleccion coordinada, y, muy a menudo,
la parte para quien es relativamente desfavorable la elige, simplemente,
porque sabe que la otra espera que lo haga.
As, aspectos como la moda, las convenciones sociales, las normas, la tradicion o
cualquier otra informacion externa al juego, pueden determinar puntos focales,
que cada jugador perseguira en los juegos de coordinacion, dado que haciendolo
reduce la incertidumbre frente a lo que los otros esperan que el haga, y esto es de
su beneficio.
Algunas preguntas importantes, respecto a los juegos de coordinacion son entonces,
por ejemplo, que determina el surgimiento de cierto curso de acci
on en estos juegos;
de forma similar, sera interesante determinar como la informacion externa afecta la
coordinacion en uno u otro de los posibles equilibrios y, tal vez, lo mas interesante:
que equilibrio es seleccionado por los agentes. Schelling [1960] responde parcialmente
a esto diciendo que [una] parte esencial del estudio de los juegos de motivacion
mixta es necesariamente emprica.
Y si bien actualmente la teora de juegos no-clasica ofrece algunas respuestas interesantes a estos interrogantes, algunas otras pueden ofrecerse desde escenarios
elementales, como los que hemos estudiado hasta ahora, analizando las dinamicas
de interaccion entre individuos que deben enfrentar algunos juegos de coordinacion.
M
Ahora: regresando al curso central de la discusion, podramos preguntarnos: como
se relacionan los distintos principios de solucion que estudiamos al comienzo de la
seccion anterior? La respuesta la tenemos en los siguientes teoremas que, de paso,
muestran la importancia central del concepto de equilibrio de Nash en un problema
de decision interactiva.
Teorema 2 (Un agente racional no utiliza estrategias estrictamente
dominadas).
Ninguna estrategia pura estrictamente dominada para un jugador puede hacer parte
del perfil de estrategias de un equilibrio de Nash en estrategias puras.
Demostraci
on.
47
Teorema 4.
Si la combinaci
on de estrategias c = (ci , ci ) es un equilibrio de Nash, entonces
sobrevive al proceso de eliminaci
on iterada de estrategias estrictamente dominadas.
Demostraci
on.
Es una aplicacion directa del teorema 2.
Ejemplo 18 (El Dilema del Prisionero, otra vez).
Como ilustracion de los teoremas que acabamos de establecer, retomemos el juego del
dilema del prisionero de la figura 11. Cuando resolvimos por estrategias dominantes,
encontramos que la soluci
on predecible era (confesar, confesar). Ahora, resolviendo
por equilibrios de Nash, encontramos que si el sospechoso 1 cree que el sospechoso 2
va a confesar, la mejor decision que el puede tomar es tambien confesar, con lo que
se quedara con un pago de -4. Si a su vez, el sospechoso 2 cree que el sospechoso 1
va a elegir su estrategia, confesar, lo mejor que puede hacer es confesar y recibir un
pago de -4. De manera que el par de estrategias (confesar, confesar ) es un equilibrio
de Nash en estrategias puras del juego y entrega a los jugadores un pago de -4 a
cada uno. Observemos que, tal como establece el teorema 2, el par de estrategias
dominadas no confesar no hacen parte del equilibrio de Nash. Como resultado
del teorema 3, notemos que la u
nica combinacion de estrategias que sobrevive a la
eliminacion iterada de estrategias estrictamente dominadas es el equilibrio de Nash
del juego. Y, finalmente, notemos, como aplicacion del teorema 4, que el equilibrio
de Nash sobrevive al proceso de eliminacion de estrategias.
Es importante destacar aqu que en este juego es imposible alcanzar, a traves de
estos principios de solucion, la asignacion cooperativa resultante de la combinacion
de estrategias (no confesar, no confesar ) ya que los jugadores no tienen incentivos
48
para mantenerse en esta eleccion. Cada uno de ellos hace lo mejor que puede independientemente de lo que el otro jugador haga. Hara falta, en este caso, alg
un
mecanismo externo que hiciera a los jugadores jugar cooperativamente, haciendo de
esta eleccion lo mejor para ellos. La moraleja es importante: el concepto de equilibrio
de Nash muestra que una sociedad podra, s
olo a traves de incentivos individuales,
llegar a estados que no son o
ptimos socialmente. O, como afirma Aumann [1987b]:
la gente que no coopera porque busca su propio beneficio no es necesariamente
est
upida o irracional: puede estar actuando de manera perfectamente racional. En
efecto: en este ejemplo, un equilibrio de Nash no es necesariamente optimo de Pareto14 : (4, 4) son los pagos correspondientes al u
nico equilibrio de Nash y (1, 1)
los correspondientes al u
nico optimo de Pareto. De hecho, se considera el dilema del
prisionero como piedra filosofal en muchas discusiones de la economa moderna y
como una metodologa u
til para abordar problemas en poltica y sociologa. Ejemplos de esto son dos partidos polticos considerando su voto frente a un incremento en
los impuestos: conjuntamente sera mejor para ambos votar favorablemente por tal
propuesta, pero en caso de que uno de ellos decida apoyarla, es mejor para el otro no
hacerlo con el animo de ganar popularidad. Especficamente, no apoyar la propuesta
es una estrategia dominante para cada partido. Otro ejemplo lo ilustran los pases
miembros de la OPEP: para todos sera deseable que el precio del petroleo fuera
alto, lo que se lograra si todos recortaran su produccion. No obstante, esta en el
interes de cada pas miembro aumentar su produccion, y esto hara que el precio descendiera y afectara negativamente los ingresos de todos. Otro ejemplo es el dilema
de la seguridad extendido que estudiamos antes.
M
Una Nota sobre Evidencia Experimental
a. El dilema del prisionero
En los experimentos realizados para jugar el dilema del prisionero una sola
vez se ha encontrado un nivel de cooperacion que vara de acuerdo con las
manipulaciones experimentales de cada caso. Entre los factores manipulables
se destacan los ensayos que cada jugador tiene antes de enfrentar el juego
verdadero, y sus caractersticas personales (sexo, edad, raza, religion, etc.).
El nivel de cooperacion observado se encuentra suficientemente alejado de 0 %
y 100 %. Esto ha llevado a muchos investigadores a conjeturar que hay cierta
evidencia de altruismo en los agentes que juegan el Dilema del Prisionero. Para
verificar esta hipotesis, Shafir y Tversky [1992] compararon el juego original con
una modificacion de este en la cual uno de los jugadores deba jugar primero,
y el otro era informado de la eleccion de su oponente; el analisis era llevado a
cabo sobre los jugadores de la segunda etapa. Se encuentra en estos juegos un
menor nivel de cooperacion que en el juego original, tanto en el caso en que se
informa de una defeccion, como cuando se informa de una previa cooperacion.
14
49
Valor escogido
7
6
5
4
3
2
1
Menor
7
6
1.3 1.1
1.2
-
valor
5
0.9
1.0
1.1
-
escogido
4
3
0.7 0.5
0.8 0.6
0.9 0.7
1.0 0.8
0.9
-
2
0.3
0.4
0.5
0.6
0.7
0.3
-
Observemos que, en ambos escenarios, la situacion en la que todos los individuos eligen el mismo n
umero constituye un equilibrio de Nash, independientemente de cual sea tal n
umero. De forma similar, observemos que estos
equilibrios de Nash estan ranqueados en el sentido de Pareto de acuerdo con
el n
umero que sea elegido por todos; es decir, el equilibrio optimo de Pareto
50
Valor escogido
7
6
5
4
3
2
1
Menor
7
6
1.3 1.2
1.2
-
valor
5
1.1
1.1
1.1
-
escogido
4
3
1.0 0.9
1.0 0.9
1.0 0.9
1.0 0.9
0.9
-
2
0.8
0.8
0.8
0.8
0.8
0.8
-
51
Juego 2
350,350
350,250
700,0
350,350
350,250
700,0
250,350
550,550
0,0
250,350
550,550
1000,0
0,700
0,0
600,600
0,700
0,1000
500,500
Notemos que la u
nica diferencia entre los dos juegos son los pagos que obtienen
los jugadores por la estrategia 3 que, realmente, no es jugada en equilibrio.
La dinamica del experimento consista en que cada jugador era emparejado
aleatoriamente con otro en 20 ocasiones. Algunos de los resultados aparecen
en la figura 23.
52
Juego 1
Juego 2
350,350
350,250
700,0
250,350
550,550
0,0
0,700
0,0
500,500
53
Ejercicios 4.
1. John Stuart Mill [1848] establece que, como excepcion del principio economico de laissez-faire, existen casos donde la ley es precisa no para predominar
sobre el juicio de los individuos respecto de sus propios intereses, sino para
dar efectividad a ese juicio. As, se refiere al caso particular de una reduccion
de la jornada laboral de diez a nueve horas manteniendose el salario constante. Establece que aunque todos los obreros estuvieran convencidos de que
se veran beneficiados por esta medida, esta no sera adoptada a menos que se
estableciera una ley que obligara su cumplimiento, ya que:
...si casi todos se atuvieran a las nueve horas, los que prefirieran trabajar diez seran los que ganaran todas las ventajas de la restriccion,
al mismo tiempo que el beneficio de infringirla: obtendran el salario
correspondiente a las diez horas por nueve de trabajo y ademas el
salario de una hora [...] es probable que fueran tantos los que prefirieran las diez horas en las condiciones mejoradas, que no pudiera
mantenerse la limitacion como una regla general. (Mill [1848], pp.
948 a 951).
a. Describa la situacion mencionada como un juego; defina los jugadores,
sus estrategias y sus funciones de pagos.
b. Encuentre el equilibrio de Nash de este juego.
c. Comente.
2. Discutiendo acerca de la evolucion social y sus beneficios, J. J. Rousseau [1755]
describe la siguiente situacion a la que se enfrentan un conjunto de cazadores
que persiguen un venado:
En el trabajo de cazar un venado cada cazador debe sentir que
su proposito es mantenerse fiel a su objetivo; sin embargo, si una
liebre pasara cerca a alguno de ellos, no habra duda de que este la
perseguira sin escr
upulos y que, habiendo obtenido su presa, poco le
importara haber causado a sus compa
neros la perdida de las suyas.
a. Modele esta situacion en una bimatriz asumiendo que las u
nicas acciones
disponibles a cada agente son cazar venado y cazar liebre.
54
b2
b3
a1
0,0
50,40
40,50
a2
40,50
0,0
50,40
a3
50,40
40,50
0,0
Muestre que si cualquier jugador adopta una estrategia distinta de la del equilibrio de Nash, la respuesta optima por parte del otro jugador resultara en unos
pagos superiores para ambos. As, el equilibrio de Nash es el peor resultado
posible!
4. Suponga que a usted se le propone el siguiente juego: Escoja un n
umero de
1 a 3. Yo trato de adivinarlo. Usted responde (con la verdad): alto, bajo
o correcto dependiendo de si el n
umero que yo dije es mas alto, mas bajo o
correcto, respecto al n
umero que usted escogio. Usted recibira el n
umero de
miles de pesos igual al n
umero de intentos de adivinar que yo haya tenido que
hacer antes de acertar. Construya un juego en forma estrategica que describa
la interaccion mencionada y encuentre los equilibrios de Nash.
5. Resuelva los siguientes juegos mediante eliminacion de estrategias estrictamente dominadas. Verifique que la solucion es un equilibrio de Nash.
Jugador 2
A
4,2
-6,5
6,1
0,-1
Jugador 1
Jugador 2
A
0,2
4,-25
-1,0
2,1
Jugador 1
6. Suponga que en un pas solo hay automoviles japoneses y franceses. Dos individuos estan interesados en comprar cada uno un automovil y sus elecciones
posibles son:
wi = 1
wi = 1
55
Principio-Soluci
on de Equilibrios de Nash en
Estrategias Mixtas
1,-1
-1,1
-1,1
1,-1
Jugador 1
C cara
S sello
Para intentar solucionar este juego, tomemos, por ejemplo, el par de estrategias
(C, C); dado que el jugador 2 cree que el jugador 1 escogera su estrategia C, lo
56
mejor que el puede hacer es escoger su estrategia S, lo que muestra que (C, C)
no puede ser un equilibrio de Nash. De forma similar, el par de estrategias (C, S)
tampoco puede ser un equilibrio de Nash ya que si el jugador 1 espera que 2 juegue
S, lo mejor que este puede hacer es desviarse y jugar S. Por un argumento similar, se
puede mostrar que en las demas combinaciones de estrategias puras tambien existen
incentivos para desviarse unilateralmente por parte de alg
un jugador. Esto muestra
que no existe un equilibrio de Nash en estrategias puras para este juego. Sin embargo,
como nos lo ense
naron von Neumann y Morgenstern, s existe un equilibrio de otro
tipo, conocido como equilibrio en estrategias mixtas, en el que cada jugador adopta
una estrategia asignandole cierta probabilidad a cada una de las estrategias puras
de los demas jugadores; es decir, cada jugador asume ciertas probabilidades sobre las
estrategias puras que los otros jugadores escoger
an.
M
Definici
on 5 (Estrategia Mixta (von Neumann [1928])).
a. En un juego finito en forma estrategica = (N, (C i )iN , (ui )iN ), una estrategia mixta del jugador i es una distribucion de probabilidad sobre el conjunto
de estrategias puras Ci . Al conjunto de todas las estrategias mixtas del jugador
i lo denotamos por i . Para i i y ci Ci , i (ci ) es la probabilidad que la
distribucion i le asigna a la estrategia ci . El soporte de una estrategia mixta
i es el conjunto de estrategias puras a las cuales i le asigna una probabilidad
estrictamente positiva.
b. Una estrategia mixta del juego es una combinacion de distribuciones
= (1 , 2 , . . . , n )
donde i i para todo i; es decir, ni=1 i .
De acuerdo con la definicion anterior, es claro que el conjunto de las estrategias mixtas contiene al de las estrategias puras. En este caso, cada i le asigna probabilidad
1 a cierta estrategia pura y probabilidad 0 a las demas estrategias.
Definici
on 6 (Utilidad Esperada (von Neumann y Morgenstern [1944])).
Sea = (N, (Ci )iN , (ui )iN ) un juego finito en forma estrategica. Dado un perfil de
distribuciones = (1 , ..., n ) ni=1 i , la utilidad esperada del jugador i asociada
a este perfil corresponde a la siguiente expresion:
P
ui () cC (nj=1 j (cj )ui (c))
57
y2
x1
3, 2
5, 1
y1
4, 1
2, 3
Jugador 1
(1-q)
x2
y2
(p) x1
3, 2
5, 1
(1-p) y1
4, 1
2, 3
Jugador 1
Esta estrategia mixta del juego es, entonces, (p[x 1 ]+(1p)[y1 ], q[x2 ]+(1q)[y2 ]). Por
consiguiente, la utilidad esperada del jugador 1 de su estrategia x 1 es 3q + 5(1 q).
De igual forma, la utilidad esperada de su estrategia y 1 es 4q+2(1q). Similarmente,
para el jugador 2 la utilidad esperada de su estrategia x 2 es 2p + 1(1 p) y de su
estrategia y2 es p + 3(1 p). De manera que los pagos de los jugadores asociados a
la estrategia mixta (1 , 2 ), donde 1 = (p, 1 p), 2 = (q, 1 q) son:
Jugador 1:
Jugador 2:
58
Jugador 1
(p)
(1-p)
C
S
(q)
(1-q)
1,-1
-1,1
-1,1
1,-1
En este juego las utilidades esperadas de los jugadores 1 y 2 para cada una de sus
estrategias son:
UE1 (C) = 2q 1,
UE2 (S) = 2p 1
Definici
on 7 (Dominancia Estricta y Debil en Estrategias Mixtas).
Sea = {N, (Ci )iN , (ui )iN } un juego finito en forma estrategica. Entonces:
a. La estrategia mixta i i domina estrictamente a otra estrategia i0 i
para el jugador i si ui (i , i ) > ui (i0 , i ) para todo i i 15 .
b. La estrategia mixta i i es estrictamente dominante para el jugador i si
ui (i , i ) > ui (i0 , i )
para todo i i , para toda i0 i .
c. La estrategia mixta i i domina debilmente a otra estrategia i0 i para
el jugador i si ui (i , i ) ui (i0 , i ) para todo i i .
15
De forma similar a los hechos en el caso con estrategias puras, i denota el conjunto de
estrategas mixtas conjuntas de todos los jugadores excepto i.
59
5,2
1,1
1,1
5,2
2,3
2,3
60
Definici
on 8 (Equilibrio de Nash Mixto (Nash [1950b])).
En un juego finito en forma estrategica = (N, (C i )iN , (ui )iN ), el perfil de estrategias mixtas = (i )iN ni=1 i es un equilibrio de Nash en estrategias
mixtas (o equilibrio de Nash mixto) si, para cada i N , la estrategia mixta i del
jugador i es una mejor-respuesta a las estrategias mixtas de los demas jugadores.
Esto es, es un equilibrio de Nash en estrategias mixtas para el juego si, y solo
si,
ui (i , i
) ui (i , i
) i i . i N
) = ( , , . . . , , , , . . . , ).
donde (i , i
n
1
2
i1 i i+1
Como hemos visto, una estrategia mixta es una distribucion de probabilidad sobre
las estrategias puras de un jugador. De esta forma, un equilibrio de Nash en estrategias mixtas corresponde a una situacion en la que al menos uno de los jugadores no
se ve beneficiado por desviarse unilateralmente a jugar una estrategia pura u otra
estrategia mixta; es decir, para este resulta mejor elegir su accion de forma aleatoria
y no determinsticamente.
Cuando un jugador sigue una estrategia mixta en un equilibrio de Nash, debe ser
indiferente entre las estrategias puras a las cuales les asigna probabilidad positiva:
si no lo fuera, entonces aquella estrategia pura que obtiene mayor utilidad esperada
dominara a la estrategia mixta. El siguiente teorema ilustra esta idea y nos permite,
efectivamente, calcular equilibrios de Nash mixtos.
61
Teorema 6.
Si un jugador utiliza una estrategia mixta no degenerada (es decir, que asigna una
probabilidad positiva a m
as de una estrategia pura) en un equilibrio de Nash mixto,
entonces es indiferente entre todas las estrategias puras a las cuales les ha asignado
probabilidad positiva. La afirmaci
on recproca no es cierta.
Demostraci
on.
Consideremos (sin perdida de generalidad) solo el caso N = {1, 2}, C 1 = {A, B}, C2 =
{C, D}. Supongamos, ademas, que el jugador 1 asigna probabilidades p y 1 p, con
0 < p < 1, a las estrategias A y B, respectivamente. Sea i la distribucion que asigna
la probabilidad p a la estrategia A del jugador 1 y probabilidad 1 p a la estrategia
B; sea 2 una distribucion cualquiera sobre las estrategias del jugador 2; y supongamos que = (1 , 2 ) es un equilibrio de Nash. Si E(A) > E(B), donde E(A) es
el valor esperado de la estrategia A del jugador 1 y E(B) es el valor esperado de la
estrategia B del jugador 1, entonces,
u1 (1 , 2 ) = pE(A) + (1 p)E(B) < pE(A) + (1 p)E(A) =E(A)
=u(10 , 2 )
10,10
0,0
(1-p)
0,0
1,1
D Derecha, I Izquierda
Soluci
on
Para comenzar, encontremos las utilidades esperadas de cada uno de los jugadores
para cada una de sus estrategias. Si el jugador 1 cree que el jugador 2 va a jugar
su estrategia pura derecha (D)con probabilidad q e izquierda (I) con probabilidad
1 q, sus pagos esperados por jugar sus estrategias derecha e izquierda son, respectivamente,
UE1 (D) = 10q + 0(1 q) = 10q
62
Jugador
10p = 1 p
1
p =
11
De esta forma, la solucion del juego indica que cada uno de los jugadores escogera su estrategia Derecha con probabilidad 1/11 y su estrategia Izquierda con
probabilidad 10/11. El equilibrio de Nash en estrategias mixtas es = (1 , 2 ) =
[(1/11, 10/11) , (1/11, 10/11)], el cual ofrece a los jugadores pagos esperados, en equilibrio, de (0.9, 0.9), que es inferior al pago en los equilibrios de Nash en estrategias
puras (10,10) y (1,1). Notemos, sin embargo, que una vez han sido elegidas las probabilidades con las que cada uno de los jugadores elige cada posible accion, todos son
indiferentes entre jugar su estrategia mixta y jugar una estrategia pura; esto es, los
valores esperados de sus utilidades son siempre 0.9.
M
Ejemplo 24 (Lanzar la moneda, otra vez).
En el ejemplo 21 habamos visto que las utilidades esperadas de los jugadores en el
juego de lanzar la moneda vienen dadas por las siguientes expresiones:
UE1 (C) = 2q 1,
UE1 (S) = 1 2q
UE2 (S) = 2p 1
De acuerdo al teorema 6, se tiene que U E1 (C) = UE1 (S) y que UE2 (C) = UE2 (S) y,
por tanto, p = 1/2 y q = 1/2. As, el equilibrio de Nash mixto de este juego es
[(1/2, 1/2) , (1/2, 1/2)], y los pagos esperados, en equilibrio, son de cero para cada
jugador.
M
Evidencia Experimental de lanzar la moneda
Goeree y Holt [2001] dise
naron un experimento en el que dos individuos enfrentan
un juego con pagos simetricos en el que el u
nico equilibrio de Nash consiste en
63
que cada jugador asigne una probabilidad del 50 % a cada una de sus dos estrategias, tal como en el juego de lanzar la moneda. Se tomaron parejas de individuos
seleccionadas aleatoriamente para participar en el juego por una sola vez. Se encontro que el porcentaje de la poblacion que eligio cada una de las acciones disponibles
se ubico suficientemente cerca del 50 %, luego aparece cierta relacion entre el porcentaje de individuos que elige cada estrategia pura, y la probabilidad que se le
asigna a cada una de estas en el u
nico equilibrio de Nash del juego. Sin embargo,
al variar uno de los pagos de solo uno de los jugadores, su asignacion de probabilidades, en equilibrio, no cambia ya que su eleccion de probabilidades se realiza con
base en los pagos de su oponente. Recordemos que estas probabilidades se eligen de
tal forma que el oponente sea indiferente entre todas sus estrategias puras a las que
les asigna probabilidad positiva.
A
un as, los resultados experimentales muestran que ante un pago mayor en un
400 % en una de las estrategias, digamos del jugador 1, el porcentaje de la poblacion
que elige tal estrategia aumenta hasta cerca de un 96 %, mientras que cuando el
incremento es solo del 10 % tal incremento llega hasta el 92 %. Es decir, modificar
levemente o de forma sustancial uno de los pagos de un juego simetrico, transforma
dramaticamente el porcentaje de la poblacion que elige cada una de las estrategias
puras. As, en principio encontramos cierto sustento experimental ante los equilibrios
teoricos del juego lanzar la moneda simetrico. Sin embargo, cuando se introduce
alguna asimetra en los pagos, tal sustento parece desaparecer.
Ejemplo 25 (Juego de El Gallina).
Este juego ilustra la escena de la pelcula Rebelde sin causa de los a
nos 1960 en la
que dos jovenes (uno de ellos, el actor James Dean) se ubican en sus automoviles en
una misma calle en extremos opuestos y aceleran en direccion contraria (uno contra
el otro). Cada uno puede decidir en cierto momento entre las opciones continuar
(C) o quitarse del camino(Q). Desde luego, si ambos contin
uan, reciben un pago
negativo a causa del accidente; en caso de que uno contin
ue y el otro se retire del
camino (caso en el cual no hay accidente) el que se retira es calificado como gallina
y recibe un pago de cero mientras que el otro recibe un pago positivo. Si ambos se
retiran, los dos son calificados como gallinas, aunque reciben un pago positivo
peque
no por haber evitado el accidente. Los pagos se representan en la bimatriz de
la figura 31.
Aqu encontramos dos equilibrios de Nash en estrategias puras: (C, Q) y (Q, C).
Para encontrar el equilibrio mixto, igualamos las utilidades esperadas de cada una
de las estrategias puras de cada jugador:
Jugador
UE1 (C)
UE1 (Q)
5q + 2(1 q) = 0q + 1(1 q)
1
q =
6
Jugador
UE2 (C)
UE2 (Q)
5p + 2(1 p) = 0p + 1(1 p)
1
p =
6
64
(1-q)
-5,-5
2, 0
(1-p)
0,2
1,1
As, el equilibrio mixto de este juego es [(1/6, 5/6), (1/6, 5/6)], con pagos de 5/6 para
cada uno de los jugadores.
M
Nota Sobre Aplicaciones del Juego de El Gallina
El hecho de que en cada uno de los equilibrios puros de este juego uno de los
jugadores obtenga un pago mayor que el del otro, permite pensar que cada uno de
estos preferira el equilibrio que lo favorece y, de ser posible, adelantara acciones para
alcanzarlo. Un ejemplo para forzar la eleccion de cierto equilibrio en la historia
original de este juego podra ser que el conductor de uno de los automoviles lanzara
el timon de su auto por la ventana como un acto simbolico para decir que no se
quitara del camino. A este respecto, vale la pena se
nalar que el juego de El Gallina
ha sido utilizado en importantes aplicaciones a nivel poltico y militar. Entre tales
aplicaciones se encuentran la confrontacion nuclear, en donde cada uno de los pases
puede ser fuerte o debil, as como tambien el perodo previo a una guerra: en una
confrontacion nuclear, un pas se ve beneficiado si realiza un ataque y el otro no;
en caso de que ambos se ataquen, sus resultados son desastrosos para ambos. En el
perodo preguerra cada una de las partes puede ceder o mantenerse firme ante las
exigencias del otro. Al igual que en la historia original, cada pas prefiere que sea
el otro el que ceda y, de ser posible, adelantara acciones para conseguirlo. ONeill
[1999], por ejemplo, describe los insultos de Bush a Hussein en el perodo previo a
la Guerra del Golfo, y su comparacion con Hitler, como presiones para que Saddam
cediera y se alcanzara el equilibrio que favoreca a Estados Unidos.
Ejemplo 26 (La Batalla de los Sexos, otra vez).
Encontremos ahora el equilibrio de Nash mixto para el juego de la batalla de los
sexos, el cual ilustramos de nuevo en la figura 32.
Habamos visto que existen dos equilibrios de Nash en estrategias puras, (F, F ) y
(T, T ). Para encontrar el equilibrio de Nash en estrategias mixtas, debemos encontrar
la distribucion de probabilidad sobre las estrategias del esposo ( 1 = (p, 1 p)) y de
la esposa (2 = (q, 1q)), que les brinde la mayor utilidad esperada. Si ambos juegan
una estrategia mixta no degenerada, es decir 0 < p < 1 y 0 < q < 1, entonces, en
el equilibrio de Nash mixto, para cada jugador se deben igualar los pagos esperados
de sus dos estrategias. As,
65
(1-q)
2,1
0,0
(1-p)
0,0
1,2
Esposo
UE1 (F )
UE1 (T )
2q + 0(1 q) = 0q + 1(1 q)
1
q =
3
Esposa
UE2 (F )
= UE2 (T )
p + 0(1 p) = 0p + 2(1 p)
2
p =
3
= (1 , 2 ) =
,
,
,
3 3
3 3
El pago esperado de jugar F o T en este equilibrio es 2/3 para cada jugador. Este
pago es menor al que podran obtener en los otros dos equilibrios de Nash.
Evidencia Experimental de la Batalla de los Sexos
En el experimento realizado por Rubinstein [1999] de la batalla de los sexos, se le
pide a cada jugador que haga una eleccion dependiendo de su genero. Los resultados
obtenidos indican que el 68 % de los participantes eligio su accion favorita; es decir, la
accion que lo conduce a su equilibrio favorito: para los hombres es F en nuestro juego,
mientras que es T para las mujeres. Haciendo un analisis en el que se clasifique por
genero, el 75 % de los hombres eligio su accion favorita, mientras que las mujeres se
dividieron equitativamente entre las dos opciones. En otro experimento, Cooper, De
Jong, Forsythe y Ross [1993] encontraron que alrededor del 64 % de los participantes
eligieron su accion favorita. Observemos que, en ambos experimentos, aparece cierta
relacion entre la eleccion sobre cada una de las estrategias puras en la distribucion
poblacional, y la distribucion de probabilidades en el equilibrio mixto. El hecho
de que la distribucion de hombres y mujeres sea diferente indica que hay patrones
culturales de genero, que influyen en las decisiones y que no estan incluidos en la
matriz de pagos.
En el experimento de Rubinstein se modifico el juego inicial, permitiendo que hubiera
cierta comunicacion previa al juego. En esta comunicacion, el jugador 1 anunciaba
que escogera su accion favorita y, seguido a esto, el jugador 2 anunciaba que sera
66
el (ella) quien escogera su accion favorita. No tenan oportunidad de volver a comunicarse. Se le pregunta a los participantes del experimento cual accion conjunta
creeran que sera elegida por los jugadores. El 41 % de los participantes tiene una
inclinacion por la opcion que favorece a 2. Lo anterior evidencia un efecto puntofocal generado a partir de la comunicacion previa. Las otras tres combinaciones de
estrategias alcanzaron participaciones alrededor del 20 %.
M
Ejemplo 27.
Consideremos el juego de la figura 33. Aqu no hay ning
un equilibrio de Nash en
estrategias puras. Sin embargo, como veremos mas adelante, debe tener por lo menos
un equilibrio de Nash en estrategias mixtas. Para identificar este (o estos) equilibrio(s) utilizaremos el teorema 6; es decir, tendremos en cuenta que, en equilibrio,
un jugador utiliza una estrategia mixta si, y solo si, es indiferente entre todas las
estrategias puras a las cuales les asigna probabilidad positiva.
Figura 33: B
usqueda de equilibrios mixtos
L
7,2
2,7
3,6
2,7
7,2
4,5
De acuerdo con esto, consideraremos cuatro posibles casos para hallar equilibrios
en estrategias mixtas; en el primero de ellos, supondremos que el jugador 2 asigna
probabilidad positiva a todas sus estrategias puras; en los tres casos subsiguientes,
asumiremos que este jugador solo asigna probabilidades entre dos de sus estrategias
haciendo cero la probabilidad con la que juega la otra estrategia. Estos tres casos
difieren entre s dependiendo de la estrategia pura a la que se le asigna probabilidad
cero.
Analicemos entonces los casos:
a. El jugador 2 asigna probabilidad positiva a cada una de sus tres estrategias.
Si esto es cierto, tenemos que el pago esperado de jugar L (U E2 (L)) es igual al
pago esperado de jugar M (UE2 (M )) y al pago esperado de jugar R (UE2 (R));
es decir,
2 hT i + 7 hBi = 7 hT i + 2 hBi = 6 hT i + 5 hBi
donde hXi es la probabilidad con que un jugador juega la estrategia X. De
la primera igualdad se obtiene que hT i = hBi, mientras que de la segunda,
hT i = 3 hBi, con lo que obtenemos una contradiccion, por lo cual el jugador 2
no puede asignar probabilidad positiva a sus tres estrategias.
67
68
69
Ejercicios 5.
1. Encuentre el equilibrio de Nash en estrategias mixtas de la siguiente figura:
Izquierda
Derecha
Alta
7,2
2,7
Baja
3,3
4,1
2. (Halcon y Paloma) Dos individuos involucrados en un conflicto pueden adoptar uno de dos posibles comportamientos: agresivo (halcon) o conciliador
(paloma). Si dos Halcones se encuentran, se provocan da
nos por una valor de
(v c)/2, donde c > v > 0. Si un halcon se encuentra con una paloma, el
halcon obtiene v y la paloma cero. Si dos palomas se encuentran obtienen cada
uno v/2.
a. Presente este juego en forma estrategica.
b. Encuentre los equilibrios de Nash de este juego.
c. Determine como cambian las probabilidades de equilibrio ante cambios
en v y c. Explique.
3. En el juego bilateral resumido por la siguiente figura:
R
4,1
3,3
2,2
5,5
1,4
3,3
2,4
2,1
1,3
70
8,5
3,9
4,8
4,6
5,3
5,7
a2
b2
c2
a1
6,12
5,2
2,5
b1
2,2
3,12
12,5
71
10,10
-100,2
2,-100
1,1
ci Ci
ci Ci
ci Ci
para todo di Ci , ti Ci , i N.
a. Encuentre el equilibrio correlacionado que maximiza la suma de las utilidades de los jugadores en los juegos del dilema del prisionero, batalla de
los sexos, lanzar la moneda, ultimatum y el gallina.
b. Encuentre el equilibrio correlacionado que maximiza el pago de la esposa
en el juego de la batalla de los sexos.
c. Encuentre el equilibrio correlacionado que maximiza el producto de las
utilidades de los jugadores en los juegos del dilema del prisionero, batalla
de los sexos, lanzar la moneda, ultimatum y el gallina.
72
se procede a
Los pagos se
abajo. Cada
introducir el
batalla={{{2,1},{0,0}},{{0,0},{1,2}}}.
Una vez introducido el juego, Mathematica r cuenta con un algoritmo que
encuentra los equilibrios de Nash del juego. Para utilizarlo basta con digitar
Nash seguido del nombre asignado al juego dentro de parentesis angulares.
Siguiendo con el ejemplo anterior, el comando sera:
Nash[batalla]
En este caso, Mathematicar arroja un resultado de la forma
{{{0, 1}, {0, 1}}, {{2/3, 1/3}, {1/3, 2/3}}, {{1, 0}, {1, 0}}}
All, cada par de corchetes representa una de las distribuciones de probabilidad
que corresponde a cada equilibrio de Nash del juego. As, por ejemplo, el primer
par de n
umeros en la salida anterior ilustra el equilibrio de Nash donde ambos
jugadores eligen su segunda estrategia (con probabilidad 1), mientras que el
segundo par de n
umeros corresponde al equilibrio mixto del juego.
Utilice los comandos mencionados para el calculo de equilibrios de Nash de
todos los juegos estudiados hasta ahora.
VII.
Correspondencias de Mejor-Respuesta
73
Definici
on 9 (Correspondencia de Mejor-Respuesta).
La correspondencia de mejor-respuesta del jugador i se define como el conjunto de
estrategias del jugador i que le maximiza su utilidad esperada, para cada perfil
de estrategias conjuntas de todos los jugadores excepto las de i. Es decir, para
ei (Ci ):
i (ei ) =
= p 4q 1
= p(3q 1) + (1 q)
74
Equilibrio de Nash
1
Correspondencia de 2
Correspondencia de 1
1 p
si q > 13 ,
si p > 23 ,
1
1
2 (p) = [0, 1] si p = 23 ,
1 (q) = [0, 1] si q = 13 ,
0
si q < 13 .
0
si p < 23 .
Llevando este analisis al plano (p, q) obtenemos la figura 35. Notemos que
en esta figura aparecen los tres equilibrios de Nash (dos puros y uno mixto)
encontrados anteriormente, pero ahora surgen como las intersecciones de las
correspondencias de mejor-respuesta de los dos jugadores.
c. El gallina
En este juego, las funciones de utilidad esperada para cada uno de los jugadores
son de la siguiente forma:
= p(1 6q) + (1 q)
75
EN puro (F, F )
Correspondencia de 2
Correspondencia de 1
1/3
EN Mixto
1 p
2/3
EN puro (T, T )
Entonces,
0
1 (q) = [0, 1]
si q > 16 ,
si q = 16 ,
si q < 16 .
0
2 (p) = [0, 1]
si p > 16 ,
si p = 16 ,
si p < 16 .
Correspondencia de 1
Correspondencia de 2
EN mixto
1/6
EN puro (C, Q)
0
1/6
1 p
76
(1 q)
2,2
2,2
(1 p)
3,1
0,0
si q < 2/3,
1
1
1 (q) = [0, 1] si q = 2/3,
2 (p) =
[0, 1]
0
si q > 2/3.
si p < 1,
si p = 1.
1
Correspondencia de 2
Correspondencia de 1
1 p
77
eliminando algunas posibles soluciones del juego. En este ejemplo ocurre tal
situacion ya que si lo solucionamos a traves del concepto de estrategias debilmente dominadas, la u
nica solucion sera la combinacion de estrategias (F, A),
y todos los demas equilibrios de Nash, simplemente, no apareceran.
Teorema 7 (Teorema de Nash [1950b]).
Todo juego finito en forma estrategica tiene al menos un equilibrio de Nash (en
estrategias puras o mixtas).
Demostraci
on.
Sea = (N, (Ci )iN , (ui )iN ) un juego finito en forma estrategica, y sea =
ni=1 i . Entonces17 probemos los siguientes puntos:
1. es convexo: Sean = (i ), 0 = (i0 ) , = (i0 ); es claro que para
[0, 1], + (1 ) 0 = (i + (1 )i0 ). Aqu podemos asumir que
6=c
i = pcj j=1i , donde pcj es la probabilidad asociada a la estrategia pura c j
6=ci
P6=ci
0 = p0
con
p
=
1,
y
p
0;
similarmente,
para
. Entonces
c
c
cj
i
i
j=1 j
j=1
tendremos que
ci
a. i + (1 )i0 = (pcj + (1 )p0 cj )6=
j=1 ,
b. pcj + (1 )p0cj 0 y
P6=ci
P6=ci 0
P6=ci
0
c.
j=1 (pcj +(1)pcj ) =
j=1 pcj +(1)
j=1 pcj = 1+(1)1 = 1
ui (i , i
) ui (i , i
)
para todo i i
La demostraci
on de este teorema requiere la aplicaci
on del Teorema de Punto Fijo de Kakutani
que establece lo siguiente:Si S Rn es un conjunto no-vaco, compacto y convexo, y si : S S
es una correspondencia semicontinua superiormente tal que para todo x S el conjunto (x) es
no-vaco y convexo, entonces tiene un punto fijo en S, es decir, existe x S tal que x (x)00 .
Recordemos que a) S es compacto si es cerrado y acotado; b) S es convexo si para todo s1 , s2 S
y [0, 1] se tiene que s1 + (1 s2S
) S; c) : S S es una correspondencia semicontinua
superiormente si, y s
olo si, Graf () = xS {(x, y)}|y (x)} es un conjunto cerrado en S S.
78
i i
para i fijo
0
ui (i00 , i
)
ui (i , i )
para todo i i
para todo i i
ui (n0 , i ) ui (i , i )
ui (n0 , i )
ui (i , i )
i i
i i
79
Ejercicios 6.
1. Grafique las correspondencias de mejor-respuesta y encuentre los equilibrios
de Nash (puros y mixtos) de los siguientes juegos:
VIII.
x2
y2
x1
9,4
6,4
y1
8,5
4,3
x2
y2
x1
10,1
0,0
y1
0,0
1,1
x2
y2
x1
3,1
1,3
y1
5,5
4,2
x2
y2
x1
-6,-6
-6,-6
y1
-6,-6
-1,-1
Desde 1975 comenzo a verse claramente que la definicion amplia del concepto de
equilibrio de Nash en ocasiones no provea de una adecuada descripcion del problema
bajo estudio. Para remediar esto, se empezaron a desarrollar refinamientos de tal
concepto, algunos de ellos exigiendo mas racionalidad por parte de los jugadores,
pero tambien otros, como el Premio Nobel en Economa de 1994, Reinhard Selten,
quien en 1975 definiera el concepto de equilibrio de Nash de mano temblorosa,
utilizando cierta irracionalidad como mecanismo para llegar a una fuerte nocion
de racionalidad; es decir, mostrando que la racionalidad no necesariamente podra
abastecerse de s misma.
80
81
82
Ejercicios 7.
1. Encuentre los equilibrios perfectos (de mano temblorosa) de los siguientes juegos:
x2
y2
x1
10,10
-100,2
y1
2,-100
1,1
x2
y2
x1
-6,-6
-6,-6
y1
-6,-6
-1,-1
2. Encuentre los equilibrios de Nash perfectos (de mano temblorosa) de los juegos
halcon y paloma, gallina y dilema de seguridad.
IX.
83
c2 =
c1 1/4 si c1 1/4,
c1 + 1/4 si c1 < 1/4
Correspondencia de
mejor-respuesta de 1
C1
Correspondencia de
mejor-respuesta de 2
Como es claro en la figura 39, al ser discontinua la correspondencia de mejorrespuesta del jugador 2, esta no se intercepta en ning
un punto con la del jugador 1, y
84
por tanto en este juego no hay equilibrio de Nash en estrategias puras. Que hip
otesis
del teorema anterior est
a fallando en este ejemplo? Tendr
a equilibrios de Nash en
estrategias mixtas?
M
Ejercicios 8.
1. Considere un juego compuesto por dos jugadores cuyos conjuntos de estrategias
puras son C1 = [0, 50] = C2 . Las funciones de pago son:
u1 (c1 , c2 ) = 100c1 10c21 + 10c1 c2
u2 (c1 , c2 ) = 200c2 15c22 + 10c1 c2
85
1 si < sj < si + 2 ,
i = 1, 2
ui (si , sj ) =
0 si = sj , si + 12 ,
1 en otro caso.
Muestre que este juego no tiene equilibrios de Nash en estrategias puras.
6. Asuma dos jugadores 1 y 2 que eligen respectivamente x 1 y x2 , y cuyas funciones de pago estan dadas por:
u1 (x1 , x2 ) =
u2 (x1 , x2 ) =
0
x1
x2
0
x2
x2 x 1 + 1 + a b
2
x1 x 2 + 1 + b a
2
si x1 < x2 (1 a b),
si x1 > x2 + (1 a b),
si x1 [x2 (1 a b),
x2 + (1 a b)]
si x2 < x1 (1 a b),
si x2 > x1 + (1 a b),
si x2 [x1 (1 a b),
x1 + (1 a b)]
Muestre que para que exista un equilibrio en este juego son necesarias las
siguientes condiciones:
ab 2 4
a. 1 +
(a + 2b);
3
3
2
ba
4
b. 1 +
(b + 2a)
3
3
X.
Juegos Din
amicos con Informaci
on Sim
etrica
Hasta ahora hemos estudiado la forma estrategica de un juego, que consiste, fundamentalmente, en tres elementos: los jugadores, el conjunto de estrategias para
cada jugador, y los pagos que recibe cada jugador por cada posible combinacion de
86
87
manera, podemos determinar que conoce cada jugador acerca de las acciones de los
demas jugadores al momento de tomar su decision. Cuando un jugador no puede
distinguir entre diferentes nodos al momento de tomar su decision (como es el caso
del jugador 2 en la figura 40), reunimos todos esos nodos en un solo conjunto llamado
conjunto de informaci
on.
Figura 40: Juego con Informacion Imperfecta
1
e
@
@
L0
10
0
u
@
@
2
0
@ R
@
@
L0
7
3
8
2
R
@
@u
@
@
0
@ R
@
@
6
1
Si en el arbol todos los conjuntos de informacion tienen un solo nodo, diremos que
el juego tiene informaci
on perfecta. En otro caso (como sucede con nuestro ejemplo
de la figura 40) diremos que tiene informaci
on imperfecta.
En la forma extensiva, una estrategia de un jugador especifica las acciones que toma
en cada conjunto de informacion del juego. En el ejemplo anterior, las estrategias del
jugador 1 son L y R, y las estrategias del jugador 2 (dentro del conjunto de informacion conformado por los dos nodos de la parte inferior de la figura 40) son L 0 y R0 .
Ahora consideremos el mismo ejemplo anterior, solo que esta vez asumiremos que el
jugador 2 s sabe cual fue la decision tomada por el jugador 1 y, por tanto, conoce
el nodo en el que debe tomar su decision. El arbol de este juego se representa en la
La simetra en la informaci
on se referir
a al conocimiento com
un del juego.
88
L0
10
0
2 u
@
@
0
@ R
@
@
R
@
L0
7
3
@u 2
@
@
0
@ R
@
@
8
2
6
1
R0
10,0
7,3
8,2
6,1
Jugador 1
Como el u
nico equilibrio de Nash de este juego es (L, R 0 ) con pagos (7,3), entonces
el u
nico equilibrio de Nash de la figura 40 es tambien (L, R 0 ).
Algo diferente sucede cuando intentamos resolver el juego de la figura 41. Siguiendo
con el metodo de encontrarle un juego en forma estrategica que le sea equivalente
y resolverlo, debemos tener cuidado al elegir las estrategias posibles del jugador 2,
puesto que este ahora s sabe cual fue la accion que tomo el jugador 1. Una forma
de reducir este problema de dos tiempos a uno de un solo tiempo (movimientos
simultaneos) es asignarle al jugador 2 planes de contingencia. As, las estrategias
del jugador 2 no son L0 y R0 sino (L0 , L0 ), (L0 , R0 ), (R0 , L0 ) y (R0 , R0 ), donde el plan
de contingencia generico (A, B) significa jugar A si el jugador 1 juega L, y jugar B
si el jugador 1 juega R. Por tanto, un plan de contingencia como (L 0 , L0 ) significa
jugar L0 sin importar que haya jugado el jugador 1. La forma estrategica del juego
se representa en la figura 43.
89
Figura 43: Representacion Estrategica de un Juego en Forma Extensiva con Informacion Perfecta
Jugador 2
Jugador 1
(L0 , L0 )
(L0 , R0 )
(R0 , L0 )
(R0 , R0 )
10,0
10,0
7,3
7,3
8,2
6,1
8,2
6,1
Aqu aparecen dos equilibrios de Nash en estrategias puras: (L,(R 0 , R0 )) y (R, (R0 , L0 )).
El primero de estos podra interpretarse (abusando de la notacion) como el mismo
equilibrio (L, R0 ) encontrado en el juego con informacion imperfecta. Cabe entonces
preguntarse: cual es el otro equilibrio? Esto es facil dilucidarlo si entendemos que
este es un juego con informacion, ademas de perfecta, completa. Observemos, en
primera instancia, que cada uno de los pagos en los equilibrios de Nash (7,3) y (8,2)
favorece a uno de los jugadores y no son comparables en el sentido de Pareto. Resulta, sin embargo, que en este juego s se podra decidir cual de los dos equilibrios de
Nash es mas creble, y esta decision la tomara el jugador que tiene m
as poder en
el juego: el jugador 1. Es facil observar esto en la figura 41. Si el jugador 1 juega L, el
jugador 2 (como agente racional) jugara R 0 , y esto le da un pago de 3; si el jugador
1 juega R, el jugador 2 jugara L0 , que le da un pago de 2. Pero como el jugador 1
sabe esto (es decir, conoce las acciones que el jugador 2 tomara en respuesta a las
suyas, y ademas conoce los pagos correspondientes a cada una de estas acciones),
conducira al jugador 2 a tomar la accion que mas le conviene a el (jugador 1); es
decir, para el jugador 1 es mejor elegir R que L, ya que si escoge R, el jugador 2
elige L0 , y el jugador 1 recibe un pago de 8; mientras que si escoge L, el jugador 2
escogera R0 , y el jugador 1 recibe un pago de 7. Por tanto, el equilibrio que creblemente se jugara, dada la estructura del juego, es aquel en el que el jugador 1 (el
que tiene el poder del juego) obtiene un mayor pago: (R, (R 0 , L0 )). Una conclusion
adecuada es que en este tipo de juegos con informaci
on perfecta y completa, el jugador que mueve primero (el lder) puede conducir al jugador que mueve despues (el
seguidor) a obrar en su conveniencia (del lder).
Ahora es posible resumir el proceso que acabamos de emplear para distinguir cual
de los dos equilibrios de Nash en estrategias puras del juego de la figura 42 era m
as
creble.
a. Inicialmente resolvimos el problema del jugador 2 en el nodo 2A; es decir,
cuando el jugador 1 jugo L. Se resolvio jugando R 0 .
b. Despues resolvimos el problema del jugador 2 en el nodo 2B; es decir, cuando
el jugador 1 jugo R. Se resolvio jugando L 0 .
90
u
@
@
2B
0
@ R
@
@
L0
7
3
8
2
u
@
@
0
@ R
@
@
6
1
a. En el peque
no juego que comienza en el nodo 2A (dado que el jugador 1 ha
elegido L ), la mejor estrategia es jugar R 0 .
b. En el peque
no juego que comienza en el nodo 2B (dado que el jugador 1 ha
elegido R), la mejor estrategia es jugar L 0 .
c. En el juego que comienza en el nodo inicial, es decir, en el juego total de
la figura 41, la mejor estrategia del jugador 1, dada la estrategia optima del
jugador 2, es jugar R22 .
A estos peque
nos juegos, incluido el juego total, los llamamos los subjuegos del juego
original, y a una coleccion de estrategias para los jugadores que conformen un equilibrio de Nash en cada uno de los subjuegos la llamaremos un equilibrio de Nash
perfecto en subjuegos (ENPS). En nuestro ejemplo de la figura 41, el u
nico ENPS
22
91
es (R, (R0 , L0 )), el cual fue calculado mediante induccion hacia atras. Pero esto no
es una coincidencia; de hecho, todo ENPS de un juego finito en forma extensiva con
informaci
on perfecta y completa puede calcularse mediante el metodo de inducci
on
hacia atr
as.
Sin embargo, es conveniente anotar que, en general, el concepto de ENPS puede
aplicarse a cualquier juego (finito o no) en forma extensiva, y que no sucede lo mismo
con el proceso de induccion hacia atras. Estas dos nociones coinciden en juegos finitos
con informacion perfecta y completa. Por ejemplo, en el juego ya presentado de la
figura 40, el jugador 2 enfrenta problemas de informacion. En este juego, el proceso
de induccion hacia atras ni siquiera es posible iniciarlo debido a estas dificultades de
informacion. En su lugar, como el u
nico subjuego de este juego es el juego mismo,
entonces el u
nico ENPS es el mismo equilibrio del juego total: (L, R 0 ).
Ejemplo 31 (La Batalla de los Sexos en Forma Secuencial).
Consideremos una modificacion del juego de la batalla de los sexos, permitiendo
que, en el momento en que la esposa deba tomar su decision, ya conozca la decision
tomada por el esposo. La representacion en forma extensiva de este juego aparece
en la figura 45.
Figura 45: Batalla de los Sexos Secuencial
Esposo
e
@
@
Esposa u
F
2
1
@
@
@ T
@
@
F
0
0
0
0
T
@
@u Esposa
@
@
@ T
@
@
1
2
Resolviendo por induccion hacia atras, observemos que si la esposa sabe que su
esposo jugo F en la primera etapa, ella elige F ya que obtiene un pago de 1, que
es mayor que 0. De igual forma, si sabe que el esposo jugo T en la primera etapa,
lo mejor que puede hacer es tambien jugar T , obteniendo un pago de 2. Entonces,
como el esposo sabe esto, en la primera etapa decide jugar F para obtener un pago
de 2, mayor que 1, que sera lo que obtendra por jugar T . La solucion por induccion
hacia atras es, entonces, (F, F ).
La representacion de este juego en forma estrategica aparece en la figura 46.
92
(F, T )
(T, F )
(T, T )
2,1
2,1
0,0
0,0
0,0
1,2
0,0
1,2
Esposo
93
para
iN
La relaci
on de precedencia es transitiva si x y, y z implica x z.
La relaci
on de precedencia es asimetrica si no es posible x x.
25
X \ Z denota el conjunto de elementos que est
an en X y que no est
an en Z.
26
Es decir, H es una colecci
on de subconjuntos de X \ Z; todos estos subconjuntos son no vacos
y disjuntos, adem
as de que su uni
on coincide con X \ Z.
24
94
Definici
on 12 (Forma Extensiva).
Un juego en forma extensiva es una tupla
= (N, (X, ), Z, i, {Ci(x) }xX\Z , H, (ui )iN )
que satisface las condiciones de la definicion de arbol (definicion 11).
Definici
on 13 (Juego Finito en Forma Extensiva).
Un juego finito en forma extensiva es un juego en forma extensiva en el que el
conjunto de nodos X es un conjunto finito. En otro caso, diremos que es un juego
infinito en forma extensiva.
Ejemplo 32.
Consideremos el juego que estudiamos al inicio de esta seccion y que presentamos
nuevamente en la figura 47.
Figura 47: Juego Finito en Forma Extensiva
1
e
@
@
L0
10
0
u
@
@
2
0
@ R
@
@
L0
7
3
8
2
R
@
@u
@
@
0
@ R
@
@
6
1
Este es un juego finito en forma extensiva de dos jugadores (N = {1, 2}). Los conjuntos de estrategias de los jugadores 1 y 2 son C 1 = {L, R} y C2 = {L0 , R0 }; el
conjunto de nodos no-terminales es X \ Z = {1A, 2A, 2B}, donde el nodo 1A es
el nodo inicial en el que mueve el jugador 1, y 2A y 2B son los nodos en los que
mueve el jugador 2. Observemos que el jugador 1 tiene solo un conjunto de informacion formado por el nodo 1A, y el jugador 2 tiene a su vez un solo conjunto de
informacion formado por los nodos 2A y 2B. Por tanto, H = {{1A}, {2A, 2B}}.
Observemos que H es un conjunto de subconjuntos no vacos, disjuntos por pares
y cuya union es X \ Z. Los pagos asociados a cada posible combinacion de estrategias son: u1 (L, L0 ) = 10, u1 (L, R0 ) = 7, u1 (R, L0 ) = 8, u1 (R, R0 ) = 6, u2 (L, L0 ) =
0, u2 (L, R0 ) = 3, u2 (R, L0 ) = 2, u2 (R, R0 ) = 1.
M
95
L0
10
0
2@u
2 u
@
@
0
@ R
@
@
L0
7
3
@
@
8
2
0
@ R
@
@
6
1
Este tambien es un juego finito en forma extensiva de dos jugadores (N = {1, 2}).
Los conjuntos de estrategias de los jugadores 1 y 2 son C 1 = {L, R} y
C2 = {(L0 , L0 ), (L0 , R0 ), (R0 , L0 ), (R0 , R0 )}
u1 (L, (R0 , L0 )) = 7,
u1 (L, (R0 , R0 )) = 7,
u1 (R, (L0 , L0 )) = 8,
u1 (R, (L0 , R0 )) = 6,
u1 (R, (R0 , L0 )) = 8,
u1 (R, (R0 , R0 )) = 6,
u2 (L, (L0 , L0 )) = 0,
u2 (L, (L0 , R0 )) = 0,
u2 (L, (R0 , L0 )) = 3,
u2 (L, (R0 , R0 )) = 3,
u2 (R, (L0 , L0 )) = 2,
u2 (R, (L0 , R0 )) = 1,
u2 (R, (R0 , L0 )) = 2,
u2 (R, (R0 , R0 )) = 1.
M
96
e
@
@
R
@
@ 2B
@u x00
Z
Z
Z
Z
L0
L0
Z R0
Z R0
Z
Z
Z x
Z
u
u
1A
1BZ
1CZu
@
@
@
@ R
@ R
@ R
L
L
L
@
@
@
97
L
1A e
2B
u
@
@
u 2A
@
@
@ R
@
@
3A u
@
@
L0
1
2
1
R0
@
3
3
3
L0
2
0
0
R@ 3
1
4
@u 3B
@
@
@ R0
@
@
1
2
0
1
1
nodos 3A y 3B, lo cual esta ilustrado por la lnea punteada que los une. En otras
palabras, el jugador 3, en el momento en el que le corresponda actuar, no sabe si
el jugador 2, en la etapa inmediatamente anterior, eligio la accion L o la accion R.
As, este es un juego con informacion imperfecta porque no todos los conjuntos de
informacion estan conformados por un u
nico nodo.
M
Acerca de las Estrategias de un Juego en Forma Extensiva
Habamos notado el conjunto de estrategias puras de un jugador i(x) en el nodo
x dentro del juego extensivo como C i(x) , que puede escribirse equivalentemente
como C(hi ), donde hi es el conjunto de informacion que contiene al nodo x y en
el que mueve el i-esimo jugador. En el conjunto de informacion h i , una estrategia
mixta para el jugador i en hi debe ser entonces una distribucion de probabilidad
sobre las estrategias puras C(hi ); es decir, un elemento del conjunto que notaremos i (C(hi )). Luego una estrategia mixta del i-esimo jugador es un elemento del
conjunto hi H i (C(hi )). Y as, una estrategia mixta del juego en forma extensiva
debe ser un producto de estas distribuciones; es decir, un elemento de
iN (hi H i (C(hi )))
Definici
on 16 (Estrategia de Comportamiento).
Una estrategia de comportamiento del juego en forma extensiva (estrategia mixta
98
2A u
L0
10
0
@
@
0
@ R
@
@
L0
7
3
8
2
R
@
@u 2B
@
@
0
@ R
@
@
6
1
Una estrategia mixta del juego en forma estrategica de la figura 52 es, por ejemplo,
= (1 , 2 ), donde 1 = (pL , pR ) y 2 = (pL0 L0 , pL0 R0 , pR0 L0 , pR0 R0 ) bajo la interpretacion conocida. En su lugar, una estrategia de comportamiento del juego de la
figura 51 es, por ejemplo, b = (b1 , b2 ), donde b1 = (pL , pR ) y b2 = ((pL0 , pR0 ), (qL0 , qR0 )),
donde pL b1 (L/1) es la probabilidad con que el jugador 1 juega L en el nodo
1; pR b1 (R/1) es la probabilidad con que el jugador 1 juega R en el nodo 1;
pL0 b2 (L0 /2A) es la probabilidad con que el jugador 2 juega L 0 si alcanza el nodo
2A; pR0 b2 (R0 /2A) es la probabilidad con que el jugador 2 juega R 0 si alcanza el
nodo 2A; qL0 b2 (L0 /2B) es la probabilidad con que el jugador 2 juega L 0 si alcanza
el nodo 2B; y qR0 b2 (R0 /2B) es la probabilidad con que el jugador 2 juega R 0 si
alcanza el nodo 2B.
Sin embargo, podemos mostrar que la estrategia mixta = ( 1 , 2 ) genera una
estrategia de comportamiento bajo una regla bayesiana de construccion. Para el
jugador 1, su estrategia de comportamiento es la misma estrategia mixta: b 1 = 1 =
(1/2, 1/2). Para el jugador 2, la estrategia de comportamiento es
99
(L0 , R0 )
(R0 , L0 )
(R0 , R0 )
10,0
10,0
7,3
7,3
8,2
6,1
8,2
6,1
Jugador 1
100
1
L
T0
ePP
T PPP
T
PP
PP
T
PP
T M
PP R
PP
T
PP
T
PP
PP
2
Te
e
Q
Q
l
r
l
Q
Q r
Q
Q
1
u
Qu
u
Qu
@ Y
@ Y
@ Y
@ Y
X
X
X
@
@
@
@
@
@
@
@
T1
T2
T3
T4
T5
T6
T7
T8
p(T1 ) = pM pl px
p(T2 ) = pM pl pY
p(T3 ) = pM pr px
p(T4 ) = pM pr pY
p(T5 ) = pR pl px
p(T6 ) = pR pl pY
p(T7 ) = pR pr px
p(T8 ) = pR pr pY
Una estrategia mixta que genera la misma distribucion de probabilidad sobre los
nodos terminales, dada la estrategia mixta (p l , pr ) del jugador 2, satisface:
p(T0 ) = p(L, X) + p(L, Y )
Por ejemplo,
pL = p(L, X) + p(L, Y )
pM pY = p(M, Y )
pM pX = p(M, X)
pR pX = p(R, X)
pR pY = p(R, Y )
Ahora podemos tomar
pL
2
p(M, X) = pM pX
pL
2
p(M, Y ) = pM pY
p(R, X) = pR pX
p(R, Y ) = pR pY
p(L, X) =
p(L, Y ) =
101
Una estrategia mixta que genera la misma distribucion de probabilidad sobre los
nodos terminales, dada la estrategia mixta (p l , pr ) del jugador 2, satisface:
pL = p(L, X) + p(L, Y )
pM pl pX = p(M, X)pl
pM pl pY = p(M, Y )pl
pM pr pX = p(M, X)pr
pM pr pY = p(M, Y )pr
pR pl pX = p(R, X)pl
pR pl pY = p(R, Y )pl
pR pr pX = p(R, X)pr
pR pr pY = p(R, Y )pr
Por ejemplo,
i. pL = p(L, X) + p(L, Y )
ii. pM pX = p(M, X)
iv. pR pX = p(R, X)
iii. pM pY = p(M, Y )
v. pR pY = p(R, Y )
p(M, X)
p(M, Y )
=
pX
pY
p(R, X)
p(R, X) + p(R, Y )
pY =
p(R, Y )
p(R, X) + p(R, Y )
As, de las ecuaciones vi y vii podemos concluir que no siempre existe una estrategia
de comportamiento que sea equivalente a la estrategia mixta especificada.
102
Los juegos en forma extensiva en los que podemos identificar estrategias mixtas con
estrategias de comportamiento satisfacen una condicion que, aunque restrictiva, la
satisfacen la mayora de los juegos estudiados en la practica. En estos juegos, llamados de memoria perfecta, ning
un jugador olvida ninguna informacion que alguna
vez conocio. En general, asumiremos que los juegos extensivos tienen memoria perfecta; es decir, que si dos nodos estan en el mismo conjunto de informacion de cierto
jugador, las movidas que el jugador hace para llegar a cualquiera de los dos son las
mismas: un jugador nunca olvida sus movidas.
Definici
on 17 (Memoria Perfecta).
Un juego en forma extensiva tiene memoria perfecta cuando:
i. Si x0 h(x), entonces ni x x0 ni x0 x (si dos nodos estan en el mismo
conjunto de informacion, ninguno debe anteceder al otro).
ii. Si x00 h(x0 ), x x0 e i(x) = i(x0 ) (y por tanto, igual a i(x00 )), entonces existe
un nodo x X (posiblemente x mismo) tal que x h(x), x x00 , y la
accion tomada en x para llegar a x0 es la misma que la accion tomada en x
para llegar a x0 a traves de x00 (si las trayectorias fueran distintas, el jugador
habra olvidado lo que antes hizo).
Un ejemplo de un juego en forma extensiva con memoria imperfecta es el de la figura
53. Este no es un juego de memoria perfecta porque el jugador 1 olvida si elige M
o R cuando tiene que mover en su segunda oportunidad.
Teorema 11 (Equivalencia entre Estrategias de Comportamiento y Estrategias Mixtas (Kuhn [1953])).
En un juego con memoria perfecta, toda estrategia mixta genera una u
nica estrategia
de comportamiento y cada estrategia de comportamiento genera una u
nica estrategia
mixta. M
as a
un, la estrategia mixta generada por una estrategia de comportamiento
genera, a su vez, una estrategia de comportamiento que coincide con la estrategia de
comportamiento original.
Demostraci
on.
Ver Kuhn [1953].
Debido a este teorema, bajo la hipotesis de memoria perfecta utilizamos los terminos
estrategias mixtas y estrategias de comportamiento de manera intercambiable y,
en adelante, asumiremos que todos los juegos en forma extensiva tienen memoria
perfecta.
Continuando entonces con la descripcion de un juego en forma extensiva, presentamos su subestructura mas importante: la nocion de subjuego.
Definici
on 18 (Subjuego de un Juego en Forma Extensiva).
Un subjuego F de un juego en forma extensiva es un juego en forma extensiva
conformado por un nodo de (nodo inicial del subjuego) y todos sus sucesores, con
103
L
e
H
H
(6,0,6)
R
HH
2
HHu
(8,6,8)
F##
#
u
@
@
F
(0,0,0)
u
#c
#
c
c G
c
c
@ G
@
@
(7,10,7)
(7,10,7)
cu
@
@
@ G
@
@
(0,0,0)
104
Definici
on 20 (Equilibrio de Nash perfecto en subjuegos).
Una estrategia de comportamiento de un juego en forma extensiva es un equilibrio de Nash perfecto en subjuegos (ENPS) si la restriccion de a cualquier subjuego
es un equilibrio de Nash del subjuego.
El siguiente teorema resume algunas de las principales caractersticas de los equilibrios de juegos en forma extensiva.
Teorema 12.
i. Todo juego finito en forma extensiva tiene al menos un equilibrio de Nash.
ii. Todo equilibrio de Nash perfecto en subjuegos es un equilibrio de Nash del juego
en forma extensiva.
iii. Todo juego finito en forma extensiva con informaci
on perfecta y completa tiene
al menos un equilibrio de Nash perfecto en subjuegos.
iv. Todo equilibrio de Nash perfecto en subjuegos de un juego finito en forma extensiva con informaci
on perfecta y completa puede calcularse mediante inducci
on
hacia atr
as; es decir, comenzando con los nodos anteriores a los terminales, el
jugador all asignado, optimiza; luego, teniendo esto en cuenta, los jugadores
asignados a los nodos inmediatamente anteriores, optimizan; etc.
Demostraci
on.
Ver Selten [1975].
Ejemplo 37 (Calcular ENPS puede ser dispendioso).
Consideremos el juego de dos jugadores de la figura 55.
Figura 55: Calculo de ENPS
Jugador 2
Jugador 2
L1
R1
Jugador 1 U1
2,2
-1,3
D1
3,-1
0,0
Pagos perodo 1
L2
R2
Jugador 1 U2
6,4
3,3
D2
3,3
4,6
Pagos perodo 2
105
HH
HHD1
HH
H Hs
2
s
@
@
@ R1
L1
@ R1
L1
@
@
@
@
1s
1s
1s
1s
J
U2
J D2
U2
J D2
U2
J D2
U2
J D2
s
Js
s
Js
s
Js
s
Js
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
A
8
6
5
5
5
5
6
8
5
7
2
6
2
6
3
9
9
3
6
2
6
2
7
5
6
4
3
3
3
3
4
6
Una combinacion de estrategias es ENPS si cada una de las estrategias que la conforman es un equilibrio de Nash en cada uno de los subjuegos. Sean, el subjuego 1, el
subjuego que sigue a U1 L1 ; el subjuego 2, el subjuego que sigue a U 1 R1 ; el subjuego
3, el subjuego que sigue a D1 L1 ; y el subjuego 4, el que le sigue a D1 R1 . Por tanto,
este juego tiene cinco subjuegos: el juego total y los cuatro subjuegos propios. Cada
uno de estos u
ltimos tiene dos equilibrios de Nash: (U 2 , L2 ) y (D2 , R2 ). La primera
etapa tiene cuatro posibles resultados: (U 1 , L1 ), (U1 , R1 ), (D1 , L1 ) y (D1 , R1 ). Por
tanto, existen 4(24 ) = 64 posibles ENPS. Sin embargo, queda como ejercicio al lector
probar que solo las siguientes estrategias son los ENPS del juego:
Jugador 1
Jugador 2
1. ((U1 , U2 , U2 , U2 , D2 ), (R1 , L2 , L2 , L2 , R2 ))
2. ((U1 , U2 , U2 , D2 , D2 ), (R1 , L2 , L2 , R2 , R2 ))
3. ((D1 , D2 , D2 , D2 , U2 ), (L1 , R2 , R2 , R2 , L2 ))
4. ((D1 , D2 , U2 , D2 , U2 ), (L1 , R2 , L2 , R2 , L2 ))
5. ((D1 , U2 , U2 , U2 , U2 ), (R1 , L2 , L2 , L2 , L2 ))
6. ((D1 , D2 , U2 , U2 , U2 ), (R1 , R2 , L2 , L2 , L2 ))
7. ((D1 , U2 , D2 , U2 , U2 ), (R1 , L2 , R2 , L2 , L2 ))
8. ((D1 , D2 , D2 , U2 , U2 ), (R1 , R2 , R2 , L2 , L2 ))
106
9. ((D1 , D2 , D2 , D2 , D2 ), (R1 , R2 , R2 , R2 , R2 ))
10. ((D1 , U2 , D2 , D2 , D2 ), (R1 , L2 , R2 , R2 , R2 ))
11. ((D1 , D2 , D2 , U2 , D2 ), (R1 , R2 , R2 , L2 , R2 ))
12. ((D1 , U2 , D2 , U2 , D2 ), (R1 , L2 , R2 , L2 , R2 ))
La solucion de equilibrio de Nash perfecto en subjuegos pretende tomar en cuenta
los incentivos de las partes en cada punto posible de decision. La tecnica de focalizar
el juego en cada subjuego es u
til en la medida en que elimina cualquier equilibrio de
Nash que asuma comportamientos implausibles (fuera de la trayectoria de equilibrio)
por parte de los jugadores; sin embargo, y a pesar de todas estas previsiones, algunas
complicaciones pueden surgir. Ejemplos de esto se ilustran con los ahora considerados clasicos juegos del ciempies y de la cadena de tiendas, que presentamos a
continuacion.
Ejemplo 38 (El Juego del Ciempies (Rosenthal [1981])).
Consideremos dos jugadores que hacen parte de un proceso que cada uno de ellos
puede alternativamente detener. A medida que el proceso tome mas etapas en detenerse, mayores son los pagos que obtienen los jugadores: en particular, por cada etapa
que avance el proceso, los pagos conjuntos se incrementan en una unidad monetaria,
digamos 1 euro. Sin embargo, cada jugador prefiere el pago resultante de que sea el
quien detenga el proceso, a que sea su oponente, en la etapa inmediatamente posterior, quien lo haga. El proceso tiene un maximo de 100 etapas. La representacion
en forma extensiva de este juego aparece en la figura 57.
Figura 57: Juego del Ciempies
1
2
C
2
1
2
C
0
2
2
C
1
0
1
C
...
...
48
50
2
C
1
3
1
C
50
49
51
50
49
51
Observemos que en la primera etapa solo hay un euro. El jugador 1 tiene la oportunidad de detener el juego, lo que significara un pago de 1 para el y 0 para el
jugador 2. En la segunda etapa hay 2 euros; el jugador 2 puede detener el juego con
un vector de pagos (0,2), o continuarlo. Notemos que los mayores pagos conjuntos
son (51,50) que se alcanzan si en todas las etapas cada jugador al que le corresponda
107
108
109
u
nica firma en tal ciudad. El resultado mas deseable, desde el punto de vista de
cada firma entrante, es entrar y que la cadena se acomode; esto es, que no
le declare la batalla comercial. En cada etapa en que cualquier firma debe tomar
una decision, conoce toda la historia del juego; luego hablamos de un juego con
informacion perfecta. La representacion en forma extensiva del juego que se lleva a
cabo cada mes, aparece en la figura 58.
Figura 58: Juego de la Cadena de Tiendas
Entrante potencial
e
@
@
No entra
5
1
Se acomoda
2
2
Entra
@
@u Cadena de Tiendas
@
@
@ Declara guerra
@comercial
@
0
0
Observemos que el juego de cada mes tiene dos equilibrios de Nash en estrategias
puras: uno en el que la firma entrante se mantiene fuera y la cadena amenaza con
iniciar una guerra, y otro en el que la firma entrante incursiona en el mercado y la
cadena se acomoda. Desde luego, el primero de estos equilibrios no es perfecto en
subjuegos ya que, en caso de que la cadena tuviera que decidir, preferira acomodarse
a declarar una guerra comercial.
Volvamos nuevamente al juego original. Como, en cada etapa, cada firma conoce
la historia del juego, podemos solucionarlo por induccion hacia atras. Observemos
en la figura 58 que en la u
ltima etapa la solucion sera que el entrante potencial
efectivamente entre al mercado y que la cadena se acomode. Continuando con el
mismo razonamiento, podemos extender este argumento para todas las etapas.
Al igual que en el ejemplo anterior del juego del ciempies, este equilibrio de Nash
perfecto en subjuegos resulta poco intuitivo. En particular, podramos pensar que la
cadena de tiendas puede amenazar con declarar una guerra comercial con el fin de
obtener cierta reputacion que le permita disuadir la entrada futura de otras firmas
al mercado. Nuevamente, una posible salida a esta aparente paradoja consiste en
que cada firma asigne probabilidades subjetivas diferentes de cero, respecto al comportamiento de su oponente; pero al igual que en el ejemplo anterior, esta discusion
la dejamos para el captulo siguiente.
M
110
Ejercicios 9.
1. Considere una modificacion del juego de el gallina de la pagina 63 donde al
momento de tomar su decision, el jugador 2 ya conoce la decision del jugador
1.
a. Represente este juego en forma extensiva.
b. Represente este juego en forma estrategica.
c. Encuentre la solucion por induccion hacia atras.
d. Encuentre los equilibrios de Nash.
e. Encuentre los equilibrios de Nash perfectos en subjuegos.
f. Explique las diferencias (si existen) entre estos dos u
ltimos.
2. Considere nuevamente el juego de dos jugadores con conjuntos de estrategias
C1 = [0, 50] = C2 y funciones de pago
u1 (c1 , c2 ) =100c1 10c21 + 10c1 c2
u2 (c1 , c2 ) =200c2 15c22 + 10c1 c2
XI.
Juegos Repetidos
Hasta esta instancia se ha asumido implcitamente que una vez dos o mas jugadores
involucrados en alguna situacion alcanzan los resultados de esta, su relacion termina
y no vuelven a encontrarse nunca mas. Podramos decir que tal situacion refleja
mas la excepcion que la regla; es decir, lo usual es encontrar casos en los cuales
111
los jugadores deben enfrentarse a una misma situacion varias veces (disponiendo
de alguna informacion acerca de los resultados de interacciones pasadas) antes de
iniciar cada nueva interaccion. Los juegos a los que se enfrentan compa
neros de
oficina, empresas lderes en alguna industria e, incluso, superpotencias nucleares,
clasifican facilmente en esta categora.
Algunos aspectos importantes hacen que el estudio de los juegos repetidos merezca un
analisis especial. Dado que los jugadores reconocen que sus interacciones se llevaran a
cabo repetidas veces, el mediano y el largo plazo que antes no eran tenidos en cuenta,
ahora cobran importancia. De esta forma, resulta plausible que algunos jugadores
no valoren u
nicamente los beneficios que obtendran en una primera interaccion
sino que mas bien podran interesarse por sus beneficios de largo plazo. Siendo esto
as, acciones diferentes a las que prescriben los conceptos solucion que hemos visto
(como el de equilibrio de Nash) podran ser tomadas racionalmente por los jugadores
si estas les dan la posibilidad de alcanzar mayores beneficios futuros.
Como dijimos antes, de forma previa a cada nueva interaccion, los jugadores cuentan
con alguna informacion acerca de los resultados de las interacciones anteriores. Este
hecho permite que cada jugador, desde el presente, pueda condicionar sus acciones
futuras a los resultados que hayan sido obtenidos hasta el momento en que deba
llevar a cabo una nueva accion. Como ejemplo de esto, recordemos el juego de pas
grande y pas peque
no, en el que sus estrategias eran armarse y permanecer
desarmado. Podramos pensar que este es un juego al que se enfrentan los dos pases
cada a
no. Especficamente, el primer da del a
no, los dos pases, simultaneamente y de
forma aislada, deben tomar una decision. Teniendo en cuenta las repercusiones que
les traera a ambos iniciar una carrera armamentista, podran adoptar posiciones
como permanecer desarmado hasta tanto el otro pas permanezca desarmado y
alcanzar resultados diferentes con respecto al caso en el que el juego se jugaba una
sola vez. Como resulta claro a partir de este ejemplo, escenarios de cooperacion
tacita, amenazas, retaliaciones y normas sociales, entre otros, pueden estudiarse en
este contexto.
Como su nombre lo indica, un juego repetido es aquel en el que un conjunto de jugadores deben enfrentar el mismo juego de estado varias veces. Dos escenarios para
el analisis de este tipo de juegos han sido desarrollados en la literatura: aquellos
en los cuales hay conocimiento com
un del n
umero finito de veces que se repetira el
juego de estado y aquellos en los cuales al menos una de las partes desconoce cuando
terminara el juego. Tradicionalmente estos dos escenarios se conocen como de horizonte finito y de horizonte infinito (superjuegos), respectivamente. A continuacion
analizamos los juegos de horizonte infinito, y hacia el final de la seccion los de horizonte finito. Las definiciones que introducimos a partir de ahora son validas para
ambos escenarios.
Definici
on 21 (Juego de Estado).
Un juego de estado es un juego finito en forma estrategica G = (N, (A i )iN , (ui )iN ),
donde N = 1, 2, ..., n es el conjunto que indiza a los jugadores; A i es el conjunto de
112
X
X
t1 i
mt
t1 nit
t=1
t=1
Este n
umero es la tasa de descuento, es decir, aquella mediante la cual se
valora un pago futuro en terminos presentes. Formas alternativas de interpretar este n
umero se relacionan con la paciencia de los jugadores con respecto
al paso del tiempo (si es mas cercano a 1 el agente es paciente, pero si
es cercano a 0, el agente es impaciente); o la probabilidad de que llegada
cierta etapa, el juego contin
ue, siendo esta mayor en cuantoP sea cercano a 1.
t1 mi repreCon el criterio de pagos descontados la expresion (1 )
t
t=1
senta el pago de la sucesion {mit }
ermino (1 ) act
ua
t=1 para el jugador i; el t
como un factor de normalizacion, de tal forma que tal pago este acotado por
los mismos n
umeros correspondientes a los pagos del juego de estado. Notemos
que con este criterio de valoracion los pagos alcanzados en etapas futuras son
menores conforme estas se hacen mas lejanas. Desde luego, podran presentarse jugadores para los cuales pagos presentes y futuros reciben valoraciones
exactamente iguales o, de forma equivalente, su paciencia sea infinita ( = 1).
En tales casos, el criterio de pagos descontados no es adecuado para comparar
sucesiones de pagos. Esto nos lleva a introducir un segundo criterio.
113
PT
i
k=1 mk
> lmT
PT
i
k=1 nk
t1 mti =
t=1
5 4
1
X
t=1
nti =
2
1
114
hoy y 1 a partir de ma
nana. La paciencia es, pues, requerida para que el jugador no
se vea demasiado atrado por el pago (alto) de 5 en la primera etapa.
Ahora comparemos las dos sucesiones con base en el criterio de lmite de los promedios; de esta forma,
PT
k
k=1 mi
lm
=1
T
T
mientras que
lm
PT
k
k=1 ni
=2
1
= t,
3
jit
t
y determinemos que sucesion es preferida con base en los criterios de pagos descontados y lmite de los promedios.
Pagos descontados
Con este criterio, la sucesion {hti } genera los pagos
hi =
2
3
+ 2 + 3 + 4 + ...
3 3
3
3
luego
hi =
1
3
1
ji = + +
... =
2 4 8 16
2+
De esta forma, la sucesion de pagos h ti es preferida a jit , independientemente del
valor de la tasa de descuento.
115
ht si (ht ) = ai
De forma similar, podemos definir una estrategia mixta.
Definici
on 24 (Estrategia Mixta en un Juego Repetido).
Una estrategia mixta del jugador i, ( i ), en un juego repetido, es una funcion que
116
Como un ejemplo sencillo de lo anterior, consideremos el juego del Dilema del Prisionero que presentamos nuevamente.
Figura 59: Dilema del Prisionero, otra vez
C
NC
-4,-4
0,-5
NC
-5,0
-1,-1
Aqu las estrategias del juego de estado son confesar (C) y no confesar (N C).
As, una estrategia factible, digamos para el jugador i, en el juego repetido infinitamente, sera no confesar en la primera etapa, y en las etapas posteriores no
confesar si en la etapa anterior el jugador j eligio no confesar, y confesar si en
la etapa anterior el jugador j eligio confesar. Otra estrategia podra ser: elegir en
la primera etapa no confesar y seguir eligiendo no confesar hasta tanto el resultado de la etapa anterior haya sido (no confesar, no confesar); en caso contrario,
elegir confesar.
El hecho a destacar de las dos estrategias brevemente enunciadas es que, en un
juego repetido, las estrategias escogidas por los jugadores al inicio del juego indican
que accion debe elegirse ante cualquier posible historia del mismo. De esta forma,
puede decirse que cada jugador esta pre-programado para seguir una regla de comportamiento de acuerdo al desarrollo del juego, de tal manera que solo es necesario
saber que ha ocurrido hasta cierta etapa, para determinar inmediatamente la accion
a ser elegida en la etapa siguiente. Pasamos ahora a definir las funcion de pago.
Definici
on 25. (Funci
on de Pago en un Juego Repetido)
La funci
on de pago para cada jugador i N es
gi : H A R
que toma la forma gi [(st (ht ))]
t=0 = V (ui ), donde V viene dada de acuerdo con el
criterio de valoracion de pagos que se elija.
A.
117
118
1
1
Podemos comparar estas dos series de pagos para determinar cuando es mejor cooperar que no hacerlo, es decir, cuando
N C =
1
4
= C
1
1
Despejando, es facil mostrar que siempre y cuando 1/4 resulta mejor no confesar que hacerlo en el juego repetido infinitamente cuando ambos jugadores siguen
estrategias del gatillo.
Analicemos ahora este mismo juego con el criterio de lmite de los promedios. Cuando nos encontramos en un subjuego que proviene de la no cooperacion, continuar no
confesando genera pagos de -5, luego el lmite de los promedios es tambien -5, mientras que seguir la estrategia del gatillo genera como lmite -1. As, al igual que antes,
es mejor seguir la estrategia en este tipo de subjuegos. Analicemos ahora que ocurre
para subjuegos que provienen de la mutua cooperacion: desviarse de la estrategia
genera la sucesion de pagos:
t
= (0, 4, 4, 4, ...)
D
y as
lm
PT
k=1 (4)
= 4
as
lm
PT
k=1 (1)
= 1
Luego para un jugador que valore los pagos de acuerdo con el criterio de lmite de
los promedios, siempre sera mejor seguir la estrategia del gatillo que desviarse.
Un punto importante aqu es que la cooperacion entre ambos en el dilema del prisionero (que no es equilibrio de Nash en el juego de un solo tiro) surge como equilibrio
de Nash (perfecto en subjuegos) cuando la interaccion se repite una y otra vez.
119
Notemos que esta cooperacion se alcanza de forma mas facil con agentes que valoren
de igual forma el presente y el futuro, que con agentes que den mayor importancia
al presente, ya que aquellos tendran pocos incentivos a desviarse de la cooperacion
motivados por los beneficios de corto plazo.
M
Ejemplo 43 (estrategia del gatillo en halcon y paloma).
Consideremos una estrategia del gatillo para el juego de Halcon y Paloma, que
presentamos en la figura 60, en el que cada jugador elige su accion P hasta tanto
ambos hayan elegido en la etapa anterior P . En caso de cualquier desviacion de
P , empiezan a coordinarse alternadamente en cada uno de los equilibrios de Nash
puros, digamos, empezando en el que favorece al jugador 1.
Figura 60: Halcon y Paloma
H
-1,-1
4,0
0,4
2,2
2
1
4
4
=
(1 )(1 + )
1 2
Por lo tanto, siempre es mejor desviarse de la estrategia del gatillo en subjuegos que
provienen de la cooperacion de ambos jugadores (P, P ). Desde luego, en subjuegos
que provienen de (H, H), es mejor tambien desviarse. Notemos, sin embargo, que de
acuerdo con el criterio de lmite de los promedios, un jugador sera indiferente entre
seguir la estrategia y no hacerlo, ya que sus pagos promedio, en el lmite, son iguales
a 2 en ambos casos.
M
Ejemplo 44 (estrategia del gatillo en el juego del gallina).
Consideremos ahora el juego del gallina repetido infinitamente bajo estrategias del
gatillo para ambos jugadores:
120
-5,-5
2,0
0,2
1,1
De forma similar al caso anterior, podemos definir una estrategia del gatillo como
jugar Q si en la etapa anterior ambos jugaron Q; en caso contrario, elegir alternadamente cada uno de los equilibrios de Nash puros.
De acuerdo con el criterio de pagos descontados, el pago por seguir la estrategia es
Q =
1
1
2
1
=
(1 )(1 + )
1 2
2,1
0,0
0,0
1,2
2 1
2 1
=
(1 1 )(1 + 1 )
1 12
1 + 22
1 22
21
3(1 1 )
22
3(1 2 )
2
3(1 1 )
1 1
121
122
es decir, si 1 0, 866.
De forma similar, para el jugador 2 es mejor seguir la estrategia que desviarse si
1 + 22
22
2
3(1 2 )
1 2
es decir, si
2 0, 4361
Notemos que la tasa de descuento que garantiza la cooperacion es mayor para aquel
jugador que se vea mas beneficiado en la etapa cero (en este caso el jugador 1). Es
decir, una vez se han coordinado en el equilibrio que lo favorece entonces, a menos
que su tasa de descuento sea suficientemente alta, este tendra incentivos a jugar
su estrategia mixta en cada perodo en vez de alternar la escogencia de sus dos
estrategias puras.
M
b. Estrategia Garrote y Zanahoria
Esta estrategia consiste en que, seguido a cada desviaci
on de la cooperaci
on de parte
de alguno de los jugadores, se inicia una etapa de mutua penalizaci
on; terminada
esta etapa, los jugadores vuelven a cooperar hasta tanto no se presente alguna nueva
desviaci
on.
Es decir, despues de cada defeccion, ambos jugadores escogeran por alg
un tiempo
(digamos, una etapa) la accion que les reporte menores pagos conjuntos como se
nal
de castigo, con el animo de que puedan volver a un perodo (posiblemente infinito)
de cooperacion. Notemos que, con respecto a la estrategia del gatillo, la estrategia
del garrote y la zanahoria presenta una menor retaliacion ya que, si bien castiga
cualquier defeccion, el perodo de castigo no es de duracion infinita como en aquella,
sino que despues de cierto plazo se puede volver a la cooperacion. Con relacion a
los ejemplos que comentamos en la introduccion de la seccion, podra decirse que
una estrategia de este tipo es mas com
un en un grupo de compa
neros de trabajo,
mientras que la estrategia del gatillo caracterizara a los pases con capacidad de
iniciar una guerra nuclear. Ilustremos con un ejemplo la estrategia del garrote y la
zanahoria.
Ejemplo 46 (garrote y zanahoria para el ejemplo de halcon y paloma).
Consideremos el juego halcon y paloma asumiendo que se repite infinitamente. Podemos establecer formalmente una estrategia de garrote y zanahoria para cada jugador i de la siguiente forma:
- ai1 = P
- Si ait1 = P , para todo i, o ait1 = H, para todo i, entonces ait = P
123
124
es decir, si
4 + 3 2
1
>
1
1
1
3
125
efectiva para jugadores que se enfrentan a escenarios de juegos repetidos 29 , es, muy
probablemente, la mas simple de todas. La estrategia ojo por ojo indica iniciar
cooperando y, a partir de la segunda etapa, jugar la accion que el otro jugador
tomo en la etapa anterior. Formalmente podemos establecer:
- ai1 = C
- ait = ajt1 para todo t > 1
donde C representa la accion cooperativa i, j = 1, 2.
Ejemplo 48 (tit por tat para el dilema del prisionero).
Como esta estrategia indica que se debe iniciar cooperando, los pagos de seguir la
estrategia en el comienzo del juego y en los subjuegos que provienen de la cooperacion
vienen dados por
1
E =
1
Por su parte, los pagos por desviarse de la estrategia vienen dados por
D =
5
5
=
(1 )(1 + )
1 2
As, es mejor seguir la estrategia que desviarse si 1/4; sin embargo, tit por tat
no es perfecta en subjuegos. Para ver esto, supongamos que en la primera etapa el
jugador 2 se desva. Los pagos para el jugador 1 quedan de la siguiente forma:
5
5
=
(1 )(1 + )
1 2
1
luego es mejor desviarse si 1,79; pero como (0, 1), siempre es mejor desviarse.
M
Ejemplo 49 (tit por tat para el juego del gallina).
Modifiquemos los pagos del juego del gallina y supongamos que se repite infinitamente. El juego de estado viene dado por la matriz de pagos de la figura 62. Los
pagos se han modificado ligeramente, aumentandose los que reciben si ambos deciden
detenerse, y el pago del que decide seguir cuando el otro se detiene.
Si ambos jugadores siguen la estrategia del tit por tat, empezaran jugando (Q, Q)
y continuaran haciendolo indefinidamente; luego sus pagos seran 4/(1 ). Si un
jugador, digamos el 1, decide desviarse de la estrategia por una sola etapa, entonces,
29
M
as adelante veremos algunos resultados del torneo de computadores de Axelrod [1984] que
confirman esto.
126
-5,-5
6,0
0,6
4,4
1
1 2
lo cual es cierto siempre que 1/2. Sin embargo, la estrategia del tit por tat no
es perfecta en subjuegos. Para ver esto, supongamos que en una etapa cualquiera,
digamos la primera, un jugador, digamos el 2, se desva por error (juega C). Si
esto es as, de acuerdo con la estrategia, el jugador 1 debera responder jugando C, y
el 2 jugando Q, lo cual generara una sucesion de resultados (Q, C), (C, Q), (Q, C), ...
con pagos de 6/1 2 para el jugador 1. Si este jugador se desva de la estrategia
y perdona al jugador 2 por su error, ganara cero en la primera etapa; pero a
partir de all ganara 4, luego su pago sera 4/1 .
De esta forma es mejor desviarse de la estrategia y perdonar el error de la primera
etapa siempre que
4
6
(1 )
1 2
es decir, siempre que 1/2.
Notemos ademas que para los subjuegos que empiezan en (C, C) es mejor desviarse
para cualquier valor de ya que es mejor alternar pagos de 0 y 6 que perder siempre 5.
As, podemos concluir que la estrategia del tit por tat no es perfecta en subjuegos.
No obstante, tal estrategia tiene caractersticas importantes, lo cual se hizo evidente
por primera vez en el torneo de computadores de Axelrod [1984] que comentamos
brevemente a continuacion.
127
128
Sin embargo, cuando tit por tat se aplica a problemas reales especficos, los errores de percepcion pueden ser demasiado costosos. Dixit y Nalebuff [1991], por
ejemplo, comentan el caso de cuando en 1987 Estados Unidos responden al espionaje ruso en su embajada en Mosc
u reduciendo el n
umero de diplomaticos sovieticos
autorizados para trabajar en Estados Unidos. Seguido a esto, los sovieticos, por
su parte, responden retirando el personal nativo contratado en la embajada sovietica en Washington. El resultado de tales acciones fue que, para ambos pases,
se dificulto sustancialmente el desarrollo de sus labores diplomaticas. Desde esta
perspectiva, una vez desencadenada la serie de penalizaciones, sera deseable para
ambos que al menos una de las partes, siendo un poco indulgente, se desviara de su
estrategia e iniciara un perodo de cooperacion. Esto evidencia el hecho de que la
estrategia tit por tat no es perfecta en subjuegos. Finalmente, notemos que la serie de penalizaciones en el ejemplo mencionado pudo haberse desatado simplemente
por un error de percepcion en cuanto a la accion de una de las partes; sobre esto
profundizaremos en el siguiente captulo.
B.
Como hemos visto en lo corrido de esta seccion, parece razonable que los pagos
promedio que obtienen los jugadores que enfrentan juegos repetidos infinitos en
algunos equilibrios de Nash perfectos en subjuegos son por lo menos iguales a los
que obtendran en los equilibrios de Nash del juego de estado correspondiente.
Recordemos que en algunos de los ejemplos presentados, con el criterios de valoracion
de lmite de los promedios siempre era mejor optar por la eleccion cooperativa que
por una que generara beneficios superiores en el corto plazo pero que penalizaba en
el mediano y/o largo plazo. De forma similar, vimos que con el criterio de valoracion
de pagos descontados, siempre que la tasa de descuento fuera suficientemente alta,
era preferible cooperar que no hacerlo.
La presentacion heurstica que acabamos de hacer corresponde a lo que se conoce
en la literatura de teora de juegos como teoremas populares, por haberse hecho una
serie de aproximaciones informales a estos resultados, antes de que se presentara una
demostracion formal explcita. La intuicion (y la tradicion) sugeran que en juegos
repetidos infinitamente, cada jugador podra alcanzar cualquier pago promedio que
no fuera menor a aquel que obtendra en el juego de una sola etapa si su objetivo
fuera minimizar la perdida que su oponente buscara infligirle, es decir, se podra
alcanzar cualquier pago promedio mayor o igual que el valor minmax del juego.
Teorema 13 (Teorema Popular para el Criterio de Lmite de los Promedios).
Sea vi el valor minmax del jugador i en el juego = (N, (C i )iN , (ui )iN ). Todo
perfil de pagos w con wi vi para todo i, es un perfil de pagos de equilibrio de Nash
perfecto en subjuegos del juego repetido infinitamente con el criterio de valoraci
on
de pagos lmite de los promedios.
129
u1
(-1,-1)
(-4,-4)
(0,-5)
u2
La envolvente convexa de los cuatro pagos correspondientes a las posibles combinaciones de las estrategias puras representa el conjunto de pagos factibles (en estrategias puras y mixtas). Observemos que el valor minmax en este juego es -4 para
cada jugador. As, de acuerdo con los teoremas populares, todos los perfiles de pago
promedio factibles, a la derecha y arriba de (-4,-4) (region sombreada), pueden ser
alcanzados en equilibrios del juego repetido infinitamente.
C.
Consideremos una situacion en la que dos jugadores deben enfrentar el mismo juego
un n
umero finito de veces y, desde el inicio, ambos tienen conocimiento de este
n
umero. Al igual que antes, asumamos que, de forma previa a cada etapa, cada
jugador conoce las decisiones de su oponente y recibe los pagos correspondientes a
la u
ltima interaccion.
130
131
B2
C2
A1
6,6
1,7
0,0
B1
7,1
2,2
0,0
C1
0,0
0,0
4,4
Observemos que este juego tiene dos equilibrios de Nash en estrategias puras (B 1 , B2 )
ltimo, en el sentido de Pareto, al primero. Asumamos
y (C1 , C2 ), dominando este u
ahora que los jugadores deben enfrentar este juego dos veces y esto lo saben desde
el comienzo. Por simplicidad, digamos que no hay descuento intertemporal. Recurriendo al metodo que acabamos de explicar, sabemos que en la u
ltima etapa los
jugadores se coordinan en un equilibrio de Nash; el problema ahora es que al haber
dos equilibrios en estrategias puras, no podemos decir con certeza cual de estos se
elegira. Los jugadores podran coordinar su eleccion en la u
ltima etapa de acuerdo
con las elecciones de la primera etapa. Por ejemplo, podran decidir coordinarse en
(C1 , C2 ) si en la primera etapa eligen (A1 , A2 ), que no constituye un equilibrio de
Nash del juego de estado y en cualquier otro caso coordinarse en (B 1 , B2 ). Desde
luego, esta regla es completamente ad hoc y podra especificarse cualquier otra. Sin
embargo, analicemos que pasara en tal caso. En principio, los pagos del juego de 2
etapas podran presentarse como aparece en la figura 65.
Figura 65: Pagos en las dos etapas
A2
B2
C2
A1
10,10
3,9
2,2
B1
9,3
4,4
2,2
C1
2,2
2,2
6,6
132
D.
E.
133
Aut
omatas
De acuerdo con lo que hemos estudiado, en un juego repetido cada jugador se preocupa por elegir la estrategia que le reporta los mayores pagos, utilizando el criterio
de valoracion seleccionado y sin enfrentar ninguna restriccion para hacerlo. Podemos decir que los agentes que hemos modelado son substantivamente racionales, en
el sentido de que su comportamiento es apropiado para alcanzar los objetivos propuestos dentro de los lmites establecidos por las condiciones y restricciones dadas. Es
claro, entonces, que no nos hemos preocupado por modelar aspectos procedimentales
de la toma de decisiones de los individuos. No obstante, esto no deja de ser un problema importante: para que un jugador pueda elegir la estrategia que le genera los
pagos mas altos, debe ser capaz de conocer las otras estrategias disponibles. Neyman
[1994] ilustra las complicaciones presentes en el trasfondo de esta cuestion:
Solo para escribir en forma decimal el n
umero de estrategias puras disponibles
a cada jugador en el dilema del prisionero repetido 100 veces, se requeriran mas dgitos que el n
umero de letras en todos los libros del
mundo.
Respecto a esta falencia de la teora existente hasta hace algunos a
nos, el mismo
Simon [1976] se
nalaba
. . . una urgente necesidad de extender el cuerpo establecido del analisis
economico, que ha estado ampliamente relacionado con la racionalidad
substantiva, para abarcar los aspectos procedimentales de la toma de
decisiones.
En 1986, Ariel Rubinstein explica el limitado impacto del trabajo de Simon en la
teora economica a causa de la dificultad presente en la incorporacion de tales aspectos procedimentales en modelos formales y la inexistencia de una teora natural u
nica
que los describiera (Rubinstein [1986]). La teora de automatas surge como una
posibilidad frente a estas limitaciones, y consiste en la construccion de modelos artificiales que capturan algunos elementos de lo que se ha dado en llamar racionalidad
acotada. El termino automata tiene la connotacion de que cada jugador elige una
m
aquina preprogramada para seguir cierta regla de comportamiento, donde la operacion de tales maquinas tiene un costo que el jugador esta interesado en minimizar.
As, se da un primer paso en la incorporacion de ciertos elementos procedimentales
en la toma de decisiones.
Los juegos repetidos son un terreno donde la teora de automatas encuentra una
interesante aplicacion. Al igual que antes, se asume que cada jugador esta interesado en alcanzar el mayor pago promedio, pero, para lograrlo elige una maquina
que juega por el; es decir, una maquina que elige una accion en cada perodo dependiendo de la historia del juego hasta ese momento. Una maquina consta de un
conjunto finito de estados (uno de los cuales corresponde a su estado inicial), una
134
funci
on de resultados y una funci
on de transici
on. La funcion de resultados determina, para cada estado, la accion de la siguiente etapa, mientras que la funcion
de transicion asigna, para cada resultado, el estado de la maquina en el perodo
siguiente. As, por ejemplo, para la maquina encargada de jugar la estrategia del
gatillo en el dilema del prisionero, el conjunto de estados podra resumirse en cooperacion y no-cooperacion, refiriendose este u
ltimo a las tres combinaciones de
estrategias donde al menos uno de los jugadores decide no-cooperar. Para el estado
cooperacion, la funci
on de resultados asigna la accion cooperar, mientras que
para el estado no-cooperacion, asigna la accion no-cooperar. Por su parte, para
la combinacion de estrategias (cooperar, cooperar), la funci
on de transici
on asigna el
estado cooperacion, mientras que para cualquier otra combinacion de estrategias,
asigna el estado no-cooperacion.
Como dijimos, y a diferencia de lo presentado en los juegos repetidos, los jugadores no
solo tienen en cuenta los pagos que obtienen en el juego, sino tambien la complejidad
de la maquina que utilizan. Si bien se han desarrollado diferentes y sofisticadas medidas de complejidad, se asume, en principio, que la complejidad de una maquina se
determina por su n
umero de estados; as, en el ejemplo mencionado anteriormente,
decimos que la maquina tiene una complejidad igual a 2. Desde luego, cualquier
analisis sera sensible a la medida de la complejidad que se utilice; sin embargo, como la complejidad refleja las dificultades que enfrenta el jugador para llevar a cabo
su estrategia, tal sensibilidad es deseable ya que, en diferentes circunstancias, diferentes medidas pueden ser apropiadas. Ademas, como habamos dicho, cada jugador
persigue el pago mas alto pero esta interesado en minimizar la complejidad de la
maquina que utiliza para tal fin; es decir, prefiere utilizar m
aquinas con un reducido
n
umero de estados.
Un ejemplo de lo anterior es que en el dilema del prisionero hay una maquina que genera los mismos pagos que la que juega la estrategia del gatillo, pero tiene una menor
complejidad: aquella cuyo u
nico estado es cooperacion. Notemos que el estado nocooperacion solo se utiliza para disuadir la accion no-cooperativa del oponente; sin
embargo, tal estado no se alcanza en equilibrio. As, un jugador preferira esta u
ltima maquina que aquella con dos estados, ya que con cualquiera de esta consigue los
mismos pagos.
Una solucion para este tipo de juegos repetidos donde cada jugador debe escoger
una maquina, conocida como equilibrio semiperfecto, es un par de maquinas, una
para cada jugador, que, en cada etapa del juego, satisface lo siguiente:
i. Ning
un jugador puede alcanzar un pago mas alto cambiando unilateralmente
su maquina.
ii. Ning
un jugador puede reducir el n
umero de estados utilizado.
Algunos resultados que tenamos en los juegos repetidos convencionales (sin lmites
sobre la complejidad) se modifican si incluimos aspectos procedimentales en la toma
135
u1
(-1,-1)
Pagos alcanzables
como ENPS
(-4,-4)
Pagos alcanzables en
equilibrios Semi-Perfectos
(0,-5)
u2
b. Se justifica la cooperacion en el dilema del prisionero repetido finitamente,
as como en otros juegos, sin desviarnos de la hipotesis de maximizacion de
la utilidad pero bajo el supuesto adicional de lmites (posiblemente grandes)
sobre la complejidad de las estrategias que cada jugador puede utilizar.
F.
Los equilibrios no cooperativos que hemos estudiado se han utilizado para explicar la
confianza y la cooperacion en escenarios polticos, economicos, biologicos y militares,
entre otros. En las aplicaciones de estos modelos, los analistas generalmente observan
que existe un equilibrio del juego repetido con las propiedades deseadas, y suponen
que el comportamiento observado correspondera a ese equilibrio. Esta aproximacion
(aunque fructfera en ocasiones) da origen a un problema a nivel teorico, ya que
estos juegos pueden tener muchos otros equilibrios. As, aunque los juegos repetidos
explican como la cooperacion, confianza o compromiso podran surgir, no predicen
que tales circunstancias necesariamente ocurriran. La pregunta natural resulta ser:
cual es la base para la idea generalizada de que ciertos equilibrios de un juego
136
Ejercicios 10.
1. Suponga que las interacciones al interior de una tribu indgena (Maya) pueden
ser descritas como una situacion tipo juego del gallina (con pagos de 4 si
en cada interaccion en parejas cada jugador coopera, 1 para el que coopera
cuando el otro no lo hace, 6 para este u
ltimo, y -3 en caso de que ninguno
coopere). Por otro lado, en otra tribu indgena (Tayrona), las interacciones
pueden ser descritas como una situacion tipo dilema del prisionero (con pagos
de 4 si ambos cooperan, 1 si no cooperan, 5 para el que no coopera cuando el
otro lo hace, y 0 para este u
ltimo). Como las interacciones se dan varias veces
cada da y no hay un u
ltimo perodo claramente especificado, ambos casos
pueden estudiarse como juegos repetidos infinitamente. Si en la tribu Maya
cada miembro sigue una estrategia del gatillo, mientras que cada miembro de la
tribu Tayrona sigue una estrategia garrote y zanahoria, en que tribu aparece
mas facil la cooperacion como un equilibrio de Nash perfecto en subjuegos?
Asuma que se utiliza el criterio de pagos descontados.
2. Considere los juegos de halcon y paloma y del gallina bajo los dos criterios
de valoracion de pagos, con estrategias del gatillo donde, en caso de defeccion
por parte de al menos uno de los jugadores, estos pasan indefinidamente al
equilibrio de Nash mixto. Determine si esta estrategia constituye un equilibrio
de Nash perfecto en subjuegos.
3. Considere una situacion en la que dos jugadores enfrentan el siguiente juego
dos veces, sabiendo esto de antemano. Establezca una regla para determinar la
eleccion de la segunda etapa que permita elegir (B 1 , B2 ) en la primera etapa.
137
B2
C2
D2
E2
A1
2,2
6,1
0,0
0,0
0,0
B1
1,6
5,5
0,0
0,0
0,0
C1
0,0
0,0
4,4
0,0
0,0
D1
0,1
0,0
0,0
5,1
0,0
E1
0,0
0,0
0,0
0,0
1,5
5,9
5,7
-3,0
20,5
3,10
2,20
4,5
15,17
-4,1
10,3
2,2
0,-5
0,1
8,-2
6,4
10,0