Você está na página 1de 31

5.

1Juegos:

Captulo2introduceentornosmultiagente,enelquecadaagentedebetenerencuentalas
accionesdeotrosagentesycmoafectanasupropiobienestar.Laimprevisibilidadde
estosotrosagentespuedeintroducircontingenciasenelprocesoderesolucinde
problemasdelagente,comosediscutienelCaptulo4.Enestecaptulowecoverentornos
competitivos,enlosquelosobjetivosdelosagentesestnenconflicto,dandolugara
contenciososproblemasfrecuenciadebsquedaconocidoscomojuegoslateoradejuegos
.Mathematical,unaramadelaeconoma,veacualquierentornomultiagentecomoun
juego,siemprequeelimpactodecadaagenteenlosdemses"significativo",
independientementedesilosagentessoncooperativasocompetitivas.1enAI,losms
comunesjuegossondeunaclaselobastanteespecializadajuegotericosllaman
determinista,teniendoasuvez,dedosjugadores,juegosdesumacerodelainformacin
perfecta(comoelajedrez).Ennuestraterminologa,estosignificaentornosdeterministas,
totalmenteobservablesenelquedosagentesactandeformaalternativayenelquelos
valoresdeutilidadenelfinaldeljuegosonsiempreigualesyopuestas.Porejemplo,siun
jugadorganaunapartidadeajedrez,elotrojugadorpierdenecesariamente.Esesta
oposicinentrelasfuncionesdeutilidaddelosagentesquehacequelasituacinde
confrontacin.Losjuegoshanparticipadolasfacultadesintelectualesdelosseres
humanos,avecesaunalarmantegradoporeltiempoquehaexistidolacivilizacin.Para
losinvestigadoresdeIA,lanaturalezaabstractadejuegosdeellasuntemaatractivoparael
estudiohace.Elestadodeunjuegoesfcilderepresentar,ylosagentessuelenlimitarsea
unpequeonmerodeaccionescuyosresultadossedefinenpornormasprecisas.juegos
fsicos,talescomocroquetyelhockeysobrehielo,tienenmuchomscomplicadas
descripciones,unagamamuchomsampliadeposiblesaccionesyreglasimprecisasen
lugardefinirlalegalidaddelasacciones.Conlaexcepcindeftbolderobots,estos
juegosfsicosnohanatradomuchointersenlacomunidaddeIA.

Juegos,adiferenciadelamayoradelosproblemasdejuguetesestudiadosenelcaptulo
3,soninteresantesporquesondemasiadodifcilesderesolver.Porejemplo,elajedreztiene
unpromediofactorderamificacindeaproximadamente35aos,yjuegosamenudoira50
movimientosporcadajugador,porloqueelrboldebsquedatienealrededorde35100o
10154nodos(aunqueelgrafodebsquedatiene"slo"unos1.040nodosdistintos).Los
juegos,comoelmundoreal,porlotanto,requierenlacapacidaddetomaralgunadecisin,
inclusocuandosecalculaelisinfeasibledecisinptima.Losjuegostambinpenalizan
severamenteineficiencia.MientrasqueanimplementationdebsquedaA*queeslamitad
deeficientesimplementetomartwiceaslargoTorunhastasufinalizacin,elprograma
achessqueeslamitaddeeficienteenelusodesutiempodisponible,probablemente
serngolpeadosenelsuelo,enigualdaddecondiciones.Porlotanto,lainvestigacin
Juegodepapeleshageneradounaseriedeideasinteresantessobrecmohacerelmejor
usoposibledetiempo.Empezamosconunadefinicindelmovimientoptimoyunalgoritmo
paraelhallazgol.acontinuacin,nosfijamosenlastcnicasparalaeleccindeunbuen
movimientocuandoeltiempoeslimitado.Lapodanospermiteignorarlaspartesdelrbol
debsquedaquehacenningunadiferenciaenlaeleccinfinal,ylasfuncionesde
evaluacinheursticanospermiteaproximarlaverdaderautilidaddeunestadosinhacer
unabsquedacompleta.Seccin5.5discutejuegoscomoelbackgammonqueincluyenun

elementodeazartambindiscutimospuente,queincluyeelementosdeinformacin
imperfectaporquenotodaslastarjetassonvisiblesparacadajugador.Porltimo,nos
fijamosencmolosprogramasdejuegoderolesdelestadodelatcnicalesvaencontra
delaoposicinhumanayenlasdireccionesparafuturosdesarrollos.Nosotros
consideramosFiprimerajuegoscondosjugadores,alosquellamamosMAXyMIN,por
razonesqueprontosernobvias.MAXmueveprimero,yluegoseturnanparamoverhasta
queeljuegohaterminado.Alfinaldeljuego,lospuntosseconcedenaljugadorganadory
sancionessedanparaelperdedor.Unjuegopuedeserformalmentedefinidocomountipo
deproblemadebsquedaconlossiguienteselementos:

S0:Theinitialestado,queespecificacmoeljuegosedesarrollaenlasalida.

REPRODUCTOR(s):Delasmultasqueeljugadortieneelmovimientoenunestado.

ACCIONES(s):Devuelveelconjuntodemovimientoslegalesenunestado.

resultado(s,a):Elmodelodetransicin,quedefineelresultadodeunmovimiento.

TERMINALDEPRUEBA(s):Unapruebadeterminales,locualesciertocuandoeljuego
haterminadoyfalsoencasocontrario.Estadosenlosqueeljuegohaterminadosellaman
estadosterminales.

UTILIDAD(s,p):Unafuncindeutilidad(tambinllamadaunafuncinobjetivoopagar
funcin),defineelfinalvalornumricoparaunjuegoqueterminaenelestadoterminaldes
paraunjugadorp.Enelajedrez,elresultadoesunaganancia,prdida,odibujar,con
valores+1,0,OR12.Algunosjuegostienenunavariedadmsampliadeposibles
resultadoslosbeneficiosentrminosdebackgammongamade0a192.Unjuegodesuma
ceroes(confusamente)definecomounodondelarentabilidadtotalalaquetodoslos
jugadoreseselmismoparacadainstanciadeljuego.Elajedrezesdesumacero,porque
cadajuegotienerecompensadecualquiera0+1,1+0o12+12."Constantedesuma"
habrasidountrminomejor,perodesumaceroestradicionalytienesentidosiunose
imaginacadaunoeljugadorsecobraunacuotadeinscripcinde12.elestadoinicial,la
funcinACCIONES,ylafuncinRESULTADOdefinenelrboldejuegoparaeljuegorbol
dejuegodeunrboldondelosnodossonestadosdejuegoylosbordessonmovimientos.
Lafigura5.1muestrapartedelrboldejuegodetictactoe(tresenraya).Desdeelestado
inicial,MAXtienenuevemovimientosposibles.EljuegosealternaentreMAXdecolocar
unaXyMINdelacolocacindeunajuntahastallegaralosnodosdehojaquecorresponde
alosestadosterminalesdetalmaneraqueunjugadortienetresenunafilaotodaslas
plazassellenan.Elnmeroencadanodohojaindicaelvalordeutilidaddelestadoterminal
desdeelpuntodevistadeMAXLosvaloresaltossesuponequesonbuenosparaMAXy
MINmalopara(queescomolosjugadoresconsiguensusnombres).

Paratictacdedodelpiedelrboldeljuegoesrelativamentepequeademenosde9!=
362,880nodosterminales.Peroparaelajedrezhaymsde1040nodos,porloqueelrbol
dejuegoesmejorcomounaconstruccintericaquenosepuederealizarenelmundo

fsico.Pero,independientementedeltamaodelrboldejuego,eseltrabajodeMAXpara
buscarunbuenmovimiento.Usamoseltrminorboldebsquedaparaunrbolquese
superponenenelrboldejuegocompleto,yexaminasuficientesnodosquepermitenaun
jugadorparadeterminarqumovimientohacer.

5.2Lasdecisionesptimasenlosjuegos

En un problema de bsqueda normal, la solucin ptima sera una secuencia de acciones


que conducen a un estado terminal de un estado objetivo que es unavictoria.En buscade
adversarios, MIN tiene algo que decir al respecto. por lo tanto MAX debe encontrar una
estrategia contingente, que especifica el movimiento de MAX en el estado inicial, entonces
se mueve de Max en los estados resultantes de cada respuesta posible por MIN, a
continuacin, de Max se mueve en los estados resultantes de cada respuesta posible por

MIN a esos movimientos, y por lo en. Esto es exactamente anlogo a la YO algoritmo de


bsqueda (Figura 4.11) con MAX jugar el papel de O y MIN equivalente a Y. En trminos
generales, una estrategia ptima conduce a resultados al menostanbuenacomocualquier
otra estrategia cuando uno est jugando a un oponente infalible. Comenzamos mostrando
cmoencontrarestaestrategiaptima

ble adversario. Comenzamos mostrando cmo encontrar esta estrategia ptima.Inclusoun


juego simple, como el tictacdedo del pie esdemasiadocomplejoparaquesaquemostodo
el rbol de juegoenunapgina,porloquevamosacambiaraljuegotrivialenlaFigura5.2.
Los movimientos posibles para MAX en el nodo raz se denominan A1, A2 y A3. Las
posibles respuestas a A1 en el MIN son b1, b2, b3, y as sucesivamente. Este juego en
particular termina despus de un movimiento en cada uno de MAX y MIN. (En el lenguaje
del juego, se dice que este rbol es un movimiento profundo, que consiste en dos medias
jugadas, cada unodeloscualescapasedenominaunacapa.)Lasutilidadesdelosestados
terminalesdeestagamadejuegosde2a14.

Dado un rbol de juego, la estrategia ptima puede determinarse a partirdelvalorminimax


de cada nodo,queseescribecomoMINIMAX(n).Elvalorminimaxdeunnodoes lautilidad
(por MAX) de estar en el estado correspondiente,suponiendoqueambosjugadoresjuegan
de manera ptima a partir de ah hasta el final del juego. Obviamente, el valor minimax de
un estado terminal es simplemente su utilidad. Adems, dala opcin,MAXprefierepasara
un estado de valor mximo, mientras que MIN prefiere un estado de valor mnimo. As
tenemoslossiguientes:

Vamos a aplicar estas definiciones para el rbol de juego en la Figura 5.2. Los nodos
terminales en el nivel inferior obtienen sus valores de utilidad de la funcin de utilidad del
juego. El primer nodo MIN, la etiqueta B, tienetresestadossucesoresconlosvaloresde3,
12 y 8, por lo que su valor minimax es 3. Del mismo modo, losotrosdosnodosMINtienen
un valor minimax 2. El nodo raz es un nodo MAX sus estados sucesores tienen valores
minimax 3, 2 y 2 por lo que tiene un valor minimax de 3. Tambin podemos identificar la
decisin minimax en la raz: la accin a1 es la eleccin ptima para MAX debido a que
conducealestadoconelmayorvalorminimax.

Esta definicin de juego ptimo para MAX MIN asume que tambin juega
ptimamentemaximiza el resultadodelpeorcasoparaMAX.QupasasiMINnojuegade
manera ptima? Entonces es fcil demostrar (ejercicio 5.7) que Max va a haceranmejor.
Otras estrategias contra oponentes subptimos pueden hacer mejor que la estrategia
minimax,peroestasestrategiasnecesariamentehacerpeorcontraoponentesptimas.

5.2.1Elalgoritmominimax

El algoritmo minimax (Figura 5.3) calcula la decisin minimax del estado actual. Utiliza un
simple clculo recursivo de los valores minimax de cada estado sucesor, la ejecucin
directa de las ecuaciones que definen. La recursividad prosigue hastaelfondodelashojas
del rbol, y luego los valores minimax son movidas hacia arriba a travs del rbol como la
recursividad se desenrolla. Por ejemplo, en la figura 5.2, el algoritmo recursivamente
primero a los tres nodosbottomleftyutilizalafuncindeutilidad enellosparadescubrirque
sus valores son 3, 12, y 8, respectivamente. Luegotomaelmnimode estosvalores,3,ylo
devuelve como el valor respaldado del nodoB.Unprocesosimilarseindicanlosvaloresde
copia de seguridad de 2 para C y 2 de D. Por ltimo, se toma el mximo de 3, 2 y 2 para
obtenerelvalordelacopiadeseguridadde3paraelnodoraz.

El algoritmo minimax realiza una exploracin completa primero en profundidad del rbolde
juego. Si la profundidad mxima del rbolesmyhaybmovimientoslegalesencadapunto,
a continuacin, la complejidad de tiempo del algoritmo minimaxes

La complejidad

espacial es
por un algoritmo que genera todas las acciones a la vez,o
para
un algoritmo que genera las acciones de una en una (vase la pgina 87). Paralosjuegos
reales, por supuesto, el coste de tiempo es totalmente poco prctico, pero este algoritmo
sirve como la base para el anlisis matemtico de juegos y para los algoritmos ms
prcticas.

5.2.2Lasdecisionesptimasenjuegosmultijugador

Muchos juegos populares permiten ms de dos jugadores. Examinemos cmo extender la


idea Minimax para juegos multijugador. Esto es sencillo desde el punto de vista tcnico,
peroplanteaalgunasnuevascuestionesconceptualesinteresantes.

En primer lugar, tenemos que sustituir el valor nico para cada nodo con un vector de
valores. por ejemplo, en un juego de tres jugadores con los jugadores A, B, y C, un vector
est asociada con cada nodo. Para los estados terminales, este vector da la
utilidad del estado del punto de vista de cada jugador. (En dos jugadores, juegos de suma
cero, el vector de dos elementos pueden reducirse a un solo valor, porque los valores son
siempre opuestas.) La forma ms sencilla de implementar esto es tener la funcin de
utilidaddevuelveunvectordeutilidades.
Ahora tenemos que considerar los estados no terminales. Considere el nodo marcada con
una X en el ree juego mostrado en la Figura 5.4. En ese estado, el jugador C elige qu
hacer. Las dos opciones conducen a estados terminales con vectores de utilidad
Desde 6 esmayorque3,Cdebeelegirel
primer movimiento. Esto significaquesisealcanzaelestadoX,el juegoposteriorconducir
a un estado terminal con utilidades? VA = 1, VB = 2, VC = 6 ?. Por lo tanto, el valor de la
copia de seguridad de X es este vector. El valor de la copia de seguridad de un nodo n es
siemprelautilidad

Figura5.3Unalgoritmoparaelclculodelasdecisionesminimax.Devuelvelaaccin
correspondientealamejorjugadaposible,esdecir,elmovimientoqueconduceal
resultadoconlamejorutilidad,bajoelsupuestodequeeloponentejuegaparaminimizar
utilidad.LasfuncionesMAXyMINvalorvalorpasanportodoelrboldejuego,todoel
caminohastalashojas,paradeterminarelvalordelacopiadeseguridaddeunestado.
Lanotacinargmaxa
mximodef(a).

calculaunelementodelconjuntoSquetieneelvalor

vector del estado sucesor con el valor ms alto para el jugador elegir en el n. Cualquiera
que juegue juegos multijugador, como la diplomacia, seconvierterpidamenteencuentalo
que est pasando mucho ms que en juegos de dos jugadores. juegos multijugador por lo
general implican alianzas, ya sea formal o informal, entre los jugadores. Las alianzas se
hacen y se rompen como el juego contina. Cmo hemos de entender este tipo de
comportamiento? Son alianzas una consecuencia natural de las estrategias ptimas para
cada jugador en un juego de varios jugadores? Resulta que pueden ser. Por ejemplo,
supongamos que A y B estn en una posicin dbil y C se encuentra en unaposicinms
fuerte. A continuacin, a menudo es ptima para A y B para atacar C en lugar de uno al
otro, no sea C destruir cada uno de ellos individualmente. De esta manera, lacolaboracin
emerge de comportamiento puramente egosta. Por supuesto, tan pronto como C debilita
bajo el ataque conjunto, la alianza pierde su valor, y sea A o Bpodraviolarelacuerdo.En
algunos casos, las alianzas explcitas simplemente hacen que el hormign lo que habra
ocurrido de todos modos. En otros casos, un estigma social se une a romper una alianza,
as que los jugadores deben equilibrar la ventaja inmediataderomperuna alianzacontrala
desventaja a largo plazo de ser percibido como poco fiable. Vea la Seccin 17.5 para ms
informacinsobreestascomplicaciones.

Si el juego no es de suma cero, entonces la colaboracin tambin puede ocurrir con slo
dos jugadores. Supongamos, por ejemplo, que hay un estadoterminalconutilidades?Va=
1000, BB = 1000? y que 1000 es el ms alto posible utilidad para cada jugador. A
continuacin, la estrategia ptima es tanto para los jugadores que hagan todo lo posible
para llegar a este estado, es decir, los jugadores cooperarn de forma automtica para
lograrunobjetivomutuamenteconveniente.

5.3Podaalfabeta:
Elproblemaconlabsquedaminimaxesqueelnmerodejuegodeestadosquetieneque
examinaresexponencialenlaprofundidaddelrbol.Desafortunadamente,nopodemos
eliminarelexponente,peroresultaquepodemosreducirdemaneraefectivaporlamitad.El
trucoesqueesposiblecalcularladecisinminimaxcorrectasinmiraracadanodoenel
rboldejuego.Esdecir,quepodemostomarprestadalaideadelapodadelCaptulo3para
eliminargrandespartesdelrboldelaconsideracin.Latcnicaparticularexaminamosse

llamapodaalfabeta.Cuandoseaplicaaunrbolpodaalfabetaminimaxestndar,
devuelveelmismomovimientocomoMinimaxhara,perolasciruelaspasasdedistancia
ramasquenoesposiblequeinfluirenladecisinfinal.Consideremosdenuevoelrbolde
juegodedoscapasdelaFigura5.2.Vamosapasarporelclculodeladecisinptima,
unavezms,estavezprestandoespecialatencinaloquesabemosencadamomentodel
proceso.LospasosseexplicanenlaFigura5.5.Elresultadoesquepodemosidentificarla
decisinminimaxsintenerqueevaluardosdelosnodoshoja.Otraformadeverestoes
comounficacinsimplificadadelafrmulaparaMINIMAX.Dejarquelosdossucesoresno
evaluadasdenodoCenlaFigura5.5tienenvaloresxey.Entonces,elvalordelnodoraz
estdadapor:

MINIMAX(raz)=maxmin(3,12,8),min(2x,y),min(14,5,2))
=Max(3,min(2,x,y),2)
=Max(3,z,2),dondez=min(2,x,y)2
=3

En otras palabras, el valor de la raz y por lo tanto la decisin minimax sonindependientes


delosvaloresdelashojaspodadasxey.

Poda alfabeta se puede aplicar a los rboles de cualquierprofundidad,yqueamenudoes


posible podar subrboles enteros en lugar de slo las hojas. El principio general es la
siguiente:considerarunnodon

Figura5.5EtapasenelclculodeladecisinptimaparaelrboldejuegoenFigure5.2.En
cada punto, se muestran los posibles valores rangeof para cada nodo. (A) La primera hoja
de abajo fi B tiene el valor. Por lo tanto, B, whichis nodo Amin, tiene un valor de como
mximo 3. (b) La segunda hoja pordebajodeBtieneunvalorde12MINharaunvacode
este movimiento, por lo que el valor de B se encuentra todava en la mayor parte 3. (c) La
tercera hoja por debajo de B tiene un valorde8hemosvistotodoslosestadosdelsucesor
de B, por lo que el valor de B es exactamente 3. Ahora, podemos inferir que el valor de la
raz es al menos 3, debido MAX tiene una opcin vale 3 en la raz. (D) La primera hoja fi
debajo de C tiene el valor 2. Por lo tanto, C, que es un nodo MIN, tiene un valor de a lo
sumo 2. Pero sabemos que B vale 3, de modo MAX nunca elegir C. Hay tanto, no hay
ningn punto en el estudio de los otros estados sucesores de C. Este es un ejemplo de la
poda alfabeta. (E) La primera hoja de abajo fi Dtieneelvalor14,por loquevalelapenaD
como mximo 14. Esto es todava ms alta que mejor alternativa de MAX (esdecir,3),por
lo que debemos seguir explorando D's estados sucesores. Ntese tambin que ahora
tenemos lmites en todos los sucesores de la raz, por lo que el valor de larazestambin
como mximo 14. (f)ElsegundosucesordeDvale5,asquedenuevotenemosqueseguir
explorando. El tercer sucesor vale 2, por lo que ahoraDvale exactamentedecisin2.MAX
enlarazesmoveraB,dandounvalorde3.

en algn lugar en elrbol(vaselaFigura5.6),detalmaneraqueeljugador tienelaopcin


de trasladarse a ese nodo. Si el jugador tieneunamejoropcinm,yaseaenelnodopadre
de n, o en cualquier punto de eleccin ms arriba, entonces n nunca ser alcanzado en el
juego real. As que una vez que hemos averiguado lo suficiente sobre n (mediante el
examen de algunos de sus descendientes) parallegaraestaconclusin,podemospodarlo.
Recuerde que la bsqueda minimax es profundidad primero, por lo que en un momento
dado slo tenemos que considerar los nodos a lo largo de un nico camino en el rbol.
Poda alfabeta recibe su nombredelosdosparmetrossiguientesquedescribenloslmites
enlosvaloresdecopiadeseguridadqueaparecenencualquierlugaralolargodelaruta:

=elvalorde laopcinmejor(esdecir,valormsalto)sehanencontradohastalafechase
encualquierpuntodeeleccinalolargodelcaminoparaMAX.

= el valor de la opcin mejor(esdecir,demenorvalor)sehanencontradohasta ahoraen


cualquierpuntodeeleccinalolargodelarutaparaMIN.

Buscar alphabeta actualiza los valores de y , ya que va a lo largo y ciruelas


pasas las ramas restantes en un nodo(esdecir, termina lallamadarecursiva) tan
pronto como el valordel nodoactualsesabequeespeorquelaactualovalorde
para MAX o MIN,respectivamente. Elalgoritmo completo se da enla figura 5.7.
Le animamos a rastrear su comportamiento cuando se aplica al rbol de lafigura
5.5.

5.3.1Moverpedido
La eficacia de la poda alfabeta es dependiente del orden en elque se examinan
los estados altamente. Por ejemplo,enlaFigura5.5(e)y(f),nopodramosrecortar
cualquiersucesoresdeDenabsoluto,porquelospeoressucesores(desdeelpunto
de vista de MIN) se generaron primero. Si el tercer sucesor de D haba sido
generado primera, habramos sido capaces de podar los otros dos. Esto sugiere
quepodra valerla penaparaintentar examinar primero lossucesoresquepuedan
ser mejor. Si esto se puede hacer, 2 luego resulta que el alfabeta tiene que
examinarslo losnodos O(bm /2)paraescogerel mejor movimiento,en lugarde
O (bm) para Minimax. Esto significa que el factor de ramificacin efectiva se
convierteben lugar debpara el ajedrez, alrededor de6en vez de 35. Dichode
otra manera, alfabeta pueden resolver un rbol de ms o menos dos veces tan
profundo como Minimax en la misma cantidad de tiempo. Si se examinan los
sucesoresenordenaleatorio enlugar de primera mejor, elnmerototal de nodos
examinados ser msomenosO (B3M /4)demoderadab.Forchess,unafuncin
ordenadora bastante simple (como por ejemplo tratar capturas primero, a
continuacin, amenazas, despus hacia adelante y se mueve, se mueve luego
hacia atrs) se llegaadentrodeaproximadamenteunfactorde2delosmejoresde
loscasosO(bm/2)resultado.

La adicin de esquemas de movimientoordenar dinmicos, como tratando primero los


movimientos que sehanencontradoparaserelmejorenelpasado,nosllevamuycercadel
lmite terico. El pasado podra ser la jugada anterior, a menudo siguen siendolas mismas
amenazas, o que podran provenir de exploracin previa del movimiento actual. Una forma
deobtenerinformacindelatendenciaactualeslabsquedadeprofundizaciniterativa.En
primer lugar, buscar 1 capa profunda y registrar el mejor camino de movimientos. A
continuacin, busque 1 capa ms profunda, pero el uso de la trayectoria registrada para
informar movimiento de pedido. Como vimos en elcaptulo3,profundizaciniterativaenun
rbol de juego exponencial aade slo una fraccin constante para el tiempo total de
bsqueda, que puede ser ms que compensado de movimiento mejor ordenamiento. Los
mejores movimientos son a menudo llamados movimientos mortalesylestratanprimerose
llama el asesino movimiento heurstico. En el captulo 3, se observ que los estados
repetidos en el rbol de bsqueda pueden causar un aumento exponencial en el costo de
bsqueda. En muchos juegos, estados repetidos ocurren con frecuencia debido a las
permutacionesdiferentestransposicionesdelasecuenciademovimientoqueterminanenla
misma posicin. Por ejemplo, si las blancas tienen un movimiento, a1, que pueden ser
respondidas porNegroconb1yun movimientoa2norelacionadaenel otrolado delaplaca
que puede ser respondida por b2, entonces las secuencias [a1, b1, a2, b2] y [A2, B2, A1,
B1] ambos terminan en la misma posicin. Vale lapenaparaalmacenarlaevaluacindela
posicin resultante en una tabla hash la primera vez que se encuentran de manera queno

tenemos que volver a calcular sobre los sucesos posteriores. La tabla de dispersin de las
posiciones previamente visto tradicionalmente se llama una tabla de transposicin es
esencialmente idntica a la explorada Lista de grafo de bsqueda (Seccin 3.3). Usando
una tabla de transposicin puede tener un efecto dramtico, a veces tanto como la
duplicacin de la profundidad de la bsqueda alcanzable en el ajedrez. Por otro lado, si
estamos evaluando un milln de nodos por segundo, enalgn momentoquenoesprctico
para mantener todos ellos en la tabla de transposicin. Varias estrategias se han utilizado
paraelegirqunodosparamanteneryculesdescartar.

5.4IMPERFECTOSDECISIONESENTIEMPOREAL
El algoritmo minimax genera todo el espacio de bsqueda juego, mientras queelalgoritmo
alfabeta nos permite podar gran parte de ella. Sin embargo, alfabeta todava tiene que
buscar todo el camino a estados terminales de al menos una parte del espacio de
bsqueda. Esta profundidad no suele ser prctico,debidoamovimientosdebenhacerseen
un perodo razonable de tiempopor lo general unos pocos minutos como mximo. El
artculo de Claude Shannon para programar una computadora para jugar ajedrez (1950)
propusieron en cambio que los programas deben cortar la bsqueda anterior y aplicar una
funcin de evaluacin heurstica a los estados en la bsqueda, convirtiendo nodos no
terminales en hojas terminales. En otras palabras, la sugerencia es alterar minimax o
alfabeta de dos maneras: sustituir la funcinde utilidadporunEVALfuncindeevaluacin
heurstica, que estima la utilidad de la posicin, y reemplazar la prueba terminal mediante
una prueba de corte que decide cundo aplicar EVAL . Esonosdalasiguienteinformacin
paraMinimaxheursticoparasestatalesylaprofundidadmximad:

5.4.1Funcionesdeevaluacin
Una funcin de evaluacin devuelve una estimacin de la utilidad esperada del partido
desdeunaposicindada,aligualquelasfuncionesheursticasdelcaptulo3retornodeuna
estimacin de la distancia a la meta. La idea de un estimador no era nueva cuando
Shannon propuso. Durante siglos, los jugadores de ajedrez (y aficionados de otros juegos)
han desarrollado maneras de juzgarelvalor deunaposicinporquelossereshumanosson
an ms limitados en la cantidad de bsqueda que pueden hacer que son programas de
ordenador. Debe quedar claro que el rendimiento de un programa de juego de papeles
depende fuertemente de la calidad de su funcin de evaluacin.Unafuncindeevaluacin
inexacta guiar un agente hacia posiciones que resultan estar perdido. Cmo es
exactamenteloquediseamosnuevasfuncionesdeevaluacin?

En primer lugar, la funcin de evaluacin debe ordenar los estados terminalesdelamisma


manera como la verdadera funcin de utilidad: los estados que son victoriasdebenevaluar
mejor que dibuja, que a su vez debe ser mejor que las prdidas. De lo contrario, el uso de
un agente de la funcin de evaluacin puede errar incluso si se puede ver hacia adelante

todo el camino hasta el final del juego. En segundo lugar, el clculo no debe tomar mucho
tiempo! (El punto es para buscar ms rpido.) En tercer lugar, para que los estados no
terminales, la funcin de evaluacin debe ser fuertemente correlacionada con las
posibilidadesrealesdeganar.

Cabra preguntarse acerca de la frase Despus de todo, el ajedrez no es un juego deazar


"posibilidades de ganar.": Conocemos el estado actual con certeza, y no dados estn
involucrados. Pero si la bsqueda debe cortar en los estados no terminales, entonces el
algoritmo ser necesariamente incertidumbre sobre los resultados finales de esos estados.
Este tipo de incertidumbre es inducidaporlimitacionesdeclculo,enlugardeinformativos,.
Dada la limitada cantidad de clculo que se le permite hacer a un estado determinado la
funcin de evaluacin, lo mejor que puede hacer es hacer una conjetura sobreelresultado
final

Hagamos de esta idea ms concreta. La mayoradelasfuncionesdeevaluacindetrabajo


mediante el clculo de diversas caractersticas del ejemplo del estado para, en el ajedrez,
tendramos caractersticas para el nmero de peones blancos, peones negros, blancos
reinas, reinas negras, etctera. Las caractersticas, tomadas en conjunto, definen varias
categoras o clases de equivalencia de estados: los estados en cada categora tienen los
mismos valores para todas las caractersticas. Por ejemplo, una categora contiene todos
los finales de un empeo de dos peones contra. Una categora determinada, en general,
contendr algunos estados que conducen a victorias, algunos que dan lugar a empates, y
algunos que conducen a prdidas. La funcin de evaluacin no puede saber qu estados
son los que, pero puede devolver un nico valor que refleje la proporcin de estados con
cada resultado. Por ejemplo, supongamos que nuestra experiencia sugiere que el 72% de
los estados encontr en los dos peones contra uno pen categora de plomoaunavictoria
(utilidad 1) 20% a una prdida (0), y 8%aundrenaje(1/2).Acontinuacin,unaevaluacin
razonable de los estados en la categora valor esperado es el valor esperado:
En principio, el valor esperado puede ser
determinado para cada categora, lo que resultaenunafuncindeevaluacinquefunciona
para cualquier estado. Al igual que con los estados terminales, la funcin deevaluacinno
tiene que devolver valores esperados reales siempre que el orden de los estados es el
mismo.

En la prctica, este tipo deanlisisrequieredemasiadascategorasy,portanto,demasiada


experiencia para estimar todas las probabilidades de ganar. En cambio, la mayora de las
funciones de evaluacincalculanlascontribucionesnumricasseparadasdecadafuncin y
luego combinarlas para encontrar el valor total.Porejemplo,librosdeajedrezintroductorios
dan un valor aproximado de material para cada pieza: cada pen vale 1, un caballero oun
obispo vale 3, una torre 5, y la reina 9. Otras caractersticas tales como "buena estructura
de peones" y "rey seguridad "podra valer la pena la mitad de un pen, por ejemplo. Estos
valores de caractersticas se aaden entonces simplemente hasta obtener laevaluacinde
laposicin

Una ventaja equivalente seguro a un pen da una probabilidad sustancial de ganar, y una
ventaja segura equivalente a tres peones debe dar victoria casi segura, como se ilustra en

la Figura 5.8 (a). Matemticamente, estetipodefuncindeevaluacinsellamaunafuncin


linealponderada,yaquepuedeserexpresadocomo

donde cada wi es un peso y cadafiesunafuncindelaposicin.Paraelajedrez,laficcin


podra ser el nmero de cada tipo de pieza en el tablero, y el wi podran serlosvaloresde
laspiezas(1deempeo,3paraelobispo,etc.).

La suma de los valores delascaractersticaspareceunacosarazonable parahacerlo,pero


en realidad se trata de un supuesto fuerte: que la contribucin de cada caracterstica es
independiente de los valores de las otras caractersticas. Por ejemplo, asignar el valor 3 a
un obispo ignora el hecho de que los obispos son ms poderosos en el final del juego,
cuandotienenunagrancantidaddeespacioparamaniobrar

Figura5.8Dosposicionesdeajedrezquesediferenciansloenlaposicindelatorreen
laparteinferiorderecha.En(a),Negrotieneunaventajadeuncaballeroydospeones,
quedeberasersuficienteparaganareljuego.En(b),Whitecapturarlareina,dndole
unaventajaquedebeserlosuficientementefuertecomoparaganar.

Por esta razn, los programas actuales de ajedrez y otros juegos tambin utilizan
combinaciones lineales de funciones. Por ejemplo, un par de obispos podra valer la pena
un poco ms del doble del valor de un solo obispo, y un obispo vale ms en el final (es
decir, cuando la funcin de movimiento nmero es alto o el nmero de piezas restantes
caractersticaesbaja)

El lector astuto habr notado que las caractersticas y los pesos no son parte delasreglas
del ajedrez! Vienen de siglos de experiencia de jugar al ajedrez humano. En los juegos en
este tipo de experiencia no est disponible, los pesos de la funcin de evaluacin pueden
ser estimados por las tcnicas de aprendizaje automtico del captulo 18. De modo

tranquilizador, la aplicacin de estas tcnicas enelajedrez haconfirmadoqueunobispoes


dehechounvaloraproximadodetrespeones.

5.4.2Elcortedebsqueda
El siguiente paso es modificar alfabetabsqueda para que se llame a la funcin Eval
heurstica cuando es apropiado para cortar la bsqueda. Sustituimos las dos lneas en la
figura5.7quemencionanTERMINALTESTconlasiguientelnea:

Tambin hay que organizar para colaborar enlacontabilidaddemaneraquelaprofundidad


actual se incrementa en cada llamada recursiva. El mtodo ms sencillo para controlar la
cantidad de bsqueda es fijar un lmite de profundidad fija de manera que CORTE DE
PRUEBA (estado,profundidad) devuelveverdaderopara todosprofundidadsuperioracierta
profundidad fija d. (Tambin debe devolver verdaderoparatodoslosestados terminales,tal
como lo hizo TERMINAL DE PRUEBA.) La profundidad d se elige de manera que se
selecciona un movimiento dentro del tiempo asignado. Un enfoque ms robusto es aplicar
profundizacin iterativa. (Vase el Captulo 3.) Cuando se agote el tiempo, el programa
vuelve el movimiento seleccionado por el ms profundo de bsqueda completado. Como
beneficioadicional,profundizaciniterativatambinayudaconeltrasladodepedido

Estos enfoques simples pueden darlugaraerroresdebidoalanaturalezaaproximadadela


funcin de evaluacin. Consideremos de nuevo la funcin de evaluacin sencilla para el
ajedrez basado en la ventaja material. Supongamos que el programa busca en el lmite de
profundidad, llegando a la posicin de la figura5.8(b),dndeNegroestalacabezadeun
caballo y dos peones. Sera informar de que el valor heurstico del estado, declarando as
que el estado es una victoria probable por Negro. Pero la prxima jugada de las blancas
captura de la reina Negro, sin compensacin. Por lo tanto, la posicin se gan realmente
paralasblancas,peroestopuedeservistoslopormirarhaciaelfuturo,unahojams.

Obviamente, se necesita una prueba de corte ms sofisticado. La funcindeevaluacinse


debe aplicar slo a las posiciones queestnenreposo,esdecir,improbablequepresentan
grandes oscilaciones en el valor en un futuro prximo. En el ajedrez, por ejemplo,
posiciones en las que se pueden hacer capturas favorables no son de reposo para una
funcin de evaluacin que solo cuenta material. No secuencias posiciones pueden
ampliarse an ms hasta que se alcanzan las posiciones de reposo. Esta bsqueda
adicional se llama una bsqueda quiescencia a veces se limita a considerar slo ciertos
tipos de movimientos, como la captura de movimientos, que resolvern rpidamente las
incertidumbresenlaposicin.

El efecto horizonte es ms difcil de eliminar. Surge cuando el programa se enfrenta


movimiento de un oponente que causa graves daos y en ltima instancia, es inevitable,
pero se puede evitar temporalmente por dilatorios. Considere la partida de ajedrez en la
Figura 5.9. Est claro que no hay manera para que elalfilnegroseescape.Porejemplo,la
torre blanca puede capturar moviendo a h1, a continuacin, a1, a2 a continuacin una
captura en la profundidad 6 capas. Pero Negro tiene una secuencia de movimientos que
empuja a la captura del obispo "en el horizonte." Supongamos bsquedas negros a

profundidad de 8 capas. La mayora de los movimientos por Negro darlugaralaeventual


captura del obispo, y por lo tanto sern marcados como "malos" se mueve. Pero Negro
tendrencuentalacomprobacindelreyblancoconelpenene4.Estodarlugaraqueel
rey capturar el pen. Ahora Negro va aconsiderarelcontroldenuevo,conelpenenf5,lo
que lleva a otra captura depen.Paraesosenecesita hasta4 capas,ydesdeallel4capa
restante no es suficiente para capturar el obispo. Negro cree que la lnea de juego ha
salvado el obispo al precio de dos peones, cuando en realidad lo nico que ha hecho es
empujarlacapturainevitabledelobispomsalldelhorizontequepuedevernegro.

Una de las estrategias para mitigar el efecto horizonte es la extensin del singular, una
medida que es "claramente mejor" que todos los dems se mueve en una posicin dada.
Una vez descubiertoencualquierpartedelrbolenel cursodeunregistro,estemovimiento
singular es recordado. Cuando la bsqueda llega al lmite de la profundidad normal, el
algoritmo comprueba para ver si la extensin singular es un movimiento legal si lo es, el
algoritmo permite el paso a ser considerado. Esto hace que el rbolmsprofundo,peroya
quehabrpocasextensionessingulares,quenoaportamuchosnodosentotalalrbol.

5.4.3podaDelantero
Hasta ahora, hemos hablado sobre cortar la bsqueda en un cierto nivel ytratadehacerla
poda alfabeta que demostrablemente no tiene ningn efecto sobre el resultado (al menos
con respecto a los valores de evaluacin heurstica). Tambin es posible hacer la poda
hacia adelante, lo que significa que algunos se mueve a un nodo dado se podan
inmediatamente, sin ms consideraciones. Es evidente que la mayora de los seres
humanos que juegan a ajedrez consideran slo unos pocos movimientos de cada posicin
(al menos conscientemente). Un enfoque para reenviar la poda es la bsqueda de haz: en
cada capa, considere slo un "haz" de los n mejores movimientos (de acuerdo alafuncin
deevaluacin)enlugardeconsiderartodoslosmovimientosposibles.

Figura5.9Elefectohorizonte.ConNegroparamover,elalfilnegroes,sinduda
condenada.PeroNegropuedeimpedireseeventomarcandoelreyblancoconsus
peones,loqueobligalreyparacapturarlospeones.Estoempujaalaprdidainevitable
delobisposobreelhorizonte,yporlotantolossacrificiosdeempeosonvistosporel
algoritmodebsquedacomobuenosmovimientosenlugardelosmalos.

Pordesgracia,esteenfoqueesbastantepeligrosoporquenohayningunagarantadeque
lamejorjugadanoserpodadadedistancia

El corte probabilstico o corte probabilstico, el algoritmo (Buro, 1995) es una versin con
visin de poda de bsqueda alfabeta que utiliza las estadsticas obtenidas a partir de la
experiencia previa para disminuir la posibilidad de que la mejor jugada ser podada.
Alfabeta de bsqueda ciruelas cualquier nodo que se puede probar fuera de la ventana
actual (, ). Tambin corte probabilstico poda nodos que son, probablemente, fueradela
ventana. Se calcula esta probabilidad mediante una bsqueda superficial para calcular el
valor v copia de seguridad de un nodo y luego usando la experiencia del pasado para
estimar qu tan probable esqueunapuntuacindevenlaprofundidaddenelrbolestara
fuera (, ) . Buro aplica esta tcnica a su programa de Otelo, Logistello, y encontr que
una versin de su programa con corte probabilstico venci a la versin normal de 64% de
lasveces,inclusocuandolaversinnormalseledioeldobledetiempo

La combinacin de todas las tcnicas descritas aqu se traduceenunprogramaquepuede


jugar al ajedrez acreditable (u otros juegos). Supongamos que hemos implementado una
funcin de evaluacin para el ajedrez, una prueba de corte razonable con una bsqueda
quiescencia, y una tabla de transposicin de gran tamao. Supongamos tambin que,
despus de meses de tediosa bitbashing, podemos generar y evaluar alrededor de un
milln de nodos porsegundoenelltimoPC,loquenospermite unabsquedaaproximada
de 200 millones de nodos por mueven bajo el control de tiempo estndar (tres minutospor
jugada) . El factor de ramificacin para el ajedrez es de aproximadamente 35 aos, en
promedio, y 355 es de aproximadamente 50 millones de dlares, por loquesiutilizamosla
bsqueda minimax, podramos mirar hacia adelante slo unos cinco capas. Aunque no es
competente, un programa de este tipo puede ser engaado fcilmente por un jugador de
ajedrez humano promedio, que en ocasiones puede planificar seis u ocho capas por
delante. Con la bsqueda alfabeta se llega a cerca de 10 capas,loqueresultaenun nivel
de expertos de juego. Seccin 5.8 se describen las tcnicas de poda adicionales que
puedenampliarlaprofundidaddelabsquedaefectivadeaproximadamente14capas.Para
alcanzar el estatus de gran maestro necesitaramos una funcin de evaluacin sintonizar
ampliamenteyunagranbasededatosdelaaperturaptimayEndGamemueve.

5.4.4Bsquedavsoperacionesdebsqueda
Dealgunamanera,pareceunexcesodeunprogramadeajedrezparainiciarunjuegoal
considerarunrboldeunbillndeestadosdeljuego,sloparaconcluirquevaamoversu
pendee4.Librosquedescribenelbuenjuegoenlaaperturayelfinaldeljuegoenel
ajedrezhanestadodisponiblesdesdehaceaproximadamenteunsiglo(Tattersall,1911).No
essorprendente,porlotanto,quemuchosprogramasdejuegodepapelesusanbsqueda
enlatablaenlugardebuscarlaaperturayelfinaldelosjuegos.

Porlasaberturas,elequiposebasaprincipalmenteenlaexperienciadelossereshumanos.
Elmejorconsejodelosexpertoshumanossobrecmojugarcadaaberturasecopiade
librosyentrentablasparaelusodelacomputadora.Sinembargo,losordenadores
tambinpuedenobtenerestadsticasdeunabasededatosdepartidosjugadoscon

anterioridadparaverqusecuenciasdeaperturamsamenudoconducenaunavictoria.
Enlosprimerosmovimientoshaypocasopciones,yporlotantomuchocomentariosde
expertosylosjuegosanterioresenlaquebasarse.Porlogeneral,despusdediez
movimientosqueterminanenunaposicinraravezvisto,yelprogramahayquecambiarde
bsquedaenlatabladebsqueda.

Cerca del final del juego hay de nuevo un menor nmero de posiciones posibles, y por lo
tanto ms posibilidades de hacer operaciones de bsqueda. Pero aqu es el equipo que
tiene la experiencia: anlisis informtico de los finales va mucho ms all delologradopor
los seres humanos. Un ser humano puede indicarle la estrategia general para la
reproduccindeunfinalde reyytorrecontrarey(KRK):reducirlamovilidaddelreyopposin
apretndolo hacia uno de los bordes de la junta, la utilizacin de su rey para evitar que el
oponente se escape de la exprimir. Otras terminaciones, como rey, obispo ycaballocontra
rey (KBNK), son difciles de dominar y no tienen sucinta descripcin de la estrategia. Una
computadora, POLTICA, por otro lado, puede resolver completamente el final del juego
mediante la produccin de una poltica, que es un mapeo de todos losestadosposiblesde
la mejor jugada en ese estado. Entonces slo podemos buscar la mejorjugadaenlugarde
volver a calcular que de nuevo. Qutan grandeserlatabladebsquedaKBNK?Resulta
que hay 462 maneras de que dos reyes se pueden colocar eneltablerosinseradyacente.
Despus de que los reyes se colocan, hay 62 plazas vacas para el obispo, 61 para el
caballero, y dos jugadores posibles para mover al lado, por lo que no son slo
posibles posiciones. Algunos de estos son jaque mate
marcarn como tal en una tabla. A continuacin, realiceunabsquedaminimax retrgrada:
revertir las reglas del ajedrez que hacer movimientos de las Naciones Unidas en lugar de
movimientos. Cualquier jugada de White de que, no importa qu movimiento Negro
responde con, termina en una posicin marcada como una victoria, tambin debe ser una
victoria. Continuar estabsquedahastaquetodaslasposiciones3,494,568seresuelven de
la victoria, prdida o dibujar, y usted tiene una tabla de bsqueda infalible para todos los
finalesKBNK

El uso de esta tcnica y un tour de force de trucos de optimizacin, Ken Thompson (1986,
1996) y Lewis Stiller (1992, 1996) resolvi todos los finales de ajedrez con un mximo de
cinco piezas y algunas de ellas con seis piezas, hacindolos disponibles en Internet.Stiller
descubri un caso en que exista un mate forzado, pero requiere 262 movimientos esto
caus cierta consternacin debido a que las reglas del ajedrez requieren una captura o
movimiento de un pen a ocurrir dentro de 50 movimientos. Estudios posteriores de Marc
Bourzutschky y Yakov Konoval (Bourzutschky, 2006) resuelve todos pawnless de seis
piezas y algunos finales de siete piezas hay un juego final que KQNKRBN con el mejor
juegorequiere517semuevehastaunacaptura,queasuvezconduceauncompaero

Sipudiramosextenderlastablasdefinalesdeajedrezpartirde6unidadesde32,
entonceslasblancassabraenelmovimientodeaperturasiserauntriunfo,prdida,o
dibujar.Estonohaocurridohastaelmomentoparaelajedrez,perohaocurridoparadamas,
comoseexplicaenlaseccindenotashistrica.

5.5juegosestocsticos:

En la vida real, muchos eventos externos impredecibles pueden ponernos en situaciones


imprevistas. Muchos juegos de espejo esta imprevisibilidad mediante la inclusin de un
elemento de azar, tales como el lanzamiento de dados. Llamamos a estos juegos
estocsticos. Backgammon es un tpico juego que combina suerte y habilidad. Dados se
lanzan al comienzo del turno de un jugador para determinar los movimientos legales.Enla
posicin de backgammon de la figura 5.10, por ejemplo, White ha lanzado un 65 y tiene
cuatromovimientosposibles.

En la vida real, muchos eventos externos impredecibles pueden ponernos en situaciones


imprevistas. Muchos juegos de espejo esta imprevisibilidad mediante la inclusin de un
elemento de azar, tales como el lanzamiento de dados. Llamamos a estos juegos
estocsticos. tablero es un tpico juego que combina suerte yhabilidad.Dadosselanzanal
comienzo del turno de un jugador para determinar los movimientos legales. En la posicin
de tablero de la figura 5.10, por ejemplo, el blanco ha lanzado un 65 y tiene cuatro
movimientosposibles.

Aunque Blanca sabe lo que sus movimientos orher ownlegal son, Blanco no sabe qu
Negro va a rodar y por lo tanto no saben culessern lasnegrasmovimientoslegales.Eso
significa que las blancas no pueden construir un rboldejuegoestndardeltipoquevimos
en el ajedrez y el tictacdedo del pie. Un rbol dejuegoenchaquetedebeincluirnodosde
probabilidad, adems de los nodos MAX y MIN. nodos de probabilidad se muestran como
crculos en laFigura5.11.Lasramasprincipalesdecadanododeazardenotanlasposibles
tiradas de dadoscadaramaseetiquetaconelrodilloysuprobabilidad.Hay36manerasde
rodar dos dados, cada eQuallyprobableperodebidoaqueun65eselmismoqueun56,

slo hay 21 rodillos distintos. Los seis dobles (11 a 66) tienen cada uno una probabilidad
de 1/36, por lo que dicen P (11) = 1/36. Los otros 15 rollos distintos cada uno tiene una
probabilidadde1/18.

AunqueBlancasabeloquesusmovimientosorherownlegalson,Blanconosabequ
Negrovaarodaryporlotantonosabenculessernlasnegrasmovimientoslegales.Eso
significaquelasblancasnopuedenconstruirunrboldejuegoestndardeltipoquevimos
enelajedrezyeltictacdedodelpie.Unrboldejuegoenchaquetedebeincluirnodosde
probabilidad,ademsdelosnodosMAXyMIN.nodosdeprobabilidadsemuestrancomo
crculosenlaFigura5.11.Lasramasprincipalesdecadanododeazardenotanlasposibles
tiradasdedadoscadaramaseetiquetaconelrodilloysuprobabilidad.Hay36manerasde
rodardosdados,cadaeQuallyprobableperodebidoaqueun65eselmismoqueun56,
slohay21rodillosdistintos.Losseisdobles(11a66)tienencadaunounaprobabilidad

de1/36,porloquedicenP(11)=1/36.Losotros15rollosdistintoscadaunotieneuna
probabilidadde1/18.

donderrepresentaunposiblelanzamientodedados(uotrosucesofortuito)yresultado(s,
r)eselmismoestadoques,conelhechoadicionaldequeelresultadodelatiradaesr.

5.5.1Funcionesdeevaluacinparalosjuegosdeazar

Aligualqueconminimax,laaproximacinobvioparahacerconesperarminimaxescortar
labsquedafueraenalgnmomentoyaplicarunafuncindeevaluacinparacadahoja.
Unopodrapensarquelasfuncionesdeevaluacinparajuegoscomoelbackgammon
debensercomolasfuncionesdeevaluacinparaelajedrezqueslohayquedaruna
puntuacinmsaltaamejoresposiciones.Pero,dehecho,lapresenciadenodosde
probabilidadsignificaqueunotienequetenermscuidadoconloquesignificanlosvalores
deevaluacin.LaFigura5.12muestraloquesucede:conunafuncindeevaluacinque
asignalosvalores[1,2,3,4]paralashojas,moverA1esmejorconlosvalores[1,20,30,
400],movera2esmejor.Porlotanto,elprogramasecomportadeformatotalmente
diferentesihacemosuncambioenlaescaladealgunosvaloresdeevaluacin!Resultaque
paraevitarestasensibilidad,lafuncindeevaluacindebeserunatransformacinlineal
positivadelaprobabilidaddeganardeunaposicin(o,msgeneralmente,delautilidad
esperadadelaposicin).Estaesunapropiedadimportanteygeneraldelassituacionesen
lasqueparticipalaincertidumbre,ylodiscutimosenelcaptulo16.

Sielprogramasabadeantemanotodaslastiradasdedadosqueseproduciranporel
restodeljuego,resolviendounjuegocondadosseraigualquelasolucindeunjuegosin
dados,queMinimaxhaceenO(bm)tiempo,dondebeslaramificacinfactoresymesla
profundidadmximadelrboldejuego.Debidoexpectiminimaxtambinestconsiderando
todaslasposiblessecuenciasdelosdadoseneventos,quetomarO(bmnm),dondeesel
nmeroderollosdistintos.Inclusosilaprofundidaddelabsquedaselimitaaunapequea
profundidadd,elcosteadicionalencomparacinconladeMinimaxhacepocorealista
considerarqueanticipamuylejosenlamayoradelosjuegosdeazar.Enelbackgammonn
es21ybesgeneralmentealrededorde20,peroenalgunassituacionespuedesertanalta
como4000paratiradasdedadosquesondobles.Trescapasesprobablementetodoloque
podasoportar.Otraformadepensarenelproblemaeselsiguiente:laventajadealfabeta
esquenotieneencuentalaevolucinfuturaquesimplementenovanasuceder,dadala
mejorobra.Porlotanto,seconcentraenlossucesosprobables.Enlosjuegoscondados,
nohaysecuenciasdemovimientosposibles,porqueparaesosmovimientosquetienen
lugar,losdadosestaranprimeratienequesalirdelamaneracorrectaparaquesean
legales.Esteesunproblemageneralcadavezqueentraenelcuadrodeincertidumbre:las
posibilidadessemultiplicanenormemente,ylaformacindelosplanesdeaccindetallados
seconvierteenintil,porqueelmundoprobablementenosereljuego.Puedehaber
ocurridoquealgoascomolapodaalfabetapodraaplicarse

5.6JUEGOSPARCIALMENTEOBSERVABLES
Ajedrez menudo se ha descrito como la guerra en miniatura, pero carece de al menos una
de las principales caractersticas de las guerras reales, es decir, observabilidad parcial. En
la "niebla de guerra", la existencia y disposicin de las unidades enemigas es a menudo
desconocida hasta que se produce el contacto directo. Comoresultado,laguerraincluyeel
uso de exploradores y espas para reunir informacin y el uso de ocultacinyunfarol para
confundir al enemigo. juegos parcialmente observables comparten estas caractersticas y
por tanto son cualitativamente diferentes de los juegos que se describen en las secciones
anteriores.

5.6.1Kriegspiel:ajedrezparcialmenteobservable
En los juegos parcialmente observables deterministas, la incertidumbre sobre el estado de
la junta corresponda en su totalidad por la falta de acceso a las decisiones tomadas por el
oponente. Esta clase incluye juegos infantiles como acorazados (donde losbarcosdecada
jugador se colocan en lugares ocultos del oponente,peronosemueven)yStratego(donde
se conocen las ubicaciones pieza sino tipos de piezas estn ocultos juego de guerra).
Vamos a examinar el juego de juego de guerra, una variante parcialmente observable de
ajedrez en el que las piezas se mueven pero son completamente invisibles para el
oponente.

Las reglas de juego de guerra son los siguientes: Blanco y Negro cada uno ver una tabla
que contiene slo sus propias piezas. Un rbitro, que puede ver todas las piezas, adjudica
el juego y hace peridicamente anuncios que se escuchan por ambos jugadores. En su
turno, Blanco propone al rbitro cualquier movimiento que sea legal, si no hay piezas
negras. Si el movimiento es, de hecho, no es legal (debido a las piezas negras), el rbitro
anuncia "ilegal". En este caso, blanco puede seguir proponiendo mueve hasta que se

encuentre, y una legal aprende ms acerca de la ubicacin de las piezas negras en la


proceso. Una vez que se propone un movimiento legal, el rbitro anuncia uno o ms de lo
siguiente: "Captura en la X cuadrada" si hay una captura, y "Compruebe por D" si el rey
negro est enjaque,dondeDesladireccindelcheque,ypuedeserunode"Caballero",".
rango "," archivo "," diagonal larga "o" corta en diagonal "(. En el caso de revisar
descubierto, el rbitro puede hacer dos" Verificar "anuncios) Si estenjaquemateoNegro
unpuntomuerto,elrbitrolodicedelocontrario,eselturnodeNegroparamoverse.

Kriegspiel puede parecer terriblemente imposible, pero los seres humanos manejarlo
bastante bien y los programas de ordenador estn empezando a ponerse al da. Ayuda a
recuperar la nocin de un estado de creencia como se define en la Seccin 4.4 eilustrado
en la Figura 4.14el conjunto de todos los posibles estados de mesa lgicamente dada la
historia completa de las percepciones hasta la fecha. Inicialmente, el estado creencia de
White es un producto nico porque las piezas negras no han movido todava. Despus de
White hace un movimiento y Negro responde, estado creencia de blanco contiene 20
posiciones debido Negro tiene 20 respuestas a cualquier movimiento blanco. Hacer un
seguimiento delestadocreenciadequeeljuegoprogresaesexactamenteelproblemadela
estimacin de estado, para lo cual se le da el paso delaactualizacinenlaecuacin(4.6).
Podemos trazar la estimacin del estado Kriegspiel directamente sobre el marco
parcialmente observable, no determinista de la Seccin 4.4 si tenemos en cuenta que el
oponente como la fuente de determinismo es decir, los resultados de la jugada de las
blancas se componen de los resultados (predecible)delpropiomovimientodelasblancasy
elresultadoimpredecibledadaporlarespuestadeNegro

Teniendo en cuenta el estado actual creencia, blanco puede preguntar: "Puedo ganar el
juego" Para un juego parcialmente observable, la nocin de una estrategia se altera en
lugar de especificar un movimiento de hacer para cada posible movimiento del oponente
podra hacer, necesitamos un movimiento para cada posible secuencia de percepciones
que podran ser recibido. Para Kriegspiel, una estrategia ganadora, o jaque mate
garantizada, es unoque,paracadaposiblesecuenciadepercepciones,conduceaunjaque
mate real para cada posible estado del tablero en el estado actual creencia,
independientementedecmoeloponente semueve.Conestadefinicin,elestadocreencia
rival es irrelevante laestrategia tienequetrabajarinclusosieloponentepuedevertodaslas
piezas. Esto simplifica enormemente el clculo. La Figura 5.13 muestra parte de un jaque
mate garantizada para el KRK (rey y torre contra rey) final del juego. En este caso, Negro
tiene slo una pieza (el rey), por lo que un estado de creencia para las blancas sepueden
mostrarenunasolatarjeta,marcandocadaposibleposicindelreyNegro.

El algoritmo general ANDOR de bsqueda puede ser aplicado al espacio de estado


creencia de encontrar jaque mate garantizados, al igual que en la seccin 4.4.Elalgoritmo
de estado de creencias elementales indicado en esta seccin se encuentra a menudo da
jaque mate a la mitad del juegohastaunaprofundidadde9probablementemuchomsall
delashabilidadesdelosjugadoreshumanos.

Adems de jaque mate garantizados, Kriegspiel admite un concepto totalmente nuevo que
no tiene sentido en los juegos totalmente observables: jaque mate probabilstico. Tales

jaque mate todava estn obligados a trabajar en todos los estados bordo en el estado de
creencias que son probabilsticas conrespectoalaasignacinalazardeganardeljugador
se mueve. Para obtener la idea bsica, tenga en cuenta el problema de encontrar un rey
negro solitario utilizando slo el rey blanco. Simplemente moviendo al azar, el rey blanco
finalmente chocar contra el rey negro, incluso si ste intenta evitar este destino, ya que
Negro nopuedeseguiradivinandolos movimientosevasivosderechaindefinidamente.Enla
terminologa de la teora de la probabilidad,ladeteccinocurreconprobabilidad1.Eljuego
finalKBNKrey,obispo

Figura5.13PartedeunjaquemategarantizadaenelfinalKRK,quesemuestraenuna
tablareducida.Enelestadocreenciainicial,reydeNegroseencuentraenunodelostres
posiblesubicaciones.Porunacombinacindemovimientosconpalpador,laestrategiase
reduceestoauno.Lafinalizacindeljaquematesedejacomoejercicio.

y caballo contra reyse gan en este sentido Blanco Negro presenta con una secuencia
aleatoria infinita de opciones, para uno de los cualesNegrovaaadivinarincorrectamentey
revelar su posicin, lo que lleva a un jaque mate. El final KBBK, por el contrario, se gana
con probabilidad 1
.white puede forzar una victoria solamente por dejar uno de sus
obispos no protegidos por un movimiento. Si Negro pasa a estar en el lugar correcto y
captura del obispo (un movimiento queperdersilosobisposestnprotegidos),lapartidaes
tablas. El blanco
puede optarporhacerelmovimientoarriesgadoenalgnpuntoelegido
al azar en medio de una secuencia muy larga, lo que reduce a una constante arbitraria
pequea,peronosepuedereducir

acero.

Es muy raro que un jaque mate garantizado o probabilstico se puede encontrar dentro de
cualquier profundidad razonable, excepto en elfinaldeljuego.A vecesunaestrategiajaque
mate funcionaparaalgunosdelosestadosdemesaenelestadoactualcreenciaperonoen
otros. Tratando esta estrategia puede tener xito, dando lugar a un jaque mateaccidental
en el sentido de que Blanca no poda saber que sera jaque mate, si las piezas negras
resultan ser en los lugares correctos accidental. (La mayora de jaque mate en los juegos
entre los seres humanos son de esta naturaleza accidental.) Esta idea conduce
naturalmente a la cuestin de qu tan probable es que una determinada estrategia va a
ganar, lo que conduce a su vez a la cuestin de qu tan probable es que cada estado del
tablerodeelestadoactualcreenciaeselverdaderoestadodeltablero.

Uno de primera inclinacin podra ser la de proponer que todos los estados de mesa en el
estado actual creencia son igualmente probables, pero esto no puede estar bien.
Consideremos, por ejemplo, la creencia de estadoblancadespusdelaprimerajugadadel
juego de Negro. Por definicin (suponiendo que juega de manera ptima Negro), Negro
debe haber jugado un movimientoptimo,porloquetodoslosestadosdemesa resultantes
de movimientos ptimos debe ser asignado probabilidad cero. Este argumento no es del
todo bien tampoco, porque el objetivo de cada jugador no es slo para mover las piezas a
las casillas correctas, sino tambin para reducir al mnimo la informacin que el oponente
tiene acerca de su ubicacin. Jugar cualquier estrategia predecible "ptima" proporciona al
oponente con la informacin. Por lo tanto, el juego ptimo en juegos parcialmente
observables requiere estar dispuesto a jugar un poco al azar. (Esta es la razn por
inspectores de higiene restaurante hacen visitas de inspeccin al azar.) Esto significa que
de vez en cuando la seleccin de movimientos que pueden parecer "intrnseca" dbil,pero
que adquieren la fuerza de su muy impredecible, debido a que el oponente es poco
probablequehanpreparadoningunadefensacontraellos.

Apartirdeestasconsideraciones,parecequelasprobabilidadesasociadasalosestadosde
mesa en el estado actual creencia slo es posible elaborar una estrategia dio aleatorizado
ptima a su vez, el clculo deesa estrategiaparecerequerirconocerlasprobabilidadesde
los distintos estados de la junta podra estar en. Este dilemasepuederesolvermediantela
adopcin de la nocin teoriadejuegos deunasolucindeequilibrio,lo queperseguimosen
el captulo 17. Un equilibrio especifica una ptima estrategia aleatorio para cada jugador.
equilibrios Computing es prohibitivamente caro, sin embargo, incluso para los pequeos
juegos, y est fuera de la cuestinparaKriegspiel.Enlaactualidad,eldiseodealgoritmos
eficaces parael juegoKriegspielgeneralesuntemadeinvestigacinabierto.Lamayorade
los sistemas de bsqueda hacia delante realizan acotada a fondo en su propio espacio
estadocreencia,haciendocasoomisodelestadocreenciarival.Funciones deevaluacinse
parecen a los del juego observable pero incluyen un componente para el tamao de la
creenciadeestadomspequeoesmejor!

5.6.2Losjuegosdecartas
Los juegos de cartas proporcionan muchos ejemplos de observabilidad parcial estocstico,
donde se genera lainformacinquefaltaalazar.Porejemplo,enmuchosjuegos,lascartas
se reparten alazaralcomienzodeljuego,ycadajugadorrecibe unamanoquenoesvisible

a los otros jugadores. Estos juegos incluyen puente, whist, corazones,yalgunasformasde


pquer

yers. Estos juegos incluyen puente, whist, corazones, y algunas formas de pquer. A
primera vista, podra parecer que estos juegos de cartas son como juegos de dados: las
cartas se reparten alazarydeterminarlosmovimientosdisponiblesparacadajugador,pero
todos los "dados" se rod en el comienzo! A pesar de que esta analoga resulta ser
incorrecta,sugiereunalgoritmoefectivo:considerartodaslasposiblesofertasde lastarjetas
invisibles resolver cada uno como si fuera un juego totalmente observables y luego elegir
el movimiento que tiene el mejor resultado como media de todas las ofertas. Supongamos
quecadarepartosocurreconprobabilidadP(s)entonceselmovimientoquequeremoses

Aqu, corremos MINIMAX exacta si computacionalmente factible de lo contrario, corremos


HMINIMAX.

Ahora, en la mayora de los juegos de cartas, el nmero de posibles ofertas es bastante


grande. Por ejemplo, en el puente deljuego,cadajugadorveslodosdelascuatromanos
hay dos manos invisibles de 13 cartas cada uno, por lo que el nmero de ofertas es
Resolver ni un trato es bastante difcil, por lo resolviendo diez
millones est fueradelacuestin.Enlugardeello,serecurreaunaaproximacindeMonte
Carlo: en lugar de sumar todas las ofertas, se toma una muestra aleatoria de n ofertas,
dondelaprobabilidaddeacuerdosqueapareceenlamuestraesproporcionala

(Ntese que P (s) no aparece explcitamente en la suma, debido a que las muestras yase
dibujan de acuerdo a P(s).) AmedidaqueNaumentadetamao,lasumasobrelamuestra
aleatoria tiende al valor exacto, pero incluso para bastante pequea Ndecir, 100a1000el
mtodo da una buena aproximacin. Tambin puede ser aplicado a juegos deterministas
comoKriegspiel,dadoalgunaestimacinrazonabledeP(s).

Para juegos como el whist y los corazones, donde no hay una oferta o de la fase de
apuestas antes de que comience el juego,cadaoperacinserlamismaprobabilidadypor
lo tantolosvaloresdeP(s)sontodosiguales.Parael puente,eljuegoesprecedida poruna
fase de licitacin en el que cadaequipoindicacuntostrucosqueesperaganar. Yaquelos
jugadores oferta en funcin de las cartas que tienen, los otros jugadores a aprender ms
acerca de la probabilidad de cada oferta. Teniendo esto en cuenta para decidir cmojugar
la mano es difcil, por las razones mencionadas en la descripcin del juego de guerra: los
jugadores pueden hacer una oferta de tal manera que se minimice la informacin
transmitida a sus oponentes. An as, el mtodo es muy eficaz para el puente, como se
muestraenlaSeccin5.7.

La estrategia descrita en las ecuaciones 5.1 y 5.2 veces se llama un promedio de ms


videncia porque se supone que el juego podrn observarse que ambos jugadores
inmediatamente despus del primer movimiento. A pesar de su atractivo intuitivo, la
estrategiapuedeconducirunmalcamino.Tengaencuentalasiguientehistoria:

Da 1: Un camino conduce a un montn de oro Carretera B conduce a un tenedor.


Tome el tenedor a la izquierda y encontrar un montn grande deoro,perotomael
tenedoraladerechayseratropelladoporunautobs.

Da 2: Un camino conduce a un montn de oro Carretera B conduce a un tenedor.


Tome el tenedor a la derecha y encontrar un montn grande de oro, perotomarel
tenedoralaizquierdayseratropelladoporunautobs.

Da 3: Un camino conduce a un montn de oro Carretera B conduce a un tenedor.


Una rama del tenedor conduce a un montn grande de oro, pero tomar el tenedor
equivocado y se le atropellado por un autobs. Por desgracia no se sabe qu
tenedorescul.

Un promedio de ms clarividencia conduce al siguiente razonamiento: el da 1, B es la


eleccin correcta El da 2,Beslaeleccincorrectaelda3,lasituacineslamismaqueo
bienelda1o2,porloqueBdebetodavaserlaeleccincorrecta

Ahora podemos ver cmo un promedio de ms videncia falla: no tiene en cuenta el estado
creencia de que el agente ser despus de la actuacin. Un estado de la creencia de la
ignorancia total no es deseable, especialmente cuando una de las posibilidades es la
muerte segura. Porque se supone que cada estado futuro ser automticamente una de
conocimiento perfecto, el enfoque no selecciona las acciones que recopilan informacin
(como el primer paso en la Figura 5.13) ni va a elegir las acciones que se esconden
informacin del oponente o proporcionan informacin a un compaero porque se supone
que ellos ya conocen la informacin ynuncaserunfarolenelpquer,4ASCOporquese
supone que el oponente puede ver suscartas.Enelcaptulo17,semuestracmoconstruir
algoritmos que hacentodasestascosas,en virtuddelaresolucindelproblema dedecisin
verdaderaparcialmenteobservable.

5.7EstadodelosProgramasdeArtedeljuego:

RYBKA,ganadordelCampeonatodeajedrezdeordenadorMundode2008y2009,se
consideraqueeljugadoractualdelequipomsfuerte.Seutilizaunofftheshelfde8
ncleosa3,2GHzprocesadorIntelXeon,perosesabepocosobreeldiseodelprograma.
LaprincipalventajadeRYBKAparecesersufuncindeevaluacin,quehasidopuestoa

puntoporsuprincipalpromotor,elMaestroInternacionalVasikRajlich,yalmenosotrostres
grandesmaestros.Lospartidosmsrecientessugierenquelosprogramasdeajedrezde
ordenadorsuperioressehanretiradopordelantedetodosloscontendienteshumanos.(Ver
lasnotashistricasparamsdetalles.)Damas:JonathanSchaefferysuscolegas
desarrollaronChinook,queseejecutaenlosordenadoresregularesyutilizalabsqueda
alfabeta.Chinookderrotalcampenhumanodelargaduracinenunmatchin1990
abreviada,andsince2007CHINOOKhasbeenabletoplaybyusingperfectamentebsqueda
alfabetacombinadoconunabasededatosde39billonesdeposicionesdefinales.Otelo,
tambinllamadoReversi,esprobablementemspopularcomounjuegodeordenadorque
comounjuegodemesa.Cuentaconunespaciodebsquedamspequeoqueelajedrez,
porlogeneralde5a15movimientoslegales,perolaexperienciadeevaluacintuvoque
serdesarrolladodesdecero.En1997,elprogramaLogistello(Buro,2002)derrot
thehumanworldchampion,TakeshiMurakami,bysixgamestonone.Itisgenerallyreconoci
quelossereshumanosnopuedencompetirconlosordenadoresenOtelo.Backgammon:
Seccin5.5explicalaraznporlainclusindelaincertidumbredelastiradasdedados
hacequelabsquedadeprofundidadunlujocaro.Lamayoradeltrabajoenel
backgammonhaentradoenlamejoradelafuncindeevaluacin.GerryTesauro(1992)el
aprendizajeconredesneuronalesparadesarrollarunevaluadornotablementeexactoque
seutilizaconunabsquedaenprofundidadde2o3.Despusdejugarmsdeunmillnde
juegosdeentrenamientocontrasrefuerzocombinado,elprogramadelTesauro,
TDGammon,escompetitivoconlosmejoresjugadoreshumanos.Losdictmenesdel
programasobrelosmovimientosdeaperturadeljuegoenalgunoscasoshanalterado
radicalmentelasabidurarecibida.GoeseljuegodemesamspopularenAsia.Debidoa
queeltableroesde1919ysemueveestnpermitidosen(casi)todaslasplazasvacas,
elfactorderamificacincomienzaen361,queesdemasiadodesalentadorparalos
mtodosdebsquedaalfabetaregulares.Adems,esdifcilescribirunafuncinde
evaluacin,porqueelcontroldelterritorioesamenudomuyimpredeciblehastaelfinaldel
juego.Porlotantolosmejoresprogramas,comoMOGO,evitanlabsquedaalfabetayen
sulugarutilizanMonteCarlorollouts.Thetrickistodecidewhatmovestomakeinthecourse
Ofthedespliegue.estaespodaagresivatodoslosmovimientossonposibles.Elmtodo
UCT(confianzalmitessuperioresdelosrboles)actahaciendoquemuevealazarenel
primerpocasiteraciones,yconeltiempolaorientacindelprocesodemuestreoapreferir
losmovimientosquehanllevadoavictoriasenlasmuestrasanteriores.seaadenalgunos
trucos,incluidaslasnormasbasadasenelconocimientoquesugierenparticularesmueve
cadavezquesedetectaunpatrndeterminadoylimitadodebsquedalocalparadecidir
cuestionestcticas.Algunosprogramastambinincluyentcnicasespecialesdelateora
dejuegosparaanalizarlosfinalescombinatoria.Estastcnicassedescomponenuna
posicinensubposicionesquesepuedenanalizarporseparadoyluegocombinado
(BerlekampyWolfe,1994Mller,2003).Lassolucionesptimasobtenidasdeestamanera
hansorprendidoamuchosjugadoresprofesionales,quepensabanquehabanestado
jugandodemaneraptimatodoeltiempo.Vanlosprogramasactualesjuegananivelde
maestraenunareduccindeplaca99,peroanseencuentranenelnivelaficionado
avanzadoenuntablerocompleto.Bridgeesunjuegodecartasdeinformacinimperfecta:
cartasdeunjugadorestnocultosalosotrosjugadores.Puenteestambinunjuegode
variosjugadoresconcuatroenlugardedos,aunqueellosjugadoresestnemparejadosen
dosequipos.Aligualqueenlaseccin5.6,unjuegoptimoenlarecogidaparcialmente

observablegameslikebridgecanincludeelementsofinformation,comunicacin,andcareful
ponderacindeprobabilidades.MuchasdeestastcnicasseutilizanenelprogramaBridge
Baron(Smithetal.,1998),queganelcampeonatodelpuenteequipode1997.Apesarde
quenojuegademaneraptima,BridgeBaronesunodelospocossistemasdejuegode
papelesexitososparautilizarplanescomplejos,jerrquicos(vaseelCaptulo11)que
implicanlasideasdealtonivel,comoelfinessingandapretando,quesonfamiliaresparalos
jugadoresdepuente.ElprogramaGIB(Ginsberg,1999)ganelcampeonato2000del
puenteequipobastantedecisivamedianteelmtododeMonteCarlo.Desdeentonces,
otrosprogramasganadoreshanseguidoelejemplodeGIB.innovacinimportantedelGIB
estutilizandolageneralizacinbasadaenlaexplicacinparacalcularyalmacenaren
cachlasnormasgeneralesdejuegoptimoendiversasclasesestndardesituacionesen
lugardeevaluarcadasituacinindividual.Porejemplo,enunasituacinenlaqueun
jugadortienelascartasAKQJ432delmismopaloyotrojugadortiene1098765,hay7
6=42manerasdequeelprimerjugadorpuedeconducirapartirdeesejuegoyel
segundojugadorpuedeseguir.PeroGIBtrataestassituacionestanslodos:elprimer
jugadorpuedellevarunatarjetadealtaobajaunatarjetalascartasjugadasexactasno
importan.Conestaoptimizacin(yalgunosotros),GIBpuederesolverun52cartas,trato
totalmenteobservableexactamenteenaproximadamenteunsegundo.exactitudtcticadel
GIBcompensasuincapacidadpararazonaracercadelainformacin.Tuvoa12terminado
enuncampode35enelconcursodelaaltura(queimplicaslojugardelamano,nohacer
unaoferta)enelcampeonatodelmundodeloshumanos1998,superandoconcreceslas
expectativasdemuchosexpertoshumanos.HayvariasrazonesporlasGIBjuegaanivelde
expertosconlasimulacindeMonteCarlo,mientrasquelosprogramasKriegspielnolo
hacen.Enprimerlugar,laevaluacindelGIBdelaversincompletamenteobservabledel
juegoesexacta,buscandoenelrboldejuegocompleto,mientrasquelosprogramasse
basanenmtodosheursticosKriegspielinexactas.Peromuchomsimportanteeselhecho
dequeenelpuente,lamayorpartedelaincertidumbreenlainformacinparcialmente
observableprovienedelaaleatoriedaddelaoferta,nodesdeeljuegocontradictoriodel
oponente.simulacindeMonteCarloseencargadealeatoriedadbien,peronosiempre
manejarestrategiabien,sobretodocuandolaestrategiaconsisteenelvalordela
informacin.Scrabble:LamayoradelagentepiensaquelapartedifcildeScrabbleesdar
conbuenaspalabras,perodadaladeldiccionariooficial,queresultasermsfcilde
programarungeneradordemovimientoparahallarelmsanotadormovimiento(Gordon,
1994).Esonosignificaqueeljuegoseresuelve,sinembargo:simplementetomandoel
movimientomsaltacalificacincadavezsetraduceenunjugadorbueno,peronoexperto.
ElproblemaesqueelScrabbleesalavezparcialmenteobservableyestocstico:ustedno
sabeloquelascartasdelotrojugadorolohaletrasqueatraersiguiente.Asjugando
Scrabbletambincombinalasdificultadesdebackgammonypuente.Sinembargo,en
2006,elprogramaQUACKLEvencialexcampendelmundo,DavidBoys,32.

5.8Enfoquesalternativos:
Debidoaqueelclculodelasdecisionesptimasenlosjuegosesintratableenla
mayoradeloscasos,todoslosalgoritmosdebenhaceralgunassuposicionesy
aproximaciones.Elenfoqueestndar,basadoenMinimax,lasfuncionesdeevaluacin,y
alfabeta,esslounamaneradehaceresto.Probablementedebidoaquetiene

hatrabajadodurantetantotiempo,elenfoqueestndardominaotrosmtodosenlos
torneos.Algunoscreenqueestohacausadoquejuegaaljuegoparaconvertirseen
separarsedelacorrienteprincipaldelainvestigacinenIA:elenfoqueestndaryano
ofrecemuchoespacioparaunanuevacomprensindelascuestionesgeneralesdelatoma
dedecisiones.Enestaseccin,nosfijamosenlasalternativas.Enprimerlugar,
consideremosMinimaxheurstico.Seseleccionaunmovimientoptimoenunrbolde
bsquedadadalacondicindequelasevaluacionesdenodoshojasonexactamente
correcto.Enrealidad,lasevaluacionessongeneralmenteestimacionesdecrudodelvalor
deunaposicinysepuedeconsiderarquetienengrandeserroresasociadosconellos.La
Figura5.14muestraunrboldejuegodedoscapasparaelqueMinimaxsugieretomarla
ramadeladerechayaqueel100>99.Esaesladecisincorrectasilasevaluacionesson
loscorrectos.Pero,porsupuesto,lafuncindeevaluacinessloaproximada.
Supongamosquelaevaluacindecadanodotieneunerrorqueesindependientedeotros
nodosysedistribuyealazarconmediaceroydesviacinestndarde.Luego,cuando=
5,laramadelaizquierdaesenrealidadmejor71%deltiempo,yel58%delasveces
cuando=2.Laintuicindetrsdeestoesquelaramadeladerechatienecuatronodos
queestncercade99siunerrorenlaevaluacindecualquieradeloscuatrohacequeel
deslizamientoramadeladerechapordebajode99,entonceslaramaizquierdaesmejor.
Enrealidad,lascircunstanciassonenrealidadpeorqueesto,porqueelerrorenlafuncin
deevaluacinisnotindependiente.Siobtenemosunnodomal,haymuchasposibilidadesde
quecercadelosnodosenelrboltambinserincorrecta.Elhechodequeelnodo
etiquetado99tienehermanosetiquetada1000sugierequedehecho,podratenerunvalor
superiorverdadera.Podemosutilizarunafuncindeevaluacinquedevuelveuna
distribucindeprobabilidadsobrelosposiblesvalores,peroesdifcildecombinarestas
distribucionescorrectamente,porquenovamosatenerunbuenmodelodelas
dependenciasmuyfuertesqueexisteentrelosvaloresdeloshermanosnodosA
continuacin,considerarelalgoritmodebsquedaquegeneraelrbol.Elobjetivodel
algoritmodeundiseadoresespecificarunclculoqueseejecutadeformarpiday
produceunbuenmovimiento.Elalgoritmoalfabetaestdiseadanosloparaseleccionar
unbuenmovimiento,sinotambinparacalcularloslmitesdelosvaloresdetodoslos
movimientoslegales.Paraverporquestainformacinadicionalnoesnecesaria,
considereunaposicinenlaqueslohayunmovimientolegal.bsquedaalfabetatodava
vaageneraryevaluarungranrboldebsqueda,nosestdiciendoqueelnico

movimientoeselmejormovimientoyasignndoleunvalor.Peroyaquetenemosquehacer
elmovimientodetodosmodos,sabiendoelvalordelamedidaesintil.Delmismomodo,si
lahay,obviamente,buenmovimientoyvariosmovimientosquesonlegales,peroconducen
toalaprdidarpida,nosnoquerraalfabetaqueperdereltiempoparadeterminarunvalor
precisoforthesolitariobuenmovimiento.Mejorsimplementehacerelcambiodeforma
rpidayahorrareltiempoparamsadelante.Estoconducealaideadelautilidaddeuna
expansinnodo.Unbuenalgoritmodebsquedadeberseleccionarexpansionesnodode
granutilidad,esdecir,losquesonpropensosaconduciraldescubrimientodeun
significativamentemejormovimiento.Sinohayexpansionesdenodocuyautilidadesmayor
quesucoste(entrminosdetiempo),entonceselalgoritmodebedetenerlabsqueday
hacerunmovimiento.Observequeestofuncionanosloparasituacionesclarasfavorito,
perotambinparaelcasodemovimientossimtricos,paraelquenohaycantidadde
bsquedamostrarqueunmovimientoesmejorqueotro.Estetipoderazonamientoacerca
deloquehacerclculossellamametareasoning(REAenvenenamiensobreel
razonamiento).Seaplicanosloaljuegojugandosinoacualquiertipoderazonamientoen
absoluto.Todoslosclculosserealizanenelserviciodetratardellegaramejores
decisiones,todostienencostos,ytodostienenciertaprobabilidadderesultarenunacierta
mejoraenlacalidaddeladecisin.Alfabetaincorporaeltipomssimplede
metareasoning,asaber,unteoremaenelsentidodequeciertasramasdelrbolpueden
serignoradossinprdida.Esposiblehacermuchomejor.Enelcaptulo16,vemoscmo
estasideassepuedenhacerprecisayaplicable.Porltimo,vamosareexaminarla
naturalezadelapropiabsqueda.Algoritmosparalabsquedaheursticayparajugaral
juegogeneransecuenciasdeestadosconcretos,apartirdelestadoinicialyluegola
aplicacindeunafuncindeevaluacin.Claramente,estonoescmolossereshumanos
jueganjuegos.Enelajedrez,amenudosetieneaparticularobjetivoenmentequeen
porejemplo,atrapandodetheopponentypuedeutilizaresteobjetivoparagenerar
selectivamenteplanesplausiblesparalograrlo.Estetipoderazonamientoodeplanificacin
dirigidoaunobjetivoaveceseliminaporcompletolabsquedacombinatoria.DavidWilkins
(1980)Elparasoeselnicoprogramaquehausadoelrazonamientodirigidoaunobjetivo
conxitoenelajedrez:eracapazderesolveralgunosproblemasdeajedrezquerequieren
unacombinacinde18movimientos.Hastaelmomentonohayunabuenacomprensinde
cmocombinarlosdostiposdealgoritmosenunsistemadeficienterobustoyEF,aunque
BridgeBaronpodraserunpasoenladireccincorrecta.Unsistematotalmenteintegrado
seraunlogrosignificativonosloparalainvestigacinJuegodepapeles,sinotambin
paralainvestigacinenIAengeneral,yaqueseraunabuenabaseparaunagente
inteligentegeneral.

Você também pode gostar