Escolar Documentos
Profissional Documentos
Cultura Documentos
1Juegos:
Captulo2introduceentornosmultiagente,enelquecadaagentedebetenerencuentalas
accionesdeotrosagentesycmoafectanasupropiobienestar.Laimprevisibilidadde
estosotrosagentespuedeintroducircontingenciasenelprocesoderesolucinde
problemasdelagente,comosediscutienelCaptulo4.Enestecaptulowecoverentornos
competitivos,enlosquelosobjetivosdelosagentesestnenconflicto,dandolugara
contenciososproblemasfrecuenciadebsquedaconocidoscomojuegoslateoradejuegos
.Mathematical,unaramadelaeconoma,veacualquierentornomultiagentecomoun
juego,siemprequeelimpactodecadaagenteenlosdemses"significativo",
independientementedesilosagentessoncooperativasocompetitivas.1enAI,losms
comunesjuegossondeunaclaselobastanteespecializadajuegotericosllaman
determinista,teniendoasuvez,dedosjugadores,juegosdesumacerodelainformacin
perfecta(comoelajedrez).Ennuestraterminologa,estosignificaentornosdeterministas,
totalmenteobservablesenelquedosagentesactandeformaalternativayenelquelos
valoresdeutilidadenelfinaldeljuegosonsiempreigualesyopuestas.Porejemplo,siun
jugadorganaunapartidadeajedrez,elotrojugadorpierdenecesariamente.Esesta
oposicinentrelasfuncionesdeutilidaddelosagentesquehacequelasituacinde
confrontacin.Losjuegoshanparticipadolasfacultadesintelectualesdelosseres
humanos,avecesaunalarmantegradoporeltiempoquehaexistidolacivilizacin.Para
losinvestigadoresdeIA,lanaturalezaabstractadejuegosdeellasuntemaatractivoparael
estudiohace.Elestadodeunjuegoesfcilderepresentar,ylosagentessuelenlimitarsea
unpequeonmerodeaccionescuyosresultadossedefinenpornormasprecisas.juegos
fsicos,talescomocroquetyelhockeysobrehielo,tienenmuchomscomplicadas
descripciones,unagamamuchomsampliadeposiblesaccionesyreglasimprecisasen
lugardefinirlalegalidaddelasacciones.Conlaexcepcindeftbolderobots,estos
juegosfsicosnohanatradomuchointersenlacomunidaddeIA.
Juegos,adiferenciadelamayoradelosproblemasdejuguetesestudiadosenelcaptulo
3,soninteresantesporquesondemasiadodifcilesderesolver.Porejemplo,elajedreztiene
unpromediofactorderamificacindeaproximadamente35aos,yjuegosamenudoira50
movimientosporcadajugador,porloqueelrboldebsquedatienealrededorde35100o
10154nodos(aunqueelgrafodebsquedatiene"slo"unos1.040nodosdistintos).Los
juegos,comoelmundoreal,porlotanto,requierenlacapacidaddetomaralgunadecisin,
inclusocuandosecalculaelisinfeasibledecisinptima.Losjuegostambinpenalizan
severamenteineficiencia.MientrasqueanimplementationdebsquedaA*queeslamitad
deeficientesimplementetomartwiceaslargoTorunhastasufinalizacin,elprograma
achessqueeslamitaddeeficienteenelusodesutiempodisponible,probablemente
serngolpeadosenelsuelo,enigualdaddecondiciones.Porlotanto,lainvestigacin
Juegodepapeleshageneradounaseriedeideasinteresantessobrecmohacerelmejor
usoposibledetiempo.Empezamosconunadefinicindelmovimientoptimoyunalgoritmo
paraelhallazgol.acontinuacin,nosfijamosenlastcnicasparalaeleccindeunbuen
movimientocuandoeltiempoeslimitado.Lapodanospermiteignorarlaspartesdelrbol
debsquedaquehacenningunadiferenciaenlaeleccinfinal,ylasfuncionesde
evaluacinheursticanospermiteaproximarlaverdaderautilidaddeunestadosinhacer
unabsquedacompleta.Seccin5.5discutejuegoscomoelbackgammonqueincluyenun
elementodeazartambindiscutimospuente,queincluyeelementosdeinformacin
imperfectaporquenotodaslastarjetassonvisiblesparacadajugador.Porltimo,nos
fijamosencmolosprogramasdejuegoderolesdelestadodelatcnicalesvaencontra
delaoposicinhumanayenlasdireccionesparafuturosdesarrollos.Nosotros
consideramosFiprimerajuegoscondosjugadores,alosquellamamosMAXyMIN,por
razonesqueprontosernobvias.MAXmueveprimero,yluegoseturnanparamoverhasta
queeljuegohaterminado.Alfinaldeljuego,lospuntosseconcedenaljugadorganadory
sancionessedanparaelperdedor.Unjuegopuedeserformalmentedefinidocomountipo
deproblemadebsquedaconlossiguienteselementos:
S0:Theinitialestado,queespecificacmoeljuegosedesarrollaenlasalida.
REPRODUCTOR(s):Delasmultasqueeljugadortieneelmovimientoenunestado.
ACCIONES(s):Devuelveelconjuntodemovimientoslegalesenunestado.
resultado(s,a):Elmodelodetransicin,quedefineelresultadodeunmovimiento.
TERMINALDEPRUEBA(s):Unapruebadeterminales,locualesciertocuandoeljuego
haterminadoyfalsoencasocontrario.Estadosenlosqueeljuegohaterminadosellaman
estadosterminales.
UTILIDAD(s,p):Unafuncindeutilidad(tambinllamadaunafuncinobjetivoopagar
funcin),defineelfinalvalornumricoparaunjuegoqueterminaenelestadoterminaldes
paraunjugadorp.Enelajedrez,elresultadoesunaganancia,prdida,odibujar,con
valores+1,0,OR12.Algunosjuegostienenunavariedadmsampliadeposibles
resultadoslosbeneficiosentrminosdebackgammongamade0a192.Unjuegodesuma
ceroes(confusamente)definecomounodondelarentabilidadtotalalaquetodoslos
jugadoreseselmismoparacadainstanciadeljuego.Elajedrezesdesumacero,porque
cadajuegotienerecompensadecualquiera0+1,1+0o12+12."Constantedesuma"
habrasidountrminomejor,perodesumaceroestradicionalytienesentidosiunose
imaginacadaunoeljugadorsecobraunacuotadeinscripcinde12.elestadoinicial,la
funcinACCIONES,ylafuncinRESULTADOdefinenelrboldejuegoparaeljuegorbol
dejuegodeunrboldondelosnodossonestadosdejuegoylosbordessonmovimientos.
Lafigura5.1muestrapartedelrboldejuegodetictactoe(tresenraya).Desdeelestado
inicial,MAXtienenuevemovimientosposibles.EljuegosealternaentreMAXdecolocar
unaXyMINdelacolocacindeunajuntahastallegaralosnodosdehojaquecorresponde
alosestadosterminalesdetalmaneraqueunjugadortienetresenunafilaotodaslas
plazassellenan.Elnmeroencadanodohojaindicaelvalordeutilidaddelestadoterminal
desdeelpuntodevistadeMAXLosvaloresaltossesuponequesonbuenosparaMAXy
MINmalopara(queescomolosjugadoresconsiguensusnombres).
Paratictacdedodelpiedelrboldeljuegoesrelativamentepequeademenosde9!=
362,880nodosterminales.Peroparaelajedrezhaymsde1040nodos,porloqueelrbol
dejuegoesmejorcomounaconstruccintericaquenosepuederealizarenelmundo
fsico.Pero,independientementedeltamaodelrboldejuego,eseltrabajodeMAXpara
buscarunbuenmovimiento.Usamoseltrminorboldebsquedaparaunrbolquese
superponenenelrboldejuegocompleto,yexaminasuficientesnodosquepermitenaun
jugadorparadeterminarqumovimientohacer.
5.2Lasdecisionesptimasenlosjuegos
Vamos a aplicar estas definiciones para el rbol de juego en la Figura 5.2. Los nodos
terminales en el nivel inferior obtienen sus valores de utilidad de la funcin de utilidad del
juego. El primer nodo MIN, la etiqueta B, tienetresestadossucesoresconlosvaloresde3,
12 y 8, por lo que su valor minimax es 3. Del mismo modo, losotrosdosnodosMINtienen
un valor minimax 2. El nodo raz es un nodo MAX sus estados sucesores tienen valores
minimax 3, 2 y 2 por lo que tiene un valor minimax de 3. Tambin podemos identificar la
decisin minimax en la raz: la accin a1 es la eleccin ptima para MAX debido a que
conducealestadoconelmayorvalorminimax.
Esta definicin de juego ptimo para MAX MIN asume que tambin juega
ptimamentemaximiza el resultadodelpeorcasoparaMAX.QupasasiMINnojuegade
manera ptima? Entonces es fcil demostrar (ejercicio 5.7) que Max va a haceranmejor.
Otras estrategias contra oponentes subptimos pueden hacer mejor que la estrategia
minimax,peroestasestrategiasnecesariamentehacerpeorcontraoponentesptimas.
5.2.1Elalgoritmominimax
El algoritmo minimax (Figura 5.3) calcula la decisin minimax del estado actual. Utiliza un
simple clculo recursivo de los valores minimax de cada estado sucesor, la ejecucin
directa de las ecuaciones que definen. La recursividad prosigue hastaelfondodelashojas
del rbol, y luego los valores minimax son movidas hacia arriba a travs del rbol como la
recursividad se desenrolla. Por ejemplo, en la figura 5.2, el algoritmo recursivamente
primero a los tres nodosbottomleftyutilizalafuncindeutilidad enellosparadescubrirque
sus valores son 3, 12, y 8, respectivamente. Luegotomaelmnimode estosvalores,3,ylo
devuelve como el valor respaldado del nodoB.Unprocesosimilarseindicanlosvaloresde
copia de seguridad de 2 para C y 2 de D. Por ltimo, se toma el mximo de 3, 2 y 2 para
obtenerelvalordelacopiadeseguridadde3paraelnodoraz.
El algoritmo minimax realiza una exploracin completa primero en profundidad del rbolde
juego. Si la profundidad mxima del rbolesmyhaybmovimientoslegalesencadapunto,
a continuacin, la complejidad de tiempo del algoritmo minimaxes
La complejidad
espacial es
por un algoritmo que genera todas las acciones a la vez,o
para
un algoritmo que genera las acciones de una en una (vase la pgina 87). Paralosjuegos
reales, por supuesto, el coste de tiempo es totalmente poco prctico, pero este algoritmo
sirve como la base para el anlisis matemtico de juegos y para los algoritmos ms
prcticas.
5.2.2Lasdecisionesptimasenjuegosmultijugador
En primer lugar, tenemos que sustituir el valor nico para cada nodo con un vector de
valores. por ejemplo, en un juego de tres jugadores con los jugadores A, B, y C, un vector
est asociada con cada nodo. Para los estados terminales, este vector da la
utilidad del estado del punto de vista de cada jugador. (En dos jugadores, juegos de suma
cero, el vector de dos elementos pueden reducirse a un solo valor, porque los valores son
siempre opuestas.) La forma ms sencilla de implementar esto es tener la funcin de
utilidaddevuelveunvectordeutilidades.
Ahora tenemos que considerar los estados no terminales. Considere el nodo marcada con
una X en el ree juego mostrado en la Figura 5.4. En ese estado, el jugador C elige qu
hacer. Las dos opciones conducen a estados terminales con vectores de utilidad
Desde 6 esmayorque3,Cdebeelegirel
primer movimiento. Esto significaquesisealcanzaelestadoX,el juegoposteriorconducir
a un estado terminal con utilidades? VA = 1, VB = 2, VC = 6 ?. Por lo tanto, el valor de la
copia de seguridad de X es este vector. El valor de la copia de seguridad de un nodo n es
siemprelautilidad
Figura5.3Unalgoritmoparaelclculodelasdecisionesminimax.Devuelvelaaccin
correspondientealamejorjugadaposible,esdecir,elmovimientoqueconduceal
resultadoconlamejorutilidad,bajoelsupuestodequeeloponentejuegaparaminimizar
utilidad.LasfuncionesMAXyMINvalorvalorpasanportodoelrboldejuego,todoel
caminohastalashojas,paradeterminarelvalordelacopiadeseguridaddeunestado.
Lanotacinargmaxa
mximodef(a).
calculaunelementodelconjuntoSquetieneelvalor
vector del estado sucesor con el valor ms alto para el jugador elegir en el n. Cualquiera
que juegue juegos multijugador, como la diplomacia, seconvierterpidamenteencuentalo
que est pasando mucho ms que en juegos de dos jugadores. juegos multijugador por lo
general implican alianzas, ya sea formal o informal, entre los jugadores. Las alianzas se
hacen y se rompen como el juego contina. Cmo hemos de entender este tipo de
comportamiento? Son alianzas una consecuencia natural de las estrategias ptimas para
cada jugador en un juego de varios jugadores? Resulta que pueden ser. Por ejemplo,
supongamos que A y B estn en una posicin dbil y C se encuentra en unaposicinms
fuerte. A continuacin, a menudo es ptima para A y B para atacar C en lugar de uno al
otro, no sea C destruir cada uno de ellos individualmente. De esta manera, lacolaboracin
emerge de comportamiento puramente egosta. Por supuesto, tan pronto como C debilita
bajo el ataque conjunto, la alianza pierde su valor, y sea A o Bpodraviolarelacuerdo.En
algunos casos, las alianzas explcitas simplemente hacen que el hormign lo que habra
ocurrido de todos modos. En otros casos, un estigma social se une a romper una alianza,
as que los jugadores deben equilibrar la ventaja inmediataderomperuna alianzacontrala
desventaja a largo plazo de ser percibido como poco fiable. Vea la Seccin 17.5 para ms
informacinsobreestascomplicaciones.
Si el juego no es de suma cero, entonces la colaboracin tambin puede ocurrir con slo
dos jugadores. Supongamos, por ejemplo, que hay un estadoterminalconutilidades?Va=
1000, BB = 1000? y que 1000 es el ms alto posible utilidad para cada jugador. A
continuacin, la estrategia ptima es tanto para los jugadores que hagan todo lo posible
para llegar a este estado, es decir, los jugadores cooperarn de forma automtica para
lograrunobjetivomutuamenteconveniente.
5.3Podaalfabeta:
Elproblemaconlabsquedaminimaxesqueelnmerodejuegodeestadosquetieneque
examinaresexponencialenlaprofundidaddelrbol.Desafortunadamente,nopodemos
eliminarelexponente,peroresultaquepodemosreducirdemaneraefectivaporlamitad.El
trucoesqueesposiblecalcularladecisinminimaxcorrectasinmiraracadanodoenel
rboldejuego.Esdecir,quepodemostomarprestadalaideadelapodadelCaptulo3para
eliminargrandespartesdelrboldelaconsideracin.Latcnicaparticularexaminamosse
llamapodaalfabeta.Cuandoseaplicaaunrbolpodaalfabetaminimaxestndar,
devuelveelmismomovimientocomoMinimaxhara,perolasciruelaspasasdedistancia
ramasquenoesposiblequeinfluirenladecisinfinal.Consideremosdenuevoelrbolde
juegodedoscapasdelaFigura5.2.Vamosapasarporelclculodeladecisinptima,
unavezms,estavezprestandoespecialatencinaloquesabemosencadamomentodel
proceso.LospasosseexplicanenlaFigura5.5.Elresultadoesquepodemosidentificarla
decisinminimaxsintenerqueevaluardosdelosnodoshoja.Otraformadeverestoes
comounficacinsimplificadadelafrmulaparaMINIMAX.Dejarquelosdossucesoresno
evaluadasdenodoCenlaFigura5.5tienenvaloresxey.Entonces,elvalordelnodoraz
estdadapor:
MINIMAX(raz)=maxmin(3,12,8),min(2x,y),min(14,5,2))
=Max(3,min(2,x,y),2)
=Max(3,z,2),dondez=min(2,x,y)2
=3
Figura5.5EtapasenelclculodeladecisinptimaparaelrboldejuegoenFigure5.2.En
cada punto, se muestran los posibles valores rangeof para cada nodo. (A) La primera hoja
de abajo fi B tiene el valor. Por lo tanto, B, whichis nodo Amin, tiene un valor de como
mximo 3. (b) La segunda hoja pordebajodeBtieneunvalorde12MINharaunvacode
este movimiento, por lo que el valor de B se encuentra todava en la mayor parte 3. (c) La
tercera hoja por debajo de B tiene un valorde8hemosvistotodoslosestadosdelsucesor
de B, por lo que el valor de B es exactamente 3. Ahora, podemos inferir que el valor de la
raz es al menos 3, debido MAX tiene una opcin vale 3 en la raz. (D) La primera hoja fi
debajo de C tiene el valor 2. Por lo tanto, C, que es un nodo MIN, tiene un valor de a lo
sumo 2. Pero sabemos que B vale 3, de modo MAX nunca elegir C. Hay tanto, no hay
ningn punto en el estudio de los otros estados sucesores de C. Este es un ejemplo de la
poda alfabeta. (E) La primera hoja de abajo fi Dtieneelvalor14,por loquevalelapenaD
como mximo 14. Esto es todava ms alta que mejor alternativa de MAX (esdecir,3),por
lo que debemos seguir explorando D's estados sucesores. Ntese tambin que ahora
tenemos lmites en todos los sucesores de la raz, por lo que el valor de larazestambin
como mximo 14. (f)ElsegundosucesordeDvale5,asquedenuevotenemosqueseguir
explorando. El tercer sucesor vale 2, por lo que ahoraDvale exactamentedecisin2.MAX
enlarazesmoveraB,dandounvalorde3.
=elvalorde laopcinmejor(esdecir,valormsalto)sehanencontradohastalafechase
encualquierpuntodeeleccinalolargodelcaminoparaMAX.
5.3.1Moverpedido
La eficacia de la poda alfabeta es dependiente del orden en elque se examinan
los estados altamente. Por ejemplo,enlaFigura5.5(e)y(f),nopodramosrecortar
cualquiersucesoresdeDenabsoluto,porquelospeoressucesores(desdeelpunto
de vista de MIN) se generaron primero. Si el tercer sucesor de D haba sido
generado primera, habramos sido capaces de podar los otros dos. Esto sugiere
quepodra valerla penaparaintentar examinar primero lossucesoresquepuedan
ser mejor. Si esto se puede hacer, 2 luego resulta que el alfabeta tiene que
examinarslo losnodos O(bm /2)paraescogerel mejor movimiento,en lugarde
O (bm) para Minimax. Esto significa que el factor de ramificacin efectiva se
convierteben lugar debpara el ajedrez, alrededor de6en vez de 35. Dichode
otra manera, alfabeta pueden resolver un rbol de ms o menos dos veces tan
profundo como Minimax en la misma cantidad de tiempo. Si se examinan los
sucesoresenordenaleatorio enlugar de primera mejor, elnmerototal de nodos
examinados ser msomenosO (B3M /4)demoderadab.Forchess,unafuncin
ordenadora bastante simple (como por ejemplo tratar capturas primero, a
continuacin, amenazas, despus hacia adelante y se mueve, se mueve luego
hacia atrs) se llegaadentrodeaproximadamenteunfactorde2delosmejoresde
loscasosO(bm/2)resultado.
tenemos que volver a calcular sobre los sucesos posteriores. La tabla de dispersin de las
posiciones previamente visto tradicionalmente se llama una tabla de transposicin es
esencialmente idntica a la explorada Lista de grafo de bsqueda (Seccin 3.3). Usando
una tabla de transposicin puede tener un efecto dramtico, a veces tanto como la
duplicacin de la profundidad de la bsqueda alcanzable en el ajedrez. Por otro lado, si
estamos evaluando un milln de nodos por segundo, enalgn momentoquenoesprctico
para mantener todos ellos en la tabla de transposicin. Varias estrategias se han utilizado
paraelegirqunodosparamanteneryculesdescartar.
5.4IMPERFECTOSDECISIONESENTIEMPOREAL
El algoritmo minimax genera todo el espacio de bsqueda juego, mientras queelalgoritmo
alfabeta nos permite podar gran parte de ella. Sin embargo, alfabeta todava tiene que
buscar todo el camino a estados terminales de al menos una parte del espacio de
bsqueda. Esta profundidad no suele ser prctico,debidoamovimientosdebenhacerseen
un perodo razonable de tiempopor lo general unos pocos minutos como mximo. El
artculo de Claude Shannon para programar una computadora para jugar ajedrez (1950)
propusieron en cambio que los programas deben cortar la bsqueda anterior y aplicar una
funcin de evaluacin heurstica a los estados en la bsqueda, convirtiendo nodos no
terminales en hojas terminales. En otras palabras, la sugerencia es alterar minimax o
alfabeta de dos maneras: sustituir la funcinde utilidadporunEVALfuncindeevaluacin
heurstica, que estima la utilidad de la posicin, y reemplazar la prueba terminal mediante
una prueba de corte que decide cundo aplicar EVAL . Esonosdalasiguienteinformacin
paraMinimaxheursticoparasestatalesylaprofundidadmximad:
5.4.1Funcionesdeevaluacin
Una funcin de evaluacin devuelve una estimacin de la utilidad esperada del partido
desdeunaposicindada,aligualquelasfuncionesheursticasdelcaptulo3retornodeuna
estimacin de la distancia a la meta. La idea de un estimador no era nueva cuando
Shannon propuso. Durante siglos, los jugadores de ajedrez (y aficionados de otros juegos)
han desarrollado maneras de juzgarelvalor deunaposicinporquelossereshumanosson
an ms limitados en la cantidad de bsqueda que pueden hacer que son programas de
ordenador. Debe quedar claro que el rendimiento de un programa de juego de papeles
depende fuertemente de la calidad de su funcin de evaluacin.Unafuncindeevaluacin
inexacta guiar un agente hacia posiciones que resultan estar perdido. Cmo es
exactamenteloquediseamosnuevasfuncionesdeevaluacin?
todo el camino hasta el final del juego. En segundo lugar, el clculo no debe tomar mucho
tiempo! (El punto es para buscar ms rpido.) En tercer lugar, para que los estados no
terminales, la funcin de evaluacin debe ser fuertemente correlacionada con las
posibilidadesrealesdeganar.
Una ventaja equivalente seguro a un pen da una probabilidad sustancial de ganar, y una
ventaja segura equivalente a tres peones debe dar victoria casi segura, como se ilustra en
Figura5.8Dosposicionesdeajedrezquesediferenciansloenlaposicindelatorreen
laparteinferiorderecha.En(a),Negrotieneunaventajadeuncaballeroydospeones,
quedeberasersuficienteparaganareljuego.En(b),Whitecapturarlareina,dndole
unaventajaquedebeserlosuficientementefuertecomoparaganar.
Por esta razn, los programas actuales de ajedrez y otros juegos tambin utilizan
combinaciones lineales de funciones. Por ejemplo, un par de obispos podra valer la pena
un poco ms del doble del valor de un solo obispo, y un obispo vale ms en el final (es
decir, cuando la funcin de movimiento nmero es alto o el nmero de piezas restantes
caractersticaesbaja)
El lector astuto habr notado que las caractersticas y los pesos no son parte delasreglas
del ajedrez! Vienen de siglos de experiencia de jugar al ajedrez humano. En los juegos en
este tipo de experiencia no est disponible, los pesos de la funcin de evaluacin pueden
ser estimados por las tcnicas de aprendizaje automtico del captulo 18. De modo
5.4.2Elcortedebsqueda
El siguiente paso es modificar alfabetabsqueda para que se llame a la funcin Eval
heurstica cuando es apropiado para cortar la bsqueda. Sustituimos las dos lneas en la
figura5.7quemencionanTERMINALTESTconlasiguientelnea:
Una de las estrategias para mitigar el efecto horizonte es la extensin del singular, una
medida que es "claramente mejor" que todos los dems se mueve en una posicin dada.
Una vez descubiertoencualquierpartedelrbolenel cursodeunregistro,estemovimiento
singular es recordado. Cuando la bsqueda llega al lmite de la profundidad normal, el
algoritmo comprueba para ver si la extensin singular es un movimiento legal si lo es, el
algoritmo permite el paso a ser considerado. Esto hace que el rbolmsprofundo,peroya
quehabrpocasextensionessingulares,quenoaportamuchosnodosentotalalrbol.
5.4.3podaDelantero
Hasta ahora, hemos hablado sobre cortar la bsqueda en un cierto nivel ytratadehacerla
poda alfabeta que demostrablemente no tiene ningn efecto sobre el resultado (al menos
con respecto a los valores de evaluacin heurstica). Tambin es posible hacer la poda
hacia adelante, lo que significa que algunos se mueve a un nodo dado se podan
inmediatamente, sin ms consideraciones. Es evidente que la mayora de los seres
humanos que juegan a ajedrez consideran slo unos pocos movimientos de cada posicin
(al menos conscientemente). Un enfoque para reenviar la poda es la bsqueda de haz: en
cada capa, considere slo un "haz" de los n mejores movimientos (de acuerdo alafuncin
deevaluacin)enlugardeconsiderartodoslosmovimientosposibles.
Figura5.9Elefectohorizonte.ConNegroparamover,elalfilnegroes,sinduda
condenada.PeroNegropuedeimpedireseeventomarcandoelreyblancoconsus
peones,loqueobligalreyparacapturarlospeones.Estoempujaalaprdidainevitable
delobisposobreelhorizonte,yporlotantolossacrificiosdeempeosonvistosporel
algoritmodebsquedacomobuenosmovimientosenlugardelosmalos.
Pordesgracia,esteenfoqueesbastantepeligrosoporquenohayningunagarantadeque
lamejorjugadanoserpodadadedistancia
El corte probabilstico o corte probabilstico, el algoritmo (Buro, 1995) es una versin con
visin de poda de bsqueda alfabeta que utiliza las estadsticas obtenidas a partir de la
experiencia previa para disminuir la posibilidad de que la mejor jugada ser podada.
Alfabeta de bsqueda ciruelas cualquier nodo que se puede probar fuera de la ventana
actual (, ). Tambin corte probabilstico poda nodos que son, probablemente, fueradela
ventana. Se calcula esta probabilidad mediante una bsqueda superficial para calcular el
valor v copia de seguridad de un nodo y luego usando la experiencia del pasado para
estimar qu tan probable esqueunapuntuacindevenlaprofundidaddenelrbolestara
fuera (, ) . Buro aplica esta tcnica a su programa de Otelo, Logistello, y encontr que
una versin de su programa con corte probabilstico venci a la versin normal de 64% de
lasveces,inclusocuandolaversinnormalseledioeldobledetiempo
5.4.4Bsquedavsoperacionesdebsqueda
Dealgunamanera,pareceunexcesodeunprogramadeajedrezparainiciarunjuegoal
considerarunrboldeunbillndeestadosdeljuego,sloparaconcluirquevaamoversu
pendee4.Librosquedescribenelbuenjuegoenlaaperturayelfinaldeljuegoenel
ajedrezhanestadodisponiblesdesdehaceaproximadamenteunsiglo(Tattersall,1911).No
essorprendente,porlotanto,quemuchosprogramasdejuegodepapelesusanbsqueda
enlatablaenlugardebuscarlaaperturayelfinaldelosjuegos.
Porlasaberturas,elequiposebasaprincipalmenteenlaexperienciadelossereshumanos.
Elmejorconsejodelosexpertoshumanossobrecmojugarcadaaberturasecopiade
librosyentrentablasparaelusodelacomputadora.Sinembargo,losordenadores
tambinpuedenobtenerestadsticasdeunabasededatosdepartidosjugadoscon
anterioridadparaverqusecuenciasdeaperturamsamenudoconducenaunavictoria.
Enlosprimerosmovimientoshaypocasopciones,yporlotantomuchocomentariosde
expertosylosjuegosanterioresenlaquebasarse.Porlogeneral,despusdediez
movimientosqueterminanenunaposicinraravezvisto,yelprogramahayquecambiarde
bsquedaenlatabladebsqueda.
Cerca del final del juego hay de nuevo un menor nmero de posiciones posibles, y por lo
tanto ms posibilidades de hacer operaciones de bsqueda. Pero aqu es el equipo que
tiene la experiencia: anlisis informtico de los finales va mucho ms all delologradopor
los seres humanos. Un ser humano puede indicarle la estrategia general para la
reproduccindeunfinalde reyytorrecontrarey(KRK):reducirlamovilidaddelreyopposin
apretndolo hacia uno de los bordes de la junta, la utilizacin de su rey para evitar que el
oponente se escape de la exprimir. Otras terminaciones, como rey, obispo ycaballocontra
rey (KBNK), son difciles de dominar y no tienen sucinta descripcin de la estrategia. Una
computadora, POLTICA, por otro lado, puede resolver completamente el final del juego
mediante la produccin de una poltica, que es un mapeo de todos losestadosposiblesde
la mejor jugada en ese estado. Entonces slo podemos buscar la mejorjugadaenlugarde
volver a calcular que de nuevo. Qutan grandeserlatabladebsquedaKBNK?Resulta
que hay 462 maneras de que dos reyes se pueden colocar eneltablerosinseradyacente.
Despus de que los reyes se colocan, hay 62 plazas vacas para el obispo, 61 para el
caballero, y dos jugadores posibles para mover al lado, por lo que no son slo
posibles posiciones. Algunos de estos son jaque mate
marcarn como tal en una tabla. A continuacin, realiceunabsquedaminimax retrgrada:
revertir las reglas del ajedrez que hacer movimientos de las Naciones Unidas en lugar de
movimientos. Cualquier jugada de White de que, no importa qu movimiento Negro
responde con, termina en una posicin marcada como una victoria, tambin debe ser una
victoria. Continuar estabsquedahastaquetodaslasposiciones3,494,568seresuelven de
la victoria, prdida o dibujar, y usted tiene una tabla de bsqueda infalible para todos los
finalesKBNK
El uso de esta tcnica y un tour de force de trucos de optimizacin, Ken Thompson (1986,
1996) y Lewis Stiller (1992, 1996) resolvi todos los finales de ajedrez con un mximo de
cinco piezas y algunas de ellas con seis piezas, hacindolos disponibles en Internet.Stiller
descubri un caso en que exista un mate forzado, pero requiere 262 movimientos esto
caus cierta consternacin debido a que las reglas del ajedrez requieren una captura o
movimiento de un pen a ocurrir dentro de 50 movimientos. Estudios posteriores de Marc
Bourzutschky y Yakov Konoval (Bourzutschky, 2006) resuelve todos pawnless de seis
piezas y algunos finales de siete piezas hay un juego final que KQNKRBN con el mejor
juegorequiere517semuevehastaunacaptura,queasuvezconduceauncompaero
Sipudiramosextenderlastablasdefinalesdeajedrezpartirde6unidadesde32,
entonceslasblancassabraenelmovimientodeaperturasiserauntriunfo,prdida,o
dibujar.Estonohaocurridohastaelmomentoparaelajedrez,perohaocurridoparadamas,
comoseexplicaenlaseccindenotashistrica.
5.5juegosestocsticos:
Aunque Blanca sabe lo que sus movimientos orher ownlegal son, Blanco no sabe qu
Negro va a rodar y por lo tanto no saben culessern lasnegrasmovimientoslegales.Eso
significa que las blancas no pueden construir un rboldejuegoestndardeltipoquevimos
en el ajedrez y el tictacdedo del pie. Un rbol dejuegoenchaquetedebeincluirnodosde
probabilidad, adems de los nodos MAX y MIN. nodos de probabilidad se muestran como
crculos en laFigura5.11.Lasramasprincipalesdecadanododeazardenotanlasposibles
tiradas de dadoscadaramaseetiquetaconelrodilloysuprobabilidad.Hay36manerasde
rodar dos dados, cada eQuallyprobableperodebidoaqueun65eselmismoqueun56,
slo hay 21 rodillos distintos. Los seis dobles (11 a 66) tienen cada uno una probabilidad
de 1/36, por lo que dicen P (11) = 1/36. Los otros 15 rollos distintos cada uno tiene una
probabilidadde1/18.
AunqueBlancasabeloquesusmovimientosorherownlegalson,Blanconosabequ
Negrovaarodaryporlotantonosabenculessernlasnegrasmovimientoslegales.Eso
significaquelasblancasnopuedenconstruirunrboldejuegoestndardeltipoquevimos
enelajedrezyeltictacdedodelpie.Unrboldejuegoenchaquetedebeincluirnodosde
probabilidad,ademsdelosnodosMAXyMIN.nodosdeprobabilidadsemuestrancomo
crculosenlaFigura5.11.Lasramasprincipalesdecadanododeazardenotanlasposibles
tiradasdedadoscadaramaseetiquetaconelrodilloysuprobabilidad.Hay36manerasde
rodardosdados,cadaeQuallyprobableperodebidoaqueun65eselmismoqueun56,
slohay21rodillosdistintos.Losseisdobles(11a66)tienencadaunounaprobabilidad
de1/36,porloquedicenP(11)=1/36.Losotros15rollosdistintoscadaunotieneuna
probabilidadde1/18.
donderrepresentaunposiblelanzamientodedados(uotrosucesofortuito)yresultado(s,
r)eselmismoestadoques,conelhechoadicionaldequeelresultadodelatiradaesr.
5.5.1Funcionesdeevaluacinparalosjuegosdeazar
Aligualqueconminimax,laaproximacinobvioparahacerconesperarminimaxescortar
labsquedafueraenalgnmomentoyaplicarunafuncindeevaluacinparacadahoja.
Unopodrapensarquelasfuncionesdeevaluacinparajuegoscomoelbackgammon
debensercomolasfuncionesdeevaluacinparaelajedrezqueslohayquedaruna
puntuacinmsaltaamejoresposiciones.Pero,dehecho,lapresenciadenodosde
probabilidadsignificaqueunotienequetenermscuidadoconloquesignificanlosvalores
deevaluacin.LaFigura5.12muestraloquesucede:conunafuncindeevaluacinque
asignalosvalores[1,2,3,4]paralashojas,moverA1esmejorconlosvalores[1,20,30,
400],movera2esmejor.Porlotanto,elprogramasecomportadeformatotalmente
diferentesihacemosuncambioenlaescaladealgunosvaloresdeevaluacin!Resultaque
paraevitarestasensibilidad,lafuncindeevaluacindebeserunatransformacinlineal
positivadelaprobabilidaddeganardeunaposicin(o,msgeneralmente,delautilidad
esperadadelaposicin).Estaesunapropiedadimportanteygeneraldelassituacionesen
lasqueparticipalaincertidumbre,ylodiscutimosenelcaptulo16.
Sielprogramasabadeantemanotodaslastiradasdedadosqueseproduciranporel
restodeljuego,resolviendounjuegocondadosseraigualquelasolucindeunjuegosin
dados,queMinimaxhaceenO(bm)tiempo,dondebeslaramificacinfactoresymesla
profundidadmximadelrboldejuego.Debidoexpectiminimaxtambinestconsiderando
todaslasposiblessecuenciasdelosdadoseneventos,quetomarO(bmnm),dondeesel
nmeroderollosdistintos.Inclusosilaprofundidaddelabsquedaselimitaaunapequea
profundidadd,elcosteadicionalencomparacinconladeMinimaxhacepocorealista
considerarqueanticipamuylejosenlamayoradelosjuegosdeazar.Enelbackgammonn
es21ybesgeneralmentealrededorde20,peroenalgunassituacionespuedesertanalta
como4000paratiradasdedadosquesondobles.Trescapasesprobablementetodoloque
podasoportar.Otraformadepensarenelproblemaeselsiguiente:laventajadealfabeta
esquenotieneencuentalaevolucinfuturaquesimplementenovanasuceder,dadala
mejorobra.Porlotanto,seconcentraenlossucesosprobables.Enlosjuegoscondados,
nohaysecuenciasdemovimientosposibles,porqueparaesosmovimientosquetienen
lugar,losdadosestaranprimeratienequesalirdelamaneracorrectaparaquesean
legales.Esteesunproblemageneralcadavezqueentraenelcuadrodeincertidumbre:las
posibilidadessemultiplicanenormemente,ylaformacindelosplanesdeaccindetallados
seconvierteenintil,porqueelmundoprobablementenosereljuego.Puedehaber
ocurridoquealgoascomolapodaalfabetapodraaplicarse
5.6JUEGOSPARCIALMENTEOBSERVABLES
Ajedrez menudo se ha descrito como la guerra en miniatura, pero carece de al menos una
de las principales caractersticas de las guerras reales, es decir, observabilidad parcial. En
la "niebla de guerra", la existencia y disposicin de las unidades enemigas es a menudo
desconocida hasta que se produce el contacto directo. Comoresultado,laguerraincluyeel
uso de exploradores y espas para reunir informacin y el uso de ocultacinyunfarol para
confundir al enemigo. juegos parcialmente observables comparten estas caractersticas y
por tanto son cualitativamente diferentes de los juegos que se describen en las secciones
anteriores.
5.6.1Kriegspiel:ajedrezparcialmenteobservable
En los juegos parcialmente observables deterministas, la incertidumbre sobre el estado de
la junta corresponda en su totalidad por la falta de acceso a las decisiones tomadas por el
oponente. Esta clase incluye juegos infantiles como acorazados (donde losbarcosdecada
jugador se colocan en lugares ocultos del oponente,peronosemueven)yStratego(donde
se conocen las ubicaciones pieza sino tipos de piezas estn ocultos juego de guerra).
Vamos a examinar el juego de juego de guerra, una variante parcialmente observable de
ajedrez en el que las piezas se mueven pero son completamente invisibles para el
oponente.
Las reglas de juego de guerra son los siguientes: Blanco y Negro cada uno ver una tabla
que contiene slo sus propias piezas. Un rbitro, que puede ver todas las piezas, adjudica
el juego y hace peridicamente anuncios que se escuchan por ambos jugadores. En su
turno, Blanco propone al rbitro cualquier movimiento que sea legal, si no hay piezas
negras. Si el movimiento es, de hecho, no es legal (debido a las piezas negras), el rbitro
anuncia "ilegal". En este caso, blanco puede seguir proponiendo mueve hasta que se
Kriegspiel puede parecer terriblemente imposible, pero los seres humanos manejarlo
bastante bien y los programas de ordenador estn empezando a ponerse al da. Ayuda a
recuperar la nocin de un estado de creencia como se define en la Seccin 4.4 eilustrado
en la Figura 4.14el conjunto de todos los posibles estados de mesa lgicamente dada la
historia completa de las percepciones hasta la fecha. Inicialmente, el estado creencia de
White es un producto nico porque las piezas negras no han movido todava. Despus de
White hace un movimiento y Negro responde, estado creencia de blanco contiene 20
posiciones debido Negro tiene 20 respuestas a cualquier movimiento blanco. Hacer un
seguimiento delestadocreenciadequeeljuegoprogresaesexactamenteelproblemadela
estimacin de estado, para lo cual se le da el paso delaactualizacinenlaecuacin(4.6).
Podemos trazar la estimacin del estado Kriegspiel directamente sobre el marco
parcialmente observable, no determinista de la Seccin 4.4 si tenemos en cuenta que el
oponente como la fuente de determinismo es decir, los resultados de la jugada de las
blancas se componen de los resultados (predecible)delpropiomovimientodelasblancasy
elresultadoimpredecibledadaporlarespuestadeNegro
Teniendo en cuenta el estado actual creencia, blanco puede preguntar: "Puedo ganar el
juego" Para un juego parcialmente observable, la nocin de una estrategia se altera en
lugar de especificar un movimiento de hacer para cada posible movimiento del oponente
podra hacer, necesitamos un movimiento para cada posible secuencia de percepciones
que podran ser recibido. Para Kriegspiel, una estrategia ganadora, o jaque mate
garantizada, es unoque,paracadaposiblesecuenciadepercepciones,conduceaunjaque
mate real para cada posible estado del tablero en el estado actual creencia,
independientementedecmoeloponente semueve.Conestadefinicin,elestadocreencia
rival es irrelevante laestrategia tienequetrabajarinclusosieloponentepuedevertodaslas
piezas. Esto simplifica enormemente el clculo. La Figura 5.13 muestra parte de un jaque
mate garantizada para el KRK (rey y torre contra rey) final del juego. En este caso, Negro
tiene slo una pieza (el rey), por lo que un estado de creencia para las blancas sepueden
mostrarenunasolatarjeta,marcandocadaposibleposicindelreyNegro.
Adems de jaque mate garantizados, Kriegspiel admite un concepto totalmente nuevo que
no tiene sentido en los juegos totalmente observables: jaque mate probabilstico. Tales
jaque mate todava estn obligados a trabajar en todos los estados bordo en el estado de
creencias que son probabilsticas conrespectoalaasignacinalazardeganardeljugador
se mueve. Para obtener la idea bsica, tenga en cuenta el problema de encontrar un rey
negro solitario utilizando slo el rey blanco. Simplemente moviendo al azar, el rey blanco
finalmente chocar contra el rey negro, incluso si ste intenta evitar este destino, ya que
Negro nopuedeseguiradivinandolos movimientosevasivosderechaindefinidamente.Enla
terminologa de la teora de la probabilidad,ladeteccinocurreconprobabilidad1.Eljuego
finalKBNKrey,obispo
Figura5.13PartedeunjaquemategarantizadaenelfinalKRK,quesemuestraenuna
tablareducida.Enelestadocreenciainicial,reydeNegroseencuentraenunodelostres
posiblesubicaciones.Porunacombinacindemovimientosconpalpador,laestrategiase
reduceestoauno.Lafinalizacindeljaquematesedejacomoejercicio.
y caballo contra reyse gan en este sentido Blanco Negro presenta con una secuencia
aleatoria infinita de opciones, para uno de los cualesNegrovaaadivinarincorrectamentey
revelar su posicin, lo que lleva a un jaque mate. El final KBBK, por el contrario, se gana
con probabilidad 1
.white puede forzar una victoria solamente por dejar uno de sus
obispos no protegidos por un movimiento. Si Negro pasa a estar en el lugar correcto y
captura del obispo (un movimiento queperdersilosobisposestnprotegidos),lapartidaes
tablas. El blanco
puede optarporhacerelmovimientoarriesgadoenalgnpuntoelegido
al azar en medio de una secuencia muy larga, lo que reduce a una constante arbitraria
pequea,peronosepuedereducir
acero.
Es muy raro que un jaque mate garantizado o probabilstico se puede encontrar dentro de
cualquier profundidad razonable, excepto en elfinaldeljuego.A vecesunaestrategiajaque
mate funcionaparaalgunosdelosestadosdemesaenelestadoactualcreenciaperonoen
otros. Tratando esta estrategia puede tener xito, dando lugar a un jaque mateaccidental
en el sentido de que Blanca no poda saber que sera jaque mate, si las piezas negras
resultan ser en los lugares correctos accidental. (La mayora de jaque mate en los juegos
entre los seres humanos son de esta naturaleza accidental.) Esta idea conduce
naturalmente a la cuestin de qu tan probable es que una determinada estrategia va a
ganar, lo que conduce a su vez a la cuestin de qu tan probable es que cada estado del
tablerodeelestadoactualcreenciaeselverdaderoestadodeltablero.
Uno de primera inclinacin podra ser la de proponer que todos los estados de mesa en el
estado actual creencia son igualmente probables, pero esto no puede estar bien.
Consideremos, por ejemplo, la creencia de estadoblancadespusdelaprimerajugadadel
juego de Negro. Por definicin (suponiendo que juega de manera ptima Negro), Negro
debe haber jugado un movimientoptimo,porloquetodoslosestadosdemesa resultantes
de movimientos ptimos debe ser asignado probabilidad cero. Este argumento no es del
todo bien tampoco, porque el objetivo de cada jugador no es slo para mover las piezas a
las casillas correctas, sino tambin para reducir al mnimo la informacin que el oponente
tiene acerca de su ubicacin. Jugar cualquier estrategia predecible "ptima" proporciona al
oponente con la informacin. Por lo tanto, el juego ptimo en juegos parcialmente
observables requiere estar dispuesto a jugar un poco al azar. (Esta es la razn por
inspectores de higiene restaurante hacen visitas de inspeccin al azar.) Esto significa que
de vez en cuando la seleccin de movimientos que pueden parecer "intrnseca" dbil,pero
que adquieren la fuerza de su muy impredecible, debido a que el oponente es poco
probablequehanpreparadoningunadefensacontraellos.
Apartirdeestasconsideraciones,parecequelasprobabilidadesasociadasalosestadosde
mesa en el estado actual creencia slo es posible elaborar una estrategia dio aleatorizado
ptima a su vez, el clculo deesa estrategiaparecerequerirconocerlasprobabilidadesde
los distintos estados de la junta podra estar en. Este dilemasepuederesolvermediantela
adopcin de la nocin teoriadejuegos deunasolucindeequilibrio,lo queperseguimosen
el captulo 17. Un equilibrio especifica una ptima estrategia aleatorio para cada jugador.
equilibrios Computing es prohibitivamente caro, sin embargo, incluso para los pequeos
juegos, y est fuera de la cuestinparaKriegspiel.Enlaactualidad,eldiseodealgoritmos
eficaces parael juegoKriegspielgeneralesuntemadeinvestigacinabierto.Lamayorade
los sistemas de bsqueda hacia delante realizan acotada a fondo en su propio espacio
estadocreencia,haciendocasoomisodelestadocreenciarival.Funciones deevaluacinse
parecen a los del juego observable pero incluyen un componente para el tamao de la
creenciadeestadomspequeoesmejor!
5.6.2Losjuegosdecartas
Los juegos de cartas proporcionan muchos ejemplos de observabilidad parcial estocstico,
donde se genera lainformacinquefaltaalazar.Porejemplo,enmuchosjuegos,lascartas
se reparten alazaralcomienzodeljuego,ycadajugadorrecibe unamanoquenoesvisible
yers. Estos juegos incluyen puente, whist, corazones, y algunas formas de pquer. A
primera vista, podra parecer que estos juegos de cartas son como juegos de dados: las
cartas se reparten alazarydeterminarlosmovimientosdisponiblesparacadajugador,pero
todos los "dados" se rod en el comienzo! A pesar de que esta analoga resulta ser
incorrecta,sugiereunalgoritmoefectivo:considerartodaslasposiblesofertasde lastarjetas
invisibles resolver cada uno como si fuera un juego totalmente observables y luego elegir
el movimiento que tiene el mejor resultado como media de todas las ofertas. Supongamos
quecadarepartosocurreconprobabilidadP(s)entonceselmovimientoquequeremoses
(Ntese que P (s) no aparece explcitamente en la suma, debido a que las muestras yase
dibujan de acuerdo a P(s).) AmedidaqueNaumentadetamao,lasumasobrelamuestra
aleatoria tiende al valor exacto, pero incluso para bastante pequea Ndecir, 100a1000el
mtodo da una buena aproximacin. Tambin puede ser aplicado a juegos deterministas
comoKriegspiel,dadoalgunaestimacinrazonabledeP(s).
Para juegos como el whist y los corazones, donde no hay una oferta o de la fase de
apuestas antes de que comience el juego,cadaoperacinserlamismaprobabilidadypor
lo tantolosvaloresdeP(s)sontodosiguales.Parael puente,eljuegoesprecedida poruna
fase de licitacin en el que cadaequipoindicacuntostrucosqueesperaganar. Yaquelos
jugadores oferta en funcin de las cartas que tienen, los otros jugadores a aprender ms
acerca de la probabilidad de cada oferta. Teniendo esto en cuenta para decidir cmojugar
la mano es difcil, por las razones mencionadas en la descripcin del juego de guerra: los
jugadores pueden hacer una oferta de tal manera que se minimice la informacin
transmitida a sus oponentes. An as, el mtodo es muy eficaz para el puente, como se
muestraenlaSeccin5.7.
Ahora podemos ver cmo un promedio de ms videncia falla: no tiene en cuenta el estado
creencia de que el agente ser despus de la actuacin. Un estado de la creencia de la
ignorancia total no es deseable, especialmente cuando una de las posibilidades es la
muerte segura. Porque se supone que cada estado futuro ser automticamente una de
conocimiento perfecto, el enfoque no selecciona las acciones que recopilan informacin
(como el primer paso en la Figura 5.13) ni va a elegir las acciones que se esconden
informacin del oponente o proporcionan informacin a un compaero porque se supone
que ellos ya conocen la informacin ynuncaserunfarolenelpquer,4ASCOporquese
supone que el oponente puede ver suscartas.Enelcaptulo17,semuestracmoconstruir
algoritmos que hacentodasestascosas,en virtuddelaresolucindelproblema dedecisin
verdaderaparcialmenteobservable.
5.7EstadodelosProgramasdeArtedeljuego:
RYBKA,ganadordelCampeonatodeajedrezdeordenadorMundode2008y2009,se
consideraqueeljugadoractualdelequipomsfuerte.Seutilizaunofftheshelfde8
ncleosa3,2GHzprocesadorIntelXeon,perosesabepocosobreeldiseodelprograma.
LaprincipalventajadeRYBKAparecesersufuncindeevaluacin,quehasidopuestoa
puntoporsuprincipalpromotor,elMaestroInternacionalVasikRajlich,yalmenosotrostres
grandesmaestros.Lospartidosmsrecientessugierenquelosprogramasdeajedrezde
ordenadorsuperioressehanretiradopordelantedetodosloscontendienteshumanos.(Ver
lasnotashistricasparamsdetalles.)Damas:JonathanSchaefferysuscolegas
desarrollaronChinook,queseejecutaenlosordenadoresregularesyutilizalabsqueda
alfabeta.Chinookderrotalcampenhumanodelargaduracinenunmatchin1990
abreviada,andsince2007CHINOOKhasbeenabletoplaybyusingperfectamentebsqueda
alfabetacombinadoconunabasededatosde39billonesdeposicionesdefinales.Otelo,
tambinllamadoReversi,esprobablementemspopularcomounjuegodeordenadorque
comounjuegodemesa.Cuentaconunespaciodebsquedamspequeoqueelajedrez,
porlogeneralde5a15movimientoslegales,perolaexperienciadeevaluacintuvoque
serdesarrolladodesdecero.En1997,elprogramaLogistello(Buro,2002)derrot
thehumanworldchampion,TakeshiMurakami,bysixgamestonone.Itisgenerallyreconoci
quelossereshumanosnopuedencompetirconlosordenadoresenOtelo.Backgammon:
Seccin5.5explicalaraznporlainclusindelaincertidumbredelastiradasdedados
hacequelabsquedadeprofundidadunlujocaro.Lamayoradeltrabajoenel
backgammonhaentradoenlamejoradelafuncindeevaluacin.GerryTesauro(1992)el
aprendizajeconredesneuronalesparadesarrollarunevaluadornotablementeexactoque
seutilizaconunabsquedaenprofundidadde2o3.Despusdejugarmsdeunmillnde
juegosdeentrenamientocontrasrefuerzocombinado,elprogramadelTesauro,
TDGammon,escompetitivoconlosmejoresjugadoreshumanos.Losdictmenesdel
programasobrelosmovimientosdeaperturadeljuegoenalgunoscasoshanalterado
radicalmentelasabidurarecibida.GoeseljuegodemesamspopularenAsia.Debidoa
queeltableroesde1919ysemueveestnpermitidosen(casi)todaslasplazasvacas,
elfactorderamificacincomienzaen361,queesdemasiadodesalentadorparalos
mtodosdebsquedaalfabetaregulares.Adems,esdifcilescribirunafuncinde
evaluacin,porqueelcontroldelterritorioesamenudomuyimpredeciblehastaelfinaldel
juego.Porlotantolosmejoresprogramas,comoMOGO,evitanlabsquedaalfabetayen
sulugarutilizanMonteCarlorollouts.Thetrickistodecidewhatmovestomakeinthecourse
Ofthedespliegue.estaespodaagresivatodoslosmovimientossonposibles.Elmtodo
UCT(confianzalmitessuperioresdelosrboles)actahaciendoquemuevealazarenel
primerpocasiteraciones,yconeltiempolaorientacindelprocesodemuestreoapreferir
losmovimientosquehanllevadoavictoriasenlasmuestrasanteriores.seaadenalgunos
trucos,incluidaslasnormasbasadasenelconocimientoquesugierenparticularesmueve
cadavezquesedetectaunpatrndeterminadoylimitadodebsquedalocalparadecidir
cuestionestcticas.Algunosprogramastambinincluyentcnicasespecialesdelateora
dejuegosparaanalizarlosfinalescombinatoria.Estastcnicassedescomponenuna
posicinensubposicionesquesepuedenanalizarporseparadoyluegocombinado
(BerlekampyWolfe,1994Mller,2003).Lassolucionesptimasobtenidasdeestamanera
hansorprendidoamuchosjugadoresprofesionales,quepensabanquehabanestado
jugandodemaneraptimatodoeltiempo.Vanlosprogramasactualesjuegananivelde
maestraenunareduccindeplaca99,peroanseencuentranenelnivelaficionado
avanzadoenuntablerocompleto.Bridgeesunjuegodecartasdeinformacinimperfecta:
cartasdeunjugadorestnocultosalosotrosjugadores.Puenteestambinunjuegode
variosjugadoresconcuatroenlugardedos,aunqueellosjugadoresestnemparejadosen
dosequipos.Aligualqueenlaseccin5.6,unjuegoptimoenlarecogidaparcialmente
observablegameslikebridgecanincludeelementsofinformation,comunicacin,andcareful
ponderacindeprobabilidades.MuchasdeestastcnicasseutilizanenelprogramaBridge
Baron(Smithetal.,1998),queganelcampeonatodelpuenteequipode1997.Apesarde
quenojuegademaneraptima,BridgeBaronesunodelospocossistemasdejuegode
papelesexitososparautilizarplanescomplejos,jerrquicos(vaseelCaptulo11)que
implicanlasideasdealtonivel,comoelfinessingandapretando,quesonfamiliaresparalos
jugadoresdepuente.ElprogramaGIB(Ginsberg,1999)ganelcampeonato2000del
puenteequipobastantedecisivamedianteelmtododeMonteCarlo.Desdeentonces,
otrosprogramasganadoreshanseguidoelejemplodeGIB.innovacinimportantedelGIB
estutilizandolageneralizacinbasadaenlaexplicacinparacalcularyalmacenaren
cachlasnormasgeneralesdejuegoptimoendiversasclasesestndardesituacionesen
lugardeevaluarcadasituacinindividual.Porejemplo,enunasituacinenlaqueun
jugadortienelascartasAKQJ432delmismopaloyotrojugadortiene1098765,hay7
6=42manerasdequeelprimerjugadorpuedeconducirapartirdeesejuegoyel
segundojugadorpuedeseguir.PeroGIBtrataestassituacionestanslodos:elprimer
jugadorpuedellevarunatarjetadealtaobajaunatarjetalascartasjugadasexactasno
importan.Conestaoptimizacin(yalgunosotros),GIBpuederesolverun52cartas,trato
totalmenteobservableexactamenteenaproximadamenteunsegundo.exactitudtcticadel
GIBcompensasuincapacidadpararazonaracercadelainformacin.Tuvoa12terminado
enuncampode35enelconcursodelaaltura(queimplicaslojugardelamano,nohacer
unaoferta)enelcampeonatodelmundodeloshumanos1998,superandoconcreceslas
expectativasdemuchosexpertoshumanos.HayvariasrazonesporlasGIBjuegaanivelde
expertosconlasimulacindeMonteCarlo,mientrasquelosprogramasKriegspielnolo
hacen.Enprimerlugar,laevaluacindelGIBdelaversincompletamenteobservabledel
juegoesexacta,buscandoenelrboldejuegocompleto,mientrasquelosprogramasse
basanenmtodosheursticosKriegspielinexactas.Peromuchomsimportanteeselhecho
dequeenelpuente,lamayorpartedelaincertidumbreenlainformacinparcialmente
observableprovienedelaaleatoriedaddelaoferta,nodesdeeljuegocontradictoriodel
oponente.simulacindeMonteCarloseencargadealeatoriedadbien,peronosiempre
manejarestrategiabien,sobretodocuandolaestrategiaconsisteenelvalordela
informacin.Scrabble:LamayoradelagentepiensaquelapartedifcildeScrabbleesdar
conbuenaspalabras,perodadaladeldiccionariooficial,queresultasermsfcilde
programarungeneradordemovimientoparahallarelmsanotadormovimiento(Gordon,
1994).Esonosignificaqueeljuegoseresuelve,sinembargo:simplementetomandoel
movimientomsaltacalificacincadavezsetraduceenunjugadorbueno,peronoexperto.
ElproblemaesqueelScrabbleesalavezparcialmenteobservableyestocstico:ustedno
sabeloquelascartasdelotrojugadorolohaletrasqueatraersiguiente.Asjugando
Scrabbletambincombinalasdificultadesdebackgammonypuente.Sinembargo,en
2006,elprogramaQUACKLEvencialexcampendelmundo,DavidBoys,32.
5.8Enfoquesalternativos:
Debidoaqueelclculodelasdecisionesptimasenlosjuegosesintratableenla
mayoradeloscasos,todoslosalgoritmosdebenhaceralgunassuposicionesy
aproximaciones.Elenfoqueestndar,basadoenMinimax,lasfuncionesdeevaluacin,y
alfabeta,esslounamaneradehaceresto.Probablementedebidoaquetiene
hatrabajadodurantetantotiempo,elenfoqueestndardominaotrosmtodosenlos
torneos.Algunoscreenqueestohacausadoquejuegaaljuegoparaconvertirseen
separarsedelacorrienteprincipaldelainvestigacinenIA:elenfoqueestndaryano
ofrecemuchoespacioparaunanuevacomprensindelascuestionesgeneralesdelatoma
dedecisiones.Enestaseccin,nosfijamosenlasalternativas.Enprimerlugar,
consideremosMinimaxheurstico.Seseleccionaunmovimientoptimoenunrbolde
bsquedadadalacondicindequelasevaluacionesdenodoshojasonexactamente
correcto.Enrealidad,lasevaluacionessongeneralmenteestimacionesdecrudodelvalor
deunaposicinysepuedeconsiderarquetienengrandeserroresasociadosconellos.La
Figura5.14muestraunrboldejuegodedoscapasparaelqueMinimaxsugieretomarla
ramadeladerechayaqueel100>99.Esaesladecisincorrectasilasevaluacionesson
loscorrectos.Pero,porsupuesto,lafuncindeevaluacinessloaproximada.
Supongamosquelaevaluacindecadanodotieneunerrorqueesindependientedeotros
nodosysedistribuyealazarconmediaceroydesviacinestndarde.Luego,cuando=
5,laramadelaizquierdaesenrealidadmejor71%deltiempo,yel58%delasveces
cuando=2.Laintuicindetrsdeestoesquelaramadeladerechatienecuatronodos
queestncercade99siunerrorenlaevaluacindecualquieradeloscuatrohacequeel
deslizamientoramadeladerechapordebajode99,entonceslaramaizquierdaesmejor.
Enrealidad,lascircunstanciassonenrealidadpeorqueesto,porqueelerrorenlafuncin
deevaluacinisnotindependiente.Siobtenemosunnodomal,haymuchasposibilidadesde
quecercadelosnodosenelrboltambinserincorrecta.Elhechodequeelnodo
etiquetado99tienehermanosetiquetada1000sugierequedehecho,podratenerunvalor
superiorverdadera.Podemosutilizarunafuncindeevaluacinquedevuelveuna
distribucindeprobabilidadsobrelosposiblesvalores,peroesdifcildecombinarestas
distribucionescorrectamente,porquenovamosatenerunbuenmodelodelas
dependenciasmuyfuertesqueexisteentrelosvaloresdeloshermanosnodosA
continuacin,considerarelalgoritmodebsquedaquegeneraelrbol.Elobjetivodel
algoritmodeundiseadoresespecificarunclculoqueseejecutadeformarpiday
produceunbuenmovimiento.Elalgoritmoalfabetaestdiseadanosloparaseleccionar
unbuenmovimiento,sinotambinparacalcularloslmitesdelosvaloresdetodoslos
movimientoslegales.Paraverporquestainformacinadicionalnoesnecesaria,
considereunaposicinenlaqueslohayunmovimientolegal.bsquedaalfabetatodava
vaageneraryevaluarungranrboldebsqueda,nosestdiciendoqueelnico
movimientoeselmejormovimientoyasignndoleunvalor.Peroyaquetenemosquehacer
elmovimientodetodosmodos,sabiendoelvalordelamedidaesintil.Delmismomodo,si
lahay,obviamente,buenmovimientoyvariosmovimientosquesonlegales,peroconducen
toalaprdidarpida,nosnoquerraalfabetaqueperdereltiempoparadeterminarunvalor
precisoforthesolitariobuenmovimiento.Mejorsimplementehacerelcambiodeforma
rpidayahorrareltiempoparamsadelante.Estoconducealaideadelautilidaddeuna
expansinnodo.Unbuenalgoritmodebsquedadeberseleccionarexpansionesnodode
granutilidad,esdecir,losquesonpropensosaconduciraldescubrimientodeun
significativamentemejormovimiento.Sinohayexpansionesdenodocuyautilidadesmayor
quesucoste(entrminosdetiempo),entonceselalgoritmodebedetenerlabsqueday
hacerunmovimiento.Observequeestofuncionanosloparasituacionesclarasfavorito,
perotambinparaelcasodemovimientossimtricos,paraelquenohaycantidadde
bsquedamostrarqueunmovimientoesmejorqueotro.Estetipoderazonamientoacerca
deloquehacerclculossellamametareasoning(REAenvenenamiensobreel
razonamiento).Seaplicanosloaljuegojugandosinoacualquiertipoderazonamientoen
absoluto.Todoslosclculosserealizanenelserviciodetratardellegaramejores
decisiones,todostienencostos,ytodostienenciertaprobabilidadderesultarenunacierta
mejoraenlacalidaddeladecisin.Alfabetaincorporaeltipomssimplede
metareasoning,asaber,unteoremaenelsentidodequeciertasramasdelrbolpueden
serignoradossinprdida.Esposiblehacermuchomejor.Enelcaptulo16,vemoscmo
estasideassepuedenhacerprecisayaplicable.Porltimo,vamosareexaminarla
naturalezadelapropiabsqueda.Algoritmosparalabsquedaheursticayparajugaral
juegogeneransecuenciasdeestadosconcretos,apartirdelestadoinicialyluegola
aplicacindeunafuncindeevaluacin.Claramente,estonoescmolossereshumanos
jueganjuegos.Enelajedrez,amenudosetieneaparticularobjetivoenmentequeen
porejemplo,atrapandodetheopponentypuedeutilizaresteobjetivoparagenerar
selectivamenteplanesplausiblesparalograrlo.Estetipoderazonamientoodeplanificacin
dirigidoaunobjetivoaveceseliminaporcompletolabsquedacombinatoria.DavidWilkins
(1980)Elparasoeselnicoprogramaquehausadoelrazonamientodirigidoaunobjetivo
conxitoenelajedrez:eracapazderesolveralgunosproblemasdeajedrezquerequieren
unacombinacinde18movimientos.Hastaelmomentonohayunabuenacomprensinde
cmocombinarlosdostiposdealgoritmosenunsistemadeficienterobustoyEF,aunque
BridgeBaronpodraserunpasoenladireccincorrecta.Unsistematotalmenteintegrado
seraunlogrosignificativonosloparalainvestigacinJuegodepapeles,sinotambin
paralainvestigacinenIAengeneral,yaqueseraunabuenabaseparaunagente
inteligentegeneral.