Você está na página 1de 180

FUNDAO UNIVERSIDADE FEDERAL DE RONDNIA

NUCLEO DE CINCIA E TECNOLOGIA


DEPARTAMENTO DE INFORMATICA
ALISSON DINI GOMES
A INTELIGNCIA ARTIFICIAL EM JOGOS ELETRNICOS DE ESTRATEGIA EM
TEMPO REAL: UM ESTUDO DA IMPLEMENTAO DE AGENTES COGNITIVOS
COM A CAPACIDADE DE APRENDIZAGEM
PORTO VELHO
2010
FUNDAO UNIVERSIDADE FEDERAL DE RONDNIA
NUCLEO DE CINCIA E TECNOLOGIA
DEPARTAMENTO DE INFORMATICA
A INTELIGNCIA ARTIFICIAL EM JOGOS ELETRNICOS DE ESTRATEGIA EM
TEMPO REAL: UM ESTUDO DA IMPLEMENTAO DE AGENTES COGNITIVOS
COM A CAPACIDADE DE APRENDIZAGEM
ALISSON DINI GOMES
Orientadora: Darlene Figueiredo Borges Coelho, D. Sc.
MonograIia submetida a Fundao Universidade
Federal de Rondnia como requisito parcial a
obteno do titulo de Licenciatura/Bacharel em
InIormatica.
PORTO VELHO
2010
FICHA CATALOGRFICA
BIBLIOTECA PROF. ROBERTO DUARTE PIRES
Bibliotecria Responsvel: Ozelina Saldanha CRB11/947

Gomes, lisson Dini
G6331i
A inteligncia artificial em jogos eletrnicos de estratgia em tempo real:
um estudo da implementao de agentes cognitivos com a capacidade de
aprendizagem / lisson Dini Gomes. Porto Velho, Rondnia, 2010.
178f.: il.
Trabalho de Concluso de Curso (Graduao em nformtica) Fundao
Universidade Federal de Rondnia / UNR.
Orientadora: Prof. Dr. Darlene Figueiredo Borges Coelho.
1. nteligncia artificial 2. Estratgia em tempo real 3. Aprendizagem 4.
Agentes cognitivos e evolutivos . Coelho, Darlene Figueiredo Borges . Ttulo.
CDU: 004.8
iii
LISSON DINI GOMES
A INTELIGNCIA ARTIFICIAL EM JOGOS ELETRNICOS DE ESTRATEGIA EM
TEMPO REAL: UM ESTUDO DA IMPLEMENTAO DE AGENTES COGNITIVOS
COM A CAPACIDADE DE APRENDIZAGEM
MONOGRAFIA SUBMETIDA AO CORPO DOCENTE DO CURSO DE BACHARELADO
E LICENCIATURA EM INFORMATICA DA FUNDAO UNIVERSIDADE FEDERAL
DE RONDNIA COMO PARTE DOS REQUISITOS NECESSARIOS PARA OBTENO
DO GRAU DE LICENCIATURA/BACHARELADO EM INFORMATICA
Aprovada por

ProI. Darlene Figueiredo Borges Coelho, D. Sc.


(orientadora)

ProI. Liliane da Silva Jacon, M. Sc.

ProI. Silvia Rissino, D. Sc.


PORTO VELHO
2010
iv
Dedicatria
A concluso deste trabalho representa um marco
no processo de superao pelo qual tenho passado
nos ultimos dois anos, superao essa que tem se
dado desde o aspecto acadmico-proIissional de
minha vida at o aspecto emocional, sendo que
neste em especiIico tenho ha um ano empenhado
uma das mais duras lutas de minha vida, da qual
estou saindo vitorioso. Assim, dedico este
trabalho a todos aqueles que acreditaram em
minha Iora quando ela Ioi posta a prova e a
todos aqueles que souberam reconhecer meus
mritos quando movi as montanhas que me
propus a mover.
v
Agradecimentos
Primeiramente, agradeo ao Grande Pai, com o qual me reconciliei recentemente,
embora me mantenha avesso as religies e igrejas, por considerar estas enquanto vendas para
a Conscincia Popular, isso quando no se conIiguram como ocorre em alguns casos
enquanto Iormas de extorquir o suado dinheiro do povo trabalhador.
Agradeo a minha Iamilia, por todo o apoio prestado nos momentos necessarios. Em
especial ao meu irmo Mauro, por sempre ter se mantido ao meu lado, me ajudando sempre
que precisei. Meu irmo, sem sua constante ajuda e disposio, eu diIicilmente teria trilhado
metade do caminho que trilhei at hoje. Obrigado.
A orientadora deste trabalho, proI. Darlene, por sempre ter se mostrado disposta a
me prover as luzes que guiaram este trabalho, se comportando com pleno compromisso com
sua misso de proIessora.
Aos amigos e companheiros de luta Filipe, Ricardo, Mara, Vinicius, Daniel, Marcio,
Marilsa, Valdeci, Valderi, Uilian, Renan, Keitty e Jota, pela compreenso que tm tido com a
situao que encaro atualmente. Em especial a Filipe pelos 6 anos de amizade e por ter sido
parte importante no processo que Iormou o que sou hoje a Marilsa e Marcio por sempre
terem acreditado em meus esIoros e pelas constantes palavras de apoio a Mara por estar
ao meu lado, apesar da distncia que nos separa, nos momentos mais diIiceis que passei nestes
ultimos tempos, a Daniel companheiro de luta, companheiro de estrada e companheiro de
heavy metal, pela grande pessoa que tem se mostrado a Ricardo que apesar das inumeras
discusses que tivemos nestes ultimos trs anos, um grande amigo, que estimo muito e a
Vinicius que apesar da relativa distncia que temos um do outro, uma pessoa que admiro e
respeito muito, e que acreditou em meus esIoros nos momentos de diIiculdade.
Aos colegas de trabalho Ivan, WalIrido, Jorge, Emerson, Lourdes e Alexandre
pela compreenso que tm tido com a minha condio de estudante.
Aos amigos Giovanni, Paula e Ariane, pelos momentos alegres que passamos juntos
nestes ultimos 3 anos. A Giovanni em especial, geograIo, amigo de haracore e Iuturo colega
de trabalho, pelas diversas vezes em que se prestou a dispor uma parte do seu tempo para me
aconselhar em relao a este trabalho nas questes relacionadas a sua Iormatao, alm de me
prover uma copia de sua tese de mestrado para me servir de reIerncia. A Ariane pela
disposio em me prover uma copia de sua monograIia para tambm me servir de orientao
vi
na elaborao deste trabalho
Agradeo, por Iim, a todos aqueles que, direta ou indiretamente, contribuiram para a
realizao deste trabalho.
vii
'E aivino quem obtem uma vitoria alteranao
suas taticas em conformiaaae com a situao ao
inimigo` (Sun T:u, A Arte aa Guerra)
viii
Resumo
Este trabalho tem como objetivo demonstrar a possibilidade de se construir agentes
inteligentes com a capacidade de adquirir esquemas de aprendizagem eIetiva em relao aos
seus oponentes, sendo inspirado por experincias do autor com o jogo brasileiro Outlive,
produzido pela empresa Continuum Entertainment, onde puderam ser observadas atitudes
adaptativas por partes dos seus agentes cognitivos. No entanto, estas atitudes se mantinham
apenas no mbito de uma unica partida, no se estendendo para as partidas posteriores aquela.
A partir disso, Ioi levantada a hipotese da possibilidade de construo dos agentes inteligentes
inicialmente propostos, sendo que nesta Iase da realizao deste trabalho os mesmos Ioram
denominados agentes cognitivos evolutivos. Com vistas a cumprir com o objetivo proposto,
Ioi realizada pesquisa bibliograIica a respeito do gnero de estratgia em tempo real,
buscando-se caracteriza-los e compara-los a gneros proximos; pesquisa bibliograIica a
respeito dos agentes inteligentes e da implementao das Iunes cognitivas de planejamento
e aprendizagem, buscando-se associar estas Iunes ao contexto dos jogos eletrnicos de
estratgia em tempo real; experimentos com o jogo Outlive com vistas a observar o
comportamento de seus agentes cognitivos de Iorma mais sistematica; e, por Iim, pesquisa
bibliograIica com vistas a veriIicar a existncia da possibilidade de construo dos agentes
cognitivos evolutivos. Ao Iim da pesquisa, pde-se observar que, de Iato, esta possibilidade
existe, sendo que ja existem tcnicas em discusso com vistas a implementar os reIeridos
agentes. Alm disso, pde-se observar que o aproIundamento das pesquisas na area
conveniente, uma vez que ainda no Ioi demonstrado se uma das tcnicas discutidas, o
algoritmo gentico, aplicavel ou no ao aprendizado online em jogos eletrnicos de
estratgia em tempo real.
Palavras-chave: Inteligncia ArtiIicial; estratgia em tempo real; agentes inteligentes;
planejamento; aprendizagem; Outlive; agente evolutivos; Dynamic Scripting; algoritmo
gentico.
ix
Abstract
This work has the objective oI demonstrating the possibility oI constructing intelligent agents
with the capability oI acquiring eIIective learning schemes to deal with their opponents, being
inspired by experiences oI the author with the Brazilian game Outlive, produced by the
soItware enterprise Continuum Entertainment, where could be observed adaptive attitudes in
its cognitive agents. However, these attitudes were kept only in the range oI one game, and
weren't kept to other games. Then was taken the hypothesis oI the possibility oI constructing
the intelligent agents initially proposed, and in this phase oI the realization oI this work they
were called the evolutionary cognitive agents. To IulIill the proposed objective, a
bibliographic research was realized about the game genre oI the real time strategy, trying to
describe them e compare them to close genres; the Iollowing activities were also realized:
bibliographic research about the intelligent agents and the implementation oI the cognitive
Iunctions oI planning and learning, trying to associate these Iunctions to the context oI the
real time strategy games; experiments with the game Outlive to observe the behavior oI its
cognitive agents more systematically; and, Iinally, bibliographic research to veriIy the
possibility oI construction oI the evolutionary cognitive agents. At the end oI the research,
could be observed that this possibility exists, and already exist techniques in discussion about
their implementation. Furthermore, could be observed that continuing this research is
interesting, because wasn't still demonstrated iI one oI the discussed techniques, the genetics
algorithm, is applicable or not to the online learning in real time strategy games.
Keywords: ArtiIicial Intelligence; real time strategy; intelligent agents; planning; learning;
Outlive; evolutionary agents; Dynamic Scripting; genetics algorithm.
x
LISTA DE ILUSTRAES
Ilustrao 1: Imagens de Her:og Zwei. Fonte: GERYK, s.d...................................................5
Ilustrao 2: Imagens de Dune II. Fonte: GERYK, s.d...........................................................6
Ilustrao 3: Imagens de Warcraft. Fonte: GERYK, s.d.........................................................7
Ilustrao 4: Imagem de Total Annihilation. Fonte: GERYK, s.d...........................................9
Ilustrao 5: Imagens de Starcraft. Fonte: GERYK, s.d.......................................................10
Ilustrao 6: Imagens de War:one 2100. Fonte: GERYK, s.d...............................................10
Ilustrao 7: Imagens do jogo Homeworla. Fonte: GERYK, s.d..........................................12
Ilustrao 8: Imagens de Age of Empires II. Fonte: GERYK, s.d.........................................12
Ilustrao 9: Esquema de representao da diviso dos agentes inteligentes em tipos
especiIicos........................................................................................................30
Ilustrao 10: Representao esquematica de um agente reativo simples. Adaptado de
(RUSSEL & NORVIG, 2004: p. 47)................................................................31
Ilustrao 11: Diagrama esquematico de um agente baseado em modelos. Adaptado de
(RUSSEL & NORVIG, 2004: p. 49)................................................................32
Ilustrao 12: Diagrama esquematica de um agente baseado em objetivos. Adaptado de
(RUSSEL & NORVIG, 2004: p. 50)................................................................33
Ilustrao 13: Diagrama esquematico de um agente baseado na utilidade. Adaptado de
(RUSSEL & NORVIG, 2004: p. 51)................................................................34
Ilustrao 14: Esquema geral de um planejamento de ordem parcial que envolve a
necessidade de destruio de multiplos inimigos por parte de um agente.......46
Ilustrao 15: Logotipo da Continuum Entertainment. Imagem extraida do jogo Outlive.....51
Ilustrao 16: Unidade robotica a esquerda e ser modiIicado geneticamente a direita. Imagem
extraida do jogo Outlive...................................................................................53
Ilustrao 17: A esquerda, Maxwell. A direita, Kaminski. Imagem extraida do jogo
Outlive..............................................................................................................53
Ilustrao 18: A esquerda, Morales. A direita, Mackenzie. Imagem extraida do jogo
Outlive..............................................................................................................54
Ilustrao 19: Carl Eberhardt. Imagem extraida do jogo Outlive...........................................55
Ilustrao 20: Acima, o aspecto de uma jazida de urnio. Abaixo, o aspecto de uma jazida de
Ierro. Imagem extraida do jogo Outlive........................................................56
Ilustrao 21: Exposio da estratgia utilizada pelo agente. A aglomerao destacada no
retngulo 1 consiste na aglomerao de cerca de 50 unidades areas do
jogador, enquanto que a aglomerao destacada no retngulo 2 indica uma
aglomerao de 9 incineradores e 9 tempestades. Pode-se observar que o
caminho esta completamente bloqueado. Desta Iorma, o agente utiliza a rota
indicada pela trajetoria vermelha a esquerda da imagem em :oom..................67
xi
LISTA DE QUADROS
Quadro 1: Trapaas possiveis no jogo Outlive.......................................................................61
Quadro 2: Distribuio dos agentes entre as raas no experimento VI..................................69
Quadro 3: Relao dos indices de Ireqncia de vitorias de cada tcnica implementada nos
experimentos realizados. Adaptado de (CROCOMO, 2008: p. 79)......................83
Quadro 4: VeriIicao da superioridade do Dynamic Scripting em relao ao algoritmo
gentico. Extraido de (CROCOMO, 2008: p. 81).................................................85
Quadro 5: VeriIicao da superioridade do algoritmo gentico em relao ao Dynamic
Scripting. Adaptado de (CROCOMO, 2008: p. 81)..............................................86
xii
LISTA DE EQUAES
Equao 1: Comparao do numero de vitorias obtidas por um determinado algoritmo com
o numero total de partidas disputadas por este contra algum outro algoritmo.
Adaptada de CROCOMO (2008: p 76).............................................................82
Equao 2: Comparao do numero de vitorias obtidas pelo algoritmo gentico com o
numero total de partidas disputadas contra por este contra algum oponente.
Extraida de CROCOMO (p. 76)........................................................................82
Equao 3: Erro amostral para a Ireqncia de vitorias de uma tcnica de implementao
de um agente cognitivo evolutivo em relao a outra.......................................83
Equao 4: Varincia amostral utilizada para o calculo do erro amostral apresentado na
equao 3...........................................................................................................84
Equao 5: Validao da superioridade de uma tcnica de implementao de agentes
cognitivos evolutivos em relao a outra..........................................................84
Equao 6: Relao alfa........................................................................................................90
Equao 7: Funo de aptido geral de um agente evolutivo quando este perde uma
partida................................................................................................................91
Equao 8: Funo de aptido geral de um agente evolutivo quando este vence uma
partida................................................................................................................91
Equao 9: Funo de aptido por estado de um agente evolutivo no estado 1...................91
Equao 10: Relao alfa para o estado i...............................................................................92
Equao 11: Funo de aptido por estado de um agente evolutivo no estado i, dado que
i ~ 1}................................................................................................................92
Equao 12: DeIinio do valor de h......................................................................................92
Equao 13: Relao alfa para o estado h..............................................................................93
Equao 14: Funo de pontuao do agente.........................................................................93
Equao 15: Relao beta geral..............................................................................................94
Equao 16: Relao beta para o estado i..............................................................................94
Equao 17: Relao gama geral............................................................................................95
Equao 18: Relao gama para o estado i............................................................................95
Equao 19: Funo de atualizao do peso de uma regra para um agente evolutivo quando
este no alcana o ponto de equilibrio...............................................................96
Equao 20: Funo de atualizao do peso de uma regra para um agente evolutivo quando
este alcana ou sobrepuja o ponto de equilibrio................................................97
Equao 21: Relao aelta....................................................................................................101
Equao 22: Funo de aptido de um agente evolutivo quando este perde uma partida....102
Equao 23: Funo de aptido de um agente evolutivo quando este vence uma partida...103
xiii
LISTA DE SIGLAS E ABREVIATURAS
3D 3 dimenses
API Application Programming Interface
ATP Absolute Turning Point
CRPG Computer Role Playing Game
EBL Explanation-basea learning
IA Inteligncia ArtiIicial
ICBM Inter Continental Ballistic Missile
RPG Role Playing Game
RTP Ranaomi:ation Turning Point
RTS Real Time Strategy
xiv
LISTA DE SIMBOLOS
A(0) Nivel de ao 0 no planejamento em graIo
A(i) Nivel de ao i no planejamento em graIo
S(0) Nivel de estado 0 no planejamento em graIo
S(1) Nivel de estado 1 no planejamento em graIo
S(i) Nivel de estado i no planejamento em graIo
xv
SUMRIO
Introduo..................................................................................................................................1
Captulo 1. OS 1OGOS ELETRNICOS DE ESTRATGIA EM TEMPO REAL.........4
1.1. Introduo...............................................................................................................4
1.2. A histria dos jogos eletrnicos de estratgia em tempo real.............................4
1.3. Conceitos bsicos dos jogos eletrnicos de estratgia em tempo real..............14
1.4. As diferenas entre os jogos de estratgia em tempo real e jogos de estilos
semelhantes...........................................................................................................19
1.4.1. Estratgia em tempo real x estratgia baseada em turnos......................20
1.4.2. Estratgia em tempo real x ttica em tempo real.....................................22
1.5. Consideraes finais.............................................................................................23
Captulo 2. OS AGENTES INTELIGENTES NOS 1OGOS ELETRNICOS DE
ESTRATGIA EM TEMPO ERAL..........................................................................25
2.1. Introduo - A Inteligncia Artificial.................................................................25
2.2. Os agentes inteligentes.........................................................................................27
2.2.1. Os agentes reativos simples........................................................................31
2.2.2. Os agentes baseados em modelos...............................................................31
2.2.3. Os agentes baseados em objetivos..............................................................32
2.2.4. Os agentes baseados na utilidade...............................................................33
2.3. Funes cognitivas nos agentes...........................................................................34
2.3.1. O planejamento nos agentes.......................................................................35
2.3.1.1. Caracterizao geral.........................................................................35
2.3.1.2. A aplicao do planejamento aos jogos eletrnicos de estratgia
em tempo real....................................................................................44
2.3.2. A aprendizagem nos agentes......................................................................47
2.3.2.1. Caracterizao geral.........................................................................47
2.3.2.2. A aplicao da aprendizagem nos jogos eletrnicos de estratgia
em tempo real.....................................................................................49
2.4. Consideraes Finais............................................................................................50
Captulo 3. OS AGENTES COGNITIVOS NO 1OGO OU1LIJE....................................51
3.1. Introduo.............................................................................................................51
3.2. Outlive....................................................................................................................51
3.3. Os agentes cognitivos no jogo Outlive.................................................................62
3.3.1. Introduo....................................................................................................62
3.3.2. Os experimentos..........................................................................................63
3.3.2.1. Caracterizao geral.........................................................................63
xvi
3.3.2.2. Caracterizao dos experimentos....................................................66
3.3.2.2.1. Experimento I..........................................................................66
3.3.2.2.2. Experimento II........................................................................67
3.3.2.2.3. Experimento III.......................................................................68
3.3.2.2.4. Experimento IV........................................................................70
3.3.2.2.5. Experimento V.........................................................................71
3.3.2.2.6. Experimento VI.......................................................................72
3.3.2.3. Consideraes finais a respeito dos experimentos..........................74
3.4. Consideraes finais.............................................................................................75
Captulo 4. OS AGENTES COGNITIVOS EVOLUTIVOS..............................................76
4.1. Introduo.............................................................................................................76
4.2. Os agentes cognitivos evolutivos.........................................................................76
4.2.1. Introduo....................................................................................................76
4.2.2. A literatura a respeito dos agentes cognitivos evolutivos........................76
4.2.2.1. O Dynamic Scripting..........................................................................79
4.2.2.2. O algoritmo gentico.........................................................................79
4.2.3. O trabalho de CROCOMO........................................................................81
4.2.4. O trabalho de PONSEN..............................................................................89
4.2.5. Consideraes gerais acerca dos trabalhos consultados........................110
4.3. Consideraes finais...........................................................................................112
Consideraes finais e recomendaes para trabalhos futuros.........................................113
REFERNCIAS BIBLIOGRFICAS................................................................................115
APNDICE A - ESQUEMA DE PLANE1AMENTO EM GRAFO PARA AGENTES
INTELIGENTES EM 1OGOS DE ESTRATGIA EM TEMPO REAL........................118
APNDICE B - ESTRUTURAS DO 1OGO OU1LIJE E RESPECTIVAS
IMAGENS..............................................................................................................................120
APNDICE C - UNIDADES DO 1OGO OU1LIJE.........................................................125
APNDICE D - UNIDADES DO 1OGO OU1LIJE E RESPECTIVAS IMAGENS.....136
APNDICE E - TABULAO DAS INFORMAES OBTIDAS NOS
EXPERIMENTOS................................................................................................................139
APNDICE F - COMBINAES POSSIVEIS DE AGENTES PARA O CASO DE
UTILIZAO DE 7 AGENTES NUMA MESMA PARTIDA.........................................163
1
Introduo
A Inteligncia ArtiIicial uma area do conhecimento relativamente recente, possuindo
uma historia de aproximadamente 60 anos de desenvolvimento. Busca reproduzir, em
maquinas, os processos de raciocinio humano, sendo que, dado o alto grau de complexidade
do mesmo, acaba sendo sub-dividida em uma srie de campos, que compreendem desde o
planejamento e aprendizagem at o processamento de linguagem natural.
Em termos de aplicabilidade, utilizada, dentre outras atividades, para 'demonstrao
de teoremas matematicas, criao de poesias e diagnostico de doenas (RUSSEL &
NORVIG, 2004: p. 1). Uma outra area de aplicabilidade da disciplina so os jogos
eletrnicos. Este trabalho se Iocara neste mbito.
Nos jogos eletrnicos, at recentemente, havia, por parte das empresas deste ramo, a
preocupao com a criao de poderosos sons e graIicos, com vistas a tornar os jogos o mais
realistas possivel (BITTENCOURT & OSORIO apua CROCOMO, 2008: p. 12). No entanto,
as ultimas tendncias nestes jogos tem demonstrado o grau de importncia que se pode auIerir
a produo de oponentes que representem um real desaIio ao jogador, o que pode Iazer com
que o mesmo aproveite melhor os jogos que adquire.
Nos jogos eletrnicos de estratgia em tempo real em especiIico que sero o Ioco
deste trabalho uma IA bem projetada um quesito de suma importncia, uma vez que, caso
no seja implementada uma IA no minimo razoavel, a experincia de jogo perde o sentido.
Desta Iorma, neste gnero de jogo, no basta que o jogo possua bons graIicos e sons se a IA
utilizada no prover um grau de desaIio interessante ao jogador.
Este trabalho se Iocara na questo da Inteligncia ArtiIicial aplicada aos jogos
eletrnicos de estratgia em tempo real. Sua inspirao veio da experincia do autor com o
jogo Outlive, produzido pela empresa brasileira Continuum Entertainment, sendo que nesta
experincia o mesmo pde detectar um certo grau de aprendizagem em seus agentes
cognitivos, que, entretanto se mantinha apenas no mbito de uma partida. Em suma, no se
2
pode dizer que neste jogo exista um esquema de aprendizagem eIetivo, uma vez que o que
apreendido pelo agente no decorrer de uma partida perdido a partir do momento em que esta
encerrada.
A partir disso, Iormulou-se a seguinte questo:
E possivel a criao de um modelo de agente cognitivo que possua um esquema de
aprendizagem eIetivo em sua estrutura?
Partiu-se da hipotese de que tal Ieito era possivel, sendo que a este agente cognitivo
Ioi, inicialmente, atribuida a denominao de agente cognitivo evolutivo. A partir disso,
realizou-se a pesquisa que deu origem a este trabalho, sendo que tal pesquisa cumpriu com as
seguintes etapas:
1. Pesquisa bibliograIica a respeito dos jogos eletrnicos de estratgia em tempo real;
2. Pesquisa bibliograIica a respeito dos agentes inteligentes, buscando, em especiIico,
compreender de que Iorma eles podem ser implementados em jogos eletrnicos de
estratgia em tempo real. Alm disso, Ioi realizada pesquisa a respeito das Iunes
cognitivas do planejamento e da aprendizagem, Iunes essas que, dentro do que pde
ser observado, so as mais aplicadas a esta categoria de jogos;
3. Realizao de um conjunto de experimentos no jogo Outlive para avaliar a capacidade
de adaptao dos agentes cognitivos aplicados ao mesmo;
4. Pesquisa bibliograIica em trabalhos anteriores que tratam dos agente cognitivos
levantados para este trabalho.
A partir desta pesquisa, surgiu este trabalho, que conta com a seguinte estrutura:
O capitulo I trata dos jogos eletrnicos de estratgia em tempo real. Neste capitulo,
realizado um relato da historia desta categoria de jogos, alm de serem expostos os
conceitos basicos aplicados a mesma e realizada uma comparao do gnero com
alguns gneros proximos;
O capitulo II trata dos agentes inteligentes, sendo que no mesmo so Ieitas algumas
consideraes gerais a respeito da Inteligncia ArtiIicial para ento proceder-se a
3
analise dos agentes inteligentes, para posteriormente realizar-se uma analise das
Iunes cognitivas aplicaveis aos agentes cognitivos dos jogos de estratgia em tempo
real, mais especiIicamente as Iunes de planejamento e aprendizagem, buscando
associar a utilizao destas Iunes na categoria de jogos que objeto deste trabalho;
O capitulo III trata da aplicao dos agentes cognitivos ao jogo Outlive, sendo que
aqui realizada uma analise do reIerido jogo, sendo expostos a sua historia e alguns
conceitos utilizados no seu ambiente de jogo, alm de ser Ieita a caracterizao e
discusso a respeito dos experimentos realizados no reIerido jogo;
O capitulo IV discute os agentes cognitivos evolutivos, realizando, inicialmente, uma
caracterizao geral dos mesmos para apos isso discutir os dois trabalhos que serviram
de base para a analise realizada no reIerido capitulo.
4
CAPITULO 1 - OS 1OGOS ELETRNICOS DE ESTRATGIA EM TEMPO REAL
1.1. Introduo
Os jogos eletrnicos de estratgia em tempo real possuem uma historia de
aproximadamente 20 anos de desenvolvimento, periodo no qual diversas inovaes tm sido
produzidas para o gnero, sendo que, mesmo na atualidade, estas inovaes continuam a ser
agregadas ao mesmo.
O primeiro capitulo deste trabalho tem a Iuno basica de apresentar os conceitos
basicos reIerentes aos jogos eletrnicos de estratgia em tempo real e apresentar uma
retrospectiva historica de seu desenvolvimento. A abordagem tera como ponto de partida a
apresentao de uma retrospectiva historica acerca do gnero, produzida com base no trabalho
de GERYK (s.d.) publicado no site www.gamespot.com; seguira com a apresentao dos
conceitos basicos relativos ao mesmo, seguindo-se a isso uma comparao com alguns
gneros proximos, a serem especiIicados no momento da abordagem. Apos isso, sero
realizadas as consideraes Iinais do capitulo.
1.2. A Histria dos 1ogos Eletrnicos de Estratgia em Tempo Real
Os jogos de estratgia em tempo real possuem uma historia de aproximadamente 20
anos de desenvolvimento, sendo que a cada dia novos recursos so acrescentados aos jogos,
dado o constante desenvolvimento do poder de processamento dos computadores ao longo do
tempo.
Os primordios dos jogos de estratgia em tempo real remontam ao ano de 1982. Os
jogos lanados nesta poca com caracteristicas dos jogos considerados neste trabalho no
podem ser considerados como tais. No entanto, carregam seus mritos por serem seus
precursores.
No inicio desta historia, desenvolveram-se duas linhas de desenvolvimento paralelas,
sendo uma localizada no Reino Unido e outra nos Estados Unidos. Apenas mais tarde veio
surgir uma cultura de desenvolvimento mais uniIicada globalmente.
No Reino Unido, o gnero inicia-se com o jogo Stronkers, de John Gibson, lanado
em 1983 pela empresa Imagine Software. Ja nos Estados Unidos, a caminhada inicia-se com o
5
lanamento do jogo The Ancient Art of War, lanado em 1984 por Dave e Barry Murry, da
empresa Evryware (WIKIPEDIA, 2009).
Mais a Irente, em 1989, lanado o jogo Her:og Zwei, pela Sega Entrerprises Lta.,
para o Sega Genesis. O jogo, desenvolvido para ser jogado por dois jogadores, tem como
aspecto basico o Iato de a cada jogador ser designada uma base principal e um conjunto de
bases menores. Alm destas, o jogo disponibilizava um conjunto de bases neutras, que
poderiam ser tomadas pelos jogadores com Iins de Iortalecimento destes. O objetivo Iinal de
cada agente controlador destruir a base do agente controlador inimigo. A cada agente
controlador era dado o comando de um veiculo que pode se locomover tanto em terra quanto
em ar, dependendo da convenincia do agente controlador. Ou seja, a qualquer momento do
jogo o agente controlador pode converter seu veiculo de terrestre para areo ou vice-versa. O
agente controlador possui controle apenas sobre esta unidade.
Este jogo ainda no pode ser considerado como um jogo de estratgia em tempo real,
uma vez que ao agente controlador dado apenas a possibilidade de controlar uma unidade,
sendo que as bases no eram postas sob seu controle.
O primeiro jogo que pode ser considerado eIetivamente como um jogo de estratgia
em tempo real o jogo Dune II, desenvolvido pela Westwooa Stuaios. Este jogo prov um
conjunto de 3 naes, que representam 3 casas reais que lutam pelo controle do recurso spice,
o unico existente no jogo (GERYK, s.d.).
Ilustrao 1. Imagens ae Her:og Zwei. Fonte. GERYK, s.a.
6
Dune II uma verdadeira evoluo em relao a Her:og Zwei em muitos aspectos que
mais a Irente passam a parecer triviais. No entanto, importante observar que estas evolues
basicamente estabeleceram as convenes do gnero dos jogos de estratgia em tempo real
(GERYK, s.d.). Mais especiIicamente, as inovaes do jogo se apresentam nos seguintes
aspectos:
1. No jogo, permitido ao jogador construir bases em qualquer lugar do mapa;
2. O jogo estabelece o conceito das dependncias para a construo de estruturas. Ou
seja, para que se possa construir determinadas estruturas, deve-se primeiramente
construir outras estruturas, que so predecessoras daquelas;
3. E introduzida a idia de que as diIerentes naes do jogo possuem diIerentes estruturas
e unidades, pois em Her:og Zwei ambos os jogadores controlavam basicamente a
mesma unidade.
No entanto, importante destacar a limitao existente no jogo que permitia ao
jogador construir no maximo 25 unidades. No entanto, tomando-se em conta a capacidade de
processamento das maquinas da poca, plenamente compreensivel isso, no implicando esta
caracteristica em uma questo problematica.
De Dune II at os dias atuais, uma srie de jogos tem surgido no mercado. No entanto,
sero abordados neste trabalho apenas aos jogos que tenham introduzido novos conceitos ao
gnero.
O primeiro jogo apos Dune II surgido 2 anos apos o lanamento deste, depois de um
verdadeiro hiato para o emergente gnero da estratgia em tempo real Ioi Warcraft. Orcs
ana Humans, lanado pela Bli::ara Entertainment. DiIerente do jogo anterior, que se baseava
Ilustrao 2. Imagens ae Dune II. Fonte. Fonte. GERYK, s.a.
7
em temas de Iico cientiIica, Warcraft se baseia num mundo de Iantasia marcado pela luta
desenIreada entre a raa dos humanos e a raa dos ogros. O jogo estabelece uma srie de
inovaes para o gnero, a saber:
1. Insero das unidades de combate direto
1
;
2. Existncia de mais de um recurso a ser extraido madeira e ouro diIerentemente da
estrutura mono-recursal
2
existente em Dune II. E importante destacar que
determinadas unidades e estruturas, para serem construidas, requerem a aplicao
combinada destes dois recursos.
3. Insero do modo multiplayer, o que torna Warcraft o primeiro jogo de estratgia em
tempo real para o PC com este modo de jogo.
No entanto, importante destacar o grande problema de Warcraft: a inteligncia
artiIicial muito limitada. Um dos problemas que podem ser encontrados nela se reIerem ao
Iato de as unidades atacarem Ierozmente qualquer inimigo que vem pela Irente, sem
qualquer critrio mais sistematico a respeito do que deve ser atacado e do que no deve
(GERYK, s.d.).
Esta limitao vem a ser superada com o lanamento, em 1995, do jogo Warcraft II.
Tiaes of Darkness, onde o jogo permite coisas como rotas de patrulha. A inteligncia artiIicial
deste jogo um Iator importante que o torna um jogo mais soIisticado e desaIiante que seu
predecessor (GERYK, s.d.).
Outras inovaes trazidas pelo jogo so as seguintes:
1
Unidades tais como espadachins, cavaleiros, etc.
2
Utiliza-se, aqui, este termo para se reIerir a existncia de apenas um recurso no jogo considerado.
Ilustrao 3. Imagens ae Warcraft. Fonte. GERYK, s.a.
8
1. A insero da nvoa de guerra
3
nos jogos de estratgia em tempo real.
2. A insero das unidades navais nos jogos de estratgia em tempo real;
3. A insero de um terceiro recurso a ser utilizado o oleo, sendo que at o momento
trabalhava-se nos jogos de estratgia em tempo real com um maximo de 2 recursos,
caracteristica essa existente em Warcraft.
E importante registrar que a srie Warcraft, nestes primeiros momentos, nunca esteve
so no mercado dos jogos de estratgia em tempo real. Esta poca Ioi dominada pela Iorte
concorrncia entre esta srie e a srie Commana ana Conquer, da Westwooa, empresa
desenvolvedora do jogo Dune II. No que pese o sucesso comercial da srie e a tradio
desenvolvida pela empresa ao lanar o primeiro jogo do gnero, Commana ana Conquer
extremamente Iraco no mbito da criatividade e por isso no lhe sera reputada muita
importncia neste trabalho. Enquanto Warcraft sempre traz novos conceitos a cada jogo que
lana at em Warcraft II, Commana ana Conquer se limita a reutilizar-se de conceitos ja
utilizados em outros jogos, e em termos de inovaes traz apenas algumas diIerenciaes
entre uma verso e outra, inovaes essas que no podem ser consideradas, concretamente,
enquanto contribuies eIetivas ao gnero dos jogos de estratgia em tempo real.
Novos recursos so trazidos pelo jogo Total Annihilation, lanado em 1997 e que
disputa Iortemente o mercado com o jogo Starcraft, lanado em 1998 pela Bli::ara. Neste
momento, pode-se observar uma mudana no espectro da concorrncia comercial dos jogos de
estratgia em tempo real, uma vez que, se antes encontram-se em disputa pelo mercado as
empresas Westwooa, com Commana ana Conquer, e Bli::ara, com Warcraft, neste novo
momento o Ioco muda para a disputa entre Activision, com Total Annihilation, e Bli::ara,
com Starcraft.
3
A nvoa de guerra um recurso dos jogos de estratgia em tempo real que Iaz com que sejam visiveis ao
jogador apenas as areas que este ja tenha explorado durante a partida da qual participa.
9
No entanto, digno de nota que Total Annihilation, diIerentemente de Commana ana
Conquer, no se limita a reutilizao de conceitos utilizados em outros jogos. As principais
inovaes do jogo, que trazem contribuies signiIicativas para o gnero dos jogos de
estratgia em tempo real, so duas:
1. A utilizao de unidades e mapas em 3 dimenses, o que o Iaz um dos primeiros jogos
a se utilizarem deste recurso;
2. A introduo do conceito das Iilas de comandos, que permite que o jogador lance
varias ordens a uma determinada unidade, sendo que estas ordens sero executadas na
seqncia em que Iorem dadas. Este conceito vem a resolver um problema existente
nos jogos de estratgia em tempo real de at ento, que o Iato de o jogador ser
obrigado a constantemente retornar a unidades as quais Ioram dadas determinadas
ordens para dar as novas ordens que devero ser executadas pelas mesmas.
O grande rival de Total Annihilation, Starcraft, Ioi lanado um ano depois, em 1998.
Como de praxe para a Bli::ara, o jogo trouxe consigo novidades signiIicativas, a saber:
1. A historia do jogo, no modo de campanha, esta sempre sendo reIerenciada atravs dos
dialogos dos personagens;
2. As 3 raas existentes no jogo possuem diIerenas marcantes entre si, diIerenas essas
que inIluenciam Iortemente o mtodo de jogo com cada uma.
Ilustrao 4. Imagem ae Total Annihilation.
Fonte. GERYK, s.a.
10
Apos Starcraft, lanado no mercado o jogo Close Combat, que traz inovaes como
o Iator moral das unidades, que varia conIorme as condies as quais as mesmas so
submetidas. No entanto, este jogo se encaixa mais no gnero da tatica em tempo real.
Portanto, no sero realizadas consideraes adicionais a respeito do mesmo.
O proximo jogo a trazer inovaes para o gnero War:one 2100, desenvolvido pela
Pumpkin Stuaios e lanada pela Eiaos Interactive. E mais um jogo digno de nota e de bons
elogios, uma vez que insere uma srie de elementos que se constituem como verdadeiras
contribuies para o gnero dos jogos de estratgia em tempo real. InIelizmente o jogo no
logrou grande xito comercial, o que no tira seus mritos pela questo da criatividade.
Quanto as inovaes, so as seguintes:
Ilustrao 5. Imagens ae Starcraft. Fonte. GERYK, s.a.
Ilustrao 6. Imagens ae War:one 2100. Fonte. GERYK, s.a.
11
1. A pesquisa tecnologica e a produo de unidades aqui muda totalmente em relao aos
outros jogos de estratgia em tempo real. Ao invs de pesquisar ou construir um
determinado tipo de unidade, pesquisa-se componentes das unidades, tais como rodas,
esteiras, canhes, etc., conIorme o desenvolvimento da campanha e constroi-se novas
unidades atravs da combinao destes diversos componentes. Ou seja, ao invs de se
pesquisar um tanque por exemplo, o jogador pesquisa as suas componentes e quando
tiver tecnologia disponivel para isso, podera ento construir o tanque, mas tambm
podera construir lana-misseis com quase a mesma estrutura, com a diIerena apenas
de que, ao invs do canho caracteristico de um tanque, ele sera equipado com um
canho caracteristico de um lana-misseis. Como pode-se observar, o jogo prov ao
agente controlador uma grande liberdade de ao.
2. Quando se joga no modo de campanha para um jogador, a condio da base que este
construiu durante um determinado estagio da campanha transIerida para o proximo
estagio, o que torna desnecessario ao jogador construir sua base desde o inicio no novo
estagio em que entrar. Alm disso, este modelo de jogabilidade induz o jogador a
utilizar de Iorma mais racional as unidades em um determinado momento, uma vez
que a preservao destas unidades Iara com que o jogador comece o proximo estagio
de sua campanha Iortalecido. Esta caracteristica do jogo implica tambm um Ioco
menor no aspecto da micro-administrao das bases.
Em 1999 tambm lanado o jogo Homeworla, desenvolvido pela empresa Relic e
lanada pela empresa Sierra. No mbito da campanha, o jogo basicamente reutiliza a Iormula
utilizada por War:one 2100. Entretanto, grande inovao trazida pelo jogo se reIere a questo
graIica, pois o mesmo se utiliza de graIicos totalmente em 3D, alm do Iato de no se utilizar
de terrenos terrestres ou aquaticos, se Iocando apenas em ambientes areos ou no espao
sideral, o que implica a utilizao apenas de naves pelo jogo.
12
Ainda em 1999, lanado Age of Empires II. The Age of Kings, desenvolvido pela
Ensemble Stuaios e lanado pela Microsoft Corporation. O jogo pode ser considerado uma
dadiva dos jogos de estratgia em tempo real, sendo em algumas discusses at mesmo
considerado, em conjunto com sua expanso, The Conquerors, o melhor jogo de estratgia em
tempo real ja desenvolvido.
No mbito das inovaes, se colocam as seguintes:
1. Uma inteligncia artiIicial altamente desenvolvida, o que Iaz com que as unidades
componentes de um conjunto se auto-arranjem quando recebem uma ordem do
Ilustrao 7. Imagens ao fogo Homeworla. Fonte. GERYK, s.a.
Ilustrao 8. Imagens ae Age of Empires II. Fonte. GERYK, s.a.
13
jogador, de Iorma que as unidades de combate direto Iicam mais a Irente do grupo e as
unidades especializadas em ataque a distncia se aloquem na parte traseiras dos
grupos. Alm disso, as unidades, quando incumbidas de atacar os inimigos, buscam
atacar os alvos mais apropriados, ao invs de atacar qualquer alvo inimigo que
encontrem pela Irente.
2. O jogo se Ioca na historia real de diversos povos existentes na historia da humanidade,
sendo que os jogos anteriores se Iocam basicamente em historias Iicticias;
3. O jogo cria o recurso que permite ao agente controlador ordenar, atravs de um sino,
que os aldees unidades construtoras do jogo se escondam no centro da cidade
quartel-general da base ou dele saiam, conIorme o critrio do agente controlador.
Em julho de 2000, lanado o jogo Warloras Battlecry. O jogo uma adaptao da
srie Warloras do gnero da estratgia baseada em turnos para o gnero da estratgia em
tempo real. Sua inovao basica se coloca no sentido de inserir ao gnero o conceito, utilizado
nos jogos de RPG
4
, do heroi que evolui ao passo que adquire experincia.
Ainda em 2000, no ms de novembro, lanado o jogo Sacrifice, desenvolvido pela
Shiny Entertainment e lanado pela Interplay. A grande novidade trazida pelo jogo a
possibilidade de se ressuscitar a unidade heroi, conceito este que, junto com a idia do
desenvolvimento do heroi, sera utilizada em Warcraft III.
Outras inovaes trazidas mais a Irente se colocam no sentido de criar mapas com
terrenos multiplos. O jogo Earth 2150, por exemplo, permitia as unidades a possibilidade de
movimento por debaixo da terra, e Dragonshara, lanado em 2005, utiliza esta propriedade na
questo da coleta de recursos, uma vez que os dois recursos existentes no jogo so alocados,
cada um, em um dos terrenos nos quais os mapas do jogo so divididos (WIKIPEDIA, 2009).
Os jogos Warhammer 40,000. Dawn of War, de 2004; Star Wars. Empire at War, de 2006 e
Company of Heroes, tambm de 2006, trazem uma outra inovao, que consiste na
substituio do antigo modelo de coleta de recursos, onde uma unidade especiIica Iicava
responsavel por esta atividade, por um sistema de controle de pontos estratgicos, onde a
ocupao destes pontos implica na progressiva produo de pontos que possibilitam a
construo de novas estruturas e unidades.
4
Modalidade de jogo, onde normalmente a historia se localiza em um mundo de Iantasia, onde o jogador
controla um ou mais personagens que no decorrer do jogo tomam determinadas misses para si, ditadas por
personagens no-jogaveis e adquirem experincia conIorme enIrentam as criaturas existentes no jogo. A sigla
signiIica Role Playing Game.
14
Para o Iim de 2009, esta ainda previsto o lanamento do jogo Starcraft II, jogo que
tem trazido grande expectativa para o universo dos jogos de estratgia em tempo real. O jogo,
pelas demonstraes dadas at o momento pela Bli::ara, possui uma parte graIica bastante
semelhante a Warcraft III. Ainda assim, o jogo traz uma outra inovao para o gnero, que o
Iato de ser possibilitado a determinadas unidades terrestres a propriedade de se locomoverem
entre diIerentes niveis de terreno
5
.
1.3. Conceitos Bsicos dos 1ogos Eletrnicos de Estratgia em Tempo Real
Os jogos eletrnicos de estratgia em tempo real podem ser deIinidos como sendo
jogos onde diversos agentes sejam eles humanos ou agentes inteligentes controlados pelo
computador so colocados em interao em um determinado terreno, onde lhes so
designadas um conjunto de estruturas e unidades militares, estas caracterizando a base de
atuao de cada agente, e a estes agentes so dados os objetivos de:
1. Expandir as bases que lhes so dadas, atravs de coleta de recursos que esto
espalhados pelo terreno, construo de novas estruturas e unidades e pesquisa
tecnologica;
2. Destruir as bases dos agentes inimigos.
Alm destes Iatores relacionados logo atras, a principal caracteristica que deIine um
jogo eletrnico de estratgia em tempo real o Iato de que as aes dos diversos agentes so
dadas simultaneamente no ambiente de jogo. Aqui a estratgia em tempo real se diIere de um
outro gnero de jogos eletrnicos, os jogos de estratgia baseados em turnos. Este assunto
sera tratado mais a Irente.
Os principais conceitos que precisam ser delineados para que se possa ter uma
abordagem satisIatoria da questo so os conceitos de agentes controladores, naes,
economia, recursos, estruturas, unidades e seus tipos e as esIeras de administrao.
Os agentes controladores so os sujeitos que administram as bases. Podem ser tanto
jogadores humanos quanto agentes inteligentes controlador por computador. No mbito deste
5
Este conceito se reIere as diIerenas geograIicas de terreno, mais especiIicamente a existncia de pontos mais
altos e pontos mais baixos do mesmo.
15
trabalho, a reIerncia fogaaor sera utilizada com Iins de reIerncia aos agentes controladores
humanos.
As naes consistem no conjunto dos diIerentes agrupamentos existentes em um
determinado jogo eletrnico de estratgia em tempo real. So reIerenciados de diversas
Iormas nos jogos, dependendo da tematica dos mesmos, sendo considerados como raas em
alguns como por exemplo Warcraft II, com os ogros e humanos, e Starcraft, com os terrans,
os :ergs e os protoss ou naes e povos propriamente ditos em outros como por exemplo
nas diversas naes existentes na srie Age of Empires. Cada nao nos jogos possui
estruturas e unidades proprias. Em alguns jogos, possivel ainda que uma determinada nao
controle unidades e estruturas de outras raas. Em Starcraft. Brooawar, expanso do
Starcraft original, a unidade Dark Archon, pertencente a raa dos protoss, pode controlar
unidades de outras raas. Assim, a partir desta habilidade da unidade, pode-se controlar
unidades construtoras de outras raas e assim criar bases com diversas raas controladas por
apenas um jogador ou agente inteligente.
O conceito de economia se reIere a administrao da base como um todo, e tem como
base a realizao da coleta dos recursos existentes no terreno e sua aplicao na construo de
estruturas e unidades com vistas a expanso da base e deIesa no caso de ataques inimigos.
Os recursos se reIerem ao conjunto de elementos dispostos no terreno que so
utilizados para expanso da base. A diversidade e a tipologia dos recursos variam de acordo
com o jogo que se leva em considerao, sendo que ha jogos onde se deve administrar apenas
um recurso e outros onde se deve administrar 3 ou mais recursos, como por exemplo no jogo
Warcraft II, da Blizzard Entertainment, que possui 3 tipos de recursos: o ouro, a maaeira, e o
oleo.
As estruturas consistem no conjunto de construes inseridas na base. Assim como os
recursos, os tipos e a diversidade das construes variam de acordo com o jogo considerado.
Normalmente, os Iins agregados as estruturas so:
1. Estabelecimento do local da base principal, sendo que normalmente este Iim alocado
a uma estrutura especiIica, que sera denominada, aqui, genericamente pelo termo
quartel general. O nome dado a tal estrutura varia conIorme o jogo. No entanto, este
Iato no altera a Iuno da unidade dentro do jogo, que a de basicamente delimitar o
ponto de partida de um determinado agente numa dada partida;
16
2. Expanso da capacidade populacional da base, que consiste no numero de unidades
que podem ser produzidas num determinado momento;
3. A construo de novas unidades, sendo que normalmente ha estruturas que so
responsaveis pela construo de algumas unidades, enquanto outros tipos de unidades
so designadas para ser construidas por outras estruturas;
4. A realizao de pesquisas objetivando a melhoria tecnologica da base, aspecto esse
essencial para a expanso e aumento da probabilidade de um determinado agente
vencer uma partida.
5. O comrcio com outros agentes.
As unidades se reIerem ao conjunto de entidades as quais so atribuidas as Iunes de
construo da base ou ataque aos inimigos e deIesa da base. Os tipos de unidades variam
conIorme o jogo e os temas que estes utilizam em suas historias. Normalmente, as unidades
so divididas nas seguintes categorias:
1. Unidades construtoras;
2. Unidades terrestres;
3. Unidades aquaticas;
4. Unidades areas.
As unidades construtoras so as unidades responsaveis diretamente pela expanso e
manuteno da base. A elas so alocadas as Iunes de construir novas estruturas para a base
e a de reparar as estruturas existentes que porventura tenham soIrido dano em decorrncia de
condies adversas, como por exemplo a ocorrncia de ataques inimigos.
No necessario ir muito longe para conceituar as outras modalidades de unidades.
Basta apenas levar em conta as suas nomenclaturas, sendo que as unidades terrestres so as
unidades as quais so possibilitadas apenas a movimentao em terra, as aquaticas as
unidades capacitadas apenas a movimentao na agua e as areas as unidades capacitadas a
movimentao em espao areo. No entanto, importante destacar que o mbito de
movimentao de uma determinada categoria de unidades no implica necessariamente o
mbito de ataque desta categoria. Ou seja, unidades terrestres no atacam somente unidades
terrestres, assim como unidades areas no atacam somente unidades terrestres. Dependendo
17
do tipo de unidade que se leva em conta, elas podem ter campos de ataques diversos. Ou seja,
ha unidades terrestres que podem atacar tanto unidades terrestres e unidades areas, assim
como ha jogos em que unidades areas so impossibilitadas de atacar unidades terrestres at
que sejam Ieitas as melhorias tecnologicas necessarias a isso, como por exemplo, o jogo
Outlive, onde a unidade Jingaaor possui esta caracteristica, ou seja, at que seja realizada a
pesquisa sobre o dispositivo torpeao ae fotons, esta unidade pode apenas atacar unidades
areas. No entanto, ha de se destacar tambm que ha jogos onde determinadas categorias de
unidades so impossibilitadas de atacar outros tipos em determinadas circunstncias,
independentemente do grau de desenvolvimento tecnologico alcanado por uma determinada
base. Como exemplo disso, pode-se tomar o jogo Warcraft II, onde unidades terrestres no
podem atacar unidades aquaticas em alto mar, assim como estas no podem atingir unidades
terrestres ou estruturas inimigas Iora de seu alcance quando esto posicionadas junto a costa
da base inimiga em operaes de ataque.
Os tipos de unidades se reIerem aos conjuntos de unidades idnticas entre si em um
determinado jogo. Os tipos das unidades dispostas nos jogos dependem muito da tematica que
o jogo adota. O jogo Warcraft II, por exemplo, tem como tematica a guerra entre humanos e
ogros. A cada uma das duas raas so alocadas unidades de tipos diIerentes que, no entanto,
possuem Iunes semelhantes. Ou seja, a cada unidade dos ogros equivale uma unidade de
Iuno semelhante aos humanos. O jogo Starcraft, desenvolvido pela Bli::ara Entertainment,
assim como Warcraft II, tem como tematica guerras envolvendo 3 raas: os terrans, humanos
normais, os :ergs, uma raa alienigena com o aspecto semelhante ao de insetos, e os protoss,
uma raa alienigena com poderes psiquicos altamente desenvolvidos. Da mesma Iorma como
em Warcraft II, a cada raa so designadas unidades diIerentes, mas que, dentro de cada nivel,
possuem Iunes semelhantes. Aqui, entretanto, importante observar que este jogo possui
algumas diIerenas mais notaveis no que tange a este ponto, como por exemplo as unidades
mais poderosas de cada raa, que so os Battlecruisers, para os terrans; os Guaraians, para os
:ergs e os Carriers, para os protoss. Antes desta analise, entretanto, conveniente deIinir de
Iorma mais rigorosa estas unidades.
Os Battlecruisers so grandes naves de batalha cujos ataques inIligem danos
signiIicativos as estruturas ou unidades inimigas e, apos realizada a pesquisa pertinente, so
equipadas com um dispositivo denominado Yamato Gun, que carrega e lana um poderoso
raio em direo ao alvo especiIicado pelo agente que o comanda. Os Battlecruisers, exceto no
18
caso de se utilizarem do Yamato Gun, Iicam ao alcance das estruturas de deIesa
6
inimigas,
podendo ser atacados pelas mesmas enquanto realizam seu ataque.
Os Guaraians so unidades derivadas da unidade Mutalisk, surgindo atravs de um
processo de incubao que este soIre sob o comando do agente controlador, desde que este
tenha construido a estrutura Great Spire, derivada da estrutura Spire. Estas unidades podem
atacar as estruturas de deIesa da base inimiga sem darem a possibilidade de estas revidarem o
ataque.
Por sua vez, os carriers so grandes naves que, em operaes de ataque, lanam naves
menores, denominadas interceptors, alocadas em seu interior. Estas so os responsaveis
diretos pelo ataque aos inimigos, cabendo aos carriers apenas lana-las. Assim como os
Guaraians dos :ergs, podem atacar as estruturas de deIesa inimigas sem a possibilidade de
revide do ataque. No entanto, importante destacar que, embora os carriers no possam ser
atacados, os interceptors o podem, uma vez que so unidades designadas para a realizao de
combate a curta distncia.
Apenas nestas deIinies pode-se ver diIerenas substanciais no Iuncionamento das
unidades de cada raa, principalmente no que tange ao aspecto da possibilidade de revide por
parte das estruturas de deIesa da base que esta sendo atacada, pois enquanto os Guaraians
podem atacar tranqilamente sem a necessidade de se preocupar com as estruturas de deIesa
inimigas, os carriers precisam ter um nivel de ateno maior com os interceptors, uma vez
que estes podem ser destruidos durante a batalha, e a construo de novos requer a aplicao
de recursos, o que pode se tornar uma situao problematica quando o agente controlador se
encontrar com recursos escassos. Quanto aos Battlecruisers, a preocupao ainda maior,
uma vez que a Ialta dos cuidados necessarios por parte do agente controlador com suas
unidades podera implicar na perda das mesmas, e a construo de um novo Battlecruiser
requer a aplicao de uma quantidade de tempo e recursos consideravel. Observe-se que estas
diIerenas no muito signiIicantes implicam mudanas estratgicas relevantes de acordo com
a raa que se utiliza em uma determinada partida.
Para Iins de comparao, tome-se as unidades mais poderosas de cada raa no jogo
Warcraft II: os aragons, para os ogros, e os Griphon Riaers, dos humanos. Estas duas
6
Pode-se reIerenciar estas estruturas, em termos gerais, atravs do termo torres, apenas para Iins metodologicos.
No entanto, dentro do jogo, cada raa possui suas proprias estruturas de deIesa, que, embora cumpram com o
mesmo objetivo, possuem diIerentes Iormas e Iuncionalidades.
19
unidades possuem enquanto caracteristica signiIicativa apenas seu aspecto externo, sendo que
as caracteristicas essenciais so as mesmas: unidades areas com alto poder destrutivo.
Determinadas unidades so equipadas com habilidades especiais que podem ser
utilizadas no decorrer do jogo e cuja utilizao consome um outro recurso, que sera
denominado aqui, de Iorma genrica, energia.
7
A discusso acerca da administrao das unidades no decorrer dos jogos leva,
necessariamente, a discusso sobre as esIeras de administrao de bases.
Este conceito pode ser deIinido como o conjunto de condies internas da base do
agente controlador, que este deve manejar durante uma partida. CHUNG et. al. as classiIica
em 3:
1. A micro-administrao de unidades: se reIere ao controle de unidades individuais;
2. O planejamento ttico: Se reIere a administrao de tropas engajadas em algum tipo
de atividade.
3. O planejamento estratgico: se reIere as grandes linhas do planejamento durante a
partida, como por exemplo a deIinio do momento no qual sera realizada alguma
atividade, como por exemplo a construo do exrcito a ser utilizado pelo agente
controlador ou o lanamento de um ataque a alguma base inimiga.
1.4. As diferenas entre os jogos de estratgia em tempo real e jogos de estilos
semelhantes
Os jogos de estratgia em tempo real so um gnero especiIico dos jogos eletrnicos,
composto pelas caracteristicas expostas anteriormente.
No entanto, ha gneros de jogos que lhe assemelham, e interessante distingui-los dos
RTS
8
. Tais gneros so os jogos de estratgia baseados em turnos e os jogos de tatica em
tempo real.
7
Esta denominao tem Iins apenas metodologicos. Assim como varias das caracteristicas dos jogos eletrnicos
de estratgia em tempo real, a denominao deste recurso varia conIorme a tematica do jogo. Por exemplo, no
jogo Warcraft II, so denominados por mana, em Iuno da tematica deste jogo se voltar mais para um mundo
de Iantasia. Ja no jogo Starcraft, este recurso denominado como energia, em Iuno de este se posicionar num
mundo Iuturistico.
8
Sigla em ingls utilizada com Iins de reIerncia aos jogos de estratgia em tempo real. SigniIica real-time
strategy.
20
1.4.1. Estratgia em tempo real x estratgia baseada em turnos
Os jogos de estratgia baseados em turnos assemelham-se aos jogos de estratgia em
tempo real. No entanto, como o proprio nome indica, diIere destes no sentido de que os
jogadores no planejam e executam suas estratgias simultaneamente, e sim alternadamente
ou de outras Iormas relativamente semelhantes, conIorme sera exposto adiante.
O modelo mais normal de jogo de estratgia baseado em turno o modelo onde os
jogadores planejam e aplicam suas estratgias alternadamente, ou seja, um lana suas jogadas
de cada vez. O exemplo mais classico deste modelo de jogo o xadrez.
No entanto, como Iica implicito no que esta sendo argumentado at o momento, este
no o unico modelo. Os jogos de estratgia baseados em turnos e os jogos de estratgia em
tempo real podem ser considerados como dois extremos de uma reta, onde entre os dois existe
uma srie de modalidades de jogos de estilos diIerentes entre si, mas que possuem, em sua
grande parte, elementos dos dois tipos de jogos. Em seu conjunto, estes estilos de jogos
Iiguram entre os sistemas de organizao do tempo em jogos (WIKIPEDIA, 2009).
Dentro deste conjunto de estilos de jogos, podem ser encontrados os jogos de turnos
cronometrados, os ticks, os jogos com compresso do tempo, os jogos de turnos executados
simultaneamente, os jogos baseados em relogio, os jogos baseados na iniciativa das unidades,
os jogos onde so permitidos a interveno de um jogador num turno que no lhe pertence, os
jogos com turnos ou Iases especiais, os jogos parcialmente ou opcionalmente baseados em
turnos ou em tempo real e os jogos em tempo real com pausa. No so necessarias
consideraes acerca destes jogos, uma vez que este no o objeto deste estudo.
A existncia de diIerenas entre os jogos de estratgia em tempo real e os jogos de
estratgia baseados em turnos tem suscitado, ao longo do tempo, uma srie de discusses que
as tomam como ponto de reIerncia, realizando comparaes entre as mesmas. Como
Iacilmente observavel, estas discusses dividem o espectro de jogadores em dois grupos: os
que deIendem os jogos de estratgia em tempo real e os que deIendem os jogos baseados em
turnos.
A argumentao do primeiro grupo se encontra nos seguintes pontos (WIKIPEDIA,
2009):
21
1. Os jogos de estratgia em tempo real oIerecem um grau de correspondncia com a
realidade imensamente maior que os jogos baseados em turnos, pois no mundo real a
ocorrncia de guerras implica necessariamente a elaborao e aplicao simultnea
das estratgias pelos atores envolvidos;
2. A espera pela realizao da jogada pelo outro jogador pode tornar a experincia do
jogo entediante;
3. Os jogos baseados em turnos tm muitas regras e so diIiceis de dominar em Iuno
do numero de minucias que simulam.
Ja os deIensores dos jogos baseados em turnos se Iundamentam nos seguintes
argumentos (idem):
1. Os jogadores so capazes de planejar melhor seus movimentos em Iuno do tempo
extra que lhe disponibilizado e os desenvolvedores so capazes de suprir os
jogadores com um espectro maior de opes taticas;
2. Os jogos so mais limpos em Iuno de a vitoria no se basear nos reIlexos do
jogador, e os jogos, teoricamente, so providos de uma melhor inteligncia artiIicial,
dado a quantidade de poder de processamento que lhes disponibilizada;
3. E mais realistico controlar multiplas unidades de Iorma inteligente utilizando este
sistema, pois o jogador no obrigado a dividir sua ateno com diversos grupos de
unidades;
4. E mais Iacil manter vigilncia sobre as aes do inimigo quando o jogador
inIormado a respeito de todas as aes daquele.
Analisando-se objetivamente a questo, conclui-se Iacilmente que, dentre estes dois
modelos, os jogos em tempo real terminam por possuir uma srie de vantagens em relao ao
outro modelo, conIorme sera exposto adiante.
A argumentao que deIende os jogos baseados em turnos se baseiam, de Iorma
sinttica, no seguintes pontos:
1. Facilidade de planejamento para o jogador;
22
2. Melhor inteligncia artiIicial nos jogos, em Iuno do menor consumo dos recursos
computacionais existentes;
3. Maior conIormidade com a realidade;
4. Facilidade de vigilncia Irente ao inimigo.
Quanto ao ponto 2, importante destacar que o desenvolvimento do haraware ao
longo do tempo pode suprir esta necessidade tranqilamente, tornando, assim, as diIerenas
no mbito das sobras de poder de processamento dos computadores insigniIicantes.
Quanto aos outros pontos da argumentao que se coloca a Iavor da estratgia baseada
em turnos, trata-se, na perspectiva aqui apresentada, de grandes equivocos. Veja-se:
1. As Iacilidades para o planejamento do jogador quanto as suas jogadas no existem no
mundo real, pois todas as aes dos atores envolvidos em questes que requerem a
aplicao de conhecimentos estratgicos se do simultaneamente;
2. A vigilncia em relao aos inimigos, quando se coloca a questo dentro do mbito da
realidade, se da atravs de servios de inteligncia, e nem sempre estes servios
conseguem manter estrita vigilncia sobre os inimigos.
Por esta argumentao, pode-se observar Iacilmente que os jogos baseados em turnos
no correspondem a realidade dos Iatos quando se Iala em aplicao de estratgias, uma vez
que os atores envolvidos no realizam suas aes e, apos isso, esperam as aes de seus
inimigos para ento lanarem suas aes. Os mesmos agem conIorme a situao lhes permite,
o que necessariamente implica que as estratgias so elaboradas e aplicadas simultaneamente
pelos atores envolvidos nestes processos.
1.4.2. Estratgia em tempo real x ttica em tempo real
A diIerena basica entre os jogos de estratgia em tempo real e os jogos de tatica em
tempo real se reIere ao Ioco de cada um, pois os jogos de estratgia se Iocam num mbito
mais geral das questes militares, pois atribuida ao jogador a responsabilidade de no
apenas vencer os inimigos, mas tambm de gerenciar suas proprias bases no mbito
econmico. Ou seja, alm do jogador ter de se preocupar com os inimigos, deve tambm se
23
Iocar em ter um numero de unidades e estruturas suIiciente para ter uma base Iorte, alm de
produzir recursos em quantidade suIiciente para poder manter esta base.
Ja os jogos de tatica em tempo real se Iocam mais no aspecto do combate direto com o
inimigo. Normalmente, os jogos de tatica em tempo real no possuem em sua estrutura
questes relacionadas a gerenciamento de bases e coleta de recursos. Normalmente sua
estrutura consiste em dispor para o jogador um conjunto de unidades inseridas em um
determinado campo de batalha, onde o jogador devera pensar em Iormas de derrotar as Ioras
inimigas utilizando as unidades que lhes so disponibilizadas.
Outro aspecto notavel de diIerenciao entre os jogos de estratgia em tempo real e os
jogos de tatica em tempo real o maior Ioco que este da as unidades individuais. Nos jogos de
estratgia em tempo real todas as unidades pertencentes a um determinado tipo possuem as
mesmas caracteristicas, tendo-se como unica exceo para esta situao as unidades herois. Ja
dentre os jogos de tatica em tempo real, ha jogos onde cada unidade possui um nome proprio,
o que implica uma identidade para cada unidade. Ja outros, como por exemplo o jogo Close
Combat,, produzido em 1995 pela empresa Atomic Games, bastante conhecido pelo alto
grau de realismo colocado em sua estrutura, pois o agente controlador obrigado a se
preocupar com a munio limitada que lhe alocada, com a gravidade das Ieridas recebidas
por seus soldados e at mesmo as condies mentais e psicologicas destes durante o jogo
(WIKIPEDIA, 2009).
Realizando uma comparao mais sistematica entre os jogos de estratgia em tempo
real e os jogos de tatica em tempo real, pode-se ver que os dois gneros se complementam,
principalmente no que tange a sua aplicabilidade em programas de treinamento de pessoal,
por exemplo. A diIerena basica entre os dois gneros o Iato de os jogos de tatica em tempo
real se Iocarem num aspecto mais especiIico das questes estratgicas. Em Iuno disso, ha
discusses que at mesmo consideram os jogos de tatica em tempo real como um sub-gnero
dos jogos de estratgia em tempo real.
1.5. Consideraes finais
Neste capitulo Ioi apresentada a historia dos jogos eletrnicos de estratgia em tempo
real, alm dos conceitos basicos destes jogos e uma comparao deste gnero com alguns
proximos.
24
Pela historia dos jogos de estratgia em tempo real, pode-se observar que o gnero tem
agregado a si um srie de evolues, evolues essas que continuam a ser incorporadas
mesmo na atualidade, sendo que as evolues vo desde a parte graIica, com a transio da
arquitetura em 2 dimenses para a de 3 dimenses at a jogabilidade, como tambm pela
agregao ao gnero de caracteristicas pertencentes a outros gneros de jogos.
25
CAPITULO 2 - OS AGENTES INTELIGENTES NOS 1OGOS ELETRNICOS DE
ESTRATGIA EM TEMPO REAL
2.1. Introduo - A Inteligncia Artificial
A Inteligncia ArtiIicial (IA) uma area do conhecimento que vem sendo
desenvolvida desde o Iim da Segunda Guerra Mundial, sendo, portanto, uma area do
conhecimento bastante recente (RUSSEL & NORVIG, 2004: p. 3). O proprio nome Ioi
cunhado apenas em 1956 (idem).
O autor (idem) relata que
atualmente, a IA abrange uma enorme variedade de subcampos, desde areas de uso
geral, como aprendizado e percepo, at tareIas mais especiIicas como jogos de
xadrez, demonstrao de teoremas matematicas, criao de poesia e diagnostico de
doenas.
Continuando (idem), argumenta que 'a IA sistematiza e automatiza tareIas intelectuais
e, portanto, potencialmente relevante para qualquer esIera de atividade intelectual humana.
Nesse sentido, ela verdadeiramente um campo universal.
No ha um consenso na parcela da comunidade cientiIica ligada a Inteligncia
ArtiIicial sobre uma conceitualizao sistematica exata desta area. Neste mbito, existem 4
Iocos, a saber;
1. A IA vista como a construo de sistemas que agem como seres humanos;
2. A IA vista como a construo de sistemas que pensam como seres humanos;
3. A IA vista como a construo de sistemas que agem racionalmente;
4. A IA vista como a construo de sistemas que pensam racionalmente.
Neste ponto, pode-se observar que tais Iocos conceituais levam em considerao a
combinao de dois Iatores binarios:
1. Operaes realizadas pelos sistemas a serem construidos: pensamento x ao;
2. Forma de ao dos sistemas a serem construidos: humaniaaae x racionaliaaae.
26
A primeira abordagem da IA tem como ponto basilar de analise a questo do teste de
Turing. Este teste permite determinar se uma maquina tem a capacidade de reproduzir o
pensamento humano de Iorma que qualquer pessoa que interaja com esta maquina no saiba
se esta interagindo com uma outra pessoa ou com uma maquina. RUSSEL & NORVIG (idem:
p. 4) a detalha nos seguintes termos: 'O computador passara no teste se um interrogador
humano, depois de propor algumas perguntas por escrito, no conseguir descobrir se as
respostas escritas vm de uma pessoa ou no.
A segunda abordagem, Iocada na questo da construo de sistemas que pensam da
mesma Iorma que os seres humanos, esta ligada a questo da modelagem cognitiva. Busca
entender os processos que regem a cognio humana para ento modelar sistemas que
reproduzam estes processos. RUSSEL & NORVIG (idem: p. 5) relata a existncia de duas
Iormas de se entender os processos cognitivos humanos: a primeira a introspeco, ou seja,
a busca de captar os pensamentos humanos a medida que eles se desenvolvem, e a segunda
atravs de experimentos psicologicos. Continuando, o autor argumenta que 'depois que
tivermos uma teoria da mente suIicientemente precisa, sera possivel expressar a teoria como
um programa de computador (idem). Estes conhecimentos so do mbito do campo
interdisciplinar da cincia cognitiva, que 'reune modelos computacionais da IA e tcnicas
experimentais da psicologia para tentar construir teorias precisas e veriIicaveis a respeito dos
processos de Iuncionamento da mente humana (idem).
A terceira abordagem cai no mbito da logica, sendo, em Iuno disso, denominada de
tradio logicista (idem: p. 6), sendo que 'por volta de 1965, existiam programas que, em
principio, podiam resolver qualquer problema solucionavel descrito em notao logica
(idem). O principal objetivo desta escola o de desenvolver programas nestes moldes para
criar sistemas inteligentes (idem).
Entretanto, o autor (idem) relata que
essa abordagem enIrenta dois obstaculos principais. Primeiro, no Iacil enunciar o
conhecimento inIormal nos termos Iormais exigidos pela notao logica, em
particular quando o conhecimento menos de 100 certo. Em segundo lugar, ha
uma grande diIerena entre ser capaz de resolver um problema em principio e
resolv-lo na pratica. At mesmo problemas com apenas algumas dezenas de Iatos
podem esgotar os recursos computacionais de qualquer computador, a menos que ele
tenha alguma orientao sobre as etapas de raciocinio que deve tentar primeiro.
Embora ambos os obstaculos se apliquem a qualquer tentativa de construir sistemas
de raciocinio computacional, eles surgiram primeiro na tradio logicista
27
Ja a quarta abordagem se Ioca na questo do agente racional. RUSSEL & NORVIG
(idem) deIine um agente racional como um agente que 'age para alcanar o melhor resultado
ou, quando ha incerteza, o melhor resultado esperado.
Normalmente, a Inteligncia ArtiIicial costuma se preocupar com a questo da
construo de agentes racionais. O Ioco deste trabalho dar-se-a tambm neste sentido, tendo
em vista que, quando se Iala em agentes inteligentes aplicados a jogos eletrnicos de
estratgia em tempo real, Iala-se, necessariamente, de agentes racionais.
Este capitulo tera como ponto especiIico de abordagem estes agentes. Iniciar-se-a com
a exposio acerca dos tipos de agentes existentes, a saber: os agentes reativos, subdivididos
entre dois grupos: os agentes reativos simples e os agentes reativos baseados em modelos. E
os agentes cognitivos, sub-divididos em outros dois grupos: os agentes baseados em objetivos
e os agentes baseados na utilidade; prosseguir-se-a com uma abordagem acerca do
planejamento nos agentes e uma abordagem acerca da aprendizagem nos agentes. Cada um
destes topicos tera dois pontos de abordagem: uma caracterizao geral de cada operao e
uma analise mais pratica de cada uma, ou seja, como estes conceitos so aplicados aos agentes
cognitivos dos jogos eletrnicos de estratgia em tempo real. Apos isso, seguir-se-a as
consideraes Iinais do capitulo.
As partes deste capitulo que tratam dos agentes inteligentes e das tcnicas de
planejamento basear-se-o no trabalho de RUSSELL & NORVIG (idem), e a abordagem
acerca da aprendizagem basear-se-a no trabalho de RICH & KNIGHT (1993).
2.2. Os agentes inteligentes
Os agentes inteligentes podem ser deIinidos basicamente como agentes compostos por
um conjunto de sensores, um conjunto de atuadores e um conjunto de regras de raciocinio,
inseridos em um dado ambiente, sendo que, atravs de seus sensores, recebem inIormaes
deste ambiente, as processa de acordo com suas regras de raciocinio e retornam uma resposta
a este ambiente atravs de seus atuadores.
Os sensores podem ser deIinidos como qualquer dispositivo de recepo de
inIormaes acoplados ao agente. Como exemplos, podem ser citados sensores trmicos,
microIones e cmeras.
28
Os atuadores podem ser entendidos como o conjunto de dispositivos atravs do qual o
agente intervem no ambiente onde esta inserido. Esta interveno pode se dar atravs da
emisso de sinais de voz, que podem ser lanados ao ambiente atravs de sintetizadores de
voz, ou tambm atravs de intervenes diretas, como por exemplo o ato de se locomover at
um determinado local.
O ambiente consiste no conjunto de estruturas, reais ou virtuais, no qual o agente esta
inserido e com o qual interage. Este ambiente pode ser tanto o mundo real, com o qual um
rob, por exemplo, interage, ou mesmo uma estrutura de um jogo de computador, no qual o
agente interage com outros agentes inteligentes e com jogadores humanos.
Os ambientes so deIinidos de acordo com os seguintes parmetros:
1. Observabilidade: Consiste no espectro do ambiente que pode ser captado pelos
sensores do agente. Neste sentido, o ambiente pode ser completamente observvel ou
parcialmente observvel, sendo que o ambiente completamente observavel pode ser
captado completamente pelos sensores do agente, ou pelo menos em seus aspectos
mais relevantes; e parcialmente observavel quando seus aspectos relevantes no
podem ser captados em sua plenitude pelos sensores do agente.
2. Estocasticidade: Pode-se dizer que consiste na possibilidade de o desenvolvimento
interno do ambiente a partir de um determinado estado conjugado com as aes do
agente ser deIinido ou no em um campo de probabilidade. Aqui, o ambiente pode ser
determinstico, estocstico ou estratgico. Os dois primeiros casos reIerem-se a
interao do agente com o ambiente, quando no ha outros agentes inseridos no
mesmo, e o terceiro se reIere a existncia desses outros agentes no ambiente, quando
apenas esta existncia, e mais nenhum outro Iator, conIere ao ambiente um
determinado grau de estocasticidade. O ambiente deterministico quando 'o proximo
estado do ambiente completamente determinado pelo estado atual e pela ao
executada pelo agente (p. 41), sendo estocastico quando esta condio no
satisIeita.
3. Seqencialidade: Este parmetro baseia-se na relao entre os diversos estados que
um determinado ambiente pode assumir no decorrer do tempo, em Iuno das aes
do agente. Desta Iorma, um ambiente pode ser seqencial ou episdico, sendo
episodico quando a ao do agente num determinado estado no possui qualquer
29
relao com os estados posteriores do ambiente, e seqencial quando existe a
possibilidade de inIluncia de aes executadas pelo agente num determinado estado
do ambiente em estados posteriores do mesmo.
4. Dinamicidade: a dinamicidade se reIere a possibilidade de existncia de mudanas no
ambiente que se do independentemente da ao do agente e e ocorrem enquanto este
delibera uma ao. Neste sentido, um ambiente pode ser esttico quando esta
possibilidade inexistente ou dinmico no caso contrario.
5. Continuidade: Consiste na possibilidade de o ambiente ser descrito em termos de
estados ou dimenses Iisicas Iinitos, sendo discreto quando descrito de acordo com
estes parmetros e contnuo no caso contrario.
6. Quantidade de agentes inseridos no ambiente: O agente inteligente pode no estar
agindo solitariamente no ambiente. Outros agentes tambm o podem ao mesmo tempo.
Com relao a esse parmetro, um ambiente pode ser um ambiente de agente nico
ou um ambiente multiagente.
Cada agente composto pela conjuno de duas estruturas: uma arquitetura e um
programa de agente (p. 44). A arquitetura pode ser deIinida como o conjunto de estruturas
Iisicas que compem o agente. Pode ser tanto o corpo de um rob como tambm o conjunto
de circuitos logicos de um computador que do vida a um agente inteligente inserido em um
jogo de computador.
Ja o programa de agente consiste no conjunto de estruturas logicas que compem o
agente.
Guardadas as devidas propores, pode-se dizer que a arquitetura consiste no
haraware do agente inteligente. E o programa de agente, o seu software.
Tal estrutura pode ser deIinida de acordo com a seguinte sentena:
Agente Arquitetura + Programa de Agente
O autor (idem) relata que 'o trabalho da IA projetar o programa de agente que
implementa a Iuno do agente que mapeia percepes em aes. E importante salientar que
o programa de agente deve ser apropriado para a arquitetura (idem). Isto signiIica dizer, em
termos praticos que, se o agente no possui uma estrutura adequada, torna-se impossivel a
30
execuo do seu programa de agente. Ou seja, no se pode programar um agente para
caminhar quando este no tem pernas, da mesma Iorma que impossivel a uma pessoa voar
por conta propria, dado que a natureza no lhe proveu as asas que lhe permitiriam o vo.
Outro conceito que importante salientar a respeito dos agentes inteligentes o
conceito da funo ae agente. Este conceito esta relacionado com o conceito do programa de
agente. No entanto, diIere deste no aspecto que este tem um carater de implementao,
enquanto que a Iuno de agente tem um carater mais matematico, mapeando 'qualquer
seqncia de percepes especiIica para uma ao (p. 34)
Os agentes inteligentes dividem-se num total de 4 categorias, conIorme a ilustrao
abaixo:
O que diIerencia os tipos de agentes inteligentes entre si basicamente o nivel de
complexidade atribuido a cada tipo de agente, sendo que os agentes reativos simples so os
modelos mais simples dentre todos, seguindo-se, ento, uma ordem de complexidade
crescente at os agentes baseados em utilidade, que so os modelos mais complexos,
passando-se pelos agentes baseados em modelos e pelos agentes baseados em objetivos.
Este topico abordara cada modelo de agente de Iorma separada, de acordo com o nivel
de complexidade, iniciando-se com os agentes reativos simples at os agentes baseados na
utilidade.
Ilustrao 9. Esquema ae representao aa aiviso aos agentes inteligentes
em tipos especificos.
31
2.2.1. Os agentes reativos simples
Os agentes reativos simples so implementados com uma estrutura basica de estimulo-
resposta. Ou seja, a cada estimulo que recebem do ambiente onde esto inseridos, retornam
uma resposta pr-determinada, ignorando todo o historico de percepes recebidas do
ambiente at o momento em que recebeu o estimulo imediato.
2.2.2. Os agentes baseados em modelos
Os agentes baseados em modelos, como o proprio nome indica, so dotados, alm da
estrutura basica contida em um agente reativo simples, de uma estrutura interna denominada
moaelo ae munao.
Esta estrutura consiste num conjunto de inIormaes contidas no agente que registram
a situao do ambiente onde o agente esta inserido de acordo com duas condies, a saber:
1. A condio do ambiente desconsiderando a ao do agente;
2. A condio do ambiente em Iuno da ao do agente.
Ilustrao 10. Representao esquematica ae um agente reativo simples.
Aaaptaao ae (RUSSEL & NORJIG, 2004. p. 47)
32
Este modelo de mundo utilizado pelo agente para guiar a sua ao. Assim, o agente
no utiliza apenas a sua percepo imediata do ambiente para poder ento agir sobre o
mesmo. Ao passo que recebe a inIormao do ambiente, o agente baseado em modelos possui
a capacidade de calcular a sua ao antes de executa-la.
2.2.3. Os agentes baseados em objetivos
O agente baseado em objetivos um modelo de agente dotado, alm das estruturas
existentes nos agentes reativos baseados em modelos, de um conjunto de objetivos que guia
sua ao.
Estes objetivos podem ser deIinidos como um conjunto de condies desejaveis ao
agente (p. 49). Num jogo eletrnico de estratgia em tempo real, por exemplo, podem ser
deIinidos como objetivos do agente a destruio das bases inimigas e a preservao da propria
base.
Ilustrao 11. Diagrama esquematico ae um agente baseaao em moaelos.
Aaaptaao ae (RUSSEL & NORJIG, 2004. p. 49)
33
Os objetivos de um agente tm complexidade variavel, sendo que alguns podem ser
atingidos diretamente e outros devem seguir passos muito mais complicados para que possam
ser atingidos. Neste sentido, so deIinidos algoritmos de busca e planejamento. Destes dois
conceitos, apenas o planejamento sera Ioco deste trabalho, sendo analisado mais adiante.
Embora os agentes baseados em objetivos paream menos eIicientes, eles so muito
mais Ilexiveis que os agentes reativos, dado que 'o conhecimento que apoia suas decises
representado de maneira explicita e pode ser modiIicado (p. 50). Alternncias de condies
ambientais nos agentes reativos implicam na reescrita de uma srie de pontos nas regras
condio-ao
9
para que estes agentes possam ter uma interao adequada com o ambiente
onde esto inseridos. Num agente baseado em objetivos, basta que se atualize o conceito de
ao eIiciente nas novas condies ambientais para que o agente possa emitir respostas
adequadas as mesmas.
2.2.4. Os agentes baseados na utilidade
Os agentes baseados na utilidade so um modelo de agente que, alm da estrutura de
objetivos existente, so dotados de um conjunto de regras de utilidade.
A um agente podem ser dados um conjunto de objetivos que, no entanto, podem ser
contraditorios ou ter graus de eIicincia distintos. Neste sentido que surge a importncia do
9
Regras que relacionam as respostas do agentes aos estimulos externos.
Ilustrao 12. Diagrama esquematico ae um agente baseaao em obfetivos.
Aaaptaao ae (RUSSELL & NORJIG, 2004. p. 50)
34
mecanismo da utilidade. Este mecanismo permite que o agente possa deliberar qual ao
mais conveniente em relao a seus objetivos.
Neste sentido, deIinida na estrutura do agente uma funo ae utiliaaae, que
mapeia um estado (ou uma seqncia de estados) em um numero real, que descreve
o grau de Ielicidade associado. Uma especiIicao completa da Iuno de utilidade
permite decises racionais em dois tipos de casos nos quais os objetivos so
inadequados. Primeiro, quando existem objetivos contraditorios, dos quais apenas
alguns podem ser atingidos (.), a Iuno de utilidade especiIica o compromisso
apropriado. Em segundo lugar, quando existem varios objetivos que o agente deseja
alcanar e nenhum deles pode ser atingido com certeza, a utilidade Iornece um meio
pelo qual a probabilidade de sucesso pode ser ponderada em relao a importncia
dos objetivos (p. 50)
O conceito de feliciaaae, colocado pelo autor na passagem acima exposta, pode ser
entendida como a convenincia de uma ao em relao aos objetivos do agente.
2.3. Funes cognitivas nos agentes
Pode-se dizer que os agentes inteligentes so sistemas modelados para reproduzir,
junto ao ambiente onde so inseridos, graus de inteligncia inerentes ao ser humano, em
niveis variados de aproximao.
Ilustrao 13. Diagrama esquematico ae um agente baseaao na utiliaaae.
Aaaptaao ae (RUSSEL & NORJIG, 2004. p. 51)
35
A inteligncia humana, entretanto, possui em sua estrutura um conjunto de diversas
Iunes. Dentre elas, pode-se citar o planejamento, a aprendizagem, o processamento de
linguagem natural e o raciocinio probabilistico e/ou estatistico, sendo que ao estudo da
modelagem de cada uma destas Iunes correspondem sub-areas da Inteligncia ArtiIicial.
Nos jogos eletrnicos de estratgia em tempo real, e mais especiIicamente no estudo
dos agentes cognitivos evolutivos, pode-se dizer que as Iunes cognitivas mais utilizadas
pelos agentes programados para estas aplicaes so o planejamento e a aprendizagem. Neste
sentido, este trabalho Iocar-se-a essencialmente nestas Iunes, abstraindo as outras em
Iuno de no terem aplicabilidade nos jogos eletrnicos de estratgia em tempo real to
evidente quanto as que sero tratadas adiante.
2.3.1. O planejamento nos agentes
2.3.1.1. Caracterizao geral
O planejamento pode ser deIinido como sendo a Iuno cognitiva de se conceber,
dentro de um determinado ambiente e dado um ou mais objetivos, um conjunto de aes
seqncias ou paralelas que permitiro ao agente que o concebeu atingir o objetivo ou
conjunto de objetivos que lhe Ioi dado.
RUSSELL & NORVIG (pp. 363-446) Iaz a abordagem do planejamento atravs da
caracterizao geral do conceito e da especiIicao de sua aplicao a problemas do mundo
real.
Toda ao pressupe a existncia de determinadas condies que permitam a sua
execuo. O autor (idem) as denomina como pr-condies da ao. Alm disso, toda ao
esta dotada de efeitos sobre o ambiente, que consistem basicamente nas conseqncias diretas
da execuo de uma ao por um agente em um dado ambiente.
Os conceitos de ao, pr-condies e eIeitos so essenciais para que se possa
caracterizar o planejamento necessario a consecuo de um determinado objetivo por um
agente racional.
Continuando sua discusso, o autor (idem) deIine os seguintes modelos de
planejamento:
1. Planejamento com busca no espao de estados;
36
2. Planejamento de ordem parcial;
3. Planejamento atravs de graIos;
4. Planejamento com logica proposicional.
Neste trabalho, sero consideradas apenas as metodologias da busca em espaos de
estados, o planejamento de ordem parcial e o planejamento atravs de graIos, dado que o
planejamento com logica proposicional no possui uma aplicabilidade nos jogos eletrnicos
de estratgia em tempo real to clara como as outras metodologias.
O planejamento atravs de busca em espaos de estados tambm no tem uma
aplicabilidade muito clara na caracterizao do planejamento em agentes de jogos eletrnicos
de estratgia em tempo real. No entanto, ela sera abordada em Iuno de possuir relaes com
o planejamento de ordem parcial.
O planejamento com busca no espao de estados deIinido pelo autor como a
abordagem mais objetiva para a questo do planejamento.
Um espao de estados consiste no conjunto de estados que o ambiente e o agente
podem assumir entre o estado atual em que se encontram e o estado que esta deIinido como
objetivo do agente. Cada estado deIinido por um conjunto de literais que dizem quais so as
suas caracteristicas.
A busca no espao de estados pode ser Ieita em dois sentidos:
1. Para frente: Aqui o planejamento Ieito a partir do estado inicial do problema, que
geralmente deIinido atravs de um conjunto de literais positivos, sendo que os
literais que no aparecem na descrio do estado so considerados Ialsos. A partir
deste estado, o agente calcula o conjunto das aes que vo modiIicar o ambiente at
que se atinja o objetivo especiIicado, utilizando a que melhor lhe convier. Esta
abordagem tambm pode ser denominada como planejamento por progresso. Dado
que os estados que no so descritos so considerados Ialsos, diz-se que nesta
modalidade de planejamento o agente utiliza-se de uma hiptese de mundo fechado.
2. Para trs: Neste caso, diIerentemente da busca para Irente, o planejamento se da a
partir do estado deIinido como objetivo para o agente, sendo que cabe ao agente
detectar as aes relevantes para que possa atingir o objetivo que lhe Ioi proposto.
Alm disso, deve-se levar em considerao que as aes a serem realizadas pelo
37
agente devem ser consistentes, ou seja, uma ao no pode desIazer qualquer literal
que seja desejavel a consecuo do objetivo proposto. Esta abordagem tambm
conhecida como planejamento por regresso.
As modalidades de planejamento baseadas na busca em estados de espao consistem
em modalidades de planejamento de ordem total, ou seja, modalidades de planejamento onde
todo o plano seguido estritamente de acordo com uma determinada ordem, inexistindo o
paralelismo de aes no plano.
Determinadas aes so mais importantes ou obvias que outras. No entanto, o
ordenamento estritamente cronologico das aes pode Iazer com que as aes importantes ou
obvias no sejam tratadas com o devido grau de prioridade.
Esta questo vem a ser resolvida atravs do planejamento de ordem parcial, que passa
a tratar em seu bojo a questo do paralelismo entre determinadas aes, permitindo que estas
aes paralelas possam ser executadas sem uma ordem estrita.
O planejamento de ordem parcial trabalha com o reIinamento do plano, aspecto esse
inexistente nas abordagens baseadas em busca em espaos de estados. Desta Iorma, esta
abordagem toma o plano como pronto assim que detecta o conjunto de aes que levara ao
cumprimento eIetivo do objetivo proposto ao agente.
Um plano inicial pode no ser eIiciente. Neste sentido se coloca a importncia do
reIinamento de um plano, sendo que este processo traz a possibilidade da modelagem de um
plano que venha a utilizar menos recursos ou mesmo tratar as partes mais importantes ou
obvias do plano com a devida prioridade.
Cada plano dentro de um planejamento de ordem parcial possui 4 componentes, que
so:
1. Um conjunto de aes, que consistem nas intervenes do agente junto ao ambiente;
2. Um conjunto de restries de ordenao, que consistem nas regras de precedncias
entre determinadas aes. Aqui importante assinalar a noo de ciclos, que a
condio onde uma ao uma precondio e ao mesmo tempo eIeito de outra ao.
3. Um conjunto de vnculos causais, que consistem em aes que devem ser executadas
entre outras duas aes e que no podem ser canceladas no intervalo entre as duas
aes consideradas. Vale ressaltar que, das aes onde o vinculo causal esta inserido, a
38
primeira ao precondio do vinculo causal e este precondio para a segunda
ao.
4. Um conjunto de precondies abertas, que consistem em precondies que no esto
sendo alcanadas por nenhuma ao no plano em um determinado momento.
Quando no ha nenhum ciclo nas restries de ordenao e nenhum conIlito com os
vinculos causais do plano, diz-se que encontrou-se um plano consistente. E quando encontra-
se um plano consistente que no possua nenhuma precondio aberta, diz-se que Ioi
encontrada uma soluo para o problema colocado (p. 379).
O planejamento de ordem parcial trabalha atravs da criao de um plano inicial, que
consiste em duas aes Iniciar e Terminar a restrio de ordenao que indica que Iniciar
vem antes de Terminar, nenhum vinculo causal e todas as precondies em Terminar como
precondies abertas. E importante destacar que as aes Iniciar e Terminar no representam
nenhuma ao concreta. So apenas indicadores do inicio e do Iim do plano. So
consideradas, por isso, como 'aes Iicticias (p. 378).
A partir da condio colocada, o algoritmo de planejamento cria, para cada uma das
precondies existentes, vinculos entre estas e a ao Iniciar, estabelecendo as restries de
ordenao e vinculos causais apropriados, alm de criar novas aes conIorme a necessidade.
Apos a realizao destas operaes, o algoritmo realiza um teste de objetivo, que consiste em
veriIicar se o plano encontrado representa uma soluo para o problema colocado (idem: p.
380). Apos encontrada a soluo, dada por encerrada a execuo do algoritmo.
As heuristicas de planejamento de ordem parcial e total podem soIrer de inexatido.
Neste sentido, surge enquanto soluo a possibilidade de se utilizar um grafo de
planejamento para que se possa obter melhores estimativas de heuristicas.
Um graIo de planejamento consiste numa seqncia de niveis que correspondem a
periodos de tempo no plano, onde o nivel 0 o estado inicial deste mesmo plano.
Cada nivel do graIo de planejamento contm um conjunto de literais descritivos do
estado onde se encontra o plano e um conjunto de aes que podem ser executadas pelo
agente no estado do plano considerado. No entanto, importante destacar que os componentes
de um nivel de um graIo de planejamento so possibiliaaaes, ou seja, so precondies e
aes possiveis naquele ponto do plano.
39
E necessaria ao graIo de planejamento a representao tanto da ao quando da no-
ao, esta deIinida pelo autor (p. 385) como inao. Para isso, esta metodologia utiliza um
conjunto de aes de persistncia, sendo que estas aes consistem basicamente na condio
onde o agente no intervem no ambiente, mantendo, para o nivel do plano posterior ao
considerado, o mesmo estado deste.
O nivel A(0) contm todas as aes que poderiam ser executadas pelo agente no
estado S(0)
10
. Alm disso, ele registra conIlitos entre aes que impediriam que essas aes
ocorressem juntas. O nivel S(1) contm todos os literais que poderiam resultar da escolha de
qualquer subconjunto das aes em A(0). Cada nivel do plano tambm contm os vnculos de
excluso mtua entre determinados literais ou aes do plano.
A excluso mutua um conceito importantissimo para a metodologia do planejamento
atravs de graIos. Consiste basicamente na impossibilidade de determinados literais
aparecerem juntos, uma vez que a realizao de um implica, necessariamente, a excluso do
outro, sendo que pode ocorrer tanto entre aes distintas entre si quanto entre literais distintos
entre si. Os vinculos de excluso mutua costumam ser representados atravs de linhas
acinzentadas ligando as caracteristicas mutuamente exclusivas.
Para que exista vinculos de excluso mutua, necessario que pelo menos uma das
seguintes condies seja valida:
1. No caso das aes:
1. Efeitos inconsistentes: Uma ao negar o eIeito da outra;
2. Interferncia: Um dos eIeitos de uma ao negar a precondio da outra;
3. Necessidades concorrentes: Uma das precondies de uma ao ser mutuamente
exclusiva com uma precondio da outra.
2. E no caso dos literais:
1. Se um literal Ior a negao do outro;
2. Se as aes de cada par possivel que alcanariam os dois literais Iorem
mutuamente exclusivas
Continuando-se desse modo, alternando entre o nivel de estado S(i) e o nivel de ao
A(i), em determinado momento chega-se a um nivel em que dois niveis consecutivos so
10
S(i) representa o estado do agente e do ambiente no momento i, e A(i) representa as possibilidades de ao que
o agente dispe no estado S(i).
40
idnticos. Nesse momento, diz-se que o graIo se nivelou. Todo nivel subseqente sera
idntico, e ento qualquer expanso adicional sera desnecessaria.
At o momento, tem sido apresentadas apenas metodologias de planejamento
abstratas, desconsiderando-se a sua aplicao a realidade. Em suma, at o momento tem-se
trabalhado com o planejamento localizado num mundo perIeito.
Quando se trabalha na realidade concreta, o planejamento deve levar em conta uma
srie de limitaes de recursos das mais diversas ordens, desde restries oramentarias at
mesmo a questo do proprio tempo que se tem para executa-lo, alm de outras mais. Alm
disso, determinadas condies externas ao agente podem aIetar a eIetividade de um
determinado plano. Tais situaes exigem algumas outras Ierramentas, que sero expostas
adiante.
O autor (pp. 405-46), quando Iala do planejamento e da ao aplicados a realidade
concreta, destaca os seguintes pontos principais:
1. O escalonamento;
2. O planejamento de redes hierarquicas de tareIas;
3. O planejamento e a ao em dominios no-deterministicos
4. O planejamento multiagente.
O escalonamento pode ser deIinido como a aplicao de um conjunto de recursos por
meio de uma ordem especiIica. Representa, dentro do mbito do planejamento, grande
importncia, uma vez que permite que se organize um conjunto de tareIas de modo a tornar o
trabalho de realiza-las eIiciente. No necessaria muita delonga para demonstrar a sua
importncia. Basta considerar a situao de um sujeito que se organiza para uma entrevista
e esta atrasado. Quando uma pessoa se organiza para sair para um determinado local, o bom
senso indica que, antes de se colocar os sapatos, deve-se vestir meias. Caso o sujeito se
esquea de vestir suas meias antes de calar seus sapatos, devera, quando se der conta do que
esta Iazendo, voltar todo o processo para poder ento calar devidamente seus sapatos.
Lembre-se, novamente, que o sujeito esta atrasado para a reIerida entrevista.
Exemplos como este demonstram o grau de importncia que o escalonamento tem
quando se trabalha com o planejamento no mundo real. Determinadas Ialhas resultantes de
planejamento inadequado podem ser Iatais em certas situaes.
41
O planejamento atravs de redes hierarquicas de tareIas consiste essencialmente numa
metodologia de planejamento que opera atravs de sucessivas decomposies de um
determinado plano at que se alcance as aes primitivas do mesmo, ou seja, o planejamento
inicia-se com um plano geral, como por exemplo o plano organi:ar-se para ir para o
trabalho. A partir disso, o plano decomposto at que se encontrem as aes mais simples do
mesmo, como por exemplo as aes vestir camiseta ou calar sapatos.
Os dominios no-deterministicos, como o proprio nome indica, so os ambientes sobre
cujo estado em determinado momento o agente no tem certeza, dado que no so ambientes
completamente observaveis, estaticos e deterministicos, tal como nos casos de planejamento
classico, cujas metodologias Ioram expostas anteriormente.
Quando o agente lida com ambientes no-deterministicos, tem de lidar com
inIormaes incompletas, dado que, alm de no-deterministico, o ambiente ainda pode ser
parcialmente observavel ou conter ambas as caracteristicas; e inIormaes incorretas, dado
que seu modelo do ambiente no corresponde necessariamente ao que este de Iato.
Existem dois modelos de indeterminismo: o indeterminismo limitado e o
indeterminismo ilimitado. Para cada um dos dois modelos existem mtodos de tratamento
especiIicos.
Quando ao indeterminismo limitado, consiste nas situaes onde 'as aes podem ter
eIeitos imprevisiveis, mas os eIeitos possiveis podem ser listados nos axiomas de descrio de
aes (p. 417). O agente pode lidar com este modelo de indeterminismo atravs da listagem
de todas as situaes possiveis em sua base de conhecimento.
Ja o caso do indeterminismo ilimitado consiste nas situaes onde 'o conjunto de
precondies ou eIeitos possiveis desconhecido ou grande demais para ser enumerado
completamente (idem). Para estes casos, o agente pode lidar com o indeterminismo'apenas
se estiver preparado para rever seus planos ou sua base de conhecimentos (idem).
O indeterminismo pode ser tratado atravs de 4 mtodos:
1. Planejamento sem sensores: Neste tipo de situao, o agente apenas elabora o plano
e o aplica ao ambiente, independentemente de este corresponder ou no ao plano do
agente. Caso o ambiente no esteja de acordo com as convenincias do agente, este
utiliza-se do mecanismo da coero buscar impor seu plano ao ambiente.
42
2. Planejamento condicional: Nesta modalidade de planejamento o agente constroi um
plano para cobrir os problemas que podem ocorrer no decorrer de sua execuo. Aqui,
assim como no planejamento classico, o agente primeiramente realiza o planejamento
para ento executa-lo. No entanto, aqui o agente periodicamente realiza inspees no
ambiente para detectar a sua situao e assim se adaptar a possiveis mudanas
ocorridas;
3. Monitoramento de execuo e replanejamento: Nesta metodologia, o agente pode
utilizar tanto o planejamento classico como o planejamento sem sensores ou o
condicional. No entanto, aqui, o agente monitora a execuo do plano e conIorme a
necessidade o remodela. Ou seja, se algo sai errado no plano, Iacultado ao agente
reIazer o plano para ento aplica-lo as novas situaes imprevistas.
4. Planejamento contnuo: Nesta abordagem, conIorme o proprio nome indica, o
planejamento no agente executado permanentemente. Desta Iorma, o agente pode
responder a situaes inesperadas mesmo quando ainda esta em modo de
planejamento. Ou seja, caso ocorra um imprevisto no ambiente ainda quando o agente
estiver executando o planejamento, este podera detectar o imprevisto e inserir a
inIormao nova que recebe no seu plano para poder lidar com ela. Russel & Norvig
(p. 418) Irisa tambm que esta metodologia pode lidar com o abandono de objetivos e
criar objetivos adicionais atravs do processo de Iormulao de objetivos.
Vale ressaltar que cada metodologia geralmente usada para um modelo de
indeterminismo, sendo que as duas primeiras costumam ser utilizadas no caso de
indeterminismo limitado, enquanto as duas ultimas, por sua vez, geralmente so utilizadas em
casos de indeterminismo ilimitado.
O planejamento multiagente se aplica nos casos onde mais de um agente esta inserido
no ambiente. RUSSELL & NORVIG (pp. 435-9) relata que para este modelo de planejamento
existem dois tipos de situao concebivel: a cooperao e a competio. Vale destacar que
ambas podem estar presentes simultaneamente num determinado ambiente.
A cooperao existe quando dois ou mais agentes trabalham tendo em vista objetivos
comuns. RUSSELL & NORVIG (idem) indica duas solues para este tipo de situao: a
elaborao de planos conjuntos entre os agentes e os mecanismos de coordenao entre os
mesmos.
43
A elaborao de planos conjuntos que levem a solues corretas pode tambm ser
denominada como planejamento multicorpo.
O planejamento multicorpo tem como pontos base os conceitos de ao conjunta e
plano conjunto. RUSSELL & NORVIG (p. 437) conceitua a ao conjunta como sendo o
conjunto de aes simultneas de um conjunto de agentes num determinado momento,
enquanto que o plano conjunto consiste em um graIo parcialmente ordenado de aes
conjuntas. Destaque-se que o autor toma o planejamento de ordem parcial como base para
expor o conceito do planejamento multicorpo.
O autor, entretanto, adverte que a representao do planejamento multicorpo atravs
do planejamento de ordem parcial pode ser ineIiciente em determinadas ocasies (idem).
A soluo para este problema uma adaptao das descries de aes para que
englobem em seu escopo as aes concorrentes que podem ser realizadas por dois ou mais
agentes
Quanto aos mecanismos de coordenao, estes dependem da adoo de uma
conveno entre os agentes que cooperam entre si antes que procedam a ao comum.
Uma conveno consiste em 'qualquer restrio sobre a seleo de planos conjuntos,
alm da restrio basica de que o plano conjunto deve Iuncionar se todos os agentes o
adotarem (idem: p. 438). O autor ainda ressalta que as convenes 'podem ser implementadas
restringindo-se as descries de aes para eliminar as violaes da conveno (idem).
A competio, por sua vez, se da quando um conjunto de agentes trabalham tendo em
vista objetivos mutuamente exclusivos, o que signiIica dizer, em outros termos, que um
agente atingir um determinado objetivo implica na anulao da possibilidade de um outro
agente, que esteja em competio com aquele, atingir um ou mais objetivos seus. Isto implica
que um agente devera, necessariamente, dar combate ao outro.
RUSSELL & NORVIG (idem) relata que, na condio de competio, o agente deve
cumprir quatro condies:
1. Reconhecer que existem outros agentes no ambiente onde esta inserido;
2. Calcular alguns dos planos possiveis do outro agente;
3. Calcular como os planos do outro agente interagem com seus proprios planos;
4. Decidir sobre a melhor opo na condio onde esta inserido.
44
2.3.1.2. A aplicao do planejamento nos jogos eletrnicos de estratgia em tempo real
No so necessarias muitas delongas para se demonstrar como o planejamento
utilizado pelos agentes inteligentes alocados em jogos de estratgia em tempo real. Basta
apenas considerar a natureza de tais jogos.
Logo ao inicio do jogo, o agente introduzido em um ambiente que simula um campo
de batalha, ou seja, um ambiente sobre o qual a principio no possui quase nenhuma
inIormao, a no ser a inIormao reIerente a posio em que sua base Ioi alocada. Alm
disso, tem-se o Iato de que diversos inimigos o rodeiam e tambm buscam objetivos
aproximados, que normalmente esto relacionados a destruir as Ioras inimigas.
O ambiente, em suma, possui as seguintes caracteristicas:
1. E parcialmente observavel
11
;
2. Pode ser estratgico ou estocastico;
3. E dinmico;
4. Quanto a seqencialidade, depende do Ioco que se toma. Quando se toma como Ioco
uma partida, ela completamente seqencial. No entanto, quando se toma como Ioco
uma srie de partidas, elas, a principio, so episodicas. Os agentes cognitivos
evolutivos propostos neste trabalho permitiro que as diversas partidas onde estes
agentes estejam inseridos tornem-se seqenciais, dado que estes agentes utilizar-se-o
de inIormaes obtidas em partidas anteriores para aplicar em uma determinada
partida.
5. E continuo;
6. E, por Iim, multiagente.
A partir do momento em que o agente inicia sua atividade, deve estruturar sua base
com vistas a se deIender de possiveis ataques inimigos.
Um exemplo bem evidente deste tipo de situao o jogo Starcraft, onde
normalmente o jogador humano deve preparar sua base para um ataque inimigo macio, o que
uma constante neste jogo.
11
Tal caracteristica passa a estar presente nos jogos de estratgia em tempo real a partir do jogo Warcraft II,
onde inserida a nvoa de guerra.
45
Embora esta caracteristica do ataque macio logo no inicio da partida no seja uma
caracteristica geral nos jogos eletrnicos de estratgia em tempo real, a estruturao de uma
base Iorte uma condio necessaria para o agente seja ele controlado por um jogador
humano ou pelo proprio computador poder atingir os objetivos que lhes so dados.
Dentro de um jogo deste gnero, conIorme pde-se observar na exposio Ieita logo
atras, a primeira demanda que se coloca ao agente a estruturao de sua base para que ento
o proprio possa se concentrar em destruir as bases inimigas.
Apos a estruturao de sua base, o agente deve conquistar territorio dentro do
ambiente onde esta inserido para poder ento destruir as Ioras inimigas. Tais processos
implicam, necessariamente, a organizao de tropas e recursos de Iorma que estes objetivos
sejam alcanados. Dai a necessidade de uma Iuno de planejamento para estes agentes. Caso
este planejamento no se d de Iorma adequada, aumenta-se a probabilidade de o reIerido
agente sucumbir no campo de batalha.
Um agente de um jogo de estratgia em tempo real pode utilizar a combinao de
diversas metodologias de planejamento em uma partida. Dentre as metodologias de
planejamento classico, pode-se observar a utilizao de planejamento de ordem parcial e do
planejamento por meio de graIos. E com relao as metodologias de ao no mundo real,
pode-se observar a utilizao de redes hierarquicas de tareIas, planejamento no-
deterministico e planejamento multiagente.
Com relao as metodologias de planejamento classico, o planejamento de ordem
parcial pode ser observado por exemplo quando o agente incumbido de destruir mais de uma
base inimiga. Este tipo de situao leva a possibilidade de utilizao de diversos planos, sendo
que estes planos podem ser agrupados em sub-planos paralelos entre si. Cada base inimiga a
ser destruida implica em um plano, mas ha diversas ordens possiveis para o agente utilizar, e
este utilizara uma ou outra de acordo com suas convenincias. GraIicamente, isto pode ser
representado por meio da seguinte Iigura:
46
Uma esquematizao de planejamento em graIos encontra-se no apndice A deste
trabalho.
A realizao de cada ao especiIicada na Iigura acima requer um planejamento
especiIico. Neste sentido, pode-se conceber uma rede hierarquica de tareIas para a realizao
de cada uma das etapas do plano, sendo que cada etapa do plano requer um conjunto de
perguntas a respeito do que o agente deve Iazer.
A estruturao da base, por exemplo, requer as seguintes perguntas:
1. Que estruturas criar primeiro?
2. Qual o nivel de prioridade a ser dado a pesquisa tecnologica?
3. Como sera organizada a deIesa da base?
Ja no caso da organizao das tropas, o agente deve lidar com as seguintes questes:
1. Quais os tipos de unidades sero utilizadas para cada tipo de situao (ataque, deIesa,
etc.)?
2. Como sero combinados os diversos tipos de unidades que sero utilizados?
E para o caso da destruio das bases inimigas, tem-se o seguinte:
1. Em que regio geograIica da base inimiga deve-se iniciar o ataque?
2. Que estruturas e/ou unidades devem ser destruidas primeiro no ataque?
Ilustrao 14. Esquema geral ae um planefamento ae oraem parcial que envolve a
necessiaaae ae aestruio ae multiplos inimigos por parte ae um agente.
Iniciar
Destruir inimigo 1
Destruir inimigo 2
Terminar
Destruir inimigo n

Estruturar base
Organizar tropas
47
Estas perguntas que permitiro ao agente a organizao da execuo do plano que lhe
dado.
Outro ponto a ser considerado neste tipo de situao que o agente esta inserido num
ambiente no deterministico com indeterminismo ilimitado, dado que o mesmo interage com
um conjunto de outros agentes. Neste sentido, o agente deve estar pronto para mudar de
estratgia sempre que necessario. A abordagem do monitoramento e replanejamento de
execuo parece ser uma boa soluo para este tipo de situao.
Quanto ao planejamento multiagente, no so necessarias consideraes adicionais.
2.3.2. A Aprendizagem nos agentes
2.3.2.1. Caracterizao geral
A aprendizagem pode ser deIinida como sendo a Iuno cognitiva atravs da qual o
agente, ao ser exposto a determinadas situaes, que normalmente lhes so novas, desenvolve
novas respostas para se adequar a estas novas situaes.
RICH & KNIGHT (1993: pp. 513-58) discute as seguintes Iorma de aprendizagem:
1. Aprendizagem por memorizao;
2. Aprendizagem por aconselhamento;
3. Aprendizagem por exemplos ou induo;
4. Aprendizagem baseada em explicaes;
5. Aprendizagem por descoberta;
6. Aprendizagem por analogia;
7. Aprendizagem por meio de redes neurais e aprendizagem gentica.
No entanto, aqui sero tratados apenas os mtodos memorizao, aconselhamento,
aprendizagem por induo e aprendizagem baseada em explicaes, dada a sua aplicao mais
Iacilmente observavel nos jogos de estratgia em tempo real.
A memorizao consiste na estocagem de dados com vistas a utilizao Iutura,
podendo ser util para se evitar o recalculo de determinados valores pelo agente, recalculo esse
que pode prejudicar o seu desempenho.
48
A aprendizagem por aconselhamento consiste na recepo de inIormaes gerais
provindas de entidades externas ao agente, sendo que, ao agente, cabe transIormar estas
inIormaes gerais em procedimentos especiIicos com vistas a superar debilidades ou
aperIeioar seu desempenho onde este ja se mostra satisIatorio.
A induo consiste no processo atravs do qual um determinado agente, a partir de
inIormaes coletadas do ambiente, deIine, ao longo do tempo, classes que agrupam
caracteristicas comuns de um conjunto de elementos distintos captados do ambiente.
Ela surge da importncia de se criar uma estrutura no agente que permita ao mesmo
realizar tal empreendimento. RICH & KNIGHT (idem: p. 527) discute a questo
argumentando que 'independente do modo como as classes devem ser descritas, sempre
diIicil elaborar a mo uma boa deIinio de classe, sendo que 'isto particularmente verdade
em dominios que no so muito bem entendidos ou que mudam rapidamente. Deste ponto
que surge 'a idia atraente de produzir um programa de classiIicao que consiga desenvolver
sua propria deIinio de classe.
A induo utiliza-se de um conjunto de experincias para Iormular um determinado
conceito. No entanto, a aprendizagem de conceitos complexos atravs da utilizao deste
mtodo normalmente requer um numero consideravel de instncias de treinamento (idem: pp.
541-2). A aprendizagem baseada em explicaes surge ento como uma soluo para este
problema.
A aprendizagem baseada em explicaes consiste num modelo de aprendizagem onde
o agente adquire um novo aprendizado a partir de uma unica experincia, atravs de sua
avaliao e posterior generalizao. Neste sentido, o agente precisa basicamente de 4
inIormaes de entrada:
1. Um exemplo de treinamento, que consiste na experincia a ser avaliada com vistas a
aprendizagem;
2. Um conceito-objetivo, que consiste numa 'descrio de alto nivel do que o agente
deve aprender (idem: p. 543)
3. Um critrio de operacionalidade, que so os conceitos utilizaveis pelo agente;
4. Uma teoria do dominio, que consiste num 'conjunto de regras que descrevem
relacionamentos entre objetos e aes em um dominio (idem).
49
A partir destas entradas, 'o EBL |algoritmo de aprendizagem baseada em explicaes|
computa uma generali:ao do exemplo de treinamento que seja suIiciente para descrever o
conceito-objetivo e que tambm satisIaa o critrio da operacionalidade (idem).
Alm destas metodologias, o autor tambm tece, no capitulo onde trata da
aprendizagem, consideraes rapidas da metodologia da aprendizagem por meio de redes
neurais e da aprendizagem atravs da utilizao dos algoritmos genticos. No entanto, so
apenas consideraes no sentido de descrever de Iorma genrica tais metodologias.
2.3.2.2. A aplicao da aprendizagem nos jogos eletrnicos de estratgia em tempo real
Tal como a aplicao da Iuno cognitiva do planejamento, no diIicil observar-se a
aplicabilidade dos conceitos de aprendizagem aos jogos eletrnicos de estratgia em tempo
real.
A partir do momento em que o agente exposto ao campo de batalha, deve
constantemente recolher inIormaes acerca do mesmo para ento processa-las e assim
retornar uma resposta adequada a este ambiente hostil no qual esta inserido. Esta
caracterizao, no entanto, insuIiciente para caracterizar a situao da aprendizagem, dado
que determinados comportamentos podem ser modelados a partir de Iunes pr-
determinadas na estrutura do agente. Isto implica dizer que, dadas as Iunes pr-deIinidas no
agente, este apenas se dara ao trabalho de analisar as inIormaes que coleta e retornar
respostas conIorme estas Iunes que lhes so colocadas a priori.
A situao da aprendizagem, na perspectiva aqui apresentada, Iica mais evidente
quando se considera que o ambiente de um jogo de estratgia em tempo real altamente
dinmico, em Iuno do Iato de este tipo de jogo ter como caracteristica essencial o Iato de
que no apenas um agente que esta inserido no ambiente, mas diversos agentes que
interagem entre si e necessitam, em Iuno disso, estar prontos para trabalhar no so
considerando o ambiente onde esto inseridos, mas tambm as aes dos outros agentes que
esto inseridos no campo de batalha.
Outro ponto a se considerar nesta questo o Iato de que os diIerentes agentes podem,
em decorrncia das situaes, mudar sua estratgia. Aqui esta se desconsiderando ainda
hipotese da utilizao de um agente computacional. Considera-se, por enquanto, apenas a
50
interao de um agente computacional com um ou mais agentes controlados por seres
humanos que estejam inseridos no campo de batalha.
No necessaria muita delonga para se observar que o ser humano ja bastante
dinmico em suas aes, dada sua complexa estrutura intelectual. Isto lhe permite Iacilmente
mudar suas estratgias com vistas a atingir seus objetivos. Desta Iorma, pode-se observar
claramente que necessario dotar os agentes inteligentes controlados por computador de uma
estrutura de aprendizagem, dada as condies altamente dinmicas onde esto inseridos.
Esta estrutura de aprendizagem Iaz, assim, com que o agente analise o ambiente onde
esta inserido para ento desenvolver respostas adequadas a situao. Entretanto, esta situao
pode se modiIicar, seja repentina ou gradativamente, e estas novas situaes que surgem
Iazem com que o agente necessite se adequar as mesmas.
Por ora, sera Ieita apenas consideraes genricas a respeito da questo da
aprendizagem aplicada aos agentes aqui considerados. Consideraes mais especiIicas sero
Ieitas no capitulo IV deste trabalho, onde sera abordada a questo dos agentes cognitivos
evolutivos.
2.4. Consideraes Finais
Neste capitulo, discutiu-se, essencialmente, a questo dos agentes inteligentes
aplicados aos jogos eletrnicos de estratgia em tempo real, iniciando-se atravs de uma breve
exposio a respeito da tecnologia da Inteligncia ArtiIicial, seguindo-se ento para as
consideraes a respeito dos agentes inteligentes e sua tipologia. Apos isso, procedeu-se a
discusso a respeito das Iunes cognitivas do planejamento e da aprendizagem, sendo que,
para cada uma das reIeridas Iunes, Ioi, inicialmente, apresentada uma caracterizao geral,
atravs de sua conceituao e a discusso a respeito de suas metodologias de implementao,
para a partir disso explorar-se a discusso a respeito da aplicabilidade destas metodologias aos
jogos eletrnicos de estratgia em tempo real. A aprendizagem, no entanto, Ioi apenas tratada
de Iorma genrica em sua aplicabilidade a este gnero de jogos, dado que mais pertinente
que seja tratada em conjunto com a discusso a respeito dos agentes cognitivos evolutivos,
que sero apresentados no capitulo IV deste trabalho.
51
CAPITULO 3 - OS AGENTES COGNITIVOS NO 1OGO OU1LIJE
3.1. Introduo
Realizadas as devidas consideraes a respeito dos jogos eletrnicos de estratgia em
tempo real e dos agentes inteligentes, cabe agora realizar a analise da aplicao destes agentes
ao jogo que objeto deste trabalho.
O objetivo deste capitulo consiste precisamente na realizao desta analise, onde
iniciar-se-a com uma caraterizao geral do jogo Outlive, na qual sera realizada uma breve
caracterizao sobre o seu lanamento e a historia do jogo, alm de se realizar uma
caracterizao sobre a a dinmica de Iuncionamento do mesmo. Apos isso, sera realizada a
analise acerca dos agentes cognitivos aplicados ao jogo em questo, iniciando-se atravs do
relato de observaes empiricas para que ento se proceda a uma analise mais sistematica dos
reIeridos agentes, a partir da realizao de alguns experimentos que sero descritos mais
adiante. Apos a descrio destes experimentos, proceder-se-a as consideraes Iinais.
3.2. Outlive
O jogo Outlive Ioi lanado em 2001 pela empresa brasileira Continuum Entertainment.
Ilustrao 15. Logotipo aa Continuum
Entertainment. Extraiao ao fogo Outlive.
52
Sua historia se passa num Iuturo relativamente proximo, marcado pela escassez dos
recursos naturais, combinada com o surgimento de movimentos Iocados na tomada do poder
politico e caracterizados pelo uso de aes terroristas e Ioras paramilitares como Iorma de
alcanar seu objetivo.
Em Iuno disso, os grandes conglomerados econmicos e os paises mais poderosos
do planeta Iormam o Conselho Munaial, organizao cujo objetivo se coloca no sentido de
combater os grupos acima citados.
Para se resolver o problema da escassez dos recursos naturais, surge o programa
espacial Outlive, que consiste essencialmente no envio de sondas com vistas a varrer todo o
Sistema Solar em busca de recursos naturais que pudessem suprir a demanda existente na
Terra e posterior explorao dos locais mais propicios a esta atividade.
Apos a realizao das sondagens e dos devidos estudos, chega-se a concluso de que o
local do Sistema Solar mais propicio a explorao seria Tit, satlite natural de Saturno, pelo
Iato de ser o local mais rico em recursos naturais. No entanto, havia ali um grande problema:
sua atmosIera era impropria para a sobrevivncia humana, o que tornava impossivel o envio
de misses tripuladas por pessoas.
A partir disso que surge um dos dilemas centrais da historia do jogo, que consiste na
seguinte pergunta: 'que tipo de misso deve ser enviada a tal lugar?.
A partir deste dilema, surgem duas posies distintas, uma deIendendo o envio de
seres modiIicados geneticamente para o local e a outra se posicionando no sentido do envio de
misses tripuladas por robs, sendo que uma acirrada disputa se desenrola entre as duas Ioras
politicas.
Ilustrao 16. Uniaaae robotica a esqueraa e ser moaificaao
geneticamente a aireita. Imagem extraiaa ao fogo Outlive.
53
Devido ao alto grau de instabilidade politica que se instala no planeta, o Conselho
Munaial assume o controle politico do mesmo, Iicando ento o general Robert J. Kaminski
como seu comandante supremo.
O jogo inicia-se com o jogador controlando Ioras do Conselho Munaial, comandadas
pelo ento tenente Brad Maxwell. O objetivo do jogador no inicio do jogo combater as
Ioras do Exercito aa Liberaaae, uma das Ioras paramilitares citadas no inicio deste topico.
No entanto, o desenvolvimento do jogo mostra que, na realidade, o Conselho Munaial no o
que parecia ser. No decorrer do jogo, descobre-se que uma articulao Ieita dentro do
mesmo para beneIiciar a Mechatronics, conglomerado econmico da area de produo de
robs e, por isso mesmo, deIensor do envio de tripulao robotica para a misso Outlive.
A real Iaceta do Conselho Munaial revelada proximo ao Iim da campanha
12
humana.
No desenvolvimento da historia mais especiIicamente, na misso 5 da campanha humana
Maxwell, junto com Peter Mackenzie, especialista em explosivos, investigam instalaes da
Mechatronics e descobrem que a mesma no tem apenas se dedicado a produo de robs
com vistas a explorao de recursos minerais, mas tambm os tem desenvolvido enquanto
instrumentos blicos, de Iorma ilegal. Apos conseguir provas do que constatam e entrega-las a
Kaminski, este promete realizar uma investigao mais apurada a respeito da questo. No
entanto, ainda no era o momento para isto, uma vez que a misso Outlive tinha de ser
lanada e Ioras do Exercito aa Liberaaae buscavam impedir este lanamento. A misso 6 da
campanha humana consiste exatamente em destruir as baterias anti-areas com as quais a
Iora rebelde busca abater as 3 naves a serem enviadas a Tit.
12
O conceito de campanha um conceito geral nos jogos eletrnicos de estratgia em tempo real e se reIere a um
conjunto de partidas que o jogador cumpre no jogo com cada uma das raas que o mesmo possui, sendo que no
decorrer destas campanhas o jogador vai gradativamente podendo utilizar os recursos de cada raa. Alm disso,
em geral a historia do jogo se desenvolve no modo campanha, sendo que os outros modos de jogo tem apenas o
carater do entretenimento.
Ilustrao 17. A
esqueraa, Maxwell. A
aireita, Kaminski.
Imagem extraiaa ao
fogo Outlive
54
Na misso, duas das baterias so destruidas, mas uma terceira, que no havia sido
descoberta, acaba destruindo a nave Outlive 1, e esta cai em um arquiplago.
Maxwell, junto com Mackenzie, so enviados para encontrar os destroos da nave, e
neste ponto ocorre a traio de Kaminski, que tenta usar as Ioras do Conselho Munaial que
acompanhava os dois para executa-los. Mas Maxwell e Mackenzie so salvos pelas Ioras do
Exercito aa Liberaaae e por seu lider, Pablo Morales, e Mackenzie revela a Maxwell ser
membro da Iora rebelde, convidando-o a se unir aos mesmos. A partir deste momento,
Maxwell passa a compor o reIerido Exrcito.
A partir dai, o jogo passa por uma algumas reviravoltas at encontrar seu desIecho. Ao
Iim da campanha humana, o Exercito aa Liberaaae destitui o Conselho Munaial, Iormando
ento a Confeaerao, que passa a administrar os rumos do planeta.
A partir disso, a Mechatronics se organiza para destruir a ConIederao, sendo essa a
trama que envolve a segunda campanha do jogo, a campanha rob. Ao Iinal, a corporao
alcana seu objetivo, e Carl Eberhardt, seu presidente, assume o controle do planeta.
Ilustrao 18. A
esqueraa, Morales. A
aireita, Macken:ie.
Imagem extraiaa ao
fogo Outlive
55
No entanto, antes da destruio da ConIederao, Maxwell que capturado no
ultimo ataque da Mechatronics organiza uma resistncia, que encampa uma luta contra a
Mechatronics, sendo essa a trama da ultima campanha do jogo a campanha cooperativa. Ao
Iim desta, a Mechatronics Iinalmente destruida e ento Iormada a Nova Confeaerao,
constituindo este o Iim da historia do jogo.
ConIorme exposto, o jogo se divide em 3 campanhas: a campanha humana, a
campanha rob e a campanha cooperativa. Nas duas primeiras campanhas, tal como indicam
seus respectivos nomes, o jogador controla, respectivamente, Ioras humanas e Ioras
roboticas. A terceira campanha se caracteriza pelo uso combinado de Ioras das duas raas.
As caracteristicas das raas sero descritas adiante.
Ha dois recursos que o jogador deve administrar: os crditos e a energia.
Os crditos podem ser obtidos atravs das seguintes Iormas:
1. Explorao de jazidas que podem ser encontradas espalhadas pelo mapa. Tais jazidas
podem ser jazidas de Ierro ou de urnio.
2. Coleta de sucata que sobra quando uma determinada unidade a exceo dos
vampiros e dos abominaveis destruida;
3. Recebimento de crditos de exrcitos aliados;
Ilustrao 19. Carl Eberharat. Imagem extraiaa
ao fogo Outlive.
56
Ja a energia pode ser adquirida atravs de algumas construes especiIicas, sendo que
os humanos a adquirem atravs da construo de geraaores eolicos e usinas nucleares e os
robs a adquirem atravs da construo de geraaores solares e geraaores raaioativos.
Quanto aos modos de jogo, ha os seguintes:
Um jogador, com os seguintes modos:
Campanha onde se pode jogar a campanha humana, rob ou cooperativa;
Mapa personalizado.
Modo multijogador, que pode ser jogado, dentre outras Iormas, atravs de rede local
ou atravs da Internet.
O mapa personalizado o modo que sera o Ioco deste jogo.
Neste modo, o jogador solicitado a escolher um mapa para jogar. Cada mapa possui
suas especiIicidades, como por exemplo as dimenses e o numero maximo de jogadores
sejam eles humanos ou agentes cognitivos que interagiro com o jogador.
O jogo possui duas raas: a humana e a robotica. As estruturas de cada uma so
descritas a seguir:
Ilustrao 20. Acima, o
aspecto ae uma fa:iaa ae
uranio. Abaixo, o aspecto
ae uma fa:iaa ae ferro.
Imagem extraiaa ao fogo
Outlive
57
1. Humanos:
1. Quartel General: Estrutura principal de uma base humana. Produz construtores,
coletores, abominaveis e ICBM's
13
;
2. Laboratrio de pesquisa: Estrutura onde so realizadas as pesquisas com vistas
ao aperIeioamento tecnologico da base;
3. Central de Inteligncia: Estrutura atravs da qual pode-se coletar inIormaes
acerca do ambiente e acerca dos eventuais inimigos. Possui as seguintes
Iuncionalidades:
1. Roubar informaes: Permite ao jogador obter as seguintes inIormaes de
um inimigo:
1. Nome;
2. Numero de unidades;
3. Situao diplomatica, ou seja, com quem o inimigo mantm alianas e
quais so os exrcitos em relao aos quais o inimigo mantm-se neutro;
4. Finanas;
5. Numero de estruturas construidas.
2. Abrir viso: Permite que se abra a viso de uma determinada parte do
ambiente por um determinado periodo de tempo.
3. Roubar pesquisa: Permite que se tome posse de uma pesquisa realizada por
outro agente;
4. Monitorar jogador: Permite que todas as aes de um determinado jogador
seja visualizada por um determinado periodo de tempo;
5. Paralisar construes: Permite que se paralise construes inimigas por um
determinado periodo de tempo;
6. Desarmar ICBM: Permite que se desarme um ICBM lanado por algum
inimigo.
4. Mercado: Estrutura onde pode-se descartar unidades inutilizadas vendendo-as ou
comprar unidades prontas para compor o exrcito.
5. Fbrica de veculos: Estrutura para construo de unidades terrestres. Produz as
seguintes unidades:
1. Construtor;
13
O jogo possui um patch que permite que o quartel general produza tambm a unidade transportador.
58
2. Coletor;
3. Explorador;
4. Dominador;
5. Lana-chamas;
6. Lana-misseis;
7. Tanque;
8. Tanque pesado.
6. Fbrica de aeronaves: Estrutura que produz unidades areas. Permite que se
produza as seguintes unidades:
1. Transportador;
2. Helicoptero;
3. Caa.
7. Torre de defesa: Estrutura que permite a deIesa de uma base.
8. Extrator de minrio: Estrutura que permite a extrao de minrios. Para que
possa ser Ieita a extrao, deve-se ter pelo menos uma unidade do tipo coletor,
sendo que o extrator de minrio suporta at 4 coletores extraindo-lhe minrio
simultaneamente. Para ajudar na coleta de minrios, pode ser utilizada a estrutura
Refinaria. Caso no haja alguma reIinaria construida, os coletores, apos extrair o
minrio do extrator, dirigir-se-o para o quartel general.
9. Refinaria: Estrutura na qual os minrios so depositados apos serem extraidos
pelos coletores.
10. Processador de minrio: Estrutura que permite a consecuo de minrios sem a
necessidade do uso de coletores ou reIinarias.
11. Gerador elico: Estrutura utilizada para a gerao de energia para a base.
12. Usina nuclear: Outra estrutura de gerao de energia. Possui capacidade maior
que a dos geradores eolicos.
13. Retransmissor de energia: Esta estrutura esta relacionada com o conceito de
malha ae energia. A malha de energia consiste na area atingida pelas estruturas
geradoras de energia. Caso alguma estrutura da base Iique Iora desta area,
necessario o uso de um retransmissor para que esta estrutura possa receber energia.
2. Robs:
59
1. Centro de Controle: Estrutura com Iunes analogas ao quartel general dos
humanos. Permite que se construa as unidades morfo, saqueaaor, holograma e
clone
14
.
2. Centro tecnolgico: Estrutura que permite a realizao de pesquisa com vistas a
melhoria tecnologica da base;
3. Centro de informaes: Estrutura com Iunes similares a central de inteligncia
humana. No entanto, apresenta algumas diIerenas em relao a estas, a saber:
1. Operao atravs de vrus: A central de inteligncia humana opera atravs da
aplicao de uma determinada quantidade recursos e um certo periodo de
tempo para que a operaes de espionagem sejam concluidas. O centro de
inIormaes robotico opera atravs da produo de virus. Apos produzidos, os
mesmos podem ser utilizados para tentar invadir os sistemas inimigos, sem a
necessidade de espera pela realizao das operaes. Ou seja, assim que os
virus so acionados quando esto disponiveis o resultado da operao de
espionagem aparece de imediato.
2. Redirecionamento de ICBM's: Ao invs de desarmar, os robs podem
redirecionar os ICBM's inimigos, alterando sua trajetoria original.
4. Base recicladora: Estrutura que permite que se repare ou descarte uma
determinada unidade, reciclando-a.
5. Fbrica bsica: Estrutura que permite que se construa unidades basicas dos robs.
Pode construir as seguintes unidades:
1. MorIo;
2. Saqueador;
3. Invasor;
4. Tornado;
5. Electro;
6. Tempestade;
7. Vingador.
6. Fbrica avanada: Estrutura que permite que se construa as unidades mais
avanadas da raa rob. Pode construir as seguintes unidades:
1. Caos;
14
O centro de controle rob tambm possibilitado a construir a unidade Tornaao apos a aplicao do patch
mencionado anteriormente.
60
2. Trovo;
3. Incinerador;
4. Apocalipse.
7. Canho de defesa: Estrutura de deIesa que permite a deIesa contra unidades
terrestre inimigas.
8. Canho antiareo: Estrutura de deIesa que ataca unidades areas inimigas
15
9. Usina de purificao: Estrutura com Iunes similares as da reIinaria humana;
10. Base de minerao: Estrutura com Iunes similares as do extrator de minrio
humano;
11. Assimilador de minrio: Estrutura com Iunes analogas as do processador de
minrio humano;
12. Gerador solar: Estrutura com Iunes similares as do gerador eolico humano.
Aqui pode-se observar mais uma diIerena entre os robs e os humanos, uma vez
que o gerador solar possui uma taxa de produo de energia constante, enquanto
que no gerador eolico a taxa de produo de energia varia conIorme a Iora do
vento. Alm disso, o gerador solar gera uma quantidade de energia maior
1617
.
13. Gerador radioativo: Estrutura com Iunes similares as da usina nuclear humana.
Assim como o gerador solar em relao ao gerador eolico, o gerador radioativo
gera uma quantidade de energia maior que a usina nuclear humana.
Uma tabela relacionando as estruturas e suas imagens pode ser encontrada no apndice
B deste trabalho.
Os tipos de unidades esto especiIicados no apndice C, e o apndice D expe uma
tabela relacionando as unidades e suas respectivas imagens. Neste capitulo do trabalho, sero
realizadas apenas algumas ponderaes a respeito de alguns aspectos das mesmas.
As unidades podem ser selecionadas no jogo atravs de duas Iormas: individualmente
ou em esquadres, sendo que para cada uma destas Iormas de seleo, ha comandos
especiIicos que o jogador pode enviar a(s) unidade(s).
15
Aqui pode-se observar mais uma diIerena entre os humanos e os robs. A torre de deIesa humana combina,
em si, as Iunes de deIesa anti-terra e deIesa antiarea. Ja os robs possuem uma estrutura para cada tipo de
deIesa.
16
Aqui ha de se observar tambm outro Iator: as estruturas da raa rob normalmente consomem mais energia
que as estruturas humanas.
17
Outro ponto de diIerena a se notar o Iato de os robs se utilizarem do conceito de malha ae energia de Iorma
diIerente dos humanos. Na raa rob, no importando a distncia que separa as estruturas geradoras de energia
das outras estruturas, estas ainda assim continuaro recebendo energia daquelas.
61
No jogo Outlive em especiIico, as unidades podem ser divididas em 4 categorias
basicas:
1. Unidades construtoras;
2. Unidades coletoras;
3. Unidades de transporte;
4. Unidades de combate.
Todas as unidades possuem, em comum, os seguintes comandos
18
:
Mover: Faz com que uma unidade locomova-se para um determinado ponto do mapa.
Parar: Faz com que a unidade Iique parada num determinado local, so saindo do
mesmo em caso de ataque inimigo, quando passa a revidar o ataque recebido.
Manter posio: Faz com que a unidade Iique no mesmo local, independente de estar
sendo atacada ou no. Quando atacada, revida o ataque apenas quando o inimigo
esta ao seu alcance na posio onde esta.
Atacar: Faz com que a unidade ataque alguma unidade ou estrutura inimiga.
Patrulhar: Faz com que a unidade patrulhe o espao entre o ponto onde esta no
momento em que recebe o comando do agente controlador e um ponto determinado
por este.
Fugir: Faz com que a unidade Iuja para um determinado ponto do mapa, que pode ser
a propria base do agente controlador esta a opo padro ou algum ponto pr-
determinado pelo mesmo.
As unidades de combate, alm dos comandos especiIicados logo atras, possuem
tambm os seguintes comandos:
18
E importante aqui destacar o conceito de caminho, utilizado no jogo. Um caminho consiste num conjunto de
pontos do mapa que Iorma uma trajetoria que pode ser trilhada por uma unidade ou conjunto de unidades. Os
caminhos podem ser editados no decorrer de uma partida, sendo que Iicam identiIicados permanentemente por
um ponto inicial e um ponto Iinal. No mbito dos caminhos, podem ser dados os seguintes comandos as unidade:
mover, atacar ou patrulhar. O comando mover Iaz com que a unidade trilhe todo o caminho, parando quando
atinge o seu Iim. O comando patrulhar Iaz com que a unidade patrulhe aquele caminho; e, Iinalmente, o
comando atacar Iaz com que a unidade percorra aquele caminho, atacando todas as estruturas ou unidades
inimigas que encontrar no mesmo.
62
Escoltar: Faz com que a unidade acompanhe uma outra unidade, deIendendo-a no
caso de necessidade;
Ataque de guerrilha: Faz com que a unidade lance um ataque rapido a alguma
estrutura inimiga, Iugindo logo em seguida.
Quando a unidade selecionada individualmente, so apresentados ao jogador o
conjunto de comandos que lhe so especiIicos. Ja quando so selecionadas em esquadres,
podem ocorrer dois tipos de situaes:
1. Quando so selecionadas unidades do mesmo tipo, apresentado ao jogador o
conjunto de comandos especiIicos daquele tipo de unidade;
2. Quando so selecionadas unidades de tipos diIerentes, apresentado o conjunto de
comandos comuns aos tipos de unidades selecionados. No entanto, no lugar do
comando patrulhar, apresentado o comando espalhar, que Iaz com que as unidades
selecionadas se dispersem.
3.3. Os Agentes Cognitivos no jogo Outlive
3.3.1. Introduo
Realizadas as devidas consideraes a respeito da dinmica de Iuncionamento do jogo
Outlive, proceder-se-a agora a analise dos agentes cognitivos utilizados em tal jogo. Tal
exposio sera realizada inicialmente atravs da descrio de experincias no sistematicas
com o jogo para posteriormente proceder-se a descrio dos experimentos realizados tendo o
reIerido jogo como base.
No decorrer de experincias no sistematicas com tal jogo, pde-se perceber que os
agentes cognitivos utilizados no mesmo possuem uma capacidade de adaptao as estratgias
utilizadas pelo jogador. No entanto, esta adaptao ocorria apenas no mbito de uma partida
no jogo, no se estendendo para alm disso. Desta Iorma, no se pode aIirmar que ha um
esquema de aprendizado eIetivo no jogo, dado que o agente, quando lida com o mesmo
jogador uma outra vez, tera de iniciar novamente todo o ciclo de aprendizagem.
A partir destas observaes, lanou-se a proposta de analisar mais sistematicamente a
conduta destes agentes no jogo, alm de se estudar a possibilidade de desenvolver uma
63
proposta de um mtodo que Iaa com que estes agentes possuam um esquema eIetivo de
aprendizagem
19
. A analise da conduta destes agentes alvo dos experimentos que sero
discutidos logo adiante, enquanto o estudo da possibilidade da implementao de esquemas de
aprendizagem eIetiva sera objeto do proximo capitulo deste trabalho.
3.3.2. Os experimentos
3.3.2.1. Caracterizao geral
Foram realizados um conjunto de experimentos com vistas a compreenso do
comportamento dos agentes cognitivos implementados no jogo Outlive.
Inicialmente, o projeto previa realizao de um total de 9 experimentos para a partir
dos mesmos avaliar a conduta dos reIeridos agentes. Em cada um destes experimentos, seriam
Ieitas combinaes entre as duas raas existentes no mesmo, utilizando-se um maximo de 3
agentes em um mesmo experimento. Tal metodologia daria origem as seguintes combinaes:
1. Humano;
2. Rob;
3. Humano x humano;
4. Humano x rob;
5. Rob x rob;
6. Humano x humano x humano;
7. Humano x humano x rob;
8. Humano x rob x rob;
9. Rob x rob x rob.
No ambiente de cada experimento, os agentes teriam suas bases desestruturadas at
suas partes essenciais. Ou seja, o pesquisador
20
trataria de deixar apenas as estruturas
estritamente necessarias para a manuteno de cada agente. A partir disso, o jogador passaria
a administrar ataques alternando entre o uso de unidades terrestres e unidades areas para
19
Aqui o conceito de aprendizagem eIetiva se reIere a possibilidade de o agente acumular sua aprendizagem para
alm de uma partida, diIerentemente da IA existente no jogo, onde a aprendizagem no cumpre com esta
condio.
20
Dependendo do contexto, este tambm podera ser denominado, neste trabalho, pelo termo fogaaor.
64
assim avaliar de que Iorma os agentes se adaptariam a estratgia utilizada, alm de observar
como se daria a politica de alianas entre os agentes, quando Iorem utilizados mais de um.
Entretanto, no decorrer do desenvolvimento do projeto, puderam ser observadas
algumas questes que levaram o pesquisador a realizar algumas modiIicaes na metodologia
a ser utilizada.
Primeiramente, detectou-se, atravs de pesquisas por meio da Internet, que possivel
ativar determinadas trapaas no jogo. Tais trapaas so ativadas atravs da digitao de
determinados comandos na interIace de envio de mensagens entre os jogadores que existe no
jogo, conIorme o quadro a seguir.
Cdigo Trapaa
#can i play with madness
Faz com que as unidades e estruturas controladas pelo jogador
tornem-se indestrutiveis.
#Iear oI the dark
Faz com que todo o mapa seja revelado ao jogador
permanentemente, sem a apresentao da nvoa de guerra.
#be quick or be dead
Faz com que a construo de estruturas e unidades do jogador
seja acelerada consideravelmente.
#Iortunes oI war
Faz com que sejam injetados 25.000 crditos na economia do
jogador.
Quadro 1 - Trapaas possveis no jogo Outlive
Avaliando que o uso de tais mecanismos no traria prejuizo aos experimentos,
resolveu-se utiliza-los.
Alm disso, no decorrer do desenvolvimento dos experimentos pde-se observar que a
utilizao de at 3 agentes nos mesmos seria desnecessaria, uma vez que a estrutura logica
dos diversos agentes similar e, desta Iorma, a utilizao desta metodologia revelar-se-ia
improdutiva. Desta Iorma, resolveu-se utilizar um conjunto de combinaes que utilizassem
um maximo de 2 agentes, alm da realizao de mais um experimento, utilizando-se 7
agentes, o que representaria um dos casos mais gerais possiveis para o jogo
21
.
21
A realizao de todas as combinaes possiveis com a utilizao de 7 agentes seria impossivel, dado que tal
empreitada tornaria necessaria a realizao de um total de 8 experimentos, alm dos 5 previstos para as
combinaes de at 2 agentes, o que geraria a necessidade de realizao de 13 experimentos no total. O unico
experimento utilizando 7 agentes levou cerca de 5 horas e meia para ser realizado. Dados estes elementos, pode-
se observar que seria inviavel e at mesmo improdutivo, caso Iosse viavel a realizao desta quantidade de
experimentos. Em Iuno disso, resolveu-se realizar apenas um dos experimentos possiveis nesta condio o
que representa o caso de maior equilibrio no numero de exrcitos por raa no jogo, contando com 4 exrcitos
humanos (incluindo aqui o exrcito controlado pelo jogador) e 4 exrcitos robs. o apndice F apresenta as
combinaes possiveis para o caso da utilizao de 7 agentes.
65
Apos as modiIicaes, a metodologia passou a contar com as seguintes caracteristicas:
1. Realizao de 6 experimentos, com os cinco primeiros previstos no projeto inicial e
mais um, utilizando-se 7 agentes.
2. Para cada experimento, o pesquisador passa a seguir o seguinte procedimento:
1. Aciona as trapaas;
2. Desenvolve sua base principal
22
;
3. Constroi bases de produo de recursos em todas as jazidas do mapa, a exceo
das encontradas nas bases principais dos agentes controlados pelo computador.
4. Observa, por um determinado periodo de tempo, a conduta dos agentes nas
condies em que Iica o experimento apos a realizao do passo 3;
5. ConIorme a necessidade, ativa a trapaa que injeta 25.000 crditos em sua
economia;
6. ConIorme a necessidade, injeta crditos na economia dos agentes;
7. Em um determinado momento do experimento, o jogador desestrutura todas as
suas bases de produo de recursos, a exceo da localizada em sua base principal,
para assim avaliar a resposta dos agentes.
8. ConIorme a necessidade, elimina um ou mais agentes no experimento, para avaliar
a resposta dos agentes remanescentes;
9. Realiza veriIicaes periodicas, atravs de operaes de espionagem, para avaliar
a politica de alianas dos agentes e a quantidade de crditos que possuem no
momento.
10. Para concluir o experimento, elimina todos os agentes que ainda estiverem no
mapa.
A reIerida metodologia Ioi consolidada no segundo experimento, onde o pesquisador
percebeu que esta seria a maneira mais produtiva de se avaliar a conduta dos agentes no jogo.
No primeiro experimento, o pesquisador procedeu da seguinte Iorma:
22
Aqui importante distinguir os conceitos de base principal e base ae proauo ae recursos, que sero
utilizados daqui por diante. A base principal consiste na base que alocada para cada agente controlador no
inicio de uma partida, e onde normalmente cada agente controlador constroi suas estruturas principais. A base
de produo de recursos, conIorme o nome indica, consiste numa base localizada em uma jazida qualquer do
mapa, e que normalmente contm um processador de minrio ou assimilador de minrio, dependendo da raa
que a construir, alm de normalmente conter estruturas de deIesa para o caso de um ataque inimigo. Possui a
Iuno de coletar crditos para a economia do agente controlador.
66
1. No realizou o procedimento 7;
2. Realizou alguns ataques a base principal do agente, sem no entanto elimina-lo, para
assim veriIicar suas respostas;
3. No injetou crditos na economia do agente;
4. No registrou os momentos em que os eventos registrados ocorreram. Este
procedimento passou a ser seguido apenas no experimento 2.
Em todos os experimentos, o pesquisador controlou exrcitos humanos, devido a
Iuncionalidade aominao da unidade dominador, que permite que se converta unidades de
agentes inimigos para o exrcito do jogador, e conseqentemente permitindo a converso de
unidades morfo para a construo de bases robs para auxilio, nas ocasies em que houverem
agentes controlando bases rob no mapa.
O apndice E Iaz uma descrio detalhada dos eventos ocorridos durante cada um dos
experimentos realizados.
3.3.3.2. Caracterizao dos experimentos
3.3.3.2.1. Experimento I
Neste experimento, Ioi utilizado apenas 1 agente, controlando uma base humana,
sendo que puderam ser observados os seguintes eventos durante a sua realizao:
O agente leva um certo tempo para se adaptar a estratgia do jogador de utilizar
unidades areas em sua deIesa, sendo que comea a utilizar lana-misseis em seus
ataques a partir do 6 ataque. No entanto, a partir disso, o agente gradativamente
aumenta a cobertura anti-area para seus ataques;
Em um determinado momento do jogo, o agente age como se tivesse noo de que no
tem condies de vencer o jogador. Desta Iorma, passa a atacar as bases de produo
de recursos por diversas vezes utilizando apenas 3 caas e 3 helicopteros, um ataque
de pequenas propores e, conseqentemente, Iacilmente neutralizado.
Em um determinado momento do jogo, o agente constroi uma central de inteligncia
em um local distante de sua base principal, ao essa aparentemente incoerente.
67
Depois de um certo periodo em que o jogador utiliza lana-misseis para repelir os
ataques areos do agentes, este passa a utilizar tanques pesados e lana-misseis em um
de seus ataques, sendo que apos este volta a utilizar o esquema de 3 caas e 3
helicopteros, sendo que em um dos ataques utiliza 4 unidades de cada uma das
reIeridas logo acima.
Em uma avaliao geral, pode-se dizer que, neste experimento, o agente apresentou
uma conduta adaptativa limitada, dado que sua adaptao em boa parte do experimento Ioi
demorada, como por exemplo o caso da utilizao de lana-misseis
23
em ataques, que apenas
ocorre no 6 ataque ao jogador. Alm disso, a sua conduta em um momento do experimento
pareceu incoerente, quando o agente constroi uma central de inteligncia num ponto
relativamente isolado do mapa.
3.3.3.2.2. Experimento II
Neste experimento Ioram utilizados 2 agentes, ambos controlando bases humanas.
Sero denominados como exercito vermelho e exercito roxo.
Em seu decorrer Ioram observados os seguintes eventos:
Com menos de 30 minutos do inicio, a aliana entre os agentes ja esta consolidada;
Em seu segundo ataque, o exrcito roxo ja demonstra uma atitude adaptativa, expressa
na utilizao de lana-misseis no ataque. A mesma conduta adotada pelo exrcito
vermelho em seu segundo ataque ao jogador;
Os dois agentes, em determinado momento do experimento, passam a realizar aes
conjuntas, sendo que a primeira ao neste sentido a construo, pelo exrcito
vermelho, de uma usina nuclear junto a malha de energia do exrcito roxo;
Em determinado momento, os agentes passam a dividir tareIas entre si, sendo que o
exrcito vermelho Iica sob a responsabilidade de tomar as bases de produo de
recursos do jogador, enquanto o exrcito roxo trata de atacar a base principal do
mesmo;
23
Mais inIormaes a respeito desta unidades podem ser encontradas no apndice C deste trabalho.
68
Apos o jogador destruir quase por completo o exrcito vermelho, este constroi
algumas estruturas na base principal do exrcito roxo. Tal situao Ioi caracterizada
pelo jogador como simbiose estrategica;
Apos tomar cerca de 60 das jazidas de minrio encontradas no mapa, o exrcito
vermelho para de construir bases de produo de recursos, situao essa que perdura
at o Iim do experimento.
Em termos mais gerais, pde-se observar, durante este experimento, que os agentes
possuem em sua estrutura o conceito de necessiaaae. Ou seja, os mesmos avaliam a situao
em que se encontram num determinado momento e a partir desta avaliao agem sobre o
ambiente Isto pde ser observado no mbito da construo da aliana entre os agentes, onde
os mesmos aparentemente observaram que para terem condies de vencer o jogador teriam
de se unir, e no momento onde o exrcito vermelho para de construir bases de produo de
recursos, pois aparentemente seu agente controlador observou que para manter sua base em
boas condies de operao no necessitaria tomar todas as jazidas de minrio do mapa,
tomando apenas as que se Iizessem necessarias para a realizao de tal Ieito.
Pde-se observar tambm que, quando os agentes Iormam alianas, em alguns
momentos surge uma situao em que a aliana entre os mesmos torna-se orgnica. Ou seja,
os dois exrcitos, atravs de diviso de tareIas e compartilhamento de recursos neste caso a
energia, quando o exrcito vermelho passa a construir sistematicamente nos limites da base do
exrcito roxo agem como se Iossem apenas um exrcito em operao
.
3.3.3.2.3. Experimento III
Neste experimento Ioi utilizado um agente controlando uma base da raa rob.
Neste experimento puderam ser observados os seguintes eventos:
O agente, logo no inicio do experimento, ja demonstra uma postura expansionista,
construindo sua primeira base de produo de recursos aos 7 minutos do inicio do
experimento;
69
Em seu segundo ataque ao jogador, o agente ja demonstra preocupao em relao a
cobertura anti-area para seus ataques, sendo que o primeiro ataque Iora neutralizado
por unidades areas do jogador;
Num determinado momento do experimento, o agente demonstra uma atitude
adaptativa consideravelmente interessante: ao ver uma rota at uma das bases de
produo de recursos que era alvo de um ataque do agente obstruida, o agente
utiliza uma rota alternativa para chegar ao seu alvo. A ilustrao 15 descreve a
situao
Em termos gerais, pde-se observar que o agente, agora no controle de uma base rob,
demonstrou uma postura mais expansionista em relao ao agente controlando uma base
humana, dado que a primeira base de produo de recursos do agente neste experimento se
deu antes dos 10 minutos do inicio do mesmo. Aparentemente tal conduta esta relacionada as
vantagens do uso da unidade morfo da raa rob, dado que com o uso de varios exemplares da
mesma permite que se construa bases rapidamente. A atitude adaptativa do agente com
relao a passagem obstruida por unidades do jogador tambm um Ieito digno de nota.
70
3.3.3.2.4. Experimento IV
Neste experimento Ioram utilizados 2 agentes, ambos controlando exrcitos da raa
rob, sendo que os mesmos sero denominados como exrcito verde
24
e exrcito roxo.
No decorrer do experimento, puderam ser observados os seguintes eventos:
A aliana entre os agentes se consolida nas proximidades dos 40 minutos de
experimento;
Os agentes se comportam dentro do parmetro da expanso limitada. Apos o jogador
desestruturar suas bases de produo de recursos, o exrcito roxo constroi 6 bases
deste tipo e o exrcito verde constroi 5 delas. No entanto, mesmo havendo outras
24
No experimento, este agente controlou um exrcito indicado pela cor verde claro. Mas para Iins de
simpliIicao da descrio, sera denominado aqui como exrcito verde.
Ilustrao 21. Exposio aa estrategia utili:aaa pelo agente. A
aglomerao aestacaaa no retangulo 1 consiste na
aglomerao ae cerca ae 50 uniaaaes aereas ao fogaaor,
enquanto que a aglomerao aestacaaa no retangulo 2 inaica
uma aglomerao ae 9 incineraaores e 9 tempestaaes. Poae-se
observar que o caminho esta completamente bloqueaao. Desta
forma, o agente utili:a a rota inaicaaa pela trafetoria vermelha
a esqueraa aa imagem em :oom.
71
jazidas de minrio que podiam ser exploradas, os agentes no demonstraram interesse
em explora-las. Este um outro indicio que permite observar que aparentemente os
agentes possuem em sua estrutura o conceito de necessidade, a partir do qual avaliam
se devem ou no continuar expandindo sua base.
Neste experimento, o aspecto mais digno de nota Ioi a possibilidade de se observar
novamente a aparente existncia do conceito de necessidade na estrutura dos agentes. Este o
segundo experimento onde os agentes se comportam dentro do parmetro sugerido por este
conceito, sendo que tal comportamento ja pde ser observado no decorrer do experimento II.
3.3.3.2.5. Experimento V
Neste experimento, Ioram utilizados, a exemplo dos 3 anteriores, 2 agentes: um
controlando um exrcito humano o qual sera denominado exrcito laranja e o outro
controlando um exrcito rob, e sera denominado exrcito vermelho.
Durante a execuo do experimento, puderam ser observados os seguintes eventos:
O primeiro ataque dos agentes, aos 28 minutos do experimento, ja um ataque
conjunto;
Apos o Iracasso do primeiro ataque, os agentes atacam bases de produo de recursos
do jogador em paralelo, ou seja, so realizados varios ataques que ocorrem
aproximadamente no mesmo periodo de tempo, mas a bases de produo de recursos
diIerentes do jogador. Alm disso, os ataques parecem se dar com vistas a enIraquecer
o jogador, dado que o primeiro ataque se dirigiu a base principal do mesmo.
Em termos gerais, no puderam ser realizadas observaes que possam ser
consideradas signiIicativas para o trabalho.
72
3.3.3.2.6. Experimento VI
Este experimento Ioi realizado com vistas a se observar uma situao dentre as mais
gerais possiveis para o jogo: a utilizao do maximo de agentes permitido para o mesmo, ou
seja, 7 agentes.
A distribuio dos agentes entre as raas objetivou observar a situao com maior
equilibrio possivel. Dado que o pesquisador utiliza-se sempre de um exrcito humano,
resolveu-se colocar 3 dos agentes controlando bases humanas e 4 controlando bases
roboticas. A disposio dos agentes esta relacionada no quadro abaixo:
Raa Exrcito
Humano
Exrcito verde
Exrcito amarelo
Exrcito laranja
Rob
Exrcito vermelho
Exrcito verde claro
Exrcito azul
Exrcito roxo
Quadro 2 - distribuio dos agentes entre as raas
No decorrer do experimento, puderam ser observados os seguintes eventos:
So Iormadas duas alianas de agentes: a primeira delas, que sera denominada aliana
1, Iormada pelo exrcito vermelho, exrcito verde claro, exrcito roxo e exrcito
amarelo, enquanto que a outra, a ser denominada aliana 2, Iormada pelo exrcito
azul, exrcito verde e exrcito laranja.
Pde-se observar, a certa altura do experimento, que neste parece se repetir a
estratgia utilizada por uma aliana de agentes de um dos agentes assumir a liderana
da mesma, realizando os ataques as bases inimigas, tal como ocorreu no experimento
II, no qual o exrcito vermelho cumpriu com tal papel;
Aos 49 minutos do inicio do experimento, pde ser observado o primeiro indicio de
simbiose estratgica entre os agentes, representada pela construo de algumas
73
estruturas de deIesa do exrcito verde em uma base de produo de recursos do
exrcito azul;
Apos realizar alguns ataques ao jogador e observar que os mesmos no so eIetivos, a
aliana 2 passa a atacar a aliana 1, voltando a atacar sistematicamente o jogador
apenas quando enIraquece esta;
Em determinadas situaes, ataques de um agente recebem reIoros de tropas de outro
agente aliado;
Em outras situaes, agentes aliados realizam ataques conjuntos a bases inimigas.
Alm disso, ha outras situaes onde agentes aliados alternam ataques. Ou seja,
enquanto um agente realiza um ataque, o outro prepara, na retaguarda, outra Iora de
ataque, que ataca uma base inimiga pouco tempo depois que o ataque do primeiro
agente Ialha. E enquanto ocorre este ataque, o agente responsavel pelo primeiro ataque
prepara uma outra Iora de ataque. E assim por diante.
As alianas Iormadas se mantiveram Iirmes at o Iim do experimento. Apesar disso,
pde-se observar que nas proximidades do Iim do experimento, os inimigos se
concentraram num objetivo comum: a eliminao do jogador na partida.
Puderam ser observadas, neste experimento, 3 situaes dignas de nota. A primeira Ioi
a Iormao de duas alianas entre agentes distintos, que se mantiveram estaticas at o Iim do
experimento, sendo que, ao Iim do mesmo, as duas alianas, embora inimigas, se mantiveram
Iocadas em um objetivo comum: a eliminao do jogador. A segunda Ioi o redirecionamento
de objetivos ocorrido na aliana 2, que apos perceber que seus ataques contra o jogador eram
ineIetivos, passou a atacar a aliana 1, sendo que apenas apos enIraquecer esta passou a atacar
o jogador de Iorma sistematica novamente. A terceira situao observada Ioi o revezamento
dos ataques dos agentes em determinado momento do jogo, sendo que, enquanto um agente
realizava um ataque a uma base inimiga, outro preparava um ataque que era realizado pouco
depois que o primeiro Iracassava, e assim por diante.
74
3.3.3.3. Consideraes gerais a respeito dos experimentos
No decorrer dos experimentos, puderam ser observados alguns comportamentos nos
agentes, cujo agrupamento numa categoria mais geral interessante.
O primeiro experimento Ioi o unico experimento onde o agente demonstrou uma
atitude adaptativa limitada. No entanto, aparentemente isto esta relacionado as condies em
que se deu este experimento, uma vez que o pesquisador se comportou de Iorma diIerente da
qual se comportou nos outros experimentos, no injetando crditos na economia do agente,
alm de no desestruturar suas bases de produo de recursos em determinado momento do
experimento.
No experimento III, onde o agente se encontrava no controle de um exrcito rob,
houve uma postura mais expansionista do mesmo. De acordo com o que pde ser observado,
tal postura se da em Iuno da unidade morIo da raa rob. No caso de exrcito humano, um
conjunto de construtores levaria um certo tempo para construir uma base. No entanto, com o
uso de unidades morIo, pode-se construir, em um tempo relativamente curto, uma base de
produo de recursos. Ha de se levar em conta que tal base Iora construida numa jazida
consideravelmente proxima da base principal do agente.
No experimento VII Ioi observado um conjunto de outras circunstncias interessantes.
Inicialmente a concretizao de duas alianas e a sua manuteno at o Iim do experimento,
ainda que as duas alianas, embora inimigas, se Iocaram em atacar apenas o jogador,
aparentemente se Iocando no objetivo de elimina-lo. Alm disso, aes cooperativas bastante
sistematicas entre agentes aliados puderam ser observadas quando da realizao de ataques a
inimigos, aes essas em alguns momentos expressas atravs de ataques alternados a bases
dos mesmos.
Em geral, os agentes demonstraram uma capacidade adaptativa razoavel, a exceo do
experimento I, que Ioi realizado em condies distintas dos demais. Ainda assim, pde-se
conIirmar a observao Ieita anteriormente a realizao destes experimentos: a aprendizagem
que ocorre nos agentes ocorre apenas no mbito de uma partida.
A soluo desta questo sera discutida no capitulo IV.
75
3.4. Consideraes Finais
Este capitulo teve como objetivo realizar uma analise a respeito do jogo Outlive,
analisando sua estrutura de jogo e os agentes cognitivos utilizados no mesmo. Na seo 2, Ioi
realizada a analise do jogo, sendo que nesta seo explorou-se a historia do jogo e alguns
aspectos da dinmica de Iuncionamento do mesmo. Na seo 3, Ioram analisados os agentes
cognitivos de tal jogo, iniciando-se com a descrio de algumas observaes que Ioram
realizadas anteriormente a concepo deste trabalho para apos isso descrever-se o conjunto de
experimentos que Ioram realizados com o jogo para se avaliar estes agentes. Para cada
experimento Ioi realizada uma descrio a respeito do numero de agentes utilizados, a sua
distribuio em raas, um conjunto de eventos signiIicativos e, por Iim, algumas
consideraes gerais a respeito destes agentes. Apos estas descries, Ioram realizadas
algumas consideraes mais gerais a respeito do comportamento dos agentes nos
experimentos.
76
CAPITULO 4 - OS AGENTES COGNITIVOS EVOLUTIVOS
4.1. Introduo
Este capitulo tem como objetivo realizar a discusso a respeito dos agentes cognitivos
propostos ao inicio deste trabalho. Os agentes cognitivos evolutivos sero expostos na seo
4.2, sendo que inicialmente realizada uma introduo, onde sera Ieita uma caracterizao
geral acerca dos agentes cognitivos evolutivos. Apos isso, sero discutidos os trabalhos que
Ioram consultados e serviram de base para este trabalho, sendo que inicialmente sero
discutidos conceitos comuns aos dois trabalhos e, apos isso, sera Ieita uma descrio dos
mesmos. Prosseguir-se-a, ento, a discusso de alguns pontos que puderam ser observados em
ambos os trabalhos para ento prosseguir-se as consideraes Iinais.
4.2. Os Agentes Cognitivos Evolutivos
4.2.1. Introduo
Em termos mais gerais, pode-se dizer que os agentes cognitivos evolutivos so um
modelo de agente cognitivo que possui a capacidade de absorver esquemas de aprendizagem
eIetiva. Por aprendizagem eIetiva entende-se a realizao de uma aprendizagem que Iixa-se a
estrutura do agente. Tal conceito Ioi projetado tendo-se em vista os agentes cognitivos do jogo
Outlive, que embora demonstrem possuir esquemas de aprendizagem, possuem esquemas que
se mantm apenas no mbito de uma partida, sendo que todas as inIormaes adquiridas no
decorrer de uma partida por um agente, de acordo com o que pde ser observado, no so
mantidas para adiante.
Em Iuno da deteco deste problema, levantou-se a hipotese de que seria possivel
projetar um modelo de agente que possui a capacidade de realizar este Ieito, ou seja, tomar os
esquemas de aprendizagem para outras partidas.
4.2.2. A literatura a respeito dos agentes cognitivos evolutivos
No decorrer da pesquisa, puderam ser encontrados dois autores (CROCOMO, 2008;
PONSEN, 2004) que discutem a questo da implementao de agentes cognitivos que podem
77
ser enquadrados dentro do conceito de agente cognitivo evolutivo levantado no decorrer deste
trabalho.
CROCOMO discute os agentes inseridos no contexto da criao de algoritmos
evolutivos para aprendizado online em jogos eletrnicos. Seu enIoque no se da no campo dos
jogos de estratgia em tempo real. No entanto, sera discutido aqui, dado que seu trabalho esta
relacionado com a proposta aqui levantada.
PONSEN ja discute os agentes no mbito dos jogos discutidos neste trabalho. Ele
trabalho no sentido de utilizar os algoritmos evolutivos no sentido de aperIeioar a
Inteligncia ArtiIicial Adaptativa dos RTS.
A discusso dos dois autores se coloca na questo da aprendizagem de maquina, que
esta relacionada a questo da adaptao da maquina aos comportamentos do jogador, sendo
que, dentro desta questo, identiIicam, de acordo com indicao dada por MANSLOW (2002,
apua CROCOMO: p. 16; apua PONSEN: p. 11) duas Iormas adaptao:
Adaptao indireta: utiliza-se de comportamentos pr-programados que so
alternados com base em estatisticas do jogo, sendo que tanto estas estatisticas quanto
as mudanas ocorridas no comportamento do agente so deIinidos pelos
programadores do jogo. PONSEN cita a utilizao desta tcnica no jogo MAX PAINE
2.
Adaptao direta: esta Iorma de adaptao age diretamente na criao de novos
comportamentos para os agentes,a travs da utilizao de algoritmos de otimizao e
aprendizado por reIoro com vistas a alterao do comportamento dos mesmos. No
entanto, CROCOMO adverte que esta uma tcnica de diIicil controle e, alm disso,
necessario encontrar uma medida de desempenho adequada para o agente uma tareIa
de diIicil execuo. No entanto, esta tcnica apresenta, de acordo com o mesmo autor,
as seguintes vantagens: no limitar os comportamentos possiveis dos agentes e
necessitar de pouco conhecimento do programador a respeito de bons
comportamentos. PONSEN cita a utilizao desta tcnica no jogo BLACK & WHITE
2.
Alm disso, ambos os autores ponderam que as tcnicas de aprendizagem de maquina
podem ser utilizadas de duas Iormas:
78
Aprendizagem offline: ocorre sem a interveno de jogadores humanos, sendo que
CROCOMO aIirma que 'pode ser realizado em modo batch ou at mesmo antes do
jogo ser lanado, durante sua produo, sendo que, 'desta Iorma, as estratgias pr-
programadas disputam entre si, e a tcnica de aprendizado empregada visa a obteno
de estratgias melhores para serem utilizadas no jogo produzido (pp. 16-7).
Aprendizagem online: neste modelo de aprendizagem, o processo ocorre atravs da
interao com o usuario. Ou seja, os processos de aprendizagem ocorrem apos o jogo
ser lanado comercialmente, em contraste com a outra metodologia. SPRONCK (apua
PONSEN: p. 7; apua CROCOMO: p. 17) relata que a aprendizagem online deve
cumprir com quatro requisitos:
Rapdez: ~o algoritmo de aprendizagem deve ser computacionalmente rapido,
pois realizado durante a execuo do jogo. Desta Iorma, um algoritmo lento
atrapalha o desempenho do jogo (CROCOMO).
Robustez: 'o mecanismo de aprendizado deve suportar uma quantidade de
aleatoriedade signiIicante, normalmente presente nos jogos comerciais (idem).
Efetividade: 'as estratgias adaptadas devem ser pelo menos to desaIiadoras
quanto as programadas explicitamente (idem).
Eficincia: 'um pequeno conjunto de testes deve ser suIiciente para que o
aprendizado ocorra (idem)
Alm destes conceitos, PONSEN ainda discute, dentro da questo da aprendizagem
online, que esta pode ser subdividida em duas modalidades:
1. Aprendizagem supervisionada: tal modalidade de aprendizagem requer que o
jogador indique o grau de sucesso auIerido pela IA do jogo. Disto, pode-se observar
que esta modalidade exclui a hipotese da aprendizagem automatica (p. 7).
2. Aprendizagem no-supervisionada: ocorre independentemente do parecer do
jogador a respeito da IA do jogo. PONSEN, em seu trabalho, trabalha com este
conceito quando se reIere a aprendizagem online.
79
Com relao as tcnicas de implementao de agentes cognitivos evolutivos, os
autores discutem duas: o Dynamic Scripting e o algoritmo evolutivo, tambm denominado
pelo termo algoritmo genetico. Ambas as tcnicas sero expostas brevemente adiante.
4.2.2.1. O Dynamic Scripting
O Dynamic Scripting uma tcnica proposta por SPRONCK et al. com vistas a prover
aprendizagem online em jogos comerciais, baseando-se em tcnicas de aprendizado por
reIoro (CROCOMO: P. 50).
O Dynamic Scripting utiliza-se de uma base de regras que tem o papel de gerar scripts
que controlaro o comportamento dos agentes. A cada regra atribuido um peso que inIlui na
possibilidade de a mesma ser selecionada para gerar o comportamento do agente. Quanto
maior o peso de uma regra, maior a sua probabilidade de ser selecionada.
Apos selecionada, a regra aplicada ao agente para uma determinada atividade e, apos
a execuo desta atividade, uma Iuno de avaliao acionada. Esta Iuno retorna um valor
que indica a aptido do agente. Apos a avaliao da atividade, o valor do peso da regra que
gerou o script utilizado atualizado, sendo que incrementado quando a regra utilizada se
mostra eIiciente na realizao da atividade e decrementado em caso contrario. Desta Iorma, o
agente gradualmente adapta seu comportamento a situao em que inserido. No caso de um
jogo de estratgia em tempo real, ocorre a gradual adaptao do agente ao estilo de jogo do
jogador enIrentado pelo agente (PONSEN: p. 17).
4.2.2.2. O algoritmo gentico
O algoritmo gentico opera atravs de uma analogia com a Teoria da Evoluo
proposta por Charles Darwin (CROCOMO, p. 39).
O algoritmo inicia-se atravs da inicializao de um conjunto de possiveis solues
para um dado problema. Este conjunto, dentro do contexto do algoritmo, denominado
populao.
Cada soluo em potencial denominada cromossomo, sendo que as mesmas so
compostas, cada uma, por um conjunto de estados denominados genes. Observe-se que cada
um dos conceitos concebido como uma analogia com os conceitos da gentica.
80
Para cada cromossomo inicializado, realizado um teste, sendo que ao Iim do mesmo
sera atribuido ao cromossomo um valor de aptido, que indica a sua eIicacia (TOMASSINI
apua CROCOMO: p. 39).
Dentre os cromossomos inicializados, realizado um processo de seleo, sendo que a
literatura cita um conjunto de mtodos com vistas a cumprir com este Iim, como por exemplo
a roleta, o torneio (BRAMLETTE apua CROCOMO: p. 41), o elitismo (TOMASSINI apua
idem) ou a hereditariedade (SIMES, 2000: apua idem). Alm disso, pode-se utilizar a
'seleo do cromossomo com melhor aptido para ser o pai da populao na proxima
iterao (SIMES et al.: apua idem). Neste modelo, 'o cromossomo 'pai' mantido para a
proxima gerao, e os operadores evolutivos utilizados so aplicados aos outros
cromossomos, criando uma nova gerao de solues candidatas (idem).
Apos realizada a seleo, so aplicados aos cromossomos remanescentes os
operadores evolutivos. Dentre estes operadores, podem ser destacados a tcnica do genocidio
(idem) e as Iunes de predao (SIMES et al; CROCOMO et al.: apua idem), que
'simulam um predador que elimina os individuos menos adaptados da populao
(CROCOMO: idem)
Neste trabalho sero expostos apenas os operadores crossover e mutao. A exposio
Ieita a seguir:
Crossover: os cromossomos pais so selecionados aos pares e dentre os mesmos
realizado um processo de troca de genes, sendo que deste processo nasce o
cromossomo Iilho. Para cada um de seus genes, a possibilidade de o gene do
cromossomo Iilho ser herdado de um pai em especiIico de 50.
Mutao: no cromossomo Iilho, realizado um processo onde cada um dos seus
genes submetido a um processo estocastico que possibilita que o gene seja
modiIicado.
Tanto o crossover quanto a mutao consistem de processos estocasticos, sendo que
no crossover cada gene do cromossomo Iilho surge da combinao dos genes dos
cromossomos pais, sendo que dentre os genes destes selecionado um que sera alocado ao
cromossomo Iilho e, dos dois cromossomos pais nos quais realizado o processo, a
probabilidade de o cromossomo Iilho herdar o gene de 50 para cada pai. Ja no processo de
81
mutao, conIorme exposto, o processo realizado em cada um dos genes do cromossomo
Iilho. A probabilidade de ocorrncia de mutao no cromossomo Iilho especiIicada pelo
desenvolvedor do algoritmo, de acordo com a necessidade que este determinar para a situao
especiIica com a qual estiver lidando.
Apos a realizao deste processo, realizada uma nova iterao do algoritmo, sendo
que nesta iterao a gerao que advir do processo especiIicado anteriormente sera testada e
seus cromossomos mais aptos sero selecionados para a realizao de crossover e mutao.
Este processo realizado at que seja alcanado um parmetro especiIicado pelo
desenvolvedor, denominado critrio de parada. Este critrio pode ser algum indicador de
que o algoritmo encontrou cromossomos aptos a resolver satisIatoriamente o problema
colocado ou um determinado numero de iteraes do algoritmo.
4.2.3. O trabalho de CROCOMO
O trabalho de CROCOMO se coloca no sentido de questionar uma aIirmativa de
SPRONCK et al., sendo que, de acordo com a mesma, impossivel implementar o algoritmo
gentico para aprendizagem online em jogos eletrnicos, pois este algoritmo no satisIaz os
requisitos da eIetividade e da eIicincia neste modelo de aprendizagem.
Neste sentido, o autor busca colocar em teste a aIirmativa, atravs dos seguintes
procedimentos:
1. Modelagem e programao de um jogo que se mostre um bom ambiente para os testes
do algoritmo gentico;
2. Desenvolvimento de um algoritmo gentico adequado ao jogo construido, e que seja
capaz de produzir solues adaptativas para os problemas encontrados no reIerido
jogo;
3. Implementao do Dynamic Scripting para resolver o mesmo problema e comparao
desta tcnica com o algoritmo gentico.
O autor reIuta a aIirmao de SPRONCK et al. a respeito da eIetividade argumentando
que, no trabalho deste, o Dynamic Scripting Ioi baseado em dominio de conhecimento, o que
torna as estratgias advindas de sua operao to desaIiadoras quanto as estratgias projetadas
82
manualmente, tornando, portanto, a tcnica eIetiva. O algoritmo gentico utilizado por
CROCOMO tambm se baseia em dominio de conhecimento, o que o torna eIetivo, da mesma
Iorma que o Dynamic Scripting projetado por SPRONCK et al.
O jogo utilizado no trabalho baseou-se no sistema de batalha do jogo Balaurs Gate,
um jogo da categoria dos CRPG's
25
. Este mesmo jogo Ioi utilizado por SPRONCK et al. em
sua discusso a respeito da utilizao do Dynamic Scripting pelos agentes cognitivos dos
jogos. CROCOMO argumenta que sua escolha se da no sentido de Iacilitar a comparao com
o trabalho de SPRONCK et al. Outra argumentao do autor vai no sentido de que o reIerido
jogo apresenta um grau de complexidade signiIicativo, e caso o algoritmo gentico possa ser
aplicado com sucesso ao mesmo, sera possivel implementar esta tcnica em outros jogos com
menores graus de complexidade.
O jogo utilizado baseia-se na utilizao de dois grupos de 4 personagens que so
colocados em disputa. Cada um destes grupos Iormado por 2 magos e 2 guerreiros. O
guerreiro um tipo de unidade propicia ao combate de curta distncia, enquanto o mago, em
Iuno de suas habilidades na Ieitiaria, mais adequado para uso em combate de longa
distncia.
Para comparar as duas metodologias em questo, CROCOMO realizou um conjunto
de testes onde as mesmas Ioram colocadas em conIronto com um agente simulando um
jogador humano e, apos isso, Ioram colocadas Irente a Irente para veriIicar qual das duas
apresentaria melhor capacidade de adaptao.
O jogador humano Ioi simulado atravs da utilizao das seguintes possiveis
estratgias:
Ofensiva: 'os personagens do jogador possuem como prioridade diminuir a vida de
seus oponentes na maior velocidade possivel: guerreiros sempre atacam o inimigo
mais proximo, enquanto os magos usam suas magias de dano mais Iortes
(CROCOMO, 2008: p. 64).
Deteriorante: 'os guerreiros iniciam a batalha utilizando poes contra paralisia: apos
isso atacam o inimigo mais proximo. Os magos utilizam todas as suas magias para
debilitar os oponentes durante os primeiros turnos (idem).
25
Computer Role Playing Game, outro nome dado ao gnero RPG, exposto no capitulo I.
83
Amaldioante: 'guerreiros sempre atacam o inimigo mais proximo; os magos
utilizam magias de invocao, reduo de atributos, e magias de controle (idem).
Defensivo: 'guerreiros comeam bebendo poes que reduzam dano do elemento
fogo (diminuindo dano de algumas magias); apos isso, atacam o inimigo mais
proximo. Os magos usam todas suas magias deIensivas e magias de invocao
(idem).
Alm disso, 3 taticas compostas Ioram utilizadas pelo autor:
Ttica aleatria: 'a cada batalha, uma das quatro taticas (.) selecionada de
maneira aleatoria (CROCOMO: p. 65)
Ttica aleatria para cada personagem: a tcnica aleatoria aplicada a cada um dos
personagens do grupo, sendo que a tatica aplicada a um determinado personagem
independe da tatica aplicada aos outros.
Mudana de estratgias: 'o grupo comea utilizando uma das quatro (.) tcnicas
aleatoriamente. Enquanto a tcnica utilizada pelo grupo vitoriosa, ela mantida;
quando a tcnica derrotada, outra selecionada (idem).
Para avaliar o desempenho dos agentes com a utilizao de cada uma das duas
tcnicas de implementao dos agentes, Ioi realizado, a cada batalha, o calculo de aptido
mdia dos grupos durante as ultimas 10 batalhas (idem). O autor expe que 'quando este
valor Ior maior para o grupo controlado pelo computador, dito que a estratgia do
computador dominou a estratgia do usuario (idem). A partir destes valores, so calculados
outros dois:
1. Ponto de equilbrio mdio: 'numero da primeira batalha apos a qual o grupo
controlado pelo computador domina o grupo do usuario por pelo menos 10 batalhas
consecutivas. (idem)
2. Ponto de equilbrio absoluto: 'numero da primeira batalha apos a qual um numero
consecutivo de batalhas em que o grupo do computador vence (.) nunca seguido
por um numero maior de batalhas consecutivas em que o grupo do usuario vence (p.
65-6).
84
Com relao a estes dois valores, o autor pondera que quanto menores Iorem, mais
eIiciente se mostrara o algoritmo (p. 66).
Em seu experimento, o autor realizou uma bateria de duas mil partidas envolvendo a
tatica ofensiva contra cada um dos algoritmos propostos no trabalho. Alm disso, realizou 21
baterias como esta contra cada uma das outras 3 tcnicas simples expostas anteriormente e 11
baterias contra as taticas compostas expostas em seu trabalho.
No primeiro experimento, o autor consegue observar que ambos os algoritmos
conseguem se adaptar a estratgia do agente simulando um jogador humano num numero
pequeno de partidas, o que evidencia que ambos os algoritmos cumprem com o critrio da
eIicincia para aprendizagem online.
Nos outros testes, o autor conclui que, at este ponto, no possivel dizer qual das
duas tcnicas expostas apresenta melhor resultado, uma vez que suas taxas de desempenho
so similares.
Quando exposto a estratgia aleatoria, o Dynamic Scripting apresentou uma limitao,
que consiste no Iato de que, num dos experimentos realizados, no obteve um ponto de
equilibrio absoluto. O autor argumenta que isso ocorre em Iuno do Iato de que em algumas
partidas, devido ao Iator sorte, o Dynamic Scripting pode aumentar o peso de regras no
adequadas, e at mesmo excluir regras necessarias para obter uma estratgia vencedora.
Pondera, assim, que o Dynamic Scripting, tal como implementado em seu trabalho e no
trabalho de SPRONCK et al., permite que seja atribuido peso zero a uma determinada regra, o
que Iaz com a tcnica perca sua capacidade de adaptao com o passar do tempo (p. 73). Com
relao a este problema em especiIico, mais a Irente (p. 85) o autor argumenta que o modelo
pode ser aprimorado atravs da deIinio de um peso minimo maior que zero a ser utilizado.
Assim, 'nenhuma regra seria permanentemente descartada e (.) a tcnica preservaria sua
capacidade de adaptao. Continuando (idem), o autor pondera que ' provavel que com esta
correo a eIicincia da tcnica diminua, pois regras que ja tenham sido testadas e tenham se
mostrado inadequadas contra a estratgia utilizada continuariam apresentando a possibilidade
de serem testadas.
O autor, para poder atestar qual dos dois algoritmos apresentaria melhores resultados,
realizou uma comparao direta entre os dois, colocando-os em disputa. Ou seja, programou
uma batalha onde em cada um dos grupos Ioi implementado um dos algoritmos. Nesta
comparao, Ioi realizado um total de 5 testes, sendo que no primeiro Ioram realizadas 21
85
baterias compostas por 2000 partidas e, apos isso, Ioram realizados testes aproximadamente
nos mesmos moldes, mas envolvendo um numero menor de partidas, sendo que em um Ioram
realizadas 300 partidas, em outro 200, 100 num terceiro e em outro teste, por Iim, Ioram
realizadas 50 partidas.
No primeiro experimento, o algoritmo gentico mostrou-se signiIicativamente mais
eIiciente que o Dynamic Scripting. Tal resultado Ioi atingido atravs da utilizao de um
indice de Ireqncia de vitorias das tcnicas, sendo que neste experimento, o algoritmo
gentico alcanou um indice de 0,6, contra um indice de aproximadamente 0,4 do Dynamic
Scripting. Tal indice obtido atravs da comparao do numero de vitorias obtidas por um
determinado algoritmo com o total de partidas disputado (p. 76). Tal comparao pode ser
sintetizada na seguinte equao
26
:
FJ=
NJ
NP
Equao 1
Onde:
FV consiste na Ireqncia de vitorias de uma determinada tcnica;
NV consiste no numero de partidas que Ioram vencidas pela reIerida tcnica;
NP o numero total de partidas disputado.
Apos realizar o teste com 2000 partidas, o autor pondera que este parmetro
insuIiciente para se comparar os dois algoritmos em relao ao critrio da eIicincia, pois este
26
A equao Ioi adaptada do original, sendo que neste esta elencada da seguinte Iorma:
x| i =
JAE
NP
Equao 2
Onde:
x|i| a Ireqncia de vitorias vencidas pelo grupo adaptado pelo algoritmo gentico durante o jogo i.
VAE o numero de vitorias obtidas pelo grupo cuja estratgia evoluida pelo algoritmo gentico;
NP o numero total de partidas realizadas.
A adaptao Ieita aqui o Ioi com vistas a adaptar a equao para aplicao tanto ao algoritmo gentico
quanto ao Dynamic Scripting, uma vez que a Iormulao dada por CROCOMO leva em considerao a aplicao
ao algoritmo gentico, o que pode causa conIuso quando se trabalha a equao em relao ao Dynamic
Scripting.
86
critrio 'diz respeito a um numero pequeno de partidas para que o aprendizado ocorra (p.
78). Esta condio lhe serve de estimulo para realizar os outros experimentos, sendo que
nestes os indices de Ireqncia de vitorias de cada tcnica apresentaram os seguintes valores:
Nmero de partidas
realizadas
Indice de freqncia
de vitrias do
Dynamic Scripting
27
Indice de freqncia
de vitrias do
algoritmo gentico
28
300 0,51 0,48
200 0,51 0,49
100 0,51 0,48
50 0,46 0,52
Quadro 3 - Relao dos ndices de freqncia de vitrias de cada tcnica
Implementada nos experimentos realizados. Adaptado de (CROCOMO, 2008: p. 79)
CROCOMO pondera que para cada indicador de Ireqncia de vitorias de cada
tcnica esta associado um indice de erro amostral aproximado, encontrado da seguinte Iorma:
0,028 para o experimento com 2000 partidas;
0,026 para o experimento com 300 partidas;
0,025 para o experimento com 200 partidas;
0,025 para o experimento com 100 partidas;
0,023 para o experimento com 50 partidas;
Este erro amostral obtido atravs da seguinte equao: (pp. 76-7):
e=
.
s
n
Equao 3
Onde:
e o erro amostral associado a cada experimento;
s a varincia amostral;
27
Valor aproximado.
28
Valor aproximado.
87
n o numero de jogos realizado (amostras)
A varincia amostral (s) pode ser encontrada, de acordo com o autor (p. 77), atravs
da seguinte equao
29
:
s=
1
(n-1)
_
i=1
n
( x| i -meaia( x))
Equao 4
Onde:
x|i| o valor da amostra;
mdia(x) a mdia das amostras;
n o numero de jogos realizados (amostras).
Desta Iorma, o autor argumenta que apenas o indicador de Ireqncia de vitorias
insuIiciente para se dizer que uma tcnica superior a outra em um determinado numero de
partidas, sendo que isso pode ser dito apenas quando o pior caso de uma determinada tcnica
A tem desempenho melhor que o melhor caso de uma outra tcnica B.
O melhor caso de uma determinada tcnica de aprendizagem pode ser dado pela
soma da Ireqncia de vitorias da mesma num determinado experimento com o erro amostral
associado a este experimento. Ja o pior caso consiste na diIerena entre estes dois parmetros.
Em suma, para que se possa dizer que uma tcnica de aprendizagem A superior a
uma outra tcnica, denominada aqui por B, a seguinte inequao deve ser satisIeita:
FJA-ea>FJB+eb
Equao 5
Onde:
FVA consiste na Ireqncia de vitorias do grupo onde Ioi utilizada a tcnica de
aprendizagem A;
29
Equao tambm adaptada do original. No entanto, no ha, neste caso, diIerenas signiIicativas.
88
ea consiste no erro amostral associado ao experimento realizado, sendo que seu valor
deve ser subtraido da Ireqncia de vitorias do grupo no qual utilizada a tcnica de
aprendizagem A;
FVB consiste na Ireqncia de vitorias do grupo onde Ioi utilizada a tcnica de
aprendizagem B;
eb consiste no erro amostral associado ao experimento, sendo que seu valor deve ser
adicionado a Ireqncia de vitorias do grupo no qual utilizada a tcnica de
aprendizagem B.
O autor, para veriIicar esta condio, realizou dois testes, sendo que no primeiro
buscou veriIicar a superioridade do Dynamic Scripting em relao ao algoritmo gentico para
cada tipo de situao possivel ou seja, realizou o teste para os experimento com 300, 200,
100 e 50 partidas disputadas entre as duas tcnicas em questo. No segundo teste, Ioi Ieito o
inverso, ou seja, o autor buscou veriIicar a superioridade do algoritmo gentico em relao ao
Dynamic Scripting.
No primeiro teste, no pde ser veriIicada, em nenhum momento, a superioridade do
Dynamic Scripting em relao ao algoritmo gentico. No entanto, no segundo teste o
algoritmo gentico se mostrou superior ao Dynamic Scripting no caso da utilizao de 50
partidas entre as duas tcnicas. Desta Iorma, o autor conclui que o algoritmo gentico possui
uma eIicincia igual ou superior ao Dynamic Scripting, reIutando, assim a aIirmativa de
SPRONCK et al. a respeito da impossibilidade da utilizao daquela tcnica para a
aprendizagem online em jogos eletrnicos.
Os resultados obtidos por CROCOMO so demonstrados nos quadros abaixo.
VeriIicao da Superioridade da tcnica Dynamic Scripting
Partidas por jogo FVA ea ~ FVB eb Validade da Inequao
300 0,448716 ~ 0,500972 Falsa
200 0,480273 ~ 0,513059 Falsa
100 0,483811 ~ 0,504557 Falsa
50 0,440483 ~ 0,544976 Falsa
Quadro 4 - Verificao da superioridade do Dynamic Scripting em relao ao
algoritmo gentico. Extrado de (CROCOMO, 2008: p. 81)
89
VeriIicao da Superioridade da tcnica Algoritmo Gentico
Partidas por jogo FVA ea ~ FVB eb Validade da Inequao
300 0,450444 ~ 0,540118 Falsa
200 0,462367 ~ 0,530737 Falsa
100 0,453843 ~ 0,534589 Falsa
50 0,49882 > 0,486525 Verdadeira
Quadro 5 - Verificao da superioridade do algoritmo gentico em relao ao
Dynamic Scripting. Adaptado de (CROCOMO, 2008: p. 81)
Ao Iim de seu trabalho, CROCOMO consegue demonstrar as seguintes premissas:
1. E possivel implementar o algoritmo gentico para aprendizagem online em jogos
eletrnicos;
2. O algoritmo gentico mostra um desempenho igual ou superior ao Dynamic Scripting
quando as duas tcnicas so colocadas Irente a Irente em um numero pequeno de
partidas a serem disputadas;
3. O Dynamic Scripting, quando exposto a um ambiente com a utilizao de muitas
partidas, perde sua capacidade de adaptao, pois no decorrer do processo passa a
atribuir peso zero a determinadas regras em sua base de regras, o que as Iaz serem
descartadas permanentemente. A respeito deste ponto em especiIico, o autor prope
uma Iorma de se superar esta limitao, atravs da criao da possibilidade de
atribuio de valor minimo maior que zero as regras do algoritmo, alertando, no
entanto, que esta operao pode trazer prejuizos a eIicincia da tcnica.
4.2.4. O trabalho de PONSEN
PONSEN, em seu trabalho, parte dos seguintes problemas para iniciar sua pesquisa:
1. E possivel projetar e implementar um algoritmo gentico que descubra novas taticas e
estratgias para os jogos de estratgia em tempo real?
2. As taticas e estratgia descobertas atravs de aprendizagem offline melhoraro o
desempenho da base de regras do Dynamic Scripting?
90
Para responder a estes problemas, o autor segue a seguinte metodologia:
1. Seleciona um ambiente de jogo de estratgia em tempo real Ilexivel e de acordo com
as ultimas especiIicaes
30
para o gnero para a realizao da pesquisa experimental;
2. Projeta e implementa o Dynamic Scripting no jogo selecionado e demonstra que a
tcnica Iunciona contra varias estratgias oponentes em varios mapas;
3. Aplica a aprendizagem offline utilizando um algoritmo gentico para o jogo
selecionado;
4. Traduz as taticas e estratgias descobertas atravs da aprendizagem offline em novas
regras para a base de regras do Dynamic Scripting e mostra que estas adies
melhoram a perIormance desta tcnicas de aprendizagem no jogo selecionado (p. 9).
Para a realizao do experimento, Ioi selecionado o jogo Wargus, derivado do jogo
Stratagus, um jogo de estratgia em tempo real open source
31
. A escolha deste jogo se da em
Iuno dos seguintes critrios:
1. O ambiente do jogo deveria ser Iacilmente acessivel e modiIicavel;
2. O ambiente de jogo deveria incluir uma linguagem de script, preIerencialmente com
uma soIisticada API
32
de IA, capaz de suportar tcnicas de aprendizagem;
3. Os experimentos deveriam ser, preIerencialmente, rapidos;
4. O jogo deve estar de acordo com as ultimas especiIicaes existentes em termos de
jogabilidade, o que implica que o jogo deve incorporar IA no-trivial
33
.
De inicio, Ioi investigada a possibilidade de se utilizar jogos comerciais para a
realizao da pesquisa (p. 15), dado que os jogos modernos, de acordo com o autor, so
perIeitos para Iins de pesquisa em Iuno de seus ambientes realistas e IA no-trivial. No
entanto, observou-se que isto no seria possivel, devido aos seguintes Iatores:
30
O autor utiliza o termo state-of-the-art para deIinir o conceito.
31
O termo open source se reIere aos softwares que possuem seu codigo-Ionte abertos a qualquer pessoa que
deseje realizar qualquer modiIicao no codigo dos mesmos para que estes se adqem as necessidades que o
desenvolvedor julgar convenientes.
32
Application Programming Interface, em portugus pode ser traduzido como InterIace de Programao de
Aplicaes
33
O conceito de IA no-trivial no deIinido de Iorma rigorosa pelo autor.
91
1. A maioria das empresas de produo de jogos no possibilitam que pesquisadores
Iaam modiIicaes em seus motores de IA;
2. Apesar de alguns jogos comerciais incluirem editores para a modiIicao de sua IA, o
processo de edio ou extremamente entediante ou permite muito poucas
possibilidades de edio.
Em Iuno disso, o autor resolveu procurar o jogo que serviria como ambiente
experimental entre os jogos open source, selecionando, por Iim, o jogo Stratagus, dado que
este se mostrou o ambiente mais estavel e apropriado para estes experimentos. A escolha do
autor se da em Iuno dos seguintes Iatores:
1. Stratagus um soIisticado motor de RTS que pode ser utilizado para a construo de
jogos de estratgia em tempo real similares a diversos jogos comerciais existentes,
alm de poder ser executado em varias plataIormas existentes (Windows, Unix, Mac,
etc.);
2. Os scripts de Stratagus so deIinidos na linguagem de programao LUA
34
,
atualmente uma das mais populares linguagens de programao para jogos. De acordo
com o autor, LUA uma poderosa mas surpreendentemente conIortavel linguagem de
programao, perIeita para a implementao de soIisticadas tcnicas de IA, como por
exemplo o Dynamic Scripting e o algoritmo gentico.
3. Stratagus possui recursos uteis como por exemplo um modo fast fowara, no qual os
graIicos so parcialmente desligados, o que resulta em experimentos rapidos, que
levam entre 1 e 3 minutos para serem concluidos, o que Iacilitou a implementao de
um ambiente onde exrcitos controlados pelo computador seriam colocados Irente a
Irente.
4. No decorrer de uma partida ou ao Iim da mesma, pode-se acessar Iacilmente diversas
inIormaes sobre seu andamento, como por exemplo o tempo que um exrcito levou
para derrotar o outro, o numero de unidades que um determinado exrcito destruiu ou
perdeu e outras, o que util quando se pensa em projetar medidas de desempenho.
34
LUA uma linguagem de programao 'inteiramente projetada, implementada e desenvolvida por uma equipe
na PUC-Rio (LUA, 2010), nascendo e crescendo no TecgraI, o Grupo de Tecnologia em Computao GraIica
desta mesma Universidade. Atualmente, desenvolvida no laboratorio LABLUA. Ambos os laboratorios esto
vinculados ao Departamento de InIormatica da PUC-Rio. O nome da linguagem uma reIerncia ao satlite
natural da Terra (WIKIPEDIA, 2010), e no consiste numa sigla, como pode parecer a principio.
92
Uma rapida comparao permite que se observe que estes 4 Iatores apontados pelo
autor encaixa-se perIeitamente nos 4 Iatores apontados logo atras.
Stratagus Ioi tomado como base para o jogo que Ioi realmente utilizado nos
experimentos. Este jogo o jogo Wargus, que consiste num jogo derivado de um conjunto de
modiIicaes no jogo Warcraft II, da Bli::ara Entertainment
35
, Ieitas com base no motor de
jogo de Stratagus.
O autor executou seu trabalho com base no trabalho de SPRONCK et al., onde este
demonstra a aplicao do Dynamic Scripting a jogos eletrnicos. No entanto, este trabalho Ioi
produzido utilizando-se um CRPG. Para poder adequar o Dynamic Scripting ao contexto de
um jogo de estratgia em tempo real, PONSEN teve de Iazer algumas modiIicaes, que so
listadas a seguir:
1. Foi introduzido neste trabalho o conceito de estados e avaliao de estados. Um
estado, dentro da deIinio do autor (p. 18), consiste na situao caracterizada pela
posse, por parte de um jogador ou de um agente, de um conjunto de estruturas e um
conjunto de regras que o mesmo pode selecionar. A condio para a transio de
estado consiste na construo de um novo tipo de estrutura no decorrer de uma partida.
Ao Iim de cada estado, o desempenho do agente avaliado para que possa ser
realizada a atualizao de pesos na base de regras;
2. O trabalho de SPRONCK et al., aplicado aos CRPG's, emprega diIerentes bases de
regras para cada tipo de personagem no jogo. A implementao de PONSEN emprega
diIerentes bases de regras para os diIerentes estados de um jogo de estratgia em
tempo real;
3. Na implementao original do Dynamic Scripting para os CRPG's, realizada por
SPRONCK et al., o sucesso de uma regra expresso por um unico peso. PONSEN, no
entanto, avalia que isso no basta para o caso de um jogo de estratgia em tempo real,
sendo que nesta modalidade de jogo necessario associar varios pesos as regras, o que
signiIica, em termos mais especiIicos, que a cada estado devem ser associados pesos,
dado que a cada estado corresponde uma base de regras.
4. Enquanto o Dynamic Scripting nos CRPG's executa atualizao de pesos com base em
uma luta, a implementao desta tcnica nos jogos de estratgia em tempo real executa
35
Mais inIormaes sobre o jogo podem ser encontradas no capitulo I deste trabalho.
93
esta atualizao baseada na avaliao do desempenho da IA no jogo como um todo
(aptido geral
36
) e na avaliao do desempenho da IA nas mudanas de estado (aptido
por estado
37
). Desta Iorma, a Iuno de atualizao de pesos baseada na combinao
da aptido geral com a aptido por estado. O uso desta combinao, de acordo com
MANSLOW (2004, apua PONSEN), aumenta a eIicincia do algoritmo.
Ambas as Iunes de atualizao de pesos possuem valores no intervalo |0,1| (p. 20).
Para Iins metodologicos, o autor assume que o agente vence quando sua aptido geral alcana
valores maiores do que 0,5 e perde quando o valor de sua aptido geral menor do que 0,5,
embora reconhea que nem sempre isso expressa uma condio real (pp. 20-1). As propores
da vitoria ou da derrota do agente sero determinada pela distncia entre o valor de aptido
geral do agente e o valor 0,5, sendo quanto maior a distncia, mais esmagadora tera sido a
vitoria ou a derrota.
A Iuno de aptido geral do agente calculada atravs da comparao da relao
entre a pontuao do agente e a soma da pontuao deste com o seu oponente
38
e um
parmetro que o autor deIine como sendo o ponto ae equilibrio
39
, localizado no intervalo |0,1|
e no qual, de acordo com o autor, os pesos no so mudados.
A relao alfa pode ser enunciada da seguinte Iorma:
o=
Sa
( Sa+So)
Equao 6
Onde:
o a variavel que representa a relao alfa;
Sa a pontuao do agente;
So a pontuao do oponente do agente.
36
Overall fitness, no original.
37
State fitness, no original.
38
Daqui por diante, esta relao sera denominada como relao alfa.
39
Break-even point, no original.
94
Quando o agente perde a partida, a Iuno de aptido geral obtida atravs da
comparao e extrao do menor valor entre a relao alfa e o ponto de equilibrio. A Iuno
pode ser expressa da seguinte Iorma:
F=min(o, b)
Equao 7
Onde:
F a aptido geral do agente;
o a relao alfa;
b o ponto de equilibrio.
Quando o agente vence a partida, a sua aptido geral sera dada atravs do maximo
entre o ponto de equilibrio e a relao alfa. A Iuno pode ser expressa da seguinte Iorma:
F=max (o, b)
Equao 8
Onde:
F a aptido geral do agente;
o a relao alfa;
b o ponto de equilibrio.
Ja a Iuno de aptido por estado do agente dada de acordo com as seguintes
condies:
No estado 1 a Iuno de aptido dada pela relao alfa naquele estado. Pode ser
expressa da seguinte Iorma:
95
Fi=oi
Equao 9
Sendo que:
oi =
Sai
( Sai+Soi )
Equao 10
Onde:
Fi a aptido do agente no estado i, sendo que, neste caso, i 1;
o i a relao alfa para o estado i;
Sai a pontuao do agente no estado i;
Soi a pontuao do oponente do agente no estado i.
Nos estados posteriores ao estado 1, a aptido por estado dada pela diIerena entre
a relao alfa no estado considerado e a relao alfa no estado imediatamente anterior ao
estado em questo. Pode ser expressa da seguinte Iorma:
Fi=oi-oh
Equao 11
Sendo que:
h=i-1
Equao 12
E
96
oh=
Sah
(Sah+Soh)
Equao 13
Onde:
i o estado considerado;
h o estado anterior ao estado considerado, conIorme pode-se observar na equao
12;
u i a relao alfa no estado i;
u h a relao alfa no estado h;
Sah a pontuao do agente no estado h;
Soh a pontuao do oponente do agente no estado h.
A Iuno de pontuao do agente deIinida da seguinte Iorma:
Sx=0,7Mx+0,3Bx
Equao 14
Onde:
Sx a pontuao a ser dada ao agente;
Mx a pontuao militar do agente, ou seja, o numero de pontos auIeridos atravs da
destruio de estruturas ou unidades inimigas;
Bx pontuao estrutural do agente
40
, ou seja, o numero de pontos auIeridos atravs de
treinamento de tropas e construo de estruturas.
Para que se continue a exposio, sero apresentadas duas novas relaes, a relao
beta e a relao gama, sendo que cada uma das duas pode ser extraida tanto para a partida
como um todo quanto para um estado em especiIico. Desta Iorma, elas podem ser encontradas
nas seguintes Iormas:
40
Builaing points, no original
97
Relao beta geral;
Relao beta por estado;
Relao gama geral;
Relao gama por estado.
A relao beta geral pode ser expressa da seguinte Iorma:
=
(b-F )
b
Equao 15
Onde:
representa a relao beta;
b o ponto de equilibrio;
F a aptido geral do agente.
A relao beta para o estado i pode ser expressa da seguinte Iorma:
i=
(b-Fi )
b
Equao 16
Onde:
i representa a relao beta no estado i;
b o ponto de equilibrio;
Fi a aptido do agente no estado i.
98
A relao gama geral pode ser expressa da seguinte Iorma:
=
( F-b)
(1-b)
Equao 17
Onde:
y representa a relao gama;
F a aptido geral do agente;
b o ponto de equilibrio.
Por Iim, a expresso gama para o estado i pode ser expressa da seguinte Iorma:
i=
( Fi -b)
(1-b)
Equao 18
Onde:
y representa a relao gama no estado i;
Fi a aptido do agente no estado i;
b o ponto de equilibrio.
Apos cada partida,o peso das regras empregadas nela atualizado, sendo que, antes
desta atualizao, a aptido geral do agente comparada ao ponto de equilibrio. Caso a
aptido geral do agente no alcance o ponto de equilibrio, realizado o seguinte
procedimento:
1. do peso original da regra utilizada, ou seja, do peso que a regra ja possuia antes de ser
utilizada, so deduzidos:
99
1. O produto da relao beta geral por uma punio maxima deIinida para a
implementao sendo que a este produto atribuido peso 0,3; e
2. O produto da relao beta para o estado considerado e da punio aplicada a regra
sendo que a este produto atribuido peso 0,7;
2. O resultado da operao anterior comparada ao peso minimo admitido para a
implementao, sendo que o maior dentre os dois valores sera considerado como o
novo peso da regra.
Este procedimento pode ser sintetizado na seguinte equao:
W=max(Wmin , Worg-0,3P-0,7iP)
Equao 19
Onde:
W o novo peso a ser atribuido a regra;
Wmin o peso minimo admitido para a regra;
Worg o peso original da regra;
a relao beta geral;
i a relao beta para o estado i;
P a punio maxima aplicada a regra no caso de a mesma se mostrar ineIetiva para
resolver um determinado problema;
F a aptido geral do agente;
b o ponto de equilibrio.
Ja em caso contrario, ou seja, quando a aptido do agente alcana o valor do ponto de
equilibrio ou maior que este, realizado o seguinte procedimento:
1. Ao peso original atribuido a regra, so adicionados:
1. O produto da relao gama pela recompensa maxima deIinida para a
implementao ao qual atribuido peso 0,3; e
100
2. O produto da relao gama para o estado considerado pela recompensa citada
anteriormente ao qual atribuido peso 0,7;
2. O resultado da operao anterior comparado ao peso maximo admitido para a
implementao, e o menor valor dentre os dois selecionado como o novo peso a ser
atribuido a regra.
Este procedimento pode ser sintetizado na seguinte equao:
W=min(Worg+0,3R+0,7iR ,Wmax)
Equao 20
Onde:
W novo peso a ser atribuido a regra considerada;
Worg o peso original da regra utilizada;
y a relao gama geral para o agente;
R a recompensa maxima admitida para a implementao;
y i a relao gama para o agente no estado i;
F a aptido geral do agente;
b o ponto de equilibrio.
PONSEN utilizou, para a simulao Ieita em seu trabalho, a seguinte atribuio de
valores:
A P atribuiu valor 175;
A R atribuiu valor 200;
A Wmax atribuiu valor 1250;
A Wmin atribuiu valor 25;
A b atribuiu valor 0,5.
101
O objetivo do primeiro experimento realizado pelo autor, utilizando o Dynamic
Scripting, provar que um agente utilizando esta tcnica adapta-se com sucesso a um agente
utilizando uma IA estatica.
As condies ideais para o experimento so as condies onde o agente controlado
pelo Dynamic Scripting seja adaptavel tanto a ataques realizados ja no inicio da partida
quanto a longas batalhas. Desta Iorma, os experimentos Iorma conduzidos em um mapa
pequeno e em um mapa grande, sendo que o autor aIirma, em relao a isto, que uma partida
realizada em um mapa pequeno mais provavelmente decidida por batalhas signiIicativas
realizadas ainda no inicio da partida, enquanto que o mapa grande permite que ambos os
jogadores avancem para outros estagios de evoluo, o que produz interessantes batalhas entre
unidades avanadas (p.22).
Neste experimento, Ioi utilizada a IA padro de ataque por terra incluida em
Stratagus como a IA estatica. No entanto, Ioram realizadas algumas pequenas melhorias na
mesma, uma vez que a sua implementao original ja estava sendo vencida pelo agente
controlado pelo Dynamic Scripting antes de este auIerir qualquer aprendizagem. A IA de
ataque por terra aprimorada uma estratgia Iocada no ataque, na deIesa e na melhoria
tecnologica da base, e que Iavorece ataques por terra em relao aos ataques por mar ou por
via area. Esta IA Ioi aplicada tanto para o mapa pequeno quanto para o mapa grande.
Alm disso, o autor implementou outras duas IA's para testar o agente controlado
pelo Dynamic Scripting: O ataque de soldados
41
e o ataque de cavaleiros
42
, sendo que o ataque
de soldados se Ioca no objetivo de destruir o oponente com unidades de ataque baratas logo
no inicio da partida. Ja o ataque de cavaleiros se Ioca na rapida melhoria tecnologica da base,
lanando grandes ataques com unidades Iortes assim que estas esto disponiveis (idem) A
primeira IA Ioi utilizada em um mapa pequeno, enquanto o ataque de cavaleiros Ioi utilizado
para um mapa grande.
Para medir o desempenho do agente controlado pelo Dynamic Scripting em relao
as IA's estaticas, Ioram utilizados dois indicadores:
Randomization turning point (RTP): este conceito explicado da seguinte Iorma:
apos cada partida, calculada a aptido mdia para cada agente nas ultimas 10
partidas. Estes valores so ento utilizados para se realizar um teste de randomizao
41
Solaiers rush no original.
42
Knights rush no original.
102
(COHEN, 1995, apua PONSEN) com a hipotese nula de que ambos os agentes (o
estatico e o dinmico) possuem o mesmo nivel de habilidade. Diz-se que o agente
dinmico superou o agente estatico quando a hipotese pode ser descartada com um
grau de certeza de 90. O RTP consiste na primeira partida onde esta condio
satisfeita.
Absolute 1urning Point (ATP): a primeira partida apos a qual uma srie de partidas
consecutivas vencidas pelo agente dinmico nunca seguida por uma srie
consecutiva maior de partidas vencidas pelo agente estatico.
Continuando sua exposio, o autor relata que valores pequenos tanto para o RTP
quanto para o ATP indicam que o Dynamic Scripting esta sendo eIiciente em sua Iuno, uma
vez que indicam que o agente controlado por esta tcnica esta precisando de poucos jogos
para superar o agente estatico (SPRONCK et al., 2003, apua PONSEN). Se o agente
dinmico no Ior capaz de superar, estatisticamente, o agente estatico num limite de 100
partidas, o experimento parado e o algoritmo ento retorna a aptido mdia do agente.
Para os 4 tipos de IA utilizados, Ioram realizadas as seguintes quantidades de testes:
IA de ataque por terra em mapa pequeno: 31 testes;
IA de ataque por terra em mapa grande: 21 testes;
Ataque de soldados: 10 testes;
Ataque de cavaleiros: 10 testes.
Os experimentos realizados pelo autor mostraram que o agente controlado pelo
Dynamic Scripting conseguiu se adaptar aos dois primeiros agentes estaticos, mas no
conseguiu auIerir adaptao ao ataque de soldados e ao ataque de cavaleiros, sendo que contra
o primeiro, conseguiu vencer uma mdia de 1 em cada 100 partidas e contra o segundo
conseguiu vencer uma mdia de 1 em cada 50 partidas. Em Iuno disto, o autor observa que
o Dynamic Scripting no se mostrou bem sucedido quando colocado diante de estratgias
otimizadas, sendo que um dos Iatores relacionados a isso o Iato de que, embora a reIerida
tcnica seja uma tcnica adaptativa, ela se prende as suas bases de regras, sendo que caso
estas regras oIeream solues num numero insuIiciente, a tcnica se mostrara incapaz de
rapidamente descobrir taticas que possam se mostrar eIetivas. A partir disso, o autor passa a
103
se Iocar na busca de novas estratgias, busca essa que deve ser empenhada pelo proprio
agente dinmico
43
, atravs da utilizao do algoritmo gentico.
Logo ao inicio de sua exposio a respeito da aplicao do algoritmo gentico aos
jogos de estratgia em tempo real, o autor Iaz algumas consideraes a respeito de algumas
questes importantes nesta implementao, que so as seguintes:
Codificao dos cromossomos: um esquema de codiIicao deve ser capaz de
representar qualquer soluo possivel para o problema, e preIerencialmente de Iorma
que no possa representar solues inviaveis;
Avaliao dos cromossomos: projetar uma Iuno de aptido apropriada essencial
para que o algoritmo gentico Iuncione de Iorma eIetiva. O indicador de aptido de
um cromossomo deve corresponder a sua capacidade para resolver um determinado
problema. Desta Iorma, uma deIinio adequada do problema crucial quando se
projeta a reIerida Iuno. Em um jogo de estratgia em tempo real, o problema pode
ser descrito como sendo vencer exrcitos opositores num determinado mapa. Assim,
uma vitoria esmagadora sobre o inimigo deve gerar uma pontuao de aptido maior
do que uma vitoria de pequenas propores.
Tamanho da populao: em muitos jogos de estratgia em tempo real, as prioridades
de construo do agente ou seja, a Iorma como sera ordenada a construo de suas
estruturas de grande importncia para a sua estratgia. A populao inicial
utilizada no algoritmo deve possuir variaes de prioridades de construo em numero
suIiciente para testar varias estratgias e buscar uma soluo otimizada para o
problema. No entanto, se a populao Ior muito grande, a evoluo pode tomar muito
tempo. No caso contrario, ou seja, quando so o oIerecidas muito poucas solues
para o algoritmo, este pode convergir para uma soluo Iraca em Iuno da
amostragem insuIiciente do espao de busca.
A codiIicao Ioi Ieita de Iorma que os genes de um cromossomo Ioram agrupados
em estados, sendo que um estado ativado quando o agente executa pelo menos um de seus
genes. Todos os cromossomos tiveram ao menos o estado 1 ativado, enquanto os outros
43
Outro termo pelo qual os agentes cognitivos evolutivos podero ser denominados neste trabalho. Alm deste,
estes agentes podero ser denominados tambm pelo termo agente evolutivo.
104
estados variavam de acordo com a prioridade de construo. Foram codiIicados 4 tipos de
genes: os genes de construo, os de economia, os de pesquisa e os de combate, sendo que:
1. Os genes de construo Ioram responsabilizados pela construo de estruturas, sendo
identiIicados com a letra B seguida de um numero entre 1 e 12, que representaria a
estrutura selecionada;
2. Os genes de pesquisa so responsaveis pela melhoria tecnologica da base, sendo
identiIicadas pela letra R seguida de um numero entre 13 e 21
44
;
3. Os genes de economia so responsaveis pelo treino de unidades construtoras, sendo
representados pela letra E seguida do numero desejado dessas unidades;
4. Os genes de combate so responsaveis pelas atividades militares do agente, sendo
representados pela letra C seguida de um numero representando o estado atual sendo
que cada estado permite que se trabalhe com diIerentes unidades. Por exemplo, um
gene de combate no estado 1 iniciado com um 'C1, enquanto este mesmo tipo de
gene no estado 20 iniciado com um 'C20 (p. 27). O primeiro parmetro de um gene
de combate sempre o identiIicador de um exrcito, sendo que o jogo Stratagus, a
poca da realizao do trabalho de PONSEN, suportava at 10 exrcitos controlaveis,
sendo estes identiIicados por um numero que varia entre 0 e 9. O ultimo parmetro
sempre o papel do exrcito, que pode ser oIensivo ou deIensivo. O numero de
parmetros entre o primeiro e o ultimo parmetros varia dependendo do estado em que
a base do agente estiver.
Antes de se proceder a exposio acerca da Iuno de aptido do agente, sera exposta
o conceito da relao aelta, necessario para a compreenso daquela Iuno.
A relao aelta consiste na relao entre os pontos militares do agente dinmico e a
soma destes com os pontos militares do agente estatico, e pode ser expressa da seguinte
Iorma:
44
O autor no chega a especiIicar o signiIicado desta numerao.
105
6=
Ma
(Ma +Mo)
Equao 21
Sendo que:
o o simbolo representativo da relao;
Ma so os pontos militares do agente dinmico;
Mo so os pontos militares do oponente do agente dinmico.
A Iorma atravs da qual a Iuno de aptido do agente evolutivo sera calculada
depende da vitoria ou da derrota do mesmo numa determinada partida.
Caso o agente seja derrotado, a Iuno consistira no calculo do produto da relao
beta com a relao entre o tempo que o agente estatico levou para derrotar o agente evolutivo
e o tempo maximo admitido para uma partida. O tempo decorrido para a vitoria do agente
estatico denominado como ciclo de jogo
45
, e o tempo maximo admitido para uma partida
denominado como ciclo de jogo maximo
46
. Este produto ento comparado ao ponto de
equilibrio e o menor dos dois valores atribuido a aptido do agente.
Este procedimento pode ser sintetizado na seguinte equao:
F=min(
GC
EC
6 , b)
Equao 22
Onde:
F o indicador de aptido do agente;
GC o ciclo de jogo
47
;
EC o ciclo de jogo maximo
48
;
o a relao delta;
45
Game cycle no original.
46
Ena cycle no original.
47
GC a sigla para game cycle, conIorme o original.
48
EC a sigla para ena cycle, conIorme o original.
106
b o ponto de equilibrio.
Ja no caso contrario, ou seja, quando o agente evolutivo vence a partida contra o
agente estatico, apenas a relao aelta comparada ao ponto de equilibrio, sendo que o
indicador de aptido do agente recebe o maior valor dentre os dois.
Este procedimento pode ser expresso na seguinte equao:
F=max (b ,6)
Equao 23
Sendo que:
F a aptido do agente;
o a relao aelta;
b o ponto de equilibrio.
E importante destacar que, tal como no caso de Dynamic Scripting, a aptido do
agente pode receber valores no intervalo |0,1|
Continuando, o autor argumenta que se o agente programado com o algoritmo
gentico capaz de levar em Irente uma longa batalha mas ainda assim perder, provavel que
o cromossomo utilizado nesta batalha esteja proximo de encontrar uma soluo para o
problema da adaptao, e pequenas mudanas em seus genes podem resultado num
cromossomo com condies de vencer, eIetivamente, a partida. O Iator GC/EC permite que se
garanta que cromossomos que perdem uma partida apos resistirem por um bom tempo
recebero um indicador de aptido maior do que cromossomos que levam pouco tempo para
serem derrotados (p. 28)
Com relao aos operadores genticos aplicados aos cromossomos, Ioram os
seguintes:
1. Crossover de estados: so selecionados 2 cromossomos para serem cromossomos pais
e nestes realizado uma checagem para veriIicar se existem ao menos 3 estados
apropriados para crossover ativados. CertiIica-se que o cromossomo Iilho herdara
107
material gentico de ambos os pais para se evitar que ocorra um processo de
clonagem, ou seja, evitar que o cromossomo Iilho receba todo o seu material gentico
de apenas um dos pais
49
. Apos a realizao de crossover de estado no ultimo estado
ativado, as partes remanescentes do cromossomo so copiadas de um dos pais.
2. Mutao por reposio de regras: seleciona-se um cromossomo pai e, para cada
estado ativado, todas as regras de economia, pesquisa ou combate tm uma
probabilidade de 25 de soIrer um processo de reposio;
3. Mutao por influncia de regra
50
: seleciona-se um cromossomo pai e para cada
estado ativado os parmetros das regras de economia ou combate possuem uma
probabilidade de 50 de soIrerem mutao. A mutao se da dentro de um parmetro
pr-deIinido (no intervalo entre um valor minimo e um valor maximo).
4. Randomizao: gera-se um novo cromossomo completo.
Como mecanismo de seleo, Ioi utilizado o torneio, sendo que, nesta metodologia,
so selecionados, aleatoriamente, M cromossomos 'vitoriosos de um total de N
cromossomos para serem os cromossomos pais. Quanto maior o valor de N, maior a presso
da seleo (BUCKLAND 2004, apua PONSEN). O autor justiIica a utilizao do mtodo
com os seguintes argumentos:
1. E de Iacil implementao;
2. Tem maior probabilidade de gerar boas solues;
3. Quando se escolhe um valor pequeno para N, evita-se que a populao convirja
prematuramente
Na implementao, Ioi atribuido valor 3 a N e valor 1 a M, ou seja, so escolhidos 3
cromossomos e o melhor dentre os 3 tomado para ser o cromossomo pai da proxima
gerao, sendo que o pior dentre os 3 cromossomos descartado.
Como critrios de parada, Ioram conIigurados como sendo ou o Iato de o indice de
aptido atingir um determinado valor ou o algoritmo realizar um determinado numero de
iteraes, uma vez que no ha garantias de que o algoritmo encontrara uma soluo com
49
O termo clonagem no utilizado no original. Foi utilizado aqui por julgar-se ser um termo apropriado para
descrever a condio ora apresentada.
50
Rule biasea mutation, no original.
108
indice de aptido que exceda o valor colocado (p. 29). Quando um dos dois critrios
alcanado, o processo retorna a melhor soluo, reinicia a populao e inicia uma nova busca
(idem)
Nos experimentos, Ioram utilizados o ataque de soldados e o ataque de cavaleiros
como a IA estatica, uma vez que estas duas IA's se mostraram problematicas para o Dynamic
Scripting original. O tamanho da populao Ioi conIigurado no numero de 50 cromossomos.
O critrio de parada por aptido Ioi conIigurado como 0,75 para o ataque de soldados e 0,7
para o ataque de cavaleiros. E o critrio de parada por iteraes Ioi conIigurado como 250 (p.
30).
O algoritmo gentico rapidamente encontrou solues, sendo que quase todos os
experimentos Ioram encerrados antes de 250 iteraes com indices de aptido excedendo os
valores colocados como critrios de parada. Nisto, o autor conclui que este algoritmo capaz
de descobrir novas taticas e estratgias para lidar com IA's otimizadas que se mostraram
problematicas para o Dynamic Scripting original.
Apos o resultado obtido com o algoritmo gentico, o autor codiIica algumas das
solues encontradas por este em regras para a base de regras do Dynamic Scripting, com
vistas a aprimorar o desempenho desta tcnica e demonstrar que a mesma pode vencer as IA's
do ataque de soldados e do ataque de cavaleiros ou pelo menos melhorar seu desempenho em
relao a estas.
Assim, as solues descobertas a partida da operao do algoritmo gentico Ioram
cuidadosamente examinadas e discutidas, sendo que a partir disso Ioram realizadas 5
mudanas na base de regras original, que so descritas a seguir:
1. Foi reconhecido um padro muito obvio na maioria das solues encontradas contra o
ataque de soldados. Nestas, o agente primeiramente construiu um Ierreiro, e a partir
disso pesquisou melhorias nas armas e nos equipamentos de proteo das unidades,
para ento poder atacar de Iorma eIetiva a IA oponente com soldados Iortemente
armados. A primeira regra adicionada a base de regras, denominada de regra anti-
ataque de soldados, executa exatamente estas aes;
2. Em quase todas as solues contra o ataque de cavaleiros, Ioi observado que o
algoritmo gentico preIeriu treinar unidades avanadas o mais cedo possivel. Isto
inspirou o autor a criar a segunda regra inserida na nova base de regras do Dynamic
109
Scripting. Sempre que o agente dinmico estava a 'uma estrutura de distncia
51
de
treinar unidades avanadas, a regra, quando selecionada, construia esta estrutura e
ento realizava ataques com unidades avanadas.
3. No decorrer dos experimentos, o autor pde observar a importncia de impulsionar a
economia atravs da expanso da base do agente. A base de regras original ja oIerecia
diversas oportunidades para a realizao desta expanso. No entanto, durante os
experimentos com a antiga base de regras, o autor observou que as bases de produo
de recursos Ireqentemente eram Iacilmente destruidas pela IA oponente. Portanto,
estas regras Ireqentemente recebiam pesos baixos. Atravs de uma analise mais
atenta das solues encontradas pelo algoritmo gentico, o autor pode observar que
este, antes de expandir sua base, tratava de organizar sua deIesa, concluindo, a partir
desta inIormao, que, para que se possa construir novas bases de produo de
recursos, deve-se ter condies de deIend-la. Em Iuno disso, o treinamento de
exrcitos de deIesa Ioi incluido na nova regra de expanso da base;
4. A quarta regra Ioi obtida atravs da seleo de um cromossomo bem sucedido contra o
ataque de cavaleiros e posterior copia de todas as aes codiIicadas em estados
ativados diretamente para a regra;
5. Aqui no Ioi criada nenhuma regra nova. Apenas Ioram realizadas mudanas de
parmetros em regras militares ja existentes. Foram examinados todos os genes
ativados para todos os cromossomos, sendo que nisso Ioi analisado quais os tipos de
unidades que o algoritmo gentico preIeriu utilizar durante um determinado momento
do jogo
52
. Com base nestas estatisticas, determinados parmetros das regras militares
existentes Ioram modiIicados.
Apos a descrio das novas regras, o autor expe que as inseriu na base de regras
atravs de um processo de substituio. Ou seja, substituiu determinadas regras da base de
regras original pelas novas regras, com vistas a manter a mesma com o mesmo tamanho que
possuia originalmente.
Para cada uma das duas IA's, Ioram realizados 10 experimentos. Alm disso, a nova
base de regras Ioi testada contra as IA's de ataque por terra em mapa grande e em mapa
pequeno, sendo que, para cada uma destas, Ioram realizados 11 testes. Da mesma Iorma como
51
'One builaing away, no original.
52
'Specific temporal state of the game, no original
110
nos experimentos anteriores, o desempenho relativo do algoritmo Ioi quantiIicado com o RTP
e o ATP. Se o jogador dinmico Ior incapaz de estatisticamente superar o jogador estatico
num limite de 100 partidas, os experimentos so paradas e o algoritmo retorna a aptido
mdia do agente dinmico. Para este experimento, a penalidade e a recompensa maximas Ioi
atribuido valor 400, com vistas a encorajar pesos altos para as regras.
Realizados os experimentos, o Dynamic Scripting aprimorado superou as IA's de
ataque por terra em mapa pequeno e em mapa grande sem a necessidade de adquirir qualquer
aprendizado (p. 34).
Com relao as duas IA's otimizadas, ou seja, contra o ataque de soldados e ataque
de cavaleiros, Ioram obtidos os seguintes resultados:
Contra o ataque de soldados, Ioi obtida uma mdia de vitorias de 1 para cada 3 para o
agente no qual Ioi implementada a nova base de regras, enquanto que, com a antiga
base de regras, a mdia de vitorias Iicou de 1 para cada 100 partidas disputadas.
Contra o ataque de cavaleiros, o agente dinmico passou a vencer uma mdia de 1 em
cada 10 partidas disputadas, enquanto que com a antiga base de regras, a taxa de
vitorias Ioi de 1 para cada 50.
Com relao as pontuaes de aptido do agente, com a antiga base de regras Ioi
conseguida uma aptido mdia de 0,2, enquanto que, com a nova base de regras, a aptido
mdia passou ao patamar de 0,3.
Desta Iorma, o autor conclui que, embora a nova base de regras no permita que os
agente evolutivo sobrepuje estatisticamente as IA's estaticas aprimoradas (ataque de soldados
e ataque de cavaleiros), o agente, com a sua utilizao, melhora seu desempenho em relao a
estas IA's.
4.2.5. Consideraes gerais acerca dos trabalhos consultados
No decorrer do processo de pesquisa acerca dos agentes cognitivos evolutivos mais
especiIicamente na leitura dos dois autores utilizados como reIerncia para a redao deste
capitulo Ioi possivel observar alguns pontos interessantes, e que sero expostos a seguir:
111
CROCOMO, no decorrer de seu trabalho, detecta uma Ialha no trabalho de
SPRONCK, que consiste na possibilidade de uma determinada regra receber valor
minimo igual a zero, o que Iaz com que a tcnica do Dynamic Scripting, tal como
implementada por SPRONCK, perca sua capacidade de adaptao com o passar do
tempo. CROCOMO, neste sentido, toma como uma de suas recomendaes para
trabalhos Iuturos que a tcnica seja aprimorada, atravs da anulao de possibilidade
de uma regra receber peso 0, atravs da condio de que o peso minimo para uma
regra seja conIigurado de Iorma a receber um valor positivo. No entanto, esta
implementao realizada por PONSEN possivelmente orientado por SPRONCK,
uma vez que este o orientador do trabalho. PONSEN atribui valor 25 ao peso
minimo que uma regra pode receber, sendo que a regra nunca recebera valor menor
que este, uma vez que o novo peso de uma regra, quando o agente dinmico perde a
partida onde esta utilizada, obtida atravs de comparao do valor do peso minimo
que ela pode receber com o valor do peso original diminuido pelas punies recebidas
pela regra, sendo que o maior dentre os dois valores passara a ser o novo peso da
regra. Desta Iorma, pode-se observar que, mesmo que o valor original deduzido da
regra seja menor que o peso minimo admitido para a mesma, o novo peso da regra
nunca tera valor menor do que o peso minimo admitido. Assim, aparentemente esta
superado o problema da perda de capacidade de adaptao por parte da tcnica. No
entanto, PONSEN no tece consideraes a respeito do eIeito que tal implementao
tem na eIicincia da tcnica, sendo que este ponto tocado por CROCOMO quando
este discute a reIerida implementao, argumentando que a mesma podera trazer
prejuizos a eIicincia do Dynamic Scripting.
Alm do peso minimo admitido para uma determinada regra, PONSEN implementa
outro mecanismo aparentemente interessante: a atribuio de um peso maximo
admissivel para uma regra. Aparentemente este mecanismo garante que no ocorra o
processo que sera denominado aqui de monopolio ae uma regra, sendo que este
processo ocorreria caso uma regra receba um peso demasiadamente alto, o que Iaria
com esta Iique com uma probabilidade demasiadamente alta de ser escolhida, sendo
que isso poderia causar prejuizos a outras regras e at ao proprio agente, uma vez que
a oportunidade de este utiliza-las poderia ser drasticamente reduzida.
112
PONSEN utiliza-se, em seu trabalho, de um esquema demasiadamente condensado
para representar uma situao relativamente complexa no caso, as Iunes de
aptido dos agentes cognitivos evolutivos utilizando o Dynamic Scripting e o
algoritmo gentico, alm da Iuno de atualizao de pesos das regras para aquela
tcnica. Isto gerou diIiculdades na hora de interpretar as Iormulas utilizadas. Neste
sentido, Ioram levantados, neste trabalho, os conceitos das relaes alfa, beta, gama e
aelta com o objetivo tornar mais compreensiveis os processos atravs dos quais
medida a aptido do agente e atualizado o peso das regras utilizadas pelo mesmo em
uma determinada partida quando utilizada a tcnica do Dynamic Scripting. A partir
destes conceitos, buscou-se expor, passo a passo, de que Iorma estes processos so
realizados.
4.3. Consideraes Finais
Este capitulo Ioi baseado na proposta de se discutir os agentes cognitivos evolutivos,
sendo que inicialmente Ioi realizada uma caracterizao geral dos mesmos para ento
proceder-se a discusso de trabalhos que tratam do assunto. Na discusso a respeito destes, Ioi
realizado inicialmente uma caracterizao de alguns conceitos que puderam ser encontrados
nos dois para ento proceder-se a uma analise de cada um. Apos esta discusso, Ioram
realizadas algumas consideraes gerais a respeitos dos trabalhos para ento proceder-se as
consideraes Iinais.
113
Concluso e Recomendaes para Trabalhos Futuros
Este trabalho Ioi concebido com o objetivo de se discutir a questo da Inteligncia
ArtiIicial nos jogos eletrnicos de estratgia em tempo real. Mais especiIicamente, discutiu-se
a questo da implementao de agentes cognitivos com a capacidade de aprendizagem eIetiva
contra seus oponentes, partindo-se da seguinte questo:
E possivel a criao de um modelo de agente cognitivo que possua um esquema de
aprendizagem eIetivo em sua estrutura?
A partir desta questo, Ioi realizada a pesquisa com vista a respond-la, realizada
com o cumprimento das seguintes etapas:
1. Pesquisa bibliograIica acerca dos jogos eletrnicos de estratgia em tempo real,
buscando inIormaes sobre sua historia, seus principais conceitos e suas diIerenas
em relao a alguns gneros de jogos proximos;
2. Pesquisa bibliograIica acerca dos agentes inteligentes, buscando-se o Ioco nas Iunes
cognitivas do planejamento e aprendizagem. Alm disso, buscou-se estudar a
implementao destas Iunes especiIicamente nos jogos eletrnicos de estratgia em
tempo real;
3. Realizao de experimentos com o jogo Outlive com vistas a veriIicar de Iorma mais
sistematica como os agentes do reIerido jogo se comportam diante de um conjunto de
situaes possiveis;
4. Pesquisa bibliograIica com vistas a veriIicar a possibilidade de implementao de
agentes tais como os levantados na Iase de projeto deste trabalho.
Apos realizada o devido processo de pesquisa a respeito da Inteligncia ArtiIicial
aplicada aos jogos de estratgia em tempo real e a outros gneros, Ioi possivel veriIicar que
sim, possivel a implementao dos agentes cognitivos evolutivos, sendo que ja existem
tcnicas que permitem esta implementao e, at o momento, de acordo com o que Ioi
possivel pesquisar, existem duas tcnicas sendo discutidas no mbito desta questo: o
114
Dynamic Scripting e o algoritmo gentico, sendo que ambas as tcnicas Ioram discutidas no
capitulo IV.
Pde-se observar que a nomenclatura agente cognitivo evolutivo no aplicada na
literatura que Ioi pesquisada. Para se denominar este tipo de agente, Ioram utilizados termos
como agente ainamico e agente evolutivo. Outra nomenclatura que pde ser levantada no
decorrer desta pesquisa Ioi a nomenclatura de agente aaaptativo, embora esta no tenha sido
utilizada no decorrer deste trabalho. Tal nomenclatura parece tambm apropriada, pois
expressa a Iorma como o agente se comporta diante de um eventual oponente: adapta a sua
estratgia a estratgia utilizada por este quando no lhe possivel venc-lo num determinado
momento.
A aprendizagem online, dentro da literatura consultada, se mostrou aplicavel tanto
aos jogos do gnero CRPG quanto no mbito dos jogos de estratgia em tempo real. Nos
CRPG's, a reIerida modalidade de aprendizagem mostrou-se aplicavel atravs das duas
tcnicas expostas neste trabalho. No entanto, no Ioi encontrado nenhum trabalho que trata da
implementao do algoritmo gentico em jogos de estratgia em tempo real. Ainda assim,
PONSEN, embora no reconhea a aplicabilidade deste algoritmo para aprendizagem online
em jogos eletrnicos, mostra um Iator interessante para esta discusso, uma vez que, quando
aplica este algoritmo para aprendizagem offline com vistas a descobrir novas taticas e
estratgias para serem codiIicadas em novas regras para serem utilizadas pelo Dynamic
Scripting, demonstra que o reIerido algoritmo descobre rapidamente estas taticas e estratgias
para lidar com os oponentes que Ioram colocados diante de si. As concluses apresentadas por
CROCOMO tambm so animadoras neste sentido, uma vez que este autor demonstra que,
dentro do ambiente do jogo de CRPG apresentado em seu trabalho, o algoritmo gentico
mostra uma capacidade similar ou superior de adaptao em relao ao Dynamic Scripting,
sendo que, quando os dois algoritmos Ioram colocados em conIronto direto em um
quantitativo grande a partidas, o algoritmo gentico mostrou-se signiIicativamente superior a
outra tcnica.
Enquanto sugesto para trabalhos Iuturos, pde ser levantada a questo da
implementao do algoritmo gentico para aprendizagem online em jogos eletrnicos de
estratgia em tempo real.
115
REFERNCIAS BIBLIOGRFICAS
BRAMLETTE, Mark F. Initialization, Mutation and selection methods in genetic algorithms
Ior Iunction optimization. In: INTERNATIONAL CONFERENCE ON GENETIC
ALGORITHMS, 4, 1991, San Mateo, CA. Proceedings of the Fourth International
Conference on Genetic Algorithms. San Mateo, CA: ICGA, 1991. p. 100-107.
BUCKLAND, M. (2004). Building Better Genetic Algorithms. AI Game Programming
Wisaom 2 (ed. S. Rabin), Charles River Media, 2002, pp. 649-660.
CHUNG, M. et. al. Monte Carlo Planning in RTS Games. University oI Alberta.
Edmonton, Alberta, Canada.
COHEN, R.C. (1995). Paragraph 5.3.2: A Randomization oI the Paired Sample Test,
Empirical Methoas for Artificial Intelligence, MIT Press, pp. 168-170
CROCOMO, M.K. Um Algoritmo Evolutivo para Aprendizado On-line em 1ogos
Eletrnicos. Dissertao apresentada ao Instituto de Cincias Matematicas e de Computao
ICMC-USP, como parte dos requisitos para obteno do titulo de Mestre em Cincias
Cincias da Computao e Matematica Computacional. USP So Carlos. Fevereiro de 2008.
99 p.
GERYK, B. Age of Empires II: The Age of Kings. In: A History of Real-Time Strategy
Games - Part II. 1999 - present. Disponivel em
http://www.gamespot.com/gamespot/Ieatures/all/realtimept2/p204.html. Acessado em
19/07/09.
GERYK, B. A History of Real-Time Strategy Games - Part II. 1999 - present. Disponivel
em http://www.gamespot.com/gamespot/geatures/all/realtimept2. Acessado em 21/07/09.
GERYK, B. Dune II. In: A History of Real-Time Strategy Games - Part I: 1989-1999.
Disponivel em http://www.gamespot.com/gamespot/Ieatures/all/realtime/p202.html.
Acessado em 19/07/09.
GERYK, B. Herzog Zwei. In: A History of Real-Time Strategy Games - Part I: 1989-
1999. Disponivel em http://www.gamespot.com/gamespot/Ieatures/all/realtime/p201.html.
Acessado em 19/07/09.
GERYK, B. Homeworld. In: A History of Real-Time Strategy Games - Part II: 1999-
present. Disponivel em
http://www.gamespot.com/gamespot/Ieatures/all/realtimept2/p203.html. Acessado em
19/07/09.
GERYK, B. Starcraft. In: A History of Real-Time Strategy Games - Part I: 1989-1999.
Disponivel em http://www.gamespot.com/gamespot/Ieatures/all/realtime/p502.html.
Acessado em 19/07/09.
116
GERYK, B. Total Annihilation. In: A History of Real-Time Strategy Games - Part I:
1989-1999. Disponivel em
http://www.gamespot.com/gamespot/Ieatures/all/realtime/p501.html. Acessado em
19/07/09
GERYK, B. Warcraft: Orcs & Humans. In: A History of Real-Time Strategy Games -
Part I: 1989-1999. Disponivel em
http://www.gamespot.com/gamespot/Ieatures/all/realtime/p301.html. Acessado em
19/07/09.
GERYK, B. Warzone 2100. In: A History of Real-Time Strategy Games - Part II: 1999-
present. Disponivel em
http://www.gamespot.com/gamespot/Ieatures/all/realtimept2/p201.html. Acessado em
19/07/09.k
LUA. A Linguagem de Programao Lua. Disponivel em
http://www.lua.org/portugues.html. Acessado em 15/02/10.
MANSLOW, John. Learning and Adaptation. In: STEVE RABIN. AI game Programming
Wisdom. Washington: Charles River Media, 2002. p. 557-566. CD-ROM.
MANSLOW, J. 2004. ~Using Reinforcement Learning to Solve AI Control Problems. AI
Game Programming Wisaom 2 (ed. S. Rabin), Charles River Media, pp. 591-601.
PONSEN, M. Improving Adaptive Game AI with Evolutionary Learning. A thesis
submitted in IulIillment oI the requirements Ior the degree oI Master oI Science. Faculty oI
Media & Knowledge Engineering. DelIt University oI Technology. DelIt, 2004. 46 p.
RICH, Elaine. Inteligncia Artificial / Elaine Rich, Kevin Knight ; traduo Maria Claudia
Santos Ribeiro Ratto ; reviso tcnica Alvaro Antunes So Paulo : Makron Books, 1993.
RUSSEL, S. J. Inteligncia Artificial: traduo da segunda eduo / Stuart Russel, Peter
Norvig, traduo de PubliCare Consultoria. Rio de Janeiro : Elsevier, 2004 2
reimpresso.
SIMES, Eduardo do Valle. Development of an embedded evolutionary controller to
enable collision-free navigation of a population of autonomous mobile robots. 2000. 289
I. Tese (Doutorado) Electronic Engineering, University oI Kent, Canterburry, 2000.
SIMES, Eduardo do Valle; DIMOND, Keith R. An evolutionary controller Ior autonomous
Muti-Robot Systems. In: SYSTEMS, MAN AND CYBERNETICS, 1999, Tokyo.
Proceedings of the IEEE International Conference on Systems, Man and Cybernetics.
Tokyo: IEEE, 1999. p. 596-601.
SPRONCK, P.; SHPRINKHUIZEN-KUYPER, I.; POSTMA, E. Online Adaptation oI Game
Opponent AI in Theory and Practice. In. INTERNATIONAL CONFERENCE ON
INTELLIGENT GAMES AND SIMULATION, 4, 2003, Londres. Proceedings of the 4
th
117
International Conference on Intelligent Games and Simulation. Wolverhampton:
University oI Wolverhampton, 2004. p. 45-53.
TOMASSINI, Marco. A Survey oI Genetic Algorithms. In: WORLD ScientiIic: Annual
Reviews oI Computational Physics: World ScientiIic, 1995. p.87-118.
WIKIPEDIA, the Iree encyclopedia. Lua (Programming Language). Disponivel em
http://en.wikipedia.org/wiki/Lua28programminglanguage29. Acessado em 16/02/10.
WIKIPEDIA, the Iree encyclopedia. Micromanagement. Disponivel em
http://en.wikipedia.org/wiki/Micromanagement(computergaming). Acessado em 01/08/09.
WIKIPEDIA, the Iree encyclopedia. Real-time Strategy. Disponivel em
http://en.wikipedia.org/wiki/Real-timestrategy. Acessado em 17/08/09.
WIKIPEDIA, the Iree encyclopedia. Real-time Tactics. Disponivel em
http://en.wikipedia.org/wiki/Real-timetactics#GenreclassiIication. Acessado em 01/08/09.
WIKIPEDIA, the Iree encyclopedia. Time-keeping systems in games. Disponivel em
http://en.wikipedia.org/wiki/Real-timevs.turn-basedgameplay . Acessado em 01/08/09 .
118
APNDICE A - ESQUEMA DE PLANE1AMENTO EM GRAFO PARA AGENTES
INTELIGENTES EM 1OGOS DE ESTRATGIA EM TEMPO REAL
119
Nveis de Estado/Ao Estados/Aes possveis no nvel Descio
S(0)
Base desestruturada
A base do agente ainda no
esta estruturada de Iorma que
lhe permita lanar ataques aos
inimigos.
Inimigos no campo de batalha
A(0)
Estruturar base
Organizar a base de Iorma
que seja possivel ao agente a
realizao de ataques as bases
inimigas
Receber ataque inimigo
S(1)
Base estruturada
A base encontra-se em
condies que permitam ao
agente lanar ataques aos
inimigos
Base desestruturada
Base destruida
A base do agente destruida
pelas Ioras inimigas
(base destruida)
A base do agente no
destruida pelas Ioras
inimigas
Inimigos no campo de batalha
A(1) Atacar inimigos
O agente ataca as bases
inimigas
S(2)
Inimigos destruidos
Os inimigos do agente so
destruidos
Base estruturada
Base desestruturada
Base destruida
(base destruida)
Inimigos no campo de batalha
Quadro 1 - Descrio dos possveis estados no grafo
120
APNDICE B - ESTRUTURAS DO 1OGO OU1LIJE E RESPECTIVAS IMAGENS
53
Raa Estrutura Imagem
Humana
Quartel general
Laboratorio de pesquisa
Central de inteligncia
Mercado
Fabrica de veiculos
53
Imagens extraidas do proprio jogo.
121
Fabrica de aeronaves
Torre de deIesa
Extrator de minrio
ReIinaria
Processador de minrio
Gerador eolico
122
Usina nuclear
Retransmissor de energia
Rob
Centro de controle
Centro tecnologico
Centro de inIormaes
Base recicladora
123
Fabrica basica
Fabrica avanada
Canho de deIesa
Canho antiareo
Usina de puriIicao
Base de minerao
Assimilador de minrio
124
Gerador solar
Gerador radioativo
125
APNDICE C - UNIDADES DO 1OGO OU1LIJE
Raa
Categoria
da
unidade
Nome da
unidade
Descrio da
unidade
Comandos especficos da
unidade
Observaes
Human
a
Construtor
a
Construtor 3. Reparar
construo: Faz
com que o
construtor realize
operaes de
manuteno numa
determinada
estrutura;
4. Demolir
construo: Faz
com que o
construtor
desmonte uma
determinada
estrutura;
5. Construes
bsicas: Permite
que se construa
uma das seguintes
estruturas:
1. Quartel
general;
2. Laboratorio de
pesquisas;
3. Central de
Inteligncia;
4. Mercado;
5. Fabrica de
veiculos;
6. Fabrica de
aeronaves;
7. Torre de
deIesa.
5. Construes de
recursos: Permite
que se construa
uma das seguintes
estruturas:
1. ReIinaria;
2. Extrator de
minrio;

126
3. Processador de
minrio;
4. Retransmissor
de energia;
5. Gerador
eolico;
6. Usina nuclear.
4. Instalar mina
terrestre: Faz
com que o
construtor instale
uma mina terrestre
num ponto
determinado do
mapa, apos ter
sido realizada a
melhoria
tecnologica que
permite a
utilizao deste
recurso.
Coletora Coletor
5. Coletar minrio:
Faz com que o
coletor colete
minrio em um
extrator de minrio
ou na sucata de
unidades
destruidas;
6. Retornar
minrio: Faz com
que a unidade
transporte o
minrio coletado
ao quartel general
ou a reIinaria mais
proxima.

Transporte Transporta
dor
5. Carregar veculo:
Faz com que o
transportador
carregue uma
unidade
determinada pelo
agente controlador
em seu interior;
6. Descarregar
todos os veculos:

127
Faz com que o
transportador
descarregue todas
as unidades que
porventura estejam
em seu interior
54
Combate
Explorador
Unidade de
combate de
pequeno porte
3. Explorar: Faz
com que o
explorador
percorra o mapa
para Iins de
reconhecimento;
4. Nitro: Faz com
que o explorador
torne-se mais
veloz por um
breve periodo de
tempo;
5. Instalar bomba
relgio: Faz com
que o explorador
instale uma bomba
em um ponto
especiIico do
mapa.
Dominado
r
Unidade de
combate de
mdio porte
4. Incubar vampiro:
Faz com que o
dominador incube
um vampiro em
um abominavel.
Apos um
determinado
periodo de tempo,
o vampiro surge,
matando o
abominavel que
lhe serviu de
hospedeiro;
5. Dominar: Faz
com que o
dominador instale
numa unidade
inimiga um

54
Tambm possivel descarregar apenas uma unidade. Quando o transportador carrega uma determinada
unidade, no painel de controle do jogo, quando seleciona-se o transportador em questo, so apresentadas ao
jogador as unidades que esto no interior do transportador. Para se descarregar a unidade individualmente, basta
que se pressione o boto esquerdo do mouse na unidade que se deseja descarregar.
128
dispositivo que Iaz
com que a mesma
passe a seguir as
ordens do agente
controlador
proprietario do
dominador em
questo.
Lana-
chamas
Unidade de
combate de
curta distncia.
Pode atacar
apenas alvos
terrestres.
4. Napalm: Aumenta
o poder de ataque
do lana-chamas
por um curto
periodo de tempo.

Lana-
misseis
Unidade de
combate anti-
areo. No
pode atacar
unidades
terrestres.
4. Repetio rpida:
Aumenta o poder
de ataque do
lana-misseis por
um curto periodo
de tempo.

Tanque
Unidade de
combate
terrestre. No
pode atacar
unidades
areas.

Tanque
pesado
Unidade de
combate
terrestre com
canho de
longo alcance.
No pode
atacar
unidades
areas.
3. Invencibilidade:
Faz com que seja
impossivel inIligir
dano ao tanque
pesado por um
curto periodo de
tempo.

Helicopter
o
3. Explorar: Faz
com que o
helicoptero
percorra o mapa
para Iins de
reconhecimento;
4. Lanar mssil
incendirio: Faz
com que o
helicoptero lance
um poderoso

129
missil em alvos
terrestres.
Caa
3. Explorar: Faz
com que o caa
percorra o mapa
para Iins de
reconhecimento
4. Invisibilidade:
Faz com que o
caa Iique
invisivel por um
curto periodo de
tempo.

Abominav
el

5. Explorar: Faz
com que o
abominavel
percorra o mapa
para Iins de
reconhecimento.

Vampiro
Unidade criada
a partir da
incubao de
um
abominavel
por um
dominador.
4. Sacrificar
vampiro: Faz com
que o vampiro se
sacriIique em um
ponto especiIico
do mapa, lanando
um gas toxico que
causa
consideraveis
danos a estruturas
e unidades
inimigas que
estejam nas
proximidades.

ICBM Missil de alto


poder
destrutivo.
No
propriamente
uma unidade,
mas sim um
armamento
que
acoplado ao
quartel
general apos
ser realizada a
devida
melhoria
tecnologica na
130
base. Quando
lanado, causa
consideravel
dano a
estruturas e
unidades
inimigas que
estejam no seu
raio de
alcance
quando atinge
seu alvo com
sucesso.
Rob Construtor
a
MorIo Unidade de
construo
rob. Constroi
atravs de
modiIicaes
em sua
estrutura que o
Iaz assumir a
Iorma da
estrutura que
se deseja
construir.
Transformao
em construo
bsica: Permite
que o morIo se
transIorme numa
das seguintes
estruturas:
1. Centro de
controle;
2. Centro
tecnologico;
3. Centro de
inIormaes;
4. Base
recicladora;
5. Fabrica basica;
6. Fabrica
avanada;
7. Canho de
deIesa;
8. Canho
antiareo;
Transformao
em construo de
recursos: Permite
que o morIo se
transIorme numa
das seguintes
estruturas:
1. Usina de
puriIicao;
2. Base de
minerao;
3. Assimilador de

131
minrio;
4. Gerador solar;
5. Gerador
radioativo;
Instalar
dispositivos
paralisantes: Faz
com que o morIo
instale em algum
ponto especiIico
do mapa um
conjunto de
dispositivos que
paralisam unidades
inimigas quando
tocados por estas.
Coletora Saqueador
7. Coletar minrio:
Faz com que o
saqueador colete
minrio em uma
base de minerao
ou na sucata de
unidades
destruidas;
8. Retornar
minrio: Faz com
que o saqueador
transporte o
minrio coletado
ao quartel general
ou a usina de
puriIicao mais
proxima.

Transporte Tornado Carregar


unidade: Faz com
que o tornado
carregue em seu
interior uma
determinada
unidade;
Descarregar
todas as
unidades: Faz
com que o tornado
descarregue todas
as unidades que
estejam em seu
132
interior num ponto
especiIico do
mapa
55
;
Explorar: Faz
com que o tornado
percorra o mapa
para Iins de
reconhecimento;
Teletransportar:
Faz com que o
tornado se
teletranporte para
um determinado
ponto do mapa.
Combate
Invasor
Unidade de
combate de
pequeno porte.
Explorar: Faz
com que o invasor
percorra o mapa
para Iins de
reconhecimento;
Camuflagem: Faz
com que o invasor
transIorme-se em
um abominavel
por um
determinado
periodo de tempo
para poder passar
desapercebido por
eventuais Ioras
inimigas que
estejam no seu
caminho.
Electro Unidade de
combate de
mdio porte.
Roubar energia:
Faz com que o
electro roube
energia da malha
de energia inimiga,
permitindo que se
possibilidade a
diminuio da
capacidade
produtiva da
mesma e tambm
permitindo que o
55
A Iuncionalidade de descarga de apenas uma unidade presente no transportador humano tambm valida para
o tornado.
133
electro carregue
mais rapidamente
a Nova.
Lanar nova: Faz
com que o electro
lance uma onda de
energia que causa
danos a unidades e
estruturas inimigas
que estejam
proximas.
Tempestad
e
Poderosa
unidade de
combate anti-
areo. No
pode atacar
alvos
terrestres.
Dano qudruplo:
Aumenta o poder
de ataque do
tempestade por um
determinado
periodo de tempo;
Vingador
Unidade area.
At que se
pesquise o
recurso
torpeao ae
fotons, no
pode atacar
unidades
terrestres.
Explorar: Faz
com que o
vingador percorra
o mapa para Iins
de
reconhecimento;
Campo de fora:
Ativa um campo
de Iora que
protege o vingador
por um
determinado
periodo de tempo.
Caos
Unidade de
combate em
terra. No
pode atacar
unidades
areas.
Nuvem
radioativa: Faz
com que o caos
lance uma nuvem
radioativa que
causa danos a
unidades e
estruturas inimigas
em seu raio de
alcance.
Trovo Unidade area
que pode
atacar apenas
alvos
Explorar: Faz
com que o trovo
percorra o mapa
para Iins de
134
terrestres.
reconhecimento;
Campo de fora:
Ativa um campo
de Iora que
protege o trovo
por um
determinado
periodo de tempo;
Amplificador:
Aumenta o poder
de ataque do
trovo por um
determinado
periodo de tempo.
Incinerado
r
Poderosa
unidade de
combate anti-
terra.
Incinerar: Faz
com que o
incinerador lance
um poderoso
ataque a um alvo
especiIicado pelo
seu agente
controlador.
Apocalipse
Poderosa
unidades area
de alto
alcance. Pode
atacar apenas
alvos
terrestres.
Explorar: Faz
com que o
apocalipse
percorra o mapa
para Iins de
reconhecimento;
Campo de fora:
Ativa um campo
de Iora que
protege o
apocalipse por um
determinado
periodo de tempo.
Clone ConIorme
indica o nome,
consiste no
clone de uma
determinada
unidade,
possuindo,
portanto, as
mesmas
caracteristicas
135
da unidade
matriz.
136
APNDICE D - UNIDADES DO 1OGO OU1LIJE E RESPECTIVAS IMAGENS
56
Raa Unidade Imagem
Humana
Construtor
Coletor
Transportador
Explorador
Dominador
Lana-chamas
Lana-misseis
Tanque
Tanque pesado
56
Imagens extraidas do proprio jogo.
137
Helicoptero
Caa
Abominavel
Vampiro
Rob
MorIo
Saqueador
Tornado
Invasor
Electro
Tempestade
138
Vingador
Caos
Trovo
Incinerador
Apocalipse
139
APNDICE E - TABULAO DAS INFORMAES OBTIDAS NOS
EXPERIMENTOS
Experimento I
Utilizao de um agente controlando base humana;
Os eventos ocorridos durante o experimento esto relacionados abaixo.
Tabela I
Eventos ocorridos durante o experimento
Evento Observaes
Agente lana ataque a base principal
do jogador, utilizando 12 exploradores.

Agente lana ataque a base de
produo de recursos do jogador, utilizando
unidades terrestres, sem proteo anti-area.

Agente lana ataque a base de


produo de recursos do jogador, utilizando 2
exploradores e 4 tanques.
Neste momento ainda no ha uma
preocupao por parte do agente no
sentido da deIesa anti-area.
O ataque neutralizado com unidades
areas.
Agente ataca base de produo de
recursos do jogador, utilizando 5 caas e 5
helicopteros.
Ataque neutralizado com o uso de
unidades areas.
Novo ataque do agente, realizado com
o uso de transportadores para carregar as
unidades diretamente responsaveis pelo
ataque (3 tanques pesados e 2 dominadores),
dado que o alvo do mesmo localiza-se em
terreno alto.
Cobertura anti-area Iraca para o
ataque.
Agente ataca base de produo de
recursos do jogador, utilizando 4 tanques
pesados e 3 lana-misseis.
As unidades utilizadas no ataque
indicam um grau de preocupao maior por
parte do agente com a cobertura anti-area
para as unidades diretamente responsaveis
pelo ataque, preocupao esta indicada pelo
uso dos lana-misseis.
Agente ataca base de produo de
recursos do jogador, utilizando 5 caas e 5
helicopteros.

Agente ataca base de produo de


recursos do jogador, utilizando 6 tanques
pesados e 6 lana-misseis.
Neste ataque ha um incremento da
cobertura anti-area para as unidades
diretamente responsaveis pelo ataque,
140
indicado pelo numero maior de lana-misseis
utilizado.
Agente ataca base de produo de
recursos do jogador, utilizando 6 caas e 6
helicopteros
Neste momento, pde ser observada
uma aparente alternncia entre ataques
terrestres e ataques areos.
Agente ataca base de produo de
recursos do jogador, utilizando 3 caas e 3
helicopteros

Novo ataque do agente, realizado nos


mesmos moldes do ataque anterior

12 ataque do agente, nos mesmos
moldes dos outros ultimos ataques
Neste momento, pde-se observar que
o agente ataca apenas por atacar.
Aparentemente ja possui uma noo
de que no tera condies de vencer a
partida. Apos este ataque, o agente Iaz
mais um ataque nos mesmos moldes;
A partir deste ataque o jogador
resolve utilizar deIesa anti-area para
avaliar a resposta do agente.
Agente lana ICBM contra o jogador
Este ataque indica uma certa mudana
de estratgia por parte do agente.
Jogador lana ataque a base do agente,
objetivando destruir todas as suas estruturas,
com exceo das estruturas de produo de
crditos e produo de veiculos para assim
veriIicar a resposta do agente.

Agente ataca base de produo de


recursos do jogador, utilizando 3 helicopteros
e 3 caas.
Desta vez o ataque neutralizado com
uso de lana-misseis;
O agente usa mais uma vez este
mesmo esquema de ataque antes de
ser atacado pelo jogador.
Jogador realiza novo ataque a base do
agente, destruindo todas as estruturas com
exceo das estruturas de construo de
veiculos.
Apos o ataque, o agente passa a se
concentrar na produo de
construtores para reerguer a base;
Mesmo em Iase de reorganizao de
sua base, o agente ainda realiza
ataques, mas no mesmo esquema dos
ultimos: utilizando 3 caas e 3
helicopteros;
Apos receber o ataque, o agente
constroi uma Central de Inteligncia
e algumas estruturas de deIesa longe
da base principal, o que no parece
uma atitude coerente.
141
O agente ataca base de produo de
recursos do jogador, utilizando 4 caas e 4
helicopteros.
O ataque desta vez vem mais Iorte,
embora o incremente no seja
signiIicativo;
O jogador deIende a base utilizando-
se de lana-misseis;
O agente ainda realiza mais ataques
com este mesmo esquema.
Agente ataca base de produo de
recursos do jogador, utilizando, desta vez,
uma nova estratgia, baseada na utilizao de
tanques pesados auxiliados por lana-misseis.
Ataque neutralizado com o uso de
unidades areas.
Agente ataca base de produo de
recursos utilizando-se, novamente, de
unidades areas.
Ataque neutralizado com o uso de
lana-misseis
Encerramento do experimento
Experimento II
Neste experimento, so utilizados 2 agentes controlando exrcitos humanos. Tais
exrcitos sero denominados, conIorme ocorrido no experimento, como exrcito
vermelho e exrcito roxo.
Observando a importncia de se registrar os momentos da ocorrncia de eventos, o
jogador, a partir deste experimento, passa a realizar este registro.
Tabela II
Eventos Ocorridos durante o Experimento II
Momento Evento Observaes
00:23:00
Aliana entre os
agentes ja esta consolidada.

00:29:43
Exrcito roxo ataca o
jogador, utilizando 6
exploradores e 3 tanques
pesados.
At este momento, os
agentes no realizam
aes coordenadas.
Jogador deIende sua
base utilizando
unidades areas.
00:36:00 Agentes realizam
ataques simultneos contra o
jogador, sendo que o exrcito
roxo ataca uma base de
produo de recursos e o
At o momento, no
ha indicios claros de
realizao de ao
coordenada;
No exrcito roxo, ha
142
exrcito vermelho ataca a
base principal.
uma alterao que
parece ser
signiIicativa: o uso de
lana-misseis no
ataque. Ao que parece,
o agente usa isso
como uma resposta a
primeira deIesa do
jogador, que consistiu
essencialmente no uso
de unidades areas.
00:40:00
Exrcito roxo ataca
base de produo de recursos
do jogador, utilizando 1
tanque e 1 tanque pesado.
Neste ataque, ha o uso
de mais dois lana-misseis e
um tanque, que entretanto
Iicam posicionados em outro
ponto do mapa, o que parece
indicar que o grupo inteiro
Iaria junto o ataque, mas um
dos grupos no caso o tanque
pesado e o tanque
encontraram em seu caminho
algo que os Iez desviar de sua
rota original no caso a base
de produo de recursos do
jogador.
00:50:00
Exrcito vermelho
ataca a base principal do
jogador, utilizando 2 lana-
misseis e 4 tanques pesados.
O uso dos lana-
misseis unidades de deIesa
essencialmente anti-area
parece indicar uma dinmica
de aprendizagem no agente,
dado que tais unidades no
Ioram utilizadas no primeiro
ataque.
00:54:00
Exrcito vermelho
constroi uma usina nuclear
junto a malha de energia do
exrcito roxo, o que a Iaz se
integrar a mesma.
Este evento representa
a primeira ao coordenada
entre os agentes no
experimento.
01:19:00
Exrcito vermelho
ataca base de produo de
recursos do jogador,
utilizando 6 lana-misseis e 7
tanques pesados.

01:22:00 Neste momento da


partida, o jogador pde
observar alguns aspectos
143
interessantes na aliana entre
os agentes, conIorme o que
segue:
Todas as bases de
produo de recursos
tomadas pelos agentes
coligados so
exploradas pelo
exrcito vermelho, o
que indica que o
mesmo Iica
responsavel pelas
Iinanas da aliana;
o exrcito roxo ataca
apenas a base
principal do jogador,
enquanto o exrcito
vermelho trata de
atacar as bases de
produo de recursos
do mesmo com vistas
a toma-las. Isto parece
indicar outro Iator de
diviso de tareIas
entre os agentes.
Neste caso especiIico,
o exrcito vermelho se
encarrega de destruir
as Iinanas do
jogador, enquanto o
exrcito roxo trata de
destruir a base
principal do mesmo.
Aqui o jogador
resolve veriIicar se
esta concentrao
Iinanceira se da de
Iato, atravs da
destruio de algumas
das bases de produo
de recursos do
exrcito vermelho e
posterior veriIicao
da Iorma como os
agentes reagem a esta
ao.
02:25:00 O jogador destroi
144
quase todas as Ioras do
exrcito vermelho, injetando-
lhe crditos posteriormente
com vistas a veriIicar de que
Iorma o agente se comportara.
02:30:00
O exrcito vermelho
constroi uma central de
inteligncia e um processador
de minrio junto a malha de
energia do exrcito roxo,
tirando proveito da mesma.
Aqui ja pode ser
observado mais um
indicio de ao
conjunta dos agentes.
Neste momento, o
jogador resolve
desestruturar todas as
suas bases de
produo de recursos
para assim veriIicar as
respostas dos agentes.
02:37:00
Aqui o jogador
observa que o exrcito
vermelho Ioca sua
recuperao econmica
atravs da construo de
processadores de minrio.
Aparentemente o mesmo para
de trabalhar com extratores de
minrio
02:37:00
O exrcito vermelho
comea a sistematicamente
construir nos limites da base
do exrcito roxo.
Isto indica que a
aliana entre os dois
exrcitos se torna
simbiotica, ou seja, os
dois exrcitos se
comportam como se
Iossem apenas um.
Aqui o jogador
resolve veriIicar se
ocorre o processo
inverso, ou seja, se o
exrcito roxo passa a
construir na base do
exrcito vermelho no
caso de ter sua base
destruida.
02:54:00 Depois de
desestruturadas todas as bases
de produo de recursos do
jogador, os dois exrcitos
Este Iato reIora a
hipotese da simbiose
estrategica.
145
realizam ataques conjuntos a
base principal do mesmo.
02:58:00
Apos tomar
aproximadamente 60 das
jazidas disponiveis no mapa,
o exrcito vermelho passa a
se comportar como se no se
interessasse em tomar as
jazidas restantes.
Tal situao perdura
at o Iim do experimento,
sendo que mesmo possuindo
construtores ociosos e
Iinanas para realizar o
empreendimento, nenhuma
movimentao encampada
pelo reIerido exrcito no
sentido de tomar as jazidas
restantes

57
Concluso do
experimento.

Experimento III
Utilizao de um agente controlando uma base rob: o exrcito vermelho.
Tabela III
Eventos ocorridos durante o experimento III
Momento Evento Observaes
00:07:00
O agente constroi sua
primeira base de produo de
recursos.
Empreendimento
indica postura expansionista
por parte do agente.
00:13:00
O agente constroi sua
segunda base de produo de
recursos.

00:35:00
O agente ataca uma
das bases de produo de
recursos do jogador,
utilizando 6 invasores.
Ataque neutralizado
por Iora composta por
unidades areas
00:37:00
O agente ataca base de
produo de recursos do
jogador, utilizando 8
invasores, 1 trovo e 1
tempestade.
A utilizao do
tempestade indica
preocupao com cobertura
anti-area para o ataque.
00:38:00 O agente ataca base de
produo de recursos do
jogador, utilizando 7
invasores e 1 incinerador.
Aqui pde ser
observado o curto
periodo entre os dois
ultimos ataques, o que
57
No Ioi registrado o momento em que Ioi Iinalizado o experimento.
146
parece indicar um
cerco a base de
produo de recursos
do jogador.
O agente no
demonstra utilizar
estratgias adaptativas
a estratgia do
jogador, dado que ele
no parece dar ateno
a cobertura anti-area
para seus ataques.
00:48:00
Agente ataca base de
produo de recursos do
jogador, utilizando 11
invasores.
O agente demonstra
uma atitude
consideravelmente oIensiva,
dado que a base em questo
a base de produo de
recursos que se encontra mais
proxima a base principal do
jogador.
01:00:00
O agente ataca base de
produo de recursos do
jogador, utilizando 3
incineradores e 6
tempestades.
A atitude demonstra
uma atitude adaptativa do
agente, que demonstra maior
preocupao com a cobertura
anti-area para seus ataques,
dado que o jogador deIende
sua base utilizando
essencialmente unidades
areas.
01:07:00
O agente, ao ver uma
rota at uma das bases de
produo de recursos do
jogador obstruidas por
unidades deste, utiliza uma
rota alternativa para alcanar
a reIerida base.
O agente demonstra
aqui uma atitude adaptativa
bastante interessante, ao
adaptar sua rota de Iorma a
escapar das unidades que
bloqueavam seu caminho at
a base que era seu alvo.
01:13:00
O agente ataca base de
produo de recursos do
jogador, utilizando 1
incinerador e 4 tempestades.
Outro ataque onde o
agente demonstra
consideravel preocupao na
cobertura anti-area de seus
ataques, preocupao essa
expressa no uso dos
tempestades neste ataque.
01:25:00 O jogador desestrutura
suas bases de produo de
recursos, para veriIicar a

147
resposta do agente.
01:28:00
O agente ja comea a
tomar as bases de produo
de recursos desestruturadas
pelo jogador.

03:05:00
O jogador destroi a
base principal do agente
Apos ter sua base
principal destruida, o
agente a reconstroi em
outro ponto do mapa,
ponto esse que ja
possuia estruturas pr-
instaladas.
O jogador cerca o
local onde o agente
instala sua base, dado
que o local isolado
do resto do mapa.
03:15:00
O agente constroi uma
base de produo de recursos
no local onde Iicava sua base
principal original.
Aqui o agente rompe o
cerco lanado pelo jogador,
aparentemente utilizando a
habilidade de teletransporte
da unidade tornado para levar
um morIo at o local onde
instala sua base de produo
de recursos.
03:22:00
Concluso do
experimento.

Experimento IV
Utilizao de dois agentes, ambos controlando exrcitos robs.
Exrcito verde-claro, que sera denominado como exrcito verde;
Exrcito roxo.
Tabela IV
Eventos ocorridos durante o experimento IV
Momento Evento Observaes
00:22:00 Exrcito verde ataca
uma das bases de produo do
jogador, utilizando 10
At o momento os
agentes no so aliados.
148
invasores.
00:29:00
Exrcito roxo ataca a
base principal do jogador,
utilizando 2 invasores.

00:34:00
Exrcito roxo ataca
base de produo de recursos
do jogador, utilizando 3 caos
e 1 electro.

00:40:00
Aliana dos agentes ja
esta consolidada.

00:46:00
Ambos os agentes
apresentam postura
expansionista.
Aqui o jogador decide
desestruturar suas
bases de produo de
recursos para veriIicar
a resposta dos agentes.
00:55:00
Assim que o jogador
desestrutura suas bases de
produo de recursos, os
agentes tratam de avanar
sobre as mesmas.

01:18:00
O jogador observa que
os agentes novamente se
comportam dentro do
parmetro da expanso
limitada. O exrcito roxo
constroi 6 bases de produo
de recursos e o exrcito verde
constroi 5, sendo que ainda ha
mais jazidas que podiam ser
tomadas pelos mesmos no
mapa. Ao que parece, os
agentes possuem em sua
estrutura o conceito de
necessidade, sendo que a
partir deste conceito, os
mesmos avaliam se devem ou
no continuar expandindo sua
base.
01:58:00 Concluso do experimento
149
Experimento V
Utilizao de dois agentes, um controlando um exrcito humano e o outro controlando
um exrcito rob.
Exrcito laranja humano;
Exrcito vermelho rob.
Tabela V
Eventos ocorridos durante o experimento V
Momento Evento Observaes
00:28:00
Exrcito laranja ataca
base principal do jogador
utilizando 12 invasores.

00:28:00
Agentes realizam
ataque conjunto a base
principal do jogador
Aqui ja se observa a
aliana entre os dois
agentes consolidada.
Jogador realiza sua
deIesa com unidades
areas.
00:34:00
Os agentes realizam
um ataque paralelo a duas
bases de produo de recursos
do jogador, cada base sendo
atacada por um dos agentes.
Exrcito laranja utiliza
4 troves, 3 caos e 1
tornado, enquanto o
exrcito vermelho
utiliza 2 tanques
pesados e 3
helicopteros.
Ao que parece, apos o
Iracasso do primeiro
ataque a base
principal, os agente
passam a atacar as
bases de produo de
recursos do jogador
com vistas a
enIraquec-lo.
00:43:00 Os agentes realizam
outro ataque paralelo,
aproximadamente nos
mesmos moldes do anterior.
Neste ataque, o
exrcito laranja utiliza
4 caos, 2 invasores e 1
tempestade, o que ja
indica um certo grau
de preocupao com a
cobertura anti-area
150
para seus ataques.
Exrcito vermelho
ataca com 2
helicopteros e 2 caas.
Jogador realiza sua
deIesa com a
utilizao de unidades
areas.
00:47:00
Exrcito vermelho
ataca base de produo de
recursos do jogador,
utilizando 4 tanques pesados
e 4 helicopteros.

00:49:00
Exrcito laranja ataca
base de produo de recursos
do jogador, utilizando 4
troves e 1 electro.

00:53:00
Exrcito vermelho
ataca base de produo de
recursos do jogador,
utilizando 3 tanques pesados
e 6 helicopteros

00:54:00
Exrcito laranja ataca
base de produo de recursos
do jogador, utilizando 2
troves e 7 tempestades.
Desta vez pode-se
observar uma preocupao
maior por parte do agente
com relao a cobertura anti-
area para o ataque.
00:59:00
Agentes realizam
ataque conjunto a uma das
bases de produo de recursos
do jogador, utilizando Iorte
cobertura anti-area.
Exrcito vermelho
utiliza 4 lana-chamas
e 6 lana-misseis;
Exrcito laranja utiliza
1 caos e 4
tempestades.
Agentes demonstram
aqui uma atitude
adaptativa em relao
a estratgia do
jogador.
01:05:00
Exrcito vermelho
ataca base de produo de
recursos do jogador,
utilizando 3 helicopteros e 6
caas.

01:06:00 Exrcito laranja ataca


151
base de produo de recursos
do jogador, utilizando 6
tempestades e 2 caos.
01:10:00
O jogador desestrutura
suas bases de produo de
recursos

01:15:00
Agentes dividem as
jazidas disponiveis entre si.

01:30:00
Concluso do
experimento.

Experimento VI
Utilizao de 7 agentes, sendo que 3 controlam exrcitos humanos e 4 controlando
exrcitos robs. A distribuio dos exrcitos segue a tabela a seguir.
Tabela VI
Relao dos exrcitos utilizados no experimento VI
Raa Exrcito
Humano
Exrcito verde
Exrcito amarelo
Exrcito laranja
Rob
Exrcito vermelho
Exrcito verde claro
Exrcito azul
Exrcito roxo
Os eventos ocorridos no experimento so relacionados a seguir.
Tabela VII
Eventos ocorridos no experimento VI
Momento Evento Observaes
00:09:00
Exrcito roxo ataca
base principal do jogador,
utilizando 4 invasores.
Jogador realiza sua
deIesa com unidades areas.
00:19:00 Exrcito roxo ataca DeIesa do jogador
152
novamente a base principal
do jogador, utilizando, desta
vez, 2 electros.
realizada com unidades
areas.
00:26:00
Exrcito amarelo ataca
base de produo de recursos
do jogador localizada
proximo a sua base principal.
Jogador deIende a
base utilizando 2
incineradores.
00:30:00
Exrcito roxo ataca
base de produo de recursos
do jogador, utilizando 2 caos,
1 electro e 1 tornado.
Jogador se deIende
utilizando unidades areas.
00:30:00
Alianas entre os
agentes ja esto consolidadas
So Ieitas duas
alianas, relacionadas a
seguir:
Aliana 1: exrcito
vermelho, exrcito
verde claro, exrcito
roxo e exrcito
amarelo;
Aliana 2: Exrcito
azul, exrcito verde e
exrcito laranja.
00:31:00
Exrcito amarelo ataca
base de produo de recursos
do jogador, utilizando 2
tanques, 1 dominador e 1
transportador
Jogador realiza a
deIesa com o uso de unidades
areas.
00:42:00
Novo ataque do
exrcito amarelo a base de
produo de recursos do
jogador.
Aqui parece se repetir
a estratgia inimiga de um
dos exrcitos de um
determinado bloco aliado
assumir a liderana do
mesmo, realizando os ataques
as bases do jogador, tal como
ocorreu no experimento II,
onde o exrcito vermelho
naquele experimento assumiu
tal papel.
00:49:00
Exrcito verde
constroi estruturas de deIesa
em base de produo de
recursos do exrcito azul para
reIorar sua segurana
Aqui aparece o
primeiro indicio de ocorrncia
da simbiose estratgica na
partida.
00:49:00 Exrcito amarelo ataca
base de produo de recursos

153
do jogador, utilizando 2
dominadores.
00:53:00
Exrcito amarelo ataca
base de produo de recursos
do jogador, utilizando 4
tanques, 1 tanque pesado, 1
dominador, 1 transportador e
1 helicoptero.

00:55:00
Exrcito roxo ataca
base de produo de recursos
do jogador, utilizando 3
troves e 2 tempestades.

00:56:00
Exrcito vermelho
ataca base de produo de
recursos do jogador,
utilizando 5 invasores e 2
incineradores.

00:57:00
Exrcito amarelo ataca
base de produo de recursos
do jogador, utilizando 2
tanques pesados.

00:59:00
Exrcito azul ataca
base de produo de recursos
do exrcito verde claro,
utilizando 6 incineradores e 4
vingadores.

01:01:00
Exrcito roxo ataca
base de produo de recursos
do jogador, utilizando 3
incineradores e 4
tempestades.

01:01:00
Exrcito amarelo ataca
base de produo de recursos
do jogador, utilizando 2
tanques pesados e 2 lana-
misseis.

01:01:00 A aliana 2 passa a


atacar os exrcitos
componentes da aliana 1.
Tal Iato parece estar
relacionados a 2 Iatores:
1. A aliana 1 tem se
concentrado apenas no
jogador, esquecendo
os exrcitos
componentes da
aliana 2;
2. A aliana 2 observa
154
que seus ataques
contra o jogador so
ineIetivos, vendo
como mais viavel a
hipotese de primeiro
destruir a aliana 1
para apos isso destruir
o jogador, o que
indica uma estratgia
adaptativa.
01:04:00
Exrcito laranja ataca
a base principal do exrcito
amarelo.
Neste ataque, no
enviada cobertura anti-area,
e a tropa se desvia do seu
objetivo inicial. Em Iuno
destes dois Iatores, o ataque
Iracassa.
01:11:00
Exrcito azul ataca
base de produo de recursos
do jogador.
Ataque no bem
sucedido, pois o agente no
combate as Ioras do exrcito
amarelo que ja se
encontravam atacando a base
do jogador no momento do
ataque, e este acaba sendo
Irustrado pelas mesmas.
01:11:00
Exrcito roxo ataca
base de produo de recursos
do jogador, utilizando 5
tempestades e 5 troves.
No meio do ataque,
uma Iora do exrcito
vermelho, composta por 4
tempestades e 2 troves,
junta-se ao ataque, para
prestar-lhe apoio.
01:15:00
Exrcito verde claro
ataca base de produo de
recursos do jogador,
utilizando 4 incineradores.

01:16:00
Exrcito azul ataca
base de produo de recursos
do jogador, utilizando 6
troves e 3 tempestades.

01:17:00
Exrcito laranja ataca
base de produo de recursos
do jogador, utilizando 2
tanques pesados e 6 lana-
misseis.

01:17:00 Exrcito amarelo ataca


base de produo de recursos

155
do jogador, utilizando 1
tanque pesado, 1 lana-
misseis e 1 helicoptero.
01:17:00
O jogador desestrutura
a base de produo de
recursos proxima a base do
exrcito amarelo e que vinha
recebendo continuos ataques
deste e de outros agentes para
poder veriIicar a resposta dos
mesmos

01:20:00
Apos a
desestruturao da base de
produo de recursos do
jogador, o exrcito laranja
passa a atacar a base principal
do exrcito amarelo.
01:23:00
O exrcito verde
constroi base de produo de
recursos no local da antiga
base de produo de recursos
do jogador e que Iora
recentemente desestruturada
pelo mesmo.
Exrcito laranja
constroi torre de deIesa para
proteger a base, o que indica
esIoros conjuntos entre os
agentes.
01:24:00
Exrcito roxo e
exrcito vermelho realizam
ataque conjunto a base de
produo de recursos do
jogador, este com 2 troves e
2 tempestades e aquele com 2
troves e 1 tempestade.

01:27:00
Exrcito azul se junta
ao ataque a base do exrcito
amarelo, utilizando 3
incineradores e 3 tempestades
Ocorrncia de ao
conjunta entre agentes
aliados.
01:30:00
O exrcito amarelo
eliminado pelas Ioras da
aliana 2.

01:32:00
O exrcito vermelho
ataca a base principal do
jogador, utilizando 4
tempestades e 2
incineradores.

01:33:00 O exrcito roxo ataca


a base principal do jogador,
Situao parece
caracterizar que a aliana 1
156
utilizando 3 incineradores e 4
tempestades.
deseja destruir as Ioras do
jogador o mais cedo possivel,
para depois disso atacar a
aliana 2.
01:35:00
Exrcito verde claro
ataca a base principal do
jogador, utilizando 1
incinerador e 3 tempestades.

01:37:00
Exrcito verde ataca
base principal do exrcito
verde claro, utilizando 4
tanques pesados e 2
dominadores, sendo que estes
Iicam na retaguarda do ataque
Enquanto o exrcito
verde ataca, o exrcito
laranja deixa 5
tanques e 1 tanque
pesado nas
proximidades,
aparentemente como
Iora de apoio para o
caso de o exrcito
verde Ialhar em seu
ataque.
Ataque do exrcito
verde neutralizado
pelo exrcito verde
claro com a utilizao
de unidades areas.
01:42:00
Exrcito laranja ataca
base de produo de recursos
do exrcito verde claro,
utilizando 4 tanques e 2
tanques pesados.
Enquanto isso, o
exrcito verde prepara Iora
de ataque, que Iica na
retaguarda.
01:43:00
Exrcito verde lana
ICBM contra exrcito verde
claro
Lanamento do ICBM
se da durante o ataque do
exrcito laranja a mesma
base, outro indicio de ao
conjunta dos agentes aliados.
01:44:00
Ataque laranja
neutralizado por deIesa area
verde clara.

01:44:00 Assim que o ataque


laranja neutralizado, uma
Iora de ataque do exrcito
verde, composta por 6
tanques pesados e 3 lana-
misseis lana ataque a base
verde clara.
Aqui o exrcito verde
utiliza unidades para
cobertura anti-area,
uma adaptao a
ultima estratgia do
exrcito verde claro.
Enquanto o ataque
realizado, o exrcito
157
azul prepara uma
outra Iora de ataque,
que Iica na retaguarda.
01:46:00
O ataque do exrcito
verde neutralizado por
deIesa area do exrcito verde
claro.

01:46:00
Exrcito vermelho e
exrcito roxo realizam ataque
conjunto a base de produo
de recursos do jogador, com o
exrcito vermelho utilizando
1 trovo e 1 tempestade e o
exrcito roxo utilizando 3
incineradores e 5
tempestades.

01:46:00
Assim que a base de
produo de recursos verde
clara destruida, o exrcito
azul constroi uma base de
produo de recursos sua no
local.

01:48:00
Exrcito laranja ataca
base de produo de recursos
do jogador, utilizando 1
tanque pesado e 4 lana-
misseis.
Isto parece indicar que
a aliana 2, agora Iortalecida,
vai se lanar contra o jogador.
01:51:00
Exrcito vermelho
ataca base de produo de
recursos do jogador,
utilizando 4 caos e 2
tempestades.

01:52:00
Exrcito verde ataca
base de produo de recursos
do jogador, utilizando 5 lana
misseis e 3 tanques pesados

01:54:00
Exrcito laranja ataca
base de produo de recursos
do jogador, utilizando 3
lana-misseis e 2 tanques
pesados.

01:55:00 Exrcito verde ataca


base de produo de recursos
do jogador, utilizando 4
lana-misseis e 2 tanques

158
pesados.
01:55:00
Exrcito vermelho
ataca base de produo de
recursos do jogador,
utilizando 1 tempestade e 3
incineradores.

01:56:00
Exrcito roxo ataca a
base principal do jogador,
utilizando 4 tempestades e 4
incineradores.

02:05:00
Exrcito azul e
exrcito laranja realizam
ataque conjunto a base de
produo de recursos do
jogador, com o exrcito
laranja utilizando 1 tanque
pesado e 1 transportador e o
exrcito azul utilizando 2
incineradores e 2
tempestades.

02:09:00
Exrcito verde claro e
exrcito roxo realizam ataque
conjunto a base de produo
de recursos do jogador, com o
exrcito roxo utilizando 4
tempestades e 4 troves e o
exrcito verde claro
utilizando 3 apocalipses.

02:14:00
O jogador desestrutura
todas as suas bases de
produo de recursos, para
veriIicar a resposta dos
agentes.

02:15:00
Exrcito roxo ataca
base principal do jogador,
utilizando 2 tempestades e 3
incineradores.

02:17:00 Apos a
desestruturao das bases de
produo de recursos do
jogador, os outros exrcitos
tomam conta das mesmas,
cada um controlando as que
lhe so possiveis.

02:21:00 Exrcito vermelho


159
ataca a base principal do
jogador, utilizando 2
tempestades e 4
incineradores.
02:24:00
Exrcito verde ataca
base de produo de recursos
do exrcito verde claro,
utilizando 3 tanques pesados
e 1 lana-misseis.

02:26:00
Exrcito vermelho
ataca base de produo de
recursos do exrcito azul,
utilizando 4 troves e 1
tempestade.

02:28:00
Exrcito roxo ataca a
base principal do jogador,
utilizando 4 tempestades e 4
incineradores.

02:29:00
Exrcito laranja ataca
base de produo de recursos
do exrcito vermelho,
utilizando 3 lana-misseis e 2
tanques.
Apos este ataque, o
exrcito laranja investe contra
a base do jogador.
02:32:00
Exrcito roxo ataca
base de produo de recursos
do exrcito laranja, utilizando
4 tempestades e 5 troves.

02:32:00
Exrcito laranja lana
ICBM contra a base principal
do exrcito vermelho.

02:37:00
Exrcito roxo constroi
base de produo de recursos
na antiga base principal do
exrcito verde claro. Mas
logo recebe ataque do
exrcito verde, que utiliza 4
lana-misseis e 8 tanques
pesados.

02:39:00
Exrcito verde claro
eliminado pela aliana 2.
Aliana 1 passa a
contar apenas com o exrcito
vermelho e exrcito roxo.
02:43:00 Exrcito vermelho e
exrcito roxo realizam ataque
conjunto a base de produo

160
de recursos do exrcito verde,
com o exrcito roxo
utilizando 4 tempestades e 4
troves e o exrcito vermelho
utilizando 2 incineradores e 1
tempestade.
02:52:00
Exrcito laranja lana
ICBM contra base principal
do jogador.
Esta movimentao
parece indicar que o jogador
o alvo da aliana 2 neste
momento.
02:56:00
Exrcito verde ataca a
base principal do jogador,
utilizando 7 caas e 7 lana-
misseis.
Fora de ataque
acompanhada por Iora do
exrcito laranja contendo 3
tanques pesados e 3 lana-
misseis na retaguarda.
03:03:00
Exrcito laranja ataca
a base principal do jogador,
utilizando 4 tanques pesados
e 3 lana-misseis.

03:04:00
Exrcito laranja ataca
a base principal do jogador,
utilizando 3 helicopteros e 4
transportadores.

03:06:00
Aqui, o jogador
percebe que a aliana 2 tem
como objetivo a sua
eliminao da partida.
Resolve, ento injetar crditos
nas economias dos agentes
componentes da aliana 1 e
destruir o exrcito laranja,
que tem sido o principal
agente da aliana 2 em
operaes de ataque para a
partir disso observar o
comportamento dos agentes.
03:19:00
Jogador elimina o
exrcito laranja.

03:20:00 Exrcito azul e
exrcito roxo realizam ataque
conjunto a base principal do
jogador, com o exrcito roxo
utilizando 1 incinerador e 1
trovo e o exrcito azul
utilizando 5 tempestades e 2

161
incineradores.
03:22:00
Apos a destruio do
exrcito laranja, o exrcito
roxo avana sobre algumas de
suas antigas bases de
produo de recursos,
enquanto exrcito verde toma
algumas outras.

03:26:00
Exrcito roxo ataca a
base principal do jogador,
utilizando 2 tornados, 1
tempestade e 1 trovo.

03:31:00
Exrcito verde e
exrcito azul lanam ataque
conjunto a base principal do
jogador, com o exrcito azul
utilizando 2 apocalipses e o
exrcito verde utilizando 2
lana-misseis e 1 tanque.

03:31:00
Exrcito verde lana
ICBM contra base principal
do jogador

03:34:00
Exrcito roxo ataca
base de produo de recursos
do exrcito verde, utilizando
3 apocalipses e 3
tempestades.

03:49:00
Exrcito vermelho
ataca base de produo de
recursos do exrcito verde,
utilizando 5 apocalipses.

03:56:00
Exrcito vermelho
ataca a base principal do
jogador, utilizando 5
apocalipses.

03:58:00
Exrcito vermelho
ataca a base principal do
jogador, utilizando 1
tempestade e 5 vingadores.

04:00:00 Exrcito vermelho


ataca a base principal do
jogador, utilizando 1 electro,
1 tornado e 3 tempestades.
Aqui o jogador
resolve eliminar os exrcitos
verde e vermelho, os mais
Iortes de cada uma das
alianas, para ento avaliar a
162
resposta dos agentes
remanescentes.
04:02:00
Exrcito verde ataca a
base principal do jogador,
utilizando 7 lana-misseis e 3
tanques.
O ataque conta com
Iorte cobertura anti-area.
04:05:00
Jogador elimina o
exrcito vermelho

04:07:00
Exrcito verde lana
ICBM contra a base principal
do jogador.

04:08:00
Exrcito roxo ataca a
base principal do jogador.
Os eventos recentes
indicam que, embora
inimigas, as duas alianas
esto concentradas num
objetivo comum: a eliminao
do jogador.
04:21:00
Jogador elimina
exrcito verde.

05:32:00
Os dois agentes
remanescentes (exrcito azul
e exrcito roxo) realizam
ataque paralelo a base
principal do jogador.

05:34:00
Concluso do
experimento.

163
APNDICE F - COMBINAES POSSIVEIS DE AGENTES PARA O CASO DE
UTILIZAO DE 7 AGENTES NUMA MESMA PARTIDA
1. 7 exrcitos humanos;
2. 6 exrcitos humanos e 1 exrcito rob;
3. 5 exrcitos humanos e 2 exrcitos robs;
4. 4 exrcitos humanos e 3 exrcitos robs;
5. 3 exrcitos humanos e 4 exrcitos robs;
6. 2 exrcitos humanos e 5 exrcitos robs;
7. 1 exrcito humano e 6 exrcitos robs;
8. 7 exrcitos robs.