Escolar Documentos
Profissional Documentos
Cultura Documentos
Resumo
Desde seus primrdios, a inteligncia artificial se ocupa (ainda que no explicitamente) com o que
hoje denominamos agente inteligente. Entretanto, esta inteligncia artificial que podemos chamar
de inteligncia artificial monoagente hoje encontra o desafio de ter que lidar no apenas com um
agente, mas sim com uma sociedade de agentes. Nesta, agentes munidos de intenes (possivel-
mente conflitantes) formam uma complexa rede de interaes, isto , um espao social. Dado este
fato, coloca-se a seguinte questo: seria a inteligncia artificial, tal como concebida entre os anos 60
e 80, adequada para tratar os desafios deste espao social marcado pela Internet e pelos sistemas
distribudos e colaborativos ? Neste captulo pretende-se mostrar que a resposta sim mas que para
tal necessrio enfatizar a viso ou faceta multiagente da inteligncia artificial.
Abstract
Artificial intelligence has always dealt with what is known today as an intelligent agent, even if not
explicitly. However, this kind of artificial intelligence which can be called monoagent artificial intelli-
gence now has the challenge of dealing with not only one agent but with a society of agents, which
have (possibly conflicting) intentions and form a complex social network. Against this background, the
following question can be posed: is AI, as we know it from the 1960, adequate to face the challenges
of this social space? In this course we intend to show that the answer is yes, but it is necessary to
emphasize the multiagent facet of AI.
3.1. Introduo
Uma das metas da Inteligncia Artificial (IA) tem sido a de fazer compu-
tadores simularem o raciocnio humano. Entretanto os espaos sociais nos
quais os seres humanos (e suas rplicas imperfeitas) agem, tem sido pratica-
mente relegado a um segundo plano. Com os recentes avanos em tecnologia
da informao e comunicao, torna-se necessrio a introduo de um novo
paradigma que considere interaes sociais entre os agentes inteligentes.
111
A. L. C. Bazzan
112
IA Multiagente
IA distribuda (IAD). Esta ltima (discutida na Seo 3.7), por ser essencial-
mente identificada, hoje, com resoluo distribuda de problemas, e portanto
se fincar em uma srie de hipteses muito fortes (por exemplo que o projetista
do problema o responsvel pela sua decomposio em sub-tarefas), deixou
de ser interessante em ambientes de natureza social complexa.
Russel e Norvig [Russell and Norvig 2004] (verso brasileira) fazem, no
livro-texto que uma referncia na rea de IA, um apanhado da histria da
IA desde a dcada de 60 at o presente mas se limitam a registrar o surgi-
mento de agentes inteligentes. No texto, os autores citam estes agentes por
diversas vezes mas apenas para denominar ou ilustrar problemas monoagente
clssicos, no tocando no cerne da questo que o que acontece quando
mais de um agente est presente?.
Desta forma, o objetivo deste captulo : identificar os problemas da IA
clssica quando aplicada a cenrios multiagente, descrever o tratamento dado
aos problemas acima mencionados e discorrer sobre os desafios e problemas
em aberto.
Este captulo se encontra estruturado em trs partes. A parte I (Sees
3.2 a 3.6) trata de IA monoagente. Inicia-se (prxima seo) com uma reviso
breve sobre IA, com foco nos tpicos mencionados anteriormente. A Seo 3.3
trata de representao de conhecimento; a Seo 3.4 aborda formalizao e
resoluo de problemas atravs do formalismo de satisfao de restries; a
Seo 3.5 introduz planejamento clssico e no clssico, focando em processo
de deciso de Markov para planejamento e tomada de deciso em ambientes
estocsticos; a Seo 3.6 trata de aprendizagem por reforo para o caso de
um agente.
A parte II traz conceitos sobre agentes autnomos e sistemas multiagente,
os quais so necessrios para o entendimento da parte III. As principais sees
tratam de definies, terminologia, histrico e taxonomia (Sees 3.7, 3.8 e
3.9), e de coordenao e cooperao em sistemas multiagentes (Seo 3.10).
A parte III trata da IA multiagente e compreende quatro sees principais
sobre lgicas para sistemas multiagentes (Seo 3.13), resoluo de proble-
mas em sistemas multiagentes (Seo 3.14), planejamento multiagente (Se-
o 3.15) e tomada de deciso e aprendizado em ambientes com mais de um
agente (Seo 3.16).
113
A. L. C. Bazzan
114
IA Multiagente
3.3.1. Sintaxe
A sintaxe de uma linguagem lgica um sistema formal de regras que
especifica como as expresses vlidas da linguagem podem ser formadas a
partir de um vocabulrio bsico.
Formalmente, uma linguagem lgica de primeira ordem determinada pe-
los seguintes conjuntos de smbolos: P de predicados, F de funes, C de
constantes e V de variveis. Estes conjuntos formam o alfabeto da linguagem.
Seguindo-se a sintaxe desta linguagem so geradas frmulas bem-formadas
(ou well-formed formula cuja abreviao wff) como , (((a, b) (b, c))
(a, c)).
1
A X=1
X1 0
B F=1
0 X2
Y=1
1 A2
C
1
Z=0 O1 G=0
A1
3.3.2. Semntica
Alm de regras sintticas, tambm preciso se definir o significado das
frmulas lgicas, o que para fins do presente texto equivale a estabelecer um
valor-verdade para cada frmula, que pode ser verdadeiro ou falso2 .
O valor-verdade de uma frmula dado em relao a um modelo ou mundo
possvel. Por exemplo, x + y = 4 tem valor-verdade 1 em um mundo no qual
x = y = 2 mas tem valor-verdade 0 em um modelo no qual x = y = 1.
A maneira de formalizar a semntica e definir o significado na lgica foi
proposta por Tarski em 1956, estabelecendo uma relao entre a linguagem e
um modelo ou seja a descrio do mundo. Formalmente um modelo de Tarski
115
A. L. C. Bazzan
116
IA Multiagente
117
A. L. C. Bazzan
X1 X2
{1,2} {2}
X3
{1,2}
{1,2} {2}
xi xj f(xi, xj)
x1 x2 1 1 1
1 2 2
2 1 2
x3
2 2 0
{1,2}
118
IA Multiagente
Como ser visto na parte III (Seo 3.14), um dos grandes problemas des-
tas abordagens, seja CSP ou COP, a hiptese do conhecimento total do pro-
blema, que uma hiptese forte atualmente j que, na Internet, segurana e
privacidade so cruciais. Existem situaes em que o conhecimento a res-
peito do problema, no ou no pode ser centralizado. Para especificar um
CSP distribudo, sero vistos os formalismo DisCSP e DCOP. Ambos tratam
de problemas em ambientes distribudos e utilizam agentes para representar e
controlar as variveis, configurando-se um sistema multiagente.
119
A. L. C. Bazzan
120
IA Multiagente
3.6. Aprendizado
Aprendizado tem um papel fundamental em qualquer sistema que se pre-
tenda inteligente. Ele pode ser tratado de forma genrica como a rea que
desenvolve algoritmos que aumentam a habilidade do agente de casar uma
srie de padres de entrada com suas correspondentes sadas.
121
A. L. C. Bazzan
122
IA Multiagente
" #
X X X
V (s) = E t rt+1 |, s0 = s = a ` a
(s, a) Ps,s Rs,s + V (s )
t=0 aA s S
(1)
possvel obter-se uma ordenao parcial do conjunto de polticas (e.g.
1 > 2 se V 1 (s) > V 2 (s) para todo s S) o que nos permite encontrar ,
a melhor poltica ou poltica tima (que sempre existe mas pode no ser nica).
est associada funo tima de valor de estado V , que definida como
na Eq. 2.
123
A. L. C. Bazzan
!
X` a a
(s) = argmax Rs,s + Ps,s V (s )
aA
s S
Este mtodo tem uma desvantagem: exige que P seja conhecida o que
uma hiptese muito forte. Desta forma, no nos ocuparemos mais deste
mtodo neste texto.
124
IA Multiagente
125
A. L. C. Bazzan
126
IA Multiagente
uma vez.
Idealmente o agente deveria puxar cada alavanca um nmero grande de
vezes a fim de obter uma estimativa da distribuio de probabilidade associ-
ada a cada alavanca. Entretanto, cada vez que o agente realiza tal ao h
um custo. relativamente claro que deve existir um compromisso entre ex-
plorao e aproveitamento. Dependendo deste custo, o agente pode explorar
mais ou menos seu ambiente para, posteriormente, desfrutar do que aprendeu
passando a escolher a alavanca que lhe traga o maior ganho.
127
A. L. C. Bazzan
128
IA Multiagente
129
A. L. C. Bazzan
130
IA Multiagente
131
A. L. C. Bazzan
Uma outra forma via simples troca de informao entre os agentes. Nor-
malmente este processo se apoia nas seguinte etapas: desenvolvimento de
um plano que considere o comportamento dos outros agentes, comunicao
das partes relevantes do plano, e comunicao do comprometimento de cada
agente com suas aes. Dependendo do nmero de agentes envolvidos, da
complexidade dos planos e a da preciso desejada, os custos de comunicao
podem ser inviveis.
Este fato motivou uma terceira linha de abordagens, a baseada em teoria
de jogos, conforme j mencionado. Esta linha se apoia no conceito de conhe-
cimento comum (common knowledge, que ser explorado na Seo 3.13.2),
aqui no sentido mais restrito empregado pelos formuladores daquela teoria. A
idia bsica que as crenas e intenes dos agentes so de conhecimento
comum e enquanto este conhecimento for vlido, os agentes no necessitam
comunicao para cooperarem.
Resumindo, cooperao est associada com o compartilhamento de obje-
tivos, enquanto que coordenao est associada com o fato de se considerar
os planos dos outros. Desta forma, a menos que os agentes garantidamente
tenham o mesmo objetivo, o uso de cooperao apenas no efetivo; as aes
dos indivduos devem tambm ser coordenadas.
132
IA Multiagente
133
A. L. C. Bazzan
134
IA Multiagente
o fato de que "em alguns momentos (no futuro) o caso que ". Isto expresso
da seguinte forma: . Os operadores e tambm podem significar ne-
cessariamente e possivelmente, respectivamente. Na lgica epistmica,
interpretado como sabido que .
3.13.1.1. Sintaxe
3.13.1.2. Semntica
3.13.1.3. Axiomatizao
135
A. L. C. Bazzan
Axioma D: Ki ( ) ou Ki Ki )
136
IA Multiagente
137
A. L. C. Bazzan
138
IA Multiagente
Axioma K: Bi Bi ( ) Bi vlida
Axioma D: Bi (p p)
Axioma 4: Bi Bi Bi
Axioma 5: Bi Bi Bi .
139
A. L. C. Bazzan
140
IA Multiagente
que constitui a soluo para o DisCSP deve satisfazer estas restries entre
agentes.
Formalmente, em um DisCSP temos um conjunto A = {a1 , . . . , am } de m
agentes. Cada varivel xj pertence a um agente al . Esta relao represen-
tada pelo predicado P ertence(xj , al ). As restries tambm esto distribudas
entre os agentes. O fato de que um agente al conhece uma restrio Ck que
atua sobre a varivel do agente denotado pelo predicado Conhece(Ck , al ). A
soluo de um DisCSP uma atribuio completa A que satisfaz as seguintes
condies:
al , xj onde P ertence(xj , al ), o valor atribudo a xj dj e;
al , Ck onde Conhece(Ck , al ), Ck satisfeita com a atribuio hxj , dj i.
Assim como um CSP, um DisCSP tambm pode ser representado por um
grafo de restries. Neste caso, os vrtices so os agentes e as arestas so
as restries entre os agentes.
O algoritmo fundamental para resolver um DisCSP o ABT (asynchronous
backtracking). O ABT assume uma ordenao total dos agentes. Cada res-
trio binria conhecida por ambos os agentes e o agente com menor pri-
oridade responsvel por verificar a restrio aps ter recebido a mensagem
sobre a atribuio do(s) agente(s) de maior prioridade. Uma aresta direcio-
nada do agente de maior para o de menor prioridade.
As atribuies de valores so feitas em paralelo, respeitando as restries
conhecidas em cada agente. Os valores so comunicados para os agentes
vizinhos (aqueles com os quais existe uma aresta em comum). No passo se-
guinte, todas mensagens so processadas e respondidas. A seguir, uma nova
atribuio de valores feita, respeitando as j conhecidas, e novas mensagens
so enviadas.
Mensagens do tipo OK? so as que informam uma atribuio realizada.
Quando o agente ai recebe uma mensagem OK? do agente aj , ai coloca a atri-
buio agora conhecida em uma estrutura de dados denominada agent_view.
Aps, ai verifica se sua atribuio atual consistente com sua agent_view. Se
no for, ai tenta atribuir outro valor dentro do domnio possvel. Se no encon-
trar, ai inicia um processo de backtracking enviando uma mensagem nogood
a aj . No ABT a nogood composta de toda a agent_view.
O ABT a base de vrias extenses propostas. Uma delas o envio ape-
nas do conjunto mnimo que justifique uma inconsistncia. Dado que encontrar
este conjunto mnimo um problema NP-difcil, encontrar mtodos heursticos
que no sacrifiquem a corretude um desafio.
O algoritmo asynchronous weak-commitment search uma modificao do
ABT na qual as variveis iniciam com valores-tentativos. Uma soluo parcial
consistente construda para subconjuntos de variveis. Cada soluo parcial
estendida com a adio de variveis (e seus valores), uma a uma, at que
uma soluo completa seja encontrada. Este algoritmo capaz de revisar uma
atribuio ineficiente sem a necessidade de uma busca exaustiva.
141
A. L. C. Bazzan
Vizinhos
di dj f(di, dj)
x1
0 0 1
0 1 2
1 0 2
x2
1 1 0
x3 x4
142
IA Multiagente
143
A. L. C. Bazzan
144
IA Multiagente
selecionar o valor com custo timo para si e enviar este valor para seus filhos
atravs de mensagem VALUE. Cada folha, tendo agora conhecimento dos va-
lores de todos os ascendentes envolvidos em restries consigo, escolhe para
si o valor com custo timo.
Por construo, o nmero de mensagens utilizadas em uma computao
com o DPOP linear. O nmero de ciclos requerido tambm linear, e cor-
responde a duas vezes a profundidade da rvore, pois cada nvel requer um
ciclo para propagar o vetor de utilidade (mensagens UTIL) e outro para propa-
gar os valores timos selecionados (mensagens VALUE). Em contrapartida, o
tamanho dos vetores de utilidade (e conseqentemente o tamanho das mensa-
gens UTIL) exponencial em funo da quantidade de pseudo-pais que cada
agente pode ter. Quanto maior a quantidade de pseudo-pais, mais dimenses
haver no vetor de utilidade. Como cada dimenso do vetor contem todos os
valores de domnio do respectivo agente, temos tambm que quanto maiores
os domnios, mais elementos haver no vetor de utilidade.
145
A. L. C. Bazzan
Dados: i) descrio do estado inicial; ii) conjunto de objetivos globais; iii) con-
junto de agentes; iv) para cada agente, um conjunto de habilidades e objetivos
privados; a tarefa encontrar um plano para cada agente que atinja seus obje-
tivos privados mas que sejam coordenados de forma a garantir que o objetivo
global seja atingido.
Nesta seo ser discutido o que muda quando h mais de um agente
agindo no ambiente e/ou realizando o planejamento de forma distribuda. Para
o primeiro caso possvel se utilizar o formalismo j visto na Seo 3.5 sendo
que cada agente simplesmente inclui os demais, estendendo seu modelo de
ambiente. Com isto seria possvel utilizar os algoritmos j vistos. Entretanto
esta abordagem ingnua tende a falhar e/ou transformar-se em um problema
de complexidade alta e/ou baixo desempenho, se for vivel em primeiro lugar.
O segundo caso (planejamento completamente distribudo) ser discutido
adiante. Antes, sero abordados os casos nos quais algum tipo de centrali-
zao existe. Considere o caso no qual os objetivos e os planos so comuns
como o caso de agentes jogadores de futebol no ambiente da RoboCup Soc-
cer. Neste caso, uma primeira extenso necessria aos formalismos j vistos
a de que preciso explicitar qual agente realiza qual ao. Alm disto preciso
que cada ao tambm esteja relacionada a um agente.
Uma primeira proposta para resolver o problema de planejamento multi-
agente de alguma forma centralizada: no chamado plano conjunto centra-
lizado, existe na verdade apenas uma instncia de plano e esta preve que
aes cada agente deve executar. Na realidade este formalismo no difere
significativamente dos vistos na Seo 3.5, embora seja mais complexo pois
uma entidade centralizadora deve realizar o planejamento considerando todos
os agentes. Desta forma, este formalismo no ser detalhado pois no nos
atende, seja por no ser verdadeiramente multiagente, seja por ser muito com-
plexo.
No chamado plano conjunto descentralizado, cada agente realiza o clculo
dos planos. Dado que o objetivo comum e que possivelmente os agentes
tm a mesma base de conhecimento sobre o estado inicial do ambiente, eles
podem determinar o(s) plano(s) de ao. O problema ocorre no caso de haver
mais de um plano possvel e os agentes no coordenarem a escolha destes
planos. No exemplo do futebol de robs, assumindo-se apenas dois agentes
atacantes (alm do goleiro do time adversrio), o plano conjunto dos dois ata-
cantes certamente falhar se ambos escolherem um plano que preveja como
ao inicial a espera da bola via passe pelo outro atacante.
Uma soluo para este problema a explicitao das aes concorrentes
possveis ou aes conjuntas (joint actions). A partir deste conjunto, um plano
consiste de um grafo parcial ordenado de aes conjuntas. Para evitar a des-
crio de todas as aes conjuntas (imagine especificar este conjunto para um
time de 11 jogadores, cada qual com um nmero de aproximadamente uma
dezena de aes!), pode-se listar apenas as aes que efetivamente intera-
gem (por exemplo as aes do goleiro pouco interagem com as dos atacantes
146
IA Multiagente
147
A. L. C. Bazzan
dos em paralelo mas sem conflitos (por exemplo quando tarefas tentam utilizar
um mesmo recurso). Aqui o desafio identificar e resolver conflitos em po-
tencial. Para tanto, um mtodo ter um agente que colete todos os planos,
analise-os, identifique e resolva os conflitos. Em geral tal mtodo impratic-
vel se resolvido por enumerao de todos os estados finais que derivam dos
estados iniciais e da realizao de cada uma das aes possveis em cada
estado intermedirio, no estilo de um MDP (Seo 3.5.2).
Para lidar com esta complexidade, [Georgeff 1983] props uma representa-
o baseada em STRIPS (Seo 3.5), onde cada pr-condio deve valer para
que uma ao possa ser considerada, reduzindo assim o espao de possveis
aes.
Para o merging propriamente dito dos planos, o agente que coletou estes
planos considera pares de aes como por exemplo ai e bj provenientes de
planos propostos por diferentes agentes A e B. As aes ai e bj podem ser
executadas em paralelo se suas pr-condies, condies e efeitos so satis-
fatveis ao mesmo tempo. Neste caso, diz-se que as aes so independentes.
Em caso contrrio elas devem obedecer uma ordenao, ou seja no podem
ser realizadas em paralelo pois determinadas restries devem ser respeita-
das. Neste caso, o problema pode ser formulado como um CSP ou um COP
distribudo, este ltimo remetendo abordagens que tentam maximizar o de-
sempenho global. Em qualquer dos casos, plan merging tem a desvantagem
de se apoiar em um agente coletor o que d um carter centralizador.
Um segundo mtodo para esta classe de problemas o iterative plan for-
mulation, onde os agentes no prope seus planos individuais mas sim partes
de um conjunto de planos possveis que so posteriormente refinados a fim
de se ajustarem ao objetivo global. Estes refinamentos so propostos aps
um processo de busca heurstica (usando A*) pelo melhor conjunto de aes
conjuntas.
Mtodos baseados em planejamento hierrquico tambm foram propostos:
Corkill props uma verso distribuda do NOAH e Durfee props uma variante
na qual cada agente representa seu plano local em vrios nveis de abstrao.
Em cada nvel representado se os conflitos com outros planos / agentes esto
resolvidos ou se preciso passar a um nvel mais baixo de detalhe.
148
IA Multiagente
149
A. L. C. Bazzan
150
IA Multiagente
3.16.2. MMDP
Como visto na Seo 3.5.2, existem algumas propostas de extenso para o
caso de MDP simples. Uma delas (POMDP) foi discutida naquela seo. Aqui
ser introduzida a extenso para um MMDP.
A generalizao de um MDP para n agentes representada pela tupla
MMDP= (N , S, A, P, R) ou seja alm dos conjuntos de estados S e de aes
A, da funo de recompensa R e do conjunto das probabilidades de transi-
o P, h o conjunto de agentes N = 1..., i, ..., n. Alm disto tambm cabe
observar que, dependendo da abordagem, os conjuntos S e A precisam ser
estendidos. A torna-se A = iN Ai ou seja inclu o conjunto de aes con-
juntas possveis dentro do espao de aes. O mesmo vale para o conjunto S
embora em jogos estocsticos frequentemente se assuma que todos os agen-
tes esto no mesmo estado (mesma matriz de payoff).
Em geral, dependendo das aes realizadas pelos agentes (ou de alguma
mudana no ambiente), ocorre uma transio que determina um novo estado
ou seja uma nova matriz de recompensa.
Em teoria de jogos tambm bastante utilizada a noo de jogo de matriz
nica que, para efeito de MMDP significa um nico estado ou seja a cardinali-
dade de S 1. Neste caso usa-se o termo jogo repetido. Como o formalismo
permanece o mesmo, esta distino as vezes opaca.
Por fim, como dito na Seo 3.5.2, MDPs no apenas lidam com um nico
agente, como tambm assumem que este tem observao total do ambiente.
A questo de existncia de vrios agentes foi discutida acima. Resta a questo
da observao parcial. Um dos formalismos que permite modelar este tipo
de problema a de jogos Bayesianos (Bayesian games), tambm chamado
de POMDP multiagente. Nestes, os agentes no necessariamente observam
seus estados e/ou os ganhos que recebem por suas aes. Este problema
apresenta uma grande complexidade pois os POMDPs em si ainda carecem
de abordagens eficientes. Sua combinao com a estocasticidade inerente de
ambientes com mais de um agente um desafio em aberto.
Os quatro formalismos para tomada de deciso vistos neste captulo (MDP
e POMDP para cenrios monoagente e MMDP e jogos Bayesianos para os ca-
sos multiagente) esto fortemente associados a aprendizado (seja mono, seja
151
A. L. C. Bazzan
multiagente) conforme foi visto na Seo 3.6. A seguir ser explorada a cone-
xo entre MMDP e aprendizado por reforo multiagente (doravante abreviado
MARL)11 .
152
IA Multiagente
[Claus and Boutilier 1998] que exploraram apenas os casos destes jogos em
suas formas repetidas (um estado). Posteriormente o caso de vrias matri-
zes ou estados foi discutido em diversos artigos. Uma viso geral sobre estas
abordagens pode ser encontrada em [Panait and Luke 2005].
Este problema ainda mais grave quando se trata de ambientes com cen-
tenas ou milhares de agentes tentando aprender a dinmica do jogo, como
o caso em jogos do tipo congestion games, minority games e dispersion
games. Para este problema em particular uma boa viso geral aparece em
[Tumer and Wolpert 2004].
Mais recentemente [Fulda and Ventura 2007] isolaram 3 fatores que degra-
dam o desempenho de MARL: convergncia individual sub-tima, action sha-
dowing, e o problema da seleo de equilbrio.
Em aprendizado (em geral) um dos principais objetivos a explorao de
um ambiente no qual cada agente tem apenas uma viso parcial ou viso local.
Nestes cenrios pode-se projetar agentes que aprendem sobre seus respecti-
vos ambientes, ainda que a partir de uma viso parcial, e que posteriormente
trocam informaes com outros agentes de forma a aumentar as vises locais
a fim, por exemplo, de decidir cooperativamente quais partes do ambiente ne-
cessitam maior explorao. Em cenrios de aprendizado competitivo por outro
lado, os agentes tentam maximizar suas prprias utilidades as custas dos de-
mais, no sendo esperado nenhuma forma de cooperao a no ser aquele
que traga benefcio para o(s) agente(s).
A seguir, a discusso ser focada em formalismos para MARL que so ba-
seados em MMDPs e, consequentemente em teoria de jogos, uma vez que
esta vertente considerada menos ad-hoc por alguns pesquisadores. Na Se-
o 3.16.3.2 ser feita uma discusso breve sobre outros mtodos.
Aprendizado em sistemas de dois ou mais jogadores tem uma longa tra-
dio em teoria de jogos. A conexo entre sistemas multiagentes e teoria de
jogos no que se refere a aprendizado tem sido portanto muito explorada j que
as interaes em teoria de jogos so inerentemente multiagente, ainda que na
maioria das vezes somente dois agentes sejam considerados. Logo, parece
natural que a comunidade em torno de MARL explore os formalismos j defi-
nidos em teoria de jogos, como por exemplo aqueles baseados em MMDPs.
Apesar dos resultados obtidos, h uma discusso em progresso na rea so-
bre se este o formalismo adequado para MARL como pode ser visto em
[Shoham et al. 2007, Stone 2007].
Os problemas de MARL so inerentemente mais complexos que aqueles
onde apenas um agente atua. Isto ocorre porque, enquanto um agente est
tentando modelar seu ambiente (incluindo outros agentes), os demais agentes
podem estar fazendo o mesmo, introduzindo modificaes neste ambiente, o
que o torna inerentemente no-estacionrio. Com isto, pelo menos no caso
geral, as garantias de convergncia dos mtodos de RL (como por exemplo
para Q-learning, visto na Seo 3.6.1.2) deixam de valer12 .
153
A. L. C. Bazzan
Nesta seo sero mencionados apenas trabalhos seminais e/ou que tra-
zem um resultado expressivo em termos tericos como por exemplo conver-
gncia para equilbrio, dado o volume de publicaes na rea de MARL.
Conforme j colocado, [Claus and Boutilier 1998] tratam da dinmica do
processo de aprendizado em jogos de coordenao atravs de Q-learning
12
Aqui vale observar que a despeito deste fato, Q-learning continua sendo um mtodo
popular em MARL sendo que sua aplicao similar vista naquela seo.
154
IA Multiagente
155
A. L. C. Bazzan
//www.inf.ufrgs.br/~bazzan/downloads/anexo_psmp3.pdf.
3.18. Concluso
Existem diversos livros texto sobre IA no mercado, inclusive nacional, que
tratam de forma competente esta subrea da cincia da computao. Isto tam-
bm parcialmente verdade em relao rea de sistemas multiagentes em-
bora aqui haja uma carncia de textos em portugus. Entretanto, a proposta
do presente captulo mostrar a IA sob um ngulo diferente ou seja um ngulo
multiagente, uma vez que a autora acredita que a IA clssica, monoagente
no apenas difere significativamente da IA multiagente como tambm tem di-
ficuldades em atender os requisitos colocados pela Internet e pelos sistemas
distribudos e colaborativos, todos de natureza essencialmente social.
Desta forma, a Parte III deste captulo procurou descrever uma verso mul-
tiagente de quatro dentre as reas bsicas da IA: representao de conheci-
mento, resoluo de problemas (aqui incluindo planejamento), tomada de de-
ciso e aprendizado. Por verso multiagente, entenda-se uma IA onde no
apenas um agente age, mas sim onde vrios agentes interagem bem como
tm conhecimento parcial sobre o problema.
Antes, na Parte I foi feita uma introduo a estas mesmas reas, dentro
da viso clssica, monoagente. Na Parte II foi feita uma breve introduo aos
conceitos sobre agentes autnomos e sistemas multiagentes necessrios para
a compreenso da Parte III.
Agradecimentos
Este trabalho somente foi possvel graas ao apoio das agncias financi-
adoras dos projetos de pesquisa ligados a este tema, tanto os ainda em an-
damento quanto os j encerrados. Desta forma agradeo ao CNPq pelo apoio
aos projetos de pesquisa, bem como ao programa de bolsas de pesquisa e
bolsas de ps graduao de diversos orientandos. Agradeo ainda CAPES e
Fundao Alexander von Humboldt pelo apoio ao projeto de cooperao in-
ternacional com a Alemanha e bolsa de ps doutoramento, respectivamente.
No menos importante, agradeo aos meus ex-alunos que contriburam com
suas pesquisas em algumas das reas abordadas neste texto, notadamente
Bruno Castro da Silva, Paulo Roberto Ferreira Jr., Fernando dos Santos e Da-
niela Scherer dos Santos, cujas teses e dissertaes so prximas ao presente
material. Por fim agradeo aos revisores de partes deste texto, annimos e vo-
luntrios (como Filipo S. Peroto e Rafael H. Bordini).
References
[Bazzan 2009] Bazzan, A. L. C. (2009). Opportunities for multiagent systems
and multiagent reinforcement learning in traffic control. Autonomous Agents
and Multiagent Systems, 18(3):342375.
[Bittencourt 2001] Bittencourt, G. (2001). Inteligncia Artificial: Ferramentas e
Teorias. Editora da UFSC, Florianpolis, 2a. edition.
156
IA Multiagente
[Bond and Gasser 1988] Bond, A. H. and Gasser, L. (1988). Readings in dis-
tributed artificial intelligence. In Readings in Distributed Artificial Intelligence.
Morgan Kaufmann, San Mateo, California.
[Brooks 1986] Brooks, R. (1986). A robust layered control system for a mobile
robot. Robotics and Automation, IEEE Journal of, 2(1):1423.
[Claus and Boutilier 1998] Claus, C. and Boutilier, C. (1998). The dynamics of
reinforcement learning in cooperative multiagent systems. In Proceedings of
the Fifteenth National Conference on Artificial Intelligence, pages 746752.
[Cohen and Levesque 1990] Cohen, P. R. and Levesque, H. J. (1990). Inten-
tion is choice with commitment. Artificial Intelligence, 42(2-3):213261.
[Cohen and Levesque 1991] Cohen, P. R. and Levesque, H. J. (1991). Team-
work. Nos, 25(4):487512.
[Durfee 1999] Durfee, E. H. (1999). Distributed problem solving and planning.
In Wei, G., editor, Multiagent Systems: A Modern Approach to Distributed
Artificial Intelligence, pages 121164. MIT Press, Cambridge, MA, USA.
[Fikes and Nilsson 1971] Fikes, R. and Nilsson, N. J. (1971). STRIPS: A new
approach to the application of theorem proving to problem solving. In Proc.
of the IJCAI, pages 608620.
[Fulda and Ventura 2007] Fulda, N. and Ventura, D. (2007). Predicting and
preventing coordination problems in cooperative Q-learning systems. In Pro-
ceedings of the 20th International Joint Conference on Artificial Intelligence
(IJCAI), pages 780785.
[Gasser and Huhns 1990] Gasser, L. and Huhns, M. N., editors (1990). Dis-
tributed artificial intelligence: vol. 2. Morgan Kaufmann Publishers Inc., San
Francisco, CA, USA.
[Georgeff 1983] Georgeff, M. P. (1983). Communication and interaction in
multi-agent planning. In Proc. of the Nat. Conf. on Art. Intelligence, pages
125129. AAAI Press.
[Guestrin et al. 2002] Guestrin, C., Lagoudakis, M. G., and Parr, R. (2002).
Coordinated reinforcement learning. In Proceedings of the Nineteenth In-
ternational Conference on Machine Learning (ICML), pages 227234, San
Francisco, CA, USA. Morgan Kaufmann.
[Hu and Wellman 1998] Hu, J. and Wellman, M. P. (1998). Multiagent rein-
forcement learning: Theoretical framework and an algorithm. In Proc. 15th
International Conf. on Machine Learning, pages 242250. Morgan Kauf-
mann.
[Jennings 1996] Jennings, N. R. (1996). Coordination techniques for dis-
tributed artificial intelligence. In OHare, G. M. P. and Jennings, N. R., edi-
tors, Foundations of Distributed Artificial Intelligence, pages 187210. John
Wiley & Sons, New York.
157
A. L. C. Bazzan
158
IA Multiagente
171(7):365377.
[Silva et al. 2006] Silva, B. C. d., Basso, E. W., Bazzan, A. L. C., and Engel,
P. M. (2006). Dealing with non-stationary environments using context de-
tection. In Cohen, W. W. and Moore, A., editors, Proceedings of the 23rd
International Conference on Machine Learning ICML, pages 217224. New
York, ACM Press.
[Stone 2007] Stone, P. (2007). Multiagent learning is not the answer. It is the
question. Artificial Intelligence, 171(7):402405.
[Stone and Veloso 2000] Stone, P. and Veloso, M. (2000). Multiagent sys-
tems: A survey from a machine learning perspective. Autonomous Robots,
8(3):345383.
[Sutton and Barto 1998] Sutton, R. and Barto, A. (1998). Reinforcement Learn-
ing: An Introduction. MIT Press, Cambridge, MA.
[Tambe 1997] Tambe, M. (1997). Towards flexible teamwork. Journal of Artifi-
cial Intelligence Research (JAIR), 7:83124.
[Tumer and Wolpert 2004] Tumer, K. and Wolpert, D. (2004). A survey of col-
lectives. In Tumer, K. and Wolpert, D., editors, Collectives and the Design of
Complex Systems, pages 142. Springer.
[Wainer 1994] Wainer, J. (1994). Yet another semantics of goals and goal
priorities. In Proc. of the ECAI, pages 269273.
[Watkins 1989] Watkins, C. (1989). Learning from Delayed Rewards. PhD the-
sis, University of Cambridge.
[Weiss 1999] Weiss, G. (1999). Multiagent Systems - A modern Approach to
Distributed Artificial Intelligence. The MIT Press, Cambridge, MA.
[Wooldridge 2002] Wooldridge, M. J. (2002). An Introduction to Multiagent Sys-
tems. John Wiley & Sons, Chichester.
[Wooldridge 2009] Wooldridge, M. J. (2009). An Introduction to MultiAgent Sys-
tems. John Wiley & Sons, Chichester. Second edition.
[Yokoo et al. 1992] Yokoo, M., Durfee, E. H., Ishida, T., and Kuwabara, K.
(1992). Distributed constraint satisfaction for formalizing distributed problem
solving. In Proceedings of the 12th International Conference on Distributed
Computing Systems, pages 614621.
159