Você está na página 1de 204

RICHARDSON RIBEIRO

ANLISE DO IMPACTO DA TEORIA DAS


REDES SOCIAIS EM TCNICAS DE
OTIMIZAO E APRENDIZAGEM
MULTIAGENTE BASEADAS EM
RECOMPENSAS














CURITIBA
2010
Tese de Doutorado apresentada ao Programa de Ps-
Graduao em Informtica da Pontifcia Universida-
de Catlica do Paran como requisito para obteno
do ttulo de Doutor em Informtica.

RICHARDSON RIBEIRO





ANLISE DO IMPACTO DA TEORIA DAS
REDES SOCIAIS EM TCNICAS DE
OTIMIZAO E APRENDIZAGEM
MULTIAGENTE BASEADAS EM
RECOMPENSAS














CURITIBA
2010
Tese de Doutorado apresentado ao Programa de Ps-
Graduao em Informtica da Pontifcia Universidade
Catlica do Paran como requisito para obteno do
ttulo de Doutor em Informtica.

rea de Concentrao: Agentes de Software

Orientador: Prof. Dr. Fabrcio Enembreck

Agradecimentos


Este trabalho somente poderia ter sido terminado com ajuda de vrias pessoas. Primei-
ramente, meu agradecimento de forma especial para o orientador desde trabalho, Prof. Dr.
Fabrcio Enembreck. Prof. Dr. Fabrcio no somente estimulou continuamente minhas pesqui-
sas com valorosas orientaes tcnicas e rigores cientficos, mas tambm forneceu acesso aos
equipamentos laboratoriais, materiais didticos e suporte as viagens de pesquisas. Eu tambm
gostaria de agradec-lo por me confiar suas pesquisas, oportunizando atuar em seu grupo de
estudo onde pude interagir com demais pesquisadores e alunos. Obrigado pela amizade, res-
peito e profissionalismo, que me fazem acreditar na continuidade de novas descobertas e pes-
quisas. Foram enormes suas contribuies, lapidando minha formao acadmica e profissio-
nal.
Meus respeitos e agradecimentos aos demais professores do laboratrio de Agentes de
Software do PPGIA/PUCPR. Aos lderes do grupo de pesquisa Prof. Dr. Brulio C. vila e
Prof. Dr. Edson E. Scalabrin, que oportunizam estudos, pesquisas e financiamentos aos aca-
dmicos com seus projetos inovadores. Obrigado vila e Scalabrin pelas sugestes e crticas,
que ajudaram a entender a importncia da objetividade.
Obrigado aos professores Dr. Gustavo A. G. Lugo (UTFPR) e prof. Dr. Jlio C. Nie-
vola que colaboraram com discusses e direcionamentos desde trabalho. Agradeo tambm ao
prof. Dr. Alessandro L. Koerich nas redaes dos artigos.
Aos amigos de estudos e laboratrio: Allan, Andr, Bruno, Marcos, Osmar, entre ou-
tros, no qual juntos compartilhamos conhecimentos, alegrias e desesperos. Obrigado Andr
pela moradia e demais favores, na qual sempre ficar minha gratido.
Ao meu pai (in memoriam) que esteve presente nos primeiros dois anos da tese. Obri-
gado pelos conselhos, jamais alcanarei sua cultura e seu conhecimento, meu exemplo de vida
e superao, sempre na lembrana. A minha me, que sempre cuidou bem de mim com muito
amor e carinho, obrigado. Ao meu irmo Charlison, obrigado pela ateno e favores presta-
dos. Vocs tm grande significado na minha vida.
A minha esposa Adriana, a pessoa mais motivadora para a realizao desse trabalho.
Essa tese especialmente dedicada a ela, sempre carinhosa e me fazendo acreditar que valeria
a pena todo o trabalho.

Agradeo aos professores Orestes, Gerson, Adriano e Douglas, pelas discusses e au-
xlios tcnicos. Prof. Emlio Evers Neto, coordenador do curso de Administrao e Prof. Jos
Alceu Valrio, reitor da Universidade do Contestado, que me oportunizaram nesses anos en-
tender a estrutura e as dimenses das instituies de ensino. Obrigado pelo ambiente de traba-
lho, e que a Comisso Prpria de Avaliao (CPA) continue contribuindo nos processos insti-
tucionais.
Sem esquecer ainda de uma pessoa importante, que considero minha segunda me,
Maria da Conceio, que me mostrou como a generosidade e o afeto pode aquecer e amparar
nos momentos mais difceis. Muito obrigado.
Agradeo a Coordenao de Aperfeioamento de Pessoal de Nvel Superior (CAPES)
e a Universidade do Contestado Campus Mafra - SC pelo apoio financeiro em forma de bolsa
de estudos.
Por fim, muito obrigado a todos da banca avaliadora que contriburam com crticas e
sugestes para as melhorias deste trabalho.


Resumo
Este trabalho dedicado ao estudo da aplicao das teorias sociais para a construo de estru-
turas de relacionamento capazes de influenciar comportamentos locais gerados a partir de
recompensas de indivduos de um sistema multiagente. A interao entre modelos de coorde-
nao com a teoria das redes sociais no processo da tomada de deciso gera uma estrutura
social medida que as interaes dos indivduos ocorrem com as recompensas geradas. Tc-
nicas de otimizao por enxames e aprendizagem por reforo so baseadas em recompensas e
geralmente so utilizadas para melhorar o comportamento e a coordenao dos indivduos de
um sistema. possvel observar com esses princpios que a sociabilidade dos agentes influen-
cia nas atividades em comum, devido s atitudes comportamentais que esto relacionadas a
teorias de ao, modelos de sistemas sociais, sistemas multiagente e teoria de redes sociais,
que descrevem o impacto das relaes observadas na rede formada pelos agentes. Neste con-
texto, estudado neste trabalho como a sociabilidade dos agentes pode contribuir para desen-
volver e adaptar mtodos de coordenao com a anlise de redes sociais, alterando as recom-
pensas geradas com algoritmos por reforos, promovendo a convergncia do sistema e a qua-
lidade das polticas no processo da aprendizagem. Os mtodos so testados em problemas de
otimizao combinatria, permitindo avaliar o impacto dos aspectos que afetam o desempe-
nho da abordagem proposta, como (i) a quantidade de agentes no ambiente; (ii) os parmetros
de aprendizagem; (iii) a qualidade da poltica; (iv) o compartilhamento de recompensas; (v) a
estrutura social; e (vi) as vantagens obtidas. Resultados mostram que a identificao de com-
portamentos sociais e a estrutura social construda com a interao dos indivduos contribuem
significativamente para a melhoria do processo de coordenao.

Palavras-Chave: Anlise de redes sociais, otimizao por colnia de formigas, aprendizagem
por reforo, coordenao e sistemas multiagente.

Abstract
This work is dedicated to studying the application of the social theories to the construction of
relationships structures able to influence local behaviors generated from individuals rewards
of the multiagent system. The interaction between coordination models with the social net-
works theory in decision-making process generates a social structure as individuals interac-
tions occur with generated rewards. Swarm optimization techniques and reinforcement learn-
ing are based in rewards and are usually used to improve the individuals behavior and coor-
dination of a system. It is possible to observe with these principles that the sociability of the
agents influence in activities in common, due to behavioral attitudes that are related to action
theories, social systems models, multiagent systems and social network theory, which de-
scribe the impact observed in the relationships network generated. In this context, it is studied
in this work how the sociability contribute to develop and adapt coordination methods with
social network analysis, changing the reward generated with reinforcement algorithms, allow-
ing the convergence of the system and improving policies quality. The methods have been
evaluated in combinatorial optimization problems, allowing evaluating the impact of the fol-
lowing aspects that affect the performance of the proposed approach: (i) the amount of agents
in the environment, (ii) the learning parameters (iii) the quality of policies, (iv) the shared
rewards, (v) the social structure, and (vi) the benefits achieved. Results show that identifying
social behaviors and social structure generated from individuals behavior, the coordination
process improves significantly.

Keywords: Social networks analysis, ant colony optimization, reinforcement learning, coordi-
nation and multiagent systems.


Sumrio

CAPTULO 1 ...................................................................................................................... 16
INTRODUO................................................................................................................... 16
1.1 PROBLEMA............................................................................................................. 18
1.2 HIPTESES ............................................................................................................. 19
1.3 OBJETIVOS ............................................................................................................. 20
1.4 ORGANIZAO DO TRABALHO................................................................................ 20
CAPTULO 2 ...................................................................................................................... 22
APRENDIZAGEM E COORDENAO EM SISTEMAS MULTIAGENTES ................... 22
2.1 AGENTES INTELIGENTES ......................................................................................... 22
2.2 COORDENAO DOS AGENTES ................................................................................ 25
2.3 MTODOS DE COORDENAO E APRENDIZAGEM PARA SISTEMAS MULTIAGENTES ... 32
2.3.1 Coordenao por Interao......................................................................... 32
2.3.2 Coordenao por Sincronizao ................................................................. 35
2.3.3 Coordenao por Regulamentao ............................................................. 37
2.3.4 Coordenao por Planejamento.................................................................. 37
2.3.5 Coordenao Reativa ................................................................................. 41
2.3.6 Coordenao por Formao de Coalizo .................................................... 44
2.3.7 Otimizao Distribuda de Restrio para Coordenao de Sistemas
Multiagentes....................................................................................................... 46
2.4 CRITRIOS DE ANLISE E COMPARAO PARA COORDENAO................................ 49
2.5 CONSIDERAES FINAIS ......................................................................................... 53
CAPTULO 3 ...................................................................................................................... 55
TEORIA DAS REDES SOCIAIS ........................................................................................ 55
3.1 DEFINIES DE REDES SOCIAIS............................................................................... 56
3.1.1 Classificao das Redes Sociais ................................................................. 57
3.2 FUNDAMENTOS MATEMTICOS E A TEORIA DOS GRAFOS......................................... 60

3.2.1 Ciclos Hamiltonianos................................................................................. 63
3.2.2 Teoria dos Grafos na Anlise de Redes Sociais .......................................... 63
3.3 ABORDAGENS COMPUTACIONAIS ............................................................................ 69
3.4 REDES SOCIAIS E SISTEMAS MULTIAGENTE............................................................. 70
3.5 CONSIDERAES FINAIS ......................................................................................... 71
CAPTULO 4 ...................................................................................................................... 73
APRENDIZAGEM POR REFORO E OTIMIZAO POR ENXAMES.......................... 73
4.1 DEFINIES DA APRENDIZAGEM POR REFORO....................................................... 74
4.1.1 Caractersticas da Aprendizagem por Reforo............................................ 75
4.1.2 Elementos Fundamentais da Aprendizagem por Reforo............................ 76
4.1.3 Processos Markovianos.............................................................................. 78
4.2 ALGORITMOS DE APRENDIZAGEM POR REFORO ..................................................... 80
4.2.1 Algoritmo Q-learning................................................................................. 80
4.2.2 Algoritmo R-learning................................................................................. 82
4.2.3 Algoritmo H-learning................................................................................. 83
4.2.4 Algoritmo
) ( Q
........................................................................................ 84
4.2.5 Algoritmo Sarsa......................................................................................... 85
4.2.6 Algoritmo Dyna......................................................................................... 86
4.3 INTELIGNCIA BASEADA EM ENXAMES ................................................................... 86
4.3.1 Otimizao por Enxames de Partculas....................................................... 87
4.3.2 Inteligncia Baseada em Cardume de Peixes .............................................. 88
4.3.3 Otimizao por Colnia de Formigas ......................................................... 89
4.4 ALGORITMOS BASEADOS EM COLNIA DE FORMIGAS .............................................. 91
4.4.1 Ant System................................................................................................ 92
4.4.2 Ant Colony System.................................................................................... 93
4.4.3 Ant-Q ........................................................................................................ 95
4.4.4 Fast Ant System......................................................................................... 97
4.4.5 Antabu....................................................................................................... 98
4.4.6 AS-rank ..................................................................................................... 98
4.4.7 Resolues com Algoritmos de Colnia de Formigas................................. 99
4.5 CONSIDERAES FINAIS ....................................................................................... 104
CAPTULO 5 .................................................................................................................... 105

METODOLOGIA.............................................................................................................. 105
5.1 IMPACTO DAS RECOMPENSAS EM APRENDIZAGEM POR REFORO........................... 106
5.1.2 Aprendizagem por Recompensas Partilhadas ........................................... 107
5.1.3 Modelos de Compartilhamento de Recompensas para Aprendizagem
Multiagente ...................................................................................................... 111
5.1.4 Modelo Hbrido de Aprendizagem........................................................... 117
5.1.5 Modelo Hbrido vs. Modelos Contnuo, Discreto e Dirigido por Objetivo 119
5.2 ANLISE DO ANT-Q.............................................................................................. 123
5.2.1 Resultados Experimentais ........................................................................ 128
5.2.2 Estratgias de Atualizao de Polticas para Ambientes Dinmicos.......... 134
5.3 SANT-Q (SOCIAL ANT-Q): UM ALGORITMO DE OTIMIZAO BASEADO EM COLNIA DE
FORMIGAS, APRENDIZAGEM POR REFORO E TEORIAS SOCIAIS ........................................ 143
5.3.1 Redes Baseadas em Relaes ................................................................... 145
5.3.2 Construo da Rede de Relacionamento com o SAnt-Q........................... 148
5.3.3 Resultados Experimentais ........................................................................ 158
5.3.4 Mtodo de Otimizao Social .................................................................. 169
CAPTULO 6 .................................................................................................................... 179
CONCLUSES E DISCUSSES FINAIS ........................................................................ 179
6.1 TRABALHOS FUTUROS .......................................................................................... 181
6.2 PUBLICAES RELACIONADAS.............................................................................. 182
REFERNCIAS BIBLIOGRFICAS................................................................................ 184



Lista de Figuras

Figura 2.1: Modelo abstrato de agentes inseridos em um ambiente....................................... 24
Figura 2.2: Tipos de relaes entre aes (Ferber, 1999) ...................................................... 27
Figura 2.3: Classificao da coordenao (Moulin e Chaib-Draa, 1996)............................... 28
Figura 2.4: Sincronizao de aes (Ferber, 1999) ............................................................... 36
Figura 2.5: Diviso tradicional do sistema de controle em mdulos funcionais (Brooks, 1990)
............................................................................................................................................ 42
Figura 2.6: Diviso do sistema em camadas de tarefas (Brooks, 1990) ................................. 42
Figura 2.7: O sistema pode ser particionado em qualquer nvel, e as camadas abaixo formam
um completo sistema de controle (Brooks, 1990) ................................................................. 42
Figura 2.8: Diagrama do eco-agente (Ferber, 1999).............................................................. 44
Figura 2.9: Pseudo-rvore gerada a partir de um grafo de restries (Modi et al. 2005) ........ 47
Figura 3.1: Redes do mundo pequeno, onde: a) rede sem ligaes shortcut; b) rede com
poucas shortcut; e c) mundo pequeno com muitos shortcuts, semelhante a um grafo quase
completo (Gaston e DesJardins, 2005) ................................................................................. 58
Figura 3.2: V = {v
1
, v
2
, v
3
, v
4
, v
5
} e E = {v
1
v
2
, v
1
v
3
, v
2
v
4
, v
3
v
4,
v
1
v
1
}.................................. 60
Figura 3.3: As arestas dos vrtices v e w so paralelas.......................................................... 60
Figura 3.4: Grafos isomorfos................................................................................................ 61
Figura 3.5: Exemplo de subgrafo.......................................................................................... 62
Figura 3.6: Sociograma formado pelas interaes dos agentes com algoritmos de colnia de
formigas............................................................................................................................... 64
Figura 3.7: Quantidade mxima de ligaes em grafos no-direcionados ............................. 65
Figura 3.8: Rede no direcionada com 8 estados .................................................................. 66
Figura 3.9: Sociomatriz do grafo da figura 3.8 ..................................................................... 66
Figura 3.10: Grafo para exemplificar a distncia geodsica .................................................. 68
Figura 4.1: Aprendizagem por reforo (Sutton e Barto, 1998) .............................................. 75
Figura 4.2: Algoritmo Q-learning ........................................................................................ 81
Figura 4.3: Algoritmo R-learning (Schwartz, 1993) ............................................................. 83
Figura 4.4: Algoritmo H-learning (Tadepalli e Ok, 1994) .................................................... 84
Figura 4.5: Comportamento de formigas reais (Goss et al. 1989) ......................................... 91

Figura 5.1: Interao com informaes partilhadas............................................................. 107
Figura 5.2: Algoritmo de aprendizagem por reforo social. ................................................ 109
Figura 5.3: Modelos de compartilhamento de recompensas................................................ 110
Figura 5.4: Atualiza poltica............................................................................................... 110
Figura 5.5: Diagrama de atividade do processo de aprendizagem....................................... 111
Figura 5.6: Exemplo de um ambiente com 400 estados. Os agentes so posicionados
aleatoriamente no ambiente e possuem campo de profundidade visual de 1........................ 113
Figura 5.7: Interface do framework de aprendizagem por reforo....................................... 114
Figura 5.8. Ambientes usados nas simulaes .................................................................... 115
Figura 5.9: Modelo discreto ............................................................................................... 116
Figura 5.10: Modelo contnuo ............................................................................................ 116
Figura 5.11: Modelo dirigido por objetivo.......................................................................... 117
Figura 5.12: Ambiente 400 estados, 3 agentes.................................................................... 118
Figura 5.13: Ambiente 400 estados, 5 agentes.................................................................... 118
Figura 5.14: Ambiente 400 estados, 10 agentes .................................................................. 119
Figura 5.15: Ambiente de 100 estados; 3 agentes ............................................................... 120
Figura 5.16: Ambiente de 100 estados; 5 agentes ............................................................... 120
Figura 5.17: Ambiente de 100 estados; 10 agentes ............................................................. 120
Figura 5.18: Ambiente de 250 estados; 3 agentes ............................................................... 121
Figura 5.19: Ambiente de 250 estados; 5 agentes ............................................................... 121
Figura 5.20: Ambiente de 250 estados; 10 agentes ............................................................. 121
Figura 5.21: Ambiente de 400 estados; 3 agentes ............................................................... 121
Figura 5.22: Ambiente de 400 estados; 5 agentes ............................................................... 122
Figura 5.23: Ambiente de 400 estados; 10 agentes ............................................................. 122
Figura 5.24: Framework de teste........................................................................................ 124
Figura 5.25: Custos das polticas em cada episdio ............................................................ 125
Figura 5.26: Pseudocdigo do Ant-Q.................................................................................. 126
Figura 5.27: Clculo para AQ
0
........................................................................................... 126
Figura 5.28: Funo exploitation........................................................................................ 127
Figura 5.29: Funo exploration ........................................................................................ 127
Figura 5.30: Atualizao local............................................................................................ 128
Figura 5.31: Atualizao global.......................................................................................... 128
Figura 5.32: Ambientes usados na simulao, onde os estados esto expressos em um sistema
euclidiano de coordenadas 2D............................................................................................ 130

Figura 5.33: Evoluo da poltica a cada 50 episdios........................................................ 131
Figura 5.34: Eficincia da taxa de aprendizagem................................................................ 132
Figura 5.35: Eficincia do fator de desconto....................................................................... 132
Figura 5.36: Resultados do parmetro de explorao.......................................................... 133
Figura 5.37: Resultados da regra de transio ( e ).......................................................... 133
Figura 5.38: Quantidade de agentes (m
k
) ............................................................................ 134
Figura 5.39: Dinmica do ambiente.................................................................................... 136
Figura 5.40: Pseudocdigo do Ant-Q com as estratgias..................................................... 139
Figura 5.41: Campo limite de 1; 10% de alteraes a cada 100 episdios ........................... 141
Figura 5.42: Campo limite de 1; 20% de alteraes a cada 100 episdios ........................... 141
Figura 5.43: Campo limite de 2; 10% de alteraes a cada 100 episdios ........................... 141
Figura 5.44: Campo limite de 2; 20% de alteraes a cada 100 episdios ........................... 142
Figura 5.45: Campo limite de 5; 10% de alteraes a cada 100 episdios ........................... 142
Figura 5.46: Campo limite de 5; 20% de alteraes a cada 100 episdios ........................... 142
Figura 5.47: Exemplo de polticas de ao ......................................................................... 147
Figura 5.48: Eficincia da poltica em relao ao grau dos estados ..................................... 148
Figura 5.49: Processo de crescimento da rede de relacionamento ....................................... 149
Figura 5.50: Grafos de relaes, distncias e feromnios.................................................... 152
Figura 5.51: Polticas usadas para simular o crescimento da rede de relacionamento.......... 152
Figura 5.52: Rede de relacionamentos em t
3
....................................................................... 156
Figura 5.53: Diagrama de atividades .................................................................................. 157
Figura 5.54: Distribuio dos estados no plano................................................................... 159
Figura 5.55: Variaes do custo das polticas com o Ant-Q e o SAnt-Q .............................. 161
Figura 5.56: Ant-Q vs. SAnt-Q, eil51 com 500 episdios .................................................... 163
Figura 5.57: Ant-Q vs. SAnt-Q, eil76 com 500 episdios .................................................... 164
Figura 5.58: Oscilao das polticas com o SAnt com q
0
=1 aps os episdios t
30
, t
50
e t
100
.. 165
Figura 5.59: Solues com o Ant-Q e SAnt-Q (eil51).......................................................... 167
Figura 5.60: Solues com o Ant-Q e SAnt-Q (eil76).......................................................... 168
Figura 5.61: Polticas obtidas com o gerador de teste (eil51) .............................................. 171
Figura 5.62: Polticas obtidas com o gerador de teste (eil76) .............................................. 171
Figura 5.63: Evoluo da rede com o mtodo de otimizao social (eil51) ......................... 173
Figura 5.64: Polticas obtidas com o mtodo de otimizao social (eil51) em 10.000 episdios
.......................................................................................................................................... 173

Figura 5.65: Evoluo da rede com o mtodo de otimizao social (eil76) em 10.000
episdios............................................................................................................................ 174
Figura 5.66: Polticas obtidas com o mtodo de otimizao social (eil76) em 10.000 episdios.
.......................................................................................................................................... 175
Figura 5.67: Ant-Q sem heurstica vs. mtodo social, eil51 com 10000 episdios ............... 176
Figura 5.68: Ant-Q sem heurstica vs. Mtodo Social, eil76 com 10000 episdios .............. 176


Lista de Tabelas e Quadros

Tabela 2.1: Situaes de interaes ...................................................................................... 33
Tabela 5.1: Superioridade mdia do modelo hbrido em relao aos demais modelos......... 123
Tabela 5.2: Estados antes e aps as alteraes.................................................................... 137
Tabela 5.3: Relaes, distncias e feromnios.................................................................... 152
Tabela 5.4: Influncia de v
1
nas relaes de Q(r) em t
2
....................................................... 153
Tabela 5.5: Intensidade das Q(r) em t
2
............................................................................... 154
Tabela 5.6: Influncia de v
2
nas relaes de Q(r) em t
3
....................................................... 154
Tabela 5.7: Intensidade das Q(r) em t
3
............................................................................... 155
Tabela 5.8: Valores da Q(r) em t
1
, t
2
e t
3
............................................................................ 155
Tabela 5.9: Custo mdio das melhores polticas (eil51) com 5000 episdios ...................... 162
Tabela 5.10: Custo mdio das melhores polticas (eil76) com 5000 episdios .................... 162
Tabela 5.11: Custo das polticas (eil51).............................................................................. 163
Tabela 5.12: Custo da poltica (eil76)................................................................................. 164
Tabela 5.13: p-valor com o teste de Friedman.................................................................... 168
Tabela 5.14: Comparativo das mdias com o teste de Friedman (500 episdios) ................ 169
Tabela 5.15: Custo mdio das polticas do Ant-Q sem heurstica e...................................... 175
do mtodo social (eil51 e eil76) ......................................................................................... 175


Lista de Abreviaturas

ADOPT Asynchronous Distributed Constraint Optimization
ACS Ant Colony System
DPOP Dynamic Programming OPtimization
FANT Fast Ant System
FSS Fish School Search
GRADAP Graph Definition and Analysis Package
MH Mtodo Hbrido
NCBB No-Commitment Branch and Bound
NP Non-Deterministic Polynomial
OptAPO Optimal Asynchronous Partial Overlay
STEAM Simply, A Shell for Teamwork
TAEMS Task Analysis, Environment Modeling and Simulation



16

Captulo 1
Introduo
O comportamento coletivo de grupos sociais inspirou o desenvolvimento de modelos
computacionais como geradores de solues para problemas de otimizao. Esse comporta-
mento resultado de padres de interaes entre os indivduos da populao, no sendo ape-
nas propriedade de um nico sistema de controle, mas deduzido de simples comportamentos
individuais. Neste tipo de sistema, a estrutura de cada indivduo relativamente simples, mas
a partir de seus comportamentos coletivos emergem estruturas sociais complexas.
Uma estrutura social construda a partir de comportamentos e interaes sociais, sen-
do que mudanas nesta estrutura produziro efeitos em todos os indivduos, eliminando com-
portamentos idiossincrticos. A interao social o principal evento na construo de uma
estrutura social, que mostra o modo que os indivduos esto relacionamentos. A estrutura so-
cial reflete as caractersticas e os comportamentos dos indivduos, que podem influenciar ou
alterar a estrutura social. A interao, por sua vez, necessria porque na maioria dos sistemas
sociais existem processos de mudanas dos indivduos, que precisam se adaptar e favorecer o
aperfeioamento de comportamentos coletivos, i.e., do grupo.
Sistemas sociais so principalmente caracterizados pelas interaes dos indivduos de
uma populao, que interagem para formar comportamentos que melhorem a coordenao do
grupo. Geralmente, os indivduos aprendem a partir do seu prprio comportamento individual
e das influncias dos demais indivduos, no intuito de melhorar a sua utilidade a partir da inte-
rao com os indivduos mais fortes do grupo. A estrutura social pode ser determinada pela
formao da sobreposio dos melhores indivduos do sistema, onde indivduos com maior
fora influenciam os demais atravs de recompensas individuais ou coletivas, seguindo os
princpios da teoria do impacto social (Latan, 1981) e da aprendizagem por reforo.
17

A partir do comportamento dos indivduos e da aplicao dessas teorias possvel i-
dentificar estruturas sociais coerentes, padres e comportamentos de um sistema complexo,
descrevendo quem interage com quem, a frequncia e a intensidade de interao entre eles. A
estrutura social emerge sem um sistema central de coordenao, mas da sociabilidade dos in-
divduos a partir de comportamentos autnomos e locais.
A estrutura social com essas teorias pode formar um sistema multiagente, onde as inte-
raes entre os indivduos so utilizadas para que os mesmos alcancem seus objetivos indivi-
duais e coletivos. O desempenho dos indivduos pode ento depender fortemente da estrutura
do sistema social e de questes relacionadas ao impacto das relaes na atuao de cada indi-
vduo e socializao das recompensas. O impacto das relaes pode ser observado a partir de
tcnicas de anlise das redes sociais como um modelo para a avaliao de uma estrutura soci-
al, construda medida que as interaes dos indivduos ocorrem com as recompensas gera-
das.
Uma caracterstica importante dos indivduos sociais (que formam num nico sistema)
a capacidade da coordenao enquanto interagem com os demais indivduos. Essa uma ca-
racterstica importante quando vrios indivduos esto inseridos em um ambiente compartilha-
do. Em um sistema multiagente, os indivduos precisam interagir e se coordenar para a execu-
o das tarefas. A coordenao entre indivduos pode ajudar a evitar problemas como solues
redundantes, inconsistncia de execuo, desperdcio de recursos e espera por eventos que pro-
vavelmente no iro ocorrer. Neste contexto, modelos de coordenao baseados em enxames
tm se mostrado adequados para solues de problemas complexos integrando comportamen-
tos sociais e individuais.
O paradigma de coordenao baseado em inteligncia de enxames tem sido intensa-
mente estudado nessa ltima dcada (Kennedy e Eberhart, 2001). Esse paradigma inspirado
nas colnias de insetos sociais, onde sistemas computacionais reproduzem os comportamentos
utilizados para a resoluo de problemas coletivos em colnias de formigas, abelhas, cupins
ou vespas.
Os insetos sociais de um enxame atuam localmente mas devem satisfazer o objetivo
global do sistema (comunidade de agentes). A comunidade pode ser formada por um conjunto
de indivduos e as conectividades indicam suas relaes sociais. Essa descrio tambm a-
pontada como o conceito fundamental de redes sociais (Wasserman e Faust, 1994). As redes
sociais podem representar um conjunto de indivduos, computadores, organizaes ou elemen-
tos computacionais que esto conectados por algum tipo de relao. Por exemplo, um conjun-
to de pessoas pode estar ligado por relaes de amizade, de conhecimento, de parentesco ou
18

de trabalho, assim como insetos de um enxame podem estar relacionados devido sua proxi-
midade geogrfica, tipo de especializao ou tarefa comum.
A coordenao destes indivduos pode ser melhorada quando conceitos de redes soci-
ais so utilizados para direcionar o compartilhamento de informaes, aprimorando os algo-
ritmos baseados em enxames ou aprendizagem por reforo, intensificando relaes para me-
lhorar o comportamento individual e coletivo. Esses comportamentos so mantidos por valo-
res que determinam as atitudes dos indivduos, sendo denominados de recompensas sociais
por interaes e capazes de influenciar ou alterar a estrutura social, modificando a coordena-
o dos indivduos.

1.1 Problema
Coordenar indivduos com comportamentos diferentes um importante tema de estudo
em sistemas multiagentes. Tcnicas de coordenao derivadas da aprendizagem por reforo
vm sendo estudadas esses ltimos anos por diversos pesquisadores e descritas em diferentes
aplicaes (Kaelbling et al. 1996; Sutton e Barto, 1998). A aprendizagem por reforo ocorre
quando um indivduo aprende por tentativa e erro ao interagir no ambiente. A fonte de apren-
dizado a prpria experincia do indivduo, cujo objetivo adquirir comportamentos que me-
lhorem a estrutura social atravs das recompensas adquiridas nas interaes.
Tcnicas de anlise das redes sociais podem identificar relaes escondidas entre os
indivduos que interagem. Para analisar o impacto das relaes dos indivduos e das recom-
pensas sociais compartilhadas, possvel utilizar a teoria dos grafos que permite a visualiza-
o do ambiente e anlises numricas. As interaes observadas geralmente apresentam uma
forte influncia nas relaes dos indivduos e vice-versa. Essas relaes tambm podem ser
criadas, reforadas ou enfraquecidas com tcnicas de aprendizagem por reforo e algoritmos
baseados em enxames apoiados em alguma teoria de anlise social.
possvel observar que os indivduos de um sistema multiagente sofrem influncias
dos demais indivduos, mas at o presente momento, pouca pesquisa tem sido realizada sobre
a formalizao desse processo e a construo de estruturas sociais dinmicas de tomada de
deciso com o objetivo de aprimorar os mtodos de coordenao e aprendizagem distribudas
existentes na literatura. Portanto, os mtodos desenvolvidos neste trabalho devem responder as
seguintes perguntas:
- Como formalizar essas influncias?
- Como identificar os indivduos relevantes?
19

- Como acrescentar aos modelos de recompensas existentes a dimenso social?

Outra questo importante a ser estudada consiste na utilizao dos princpios das redes
sociais para melhorar a coordenao dos indivduos que compartilham recompensas sociais. A
partir dessas observaes, novos questionamentos podem ser formulados:
- Como construir uma rede de relacionamentos a partir do conhecimento adquirido
pelos indivduos ao longo das interaes? e,
- Como utilizar os princpios sociais para gerar modelos de compartilhamento de re-
compensas dos indivduos?
As pesquisas apresentadas neste trabalho vo de encontro a essas questes apresentan-
do metodologias desenvolvidas para esse fim.

1.2 Hipteses
As questes levantadas anteriormente podem ser estudadas pragmaticamente a partir
da adaptao de mtodos de coordenao multiagente, colnia de formigas, aprendizagem por
reforo e redes sociais.
Algoritmos baseados em populao inspirada no comportamento das colnias de for-
migas constituem uma forma coletiva de coordenao entre indivduos. Por outro lado, indiv-
duos com algoritmos de aprendizagem por reforo devem estabelecer, de maneira autnoma e
interativa, polticas de ao e/ou comportamentos (mapeamento de estado-ao), mapeando o
espao de estados e controlando o comportamento global do sistema. Algoritmos de aprendi-
zagem por reforo tm inspirado nestes ltimos anos o desenvolvimento de algoritmos de co-
lnia de formigas que recebem recompensas quando objetivos pr-estabelecidos so alcana-
dos. As recompensas acabam reforando as relaes existentes entre os estados do sistema.
Por outro lado, possvel observar o impacto das relaes estabelecidas atravs da a-
plicao da teoria das redes sociais. Portanto, acredita-se que mtodos de inteligncia de en-
xames, aprendizagem por reforo e os modelos de sistemas sociais esto baseados em princ-
pios muitas vezes complementares, possibilitando a adaptao e desenvolvimento de mtodos
de coordenao para auxiliar na resoluo de problemas de larga escala (muitos indivduos)
que exigem distribuio e coordenao das aes.
Neste processo, fundamental analisar as redes de relacionamentos construdas ao
longo do processo de interao para melhorar a qualidade e aumentar a eficincia da coorde-
nao. Alm disso, em sistemas multiagente com algoritmos de colnia de formigas e apren-
20

dizagem por reforo, um indivduo pode ser influenciado pelas recompensas geradas por ou-
tros indivduos, sendo necessrio o desenvolvimento de metodologias de tomada de deciso,
apoiadas na teoria das relaes sociais, que alteram comportamentos individuais e as relaes
estabelecidas durante as interaes.
Acredita-se que com os conceitos da teoria e da anlise das redes sociais, a estrutura
social construda a partir das interaes pode melhorar a coordenao dos indivduos de um
sistema, sendo que tal metodologia de coordenao poderia reduzir o tempo necessrio para a
convergncia de modelos baseados em recompensas e reduzir problemas de escalabilidade,
favorecendo a resoluo de problemas de otimizao combinatria.

1.3 Objetivos
Este trabalho possui dois objetivos principais:
(i) Desenvolver modelos para compartilhamento de recompensas sociais; e
(ii) Utilizar a estrutura social construda com a sociabilidade dos indivduos para me-
lhorar o comportamento social de um sistema multiagente;

Para atingir esses objetivos, vislumbramos ainda a realizao dos seguintes objetivos
especficos:
Estudar o impacto das recompensas sociais por interaes em problemas de coordena-
o multiagente;
Estudar o impacto das redes sociais em problemas de otimizao por colnia de formi-
gas;
Estudar o impacto das recompensas compartilhadas pelos indivduos; e
Aplicar e avaliar os mtodos desenvolvidos em problemas de otimizao combinatria.

1.4 Organizao do Trabalho
Este trabalho est organizado da seguinte maneira: No captulo 2 so apresentados e
comparados os principais mtodos de coordenao. No captulo 3 so apresentados conceitos
bsicos das redes sociais e fundamentos dos grafos. Esse captulo finalizado com uma dis-
cusso sobre a relao existente entre a teoria das redes sociais e os sistemas multiagente. J
no captulo 4 so discutidos os principais conceitos sobre aprendizagem por reforo e otimiza-
o por colnia de formigas, bem como seus principais algoritmos. O captulo 5, por sua vez,
apresenta a metodologia e as etapas de desenvolvimento dos mtodos propostos, ilustrando os
21

algoritmos e discutindo os resultados experimentais. Na sequncia so apresentadas as conclu-
ses e discusses finais do trabalho.
22

Captulo 2
Aprendizagem e Coordenao em Sistemas Multia-
gentes
A aprendizagem e coordenao de agentes vm recebendo grande ateno por parte da
comunidade da inteligncia artificial. Mesmo em aplicaes aparentemente simples torna-se
muitas vezes difcil ou mesmo impossvel prever comportamentos que garantam a um agente
um desempenho aceitvel ao longo de todo o seu ciclo de vida. Em razo desta dificuldade,
geralmente necessrio desenvolver agentes com alguma capacidade de auto-adaptao e a-
prendizagem que lhes permitam modificar seu comportamento em funo da experincia ad-
quirida e do possvel modelo de coordenao disponvel. A coordenao, neste caso, neces-
sria para garantir comportamentos globalmente coerentes para sistemas formados por indiv-
duos que compartilham objetivos, recursos e habilidades. Este captulo apresenta uma introdu-
o sobre agentes, aprendizagem e coordenao em sistemas multiagente. Agentes so utiliza-
dos neste trabalho para simular e avaliar os mtodos de coordenao existentes. Ao longo des-
de captulo, tambm so apresentados e comparados alguns dos principais mtodos de coorde-
nao multiagente.

2.1 Agentes Inteligentes
A rea de agentes integrada por pesquisadores de diferentes reas como, inteligncia
artificial, sistemas distribudos, interface homem-computador e robtica, que juntos tm como
principais objetivos: atender aos novos requisitos exigidos por determinadas aplicaes; facili-
tar a interao usurio/mquina e; construir sistemas inteligentes. A partir das definies ob-
servadas nos trabalhos de alguns pesquisadores possvel perceber que vrios deles possuem
diferentes opinies para o termo agente (Maes, 1995; Wooldridge e Jenning, 1995; Castel-
23

franchi, 1996). Dessa forma, no existe uma definio unnime dentre os pesquisadores sobre
o conceito agente, porm, muitas destas definies estudadas se complementam.
Maes (1995) e Hendler (1996) consideram agentes inteligentes os programas de inteli-
gncia artificial cuja finalidade agir em diversos ambientes de importncia para os seres hu-
manos, sendo divididos em duas categorias: agentes fsicos e agentes de informao. Os agen-
tes fsicos trabalham em um ambiente onde difcil inserir um ser humano (e.g., espao) ou
que seja perigoso (e.g., ncleo de um reator nuclear). Os agentes de informao atuam em um
mundo virtual onde existe uma grande quantidade de informaes espalhadas por diversos
computadores (e.g., Internet).
Wooldridge (1999) divide as aplicaes de agentes em dois grupos. O primeiro, sob
uma notao mais fraca, na qual agentes compem o hardware ou, geralmente, softwares do-
tados de autonomia para a realizao de suas tarefas, habilidades para interagir com outros
agentes e entidades e reatividade ao meio em que est inserido, a qual geralmente aumenta o
grau de dinamismo e complexidade. Sob um contexto mais complexo, o segundo agrupamento
se baseia em uma notao mais forte (utilizada por pesquisadores da inteligncia artificial), a
qual define um agente como um software que, alm das propriedades anteriores, implementam
conceitos geralmente aplicados aos seres humanos, tais como o conhecimento, a crena, a
inteno e a obrigao.
No geral, um agente definido como uma entidade de software que exibe comporta-
mentos autnomos e est situado em algum ambiente sobre o qual capaz de realizar aes
para alcanar seu prprio objetivo. O termo ambiente refere-se a uma representao do siste-
ma estudado, onde os agentes so simulados. A figura 2.1 mostra uma representao abstrata
entre os agentes, na qual a percepo e a interao podem possibilitar as aes e a troca de
informaes.

24


Figura 2.1: Modelo abstrato de agentes inseridos em um ambiente

Wooldridge (1999) descreve algumas caractersticas tpicas de agentes inteligentes:
i) Reao: agentes devem perceber seu ambiente e responder oportunamente s mu-
danas que nele ocorrem;
ii) Pr-atividade: agentes no devem simplesmente atuar em resposta ao ambiente, de-
vem exibir um comportamento oportunista e direcionado ao seu objetivo e tomar a ini-
ciativa quando apropriado;
iii) Sociabilidade: agentes devem interagir, quando apropriado, com outros agentes ar-
tificiais ou humanos para completar suas prprias solues de problemas ou ajudar ou-
tros com suas atividades.

Bradshaw (1997) acrescenta ainda outras propriedades que os agentes devem possuir
para se diferenciar de simples programas de computadores:
i) Capacidade de inferncia: agentes podem agir sobre especificaes abstratas de tare-
fas utilizando um conhecimento anterior, conseguindo ir alm das informaes forne-
cidas, e devem possuir algum modelo de si prprio, de usurios, de situaes de outros
agentes;
ii) Continuidade: agentes que conseguem fazer persistir a sua identidade e estados du-
rante longos perodos de tempo;
iii) Adaptabilidade: agentes so capazes de aprender e melhorar com a experincia; e
iv) Mobilidade: agentes podem migrar de forma intencional de um determinado local
para outro.

25

Outro importante aspecto a autonomia dos agentes. Um agente inteligente interage de
forma autnoma quando tem a capacidade de executar o controle sobre suas prprias aes em
seu ambiente de interao. Os agentes que conseguem melhorar seu comportamento em fun-
o de suas aes anteriores so definidos como agentes autnomos adaptativos (Enembreck,
2003). Um dos desafios da inteligncia artificial consiste em criar sistemas capazes de melho-
rar seu desempenho a partir de suas experincias. Esta capacidade de adaptao fundamental
para os sistemas cujo comportamento autnomo, pois tambm pode promover economia de
recursos e aumentar a confiabilidade.
No incio dos anos 90, certo cepticismo reinava sobre a utilizao de mecanismos de
aprendizagem em sistemas dinmicos como aqueles dos agentes autnomos, devido incipi-
ncia das pesquisas efetuadas no domnio da aprendizagem automtica. Nesta poca, algorit-
mos de aprendizagem necessitavam de recursos computacionais at ento raros alm de uma
quantidade enorme de dados, como as redes neurais, por exemplo. Felizmente, as tcnicas de
aprendizagem e as tecnologias computacionais evoluram. No entanto, nem todos os algorit-
mos de aprendizagem so indicados para um agente autnomo adaptativo, porque esses devem
ter as seguintes caractersticas (Enembreck, 2003):
i) a aprendizagem deve ser incremental;
ii) deve levar em conta o rudo;
iii) a aprendizagem no poder ser supervisionada;
iv) eventualmente necessrio que o algoritmo permita a utilizao de conhecimentos
fornecidos pelo usurio e/ou por quem o desenvolveu.

Enembreck (2003) completa ainda, que certas formas de adaptao podem ser vistas
como o aprendizado a partir da experincia. Neste caso, o agente ir melhorar medida que o
tempo passa. Isso significa que o agente deve aprender a escolher as boas aes nos bons mo-
mentos, com uma melhoria constante no mecanismo de seleo de aes.

2.2 Coordenao dos Agentes
Em sistemas multiagentes a coordenao dos agentes necessria para o aumento da
qualidade de solues produzidas, melhorando o processo durante a resoluo das tarefas rea-
lizadas pelos agentes. Os benefcios da resoluo distribuda de problemas so anulados quan-
do a coordenao deficiente, podendo causar interao desordenada entre os agentes. Dessa
forma, agentes sem coordenao podem agir sem coerncia e entrar em conflito com seus pr-
26

prios recursos inviabilizando a convergncia entre objetivos locais e globais (Jennings e
Bussmann, 2003). Os principais requisitos para a coordenao so citados em (Durfee, 1988):
i) comunicao entre os agentes; ii) reconhecimento das interaes potenciais dos planos; e iii)
negociao entre os agentes.
Quando agentes autnomos atuam no mesmo ambiente necessrio gerenciar as tare-
fas complementares, que permitem a troca de informaes para ocorrer o processo de coorde-
nao (Ferber, 1999). O gerenciamento necessrio porque muitas vezes agentes precisam de
informaes e resultados disponveis em outros agentes, necessitando da coordenao para
que haja a troca do conhecimento entre eles, possibilitando que problemas como uso ineficien-
te de recursos e atividades desnecessrias e redundantes sejam evitadas.
A coordenao desejvel devido a diferentes fatores, como (i) a dependncia das a-
es dos agentes, pois um nico agente geralmente no possui a competncia, e (ii) a distribu-
io dos recursos ou das informaes necessrias para resolver problemas complexos de for-
ma independente. Alm disso, agentes podem ter objetivos e aes antagnicos, que podem
contribuir para o fracasso da interao, existncia de restries globais soluo de problemas
e existncia de procedimentos que satisfaam os objetivos individuais e globais quando aes
ou tarefas so executadas de maneira conjunta.
Em outras situaes, algumas aes quando executadas simultaneamente podem levar
a conflitos, ou produzir efeitos positivos como a melhora no desempenho global do sistema.
Ferber (1999) cita que as relaes podem ser negativas ou positivas (figura 2.2). As relaes
negativas ou relacionamentos conflitantes impossibilitam a execuo de algumas aes, que
podem ser causadas por incompatibilidade de objetivos, ou pela limitao dos recursos dispo-
nveis. J nas relaes positivas ou relacionamentos cooperativos, as aes se favorecem mu-
tuamente, resultando em maior eficincia caso sejam executadas independentemente.

27


Figura 2.2: Tipos de relaes entre aes (Ferber, 1999)

Moulin e Chaib-Draa (1996) descrevem trs processos fundamentais para a coordena-
o. Primeiro, o ajuste mtuo, uma maneira de coordenao que pressupe que dois ou mais
agentes concordam em compartilhar recursos para atingir um objetivo. Segundo, a superviso,
na qual existem relaes estabelecidas entre os agentes, na qual um agente mantm algum
controle sobre os outros. Terceiro, a padronizao, que estabelece uma relao entre os agen-
tes, na qual um agente mantm o controle sobre os demais (agentes coordenados) estabelecen-
do procedimentos padronizados que sero seguidos pelos coordenados em determinadas situa-
es.
Esses processos podem ser definidos como relaes de dependncia em relao aos
outros agentes (Castelfranchi et al. 1992; Sichman, 2003). Por exemplo, um agente ag
i
dito
autnomo para o objetivo g
m
se e somente se: (i) ag
i
deseja atingir o objetivo g
m
; (ii) existe um
plano p
s
cuja execuo atinja g
m
tal que todas as suas aes podem ser desempenhadas por ag
i
.
Caso no seja autnomo para um dado objetivo, um agente ag
i
dito dependente para este
objetivo. O fato de ser dependente, porm, no significa que exista necessariamente um agente
que possa executar a ao de que ag
i
necessita. Esta situao representada por uma relao
de dependncia. Assim, um agente ag
i
dito dependente de um agente ag
i
para o objetivo g
m

(iii) existe um plano p
s
cuja execuo atinja g
m
e no qual ag
i
pode realizar alguma ao de que
ag
i
necessita.
Os modelos de racionalidade tambm favorecem o processo de coordenao, auxilian-
do na determinao de quais aes realizar primeiro, quais objetivos a serem atingidos e com
quem se relacionar. Um dos modelos mais comuns baseado na utilidade, que toma como
princpio da racionalidade o utilitarismo. Nesse paradigma, um agente dito racional caso
sempre busque a maximizao de sua utilidade esperada (Doyle, 1992 apud Sichman, 2003).
28

Essa noo de racionalidade encontra-se presente na maior parte das teorias econmicas mo-
dernas. Outro modelo baseado na complementaridade. Nesse modelo as escolhas dos agen-
tes para interagir com outros so fundamentadas em relaes estruturais objetivas nas quais os
agentes encontram-se inseridos. Uma dessas relaes fundamentais a relao de dependncia
social (Castelfranchi et al, 1992). Nessa relao, os agentes quase sempre necessitam uns dos
outros para atingirem seus objetivos, e quando estas relaes de dependncias tornam-se sub-
jetivas, eles podem explicar por que agentes adotam os objetivos uns dos outros e por que al-
gumas interaes sociais surgem do seio de uma sociedade.
O conceito de coordenao e racionalidade define aspectos gerais de interao dos a-
gentes, de maneira a viabilizar aes em relao ao objetivo global. A figura 2.3 apresenta
uma classificao para o processo de coordenao.


Figura 2.3: Classificao da coordenao (Moulin e Chaib-Draa, 1996)

Ao desenvolver um sistema multiagente, desejvel que os elementos que formam a
classificao da coordenao sejam considerados, na inteno de compatibilizar as aes dos
agentes. Os elementos que compem a classificao da coordenao da figura 2.3 so apresen-
tados a seguir.

a) Cooperao
A cooperao ocorre quando n agentes planejam e executam suas aes de maneira
coordenada, na inteno de solucionar problemas para os quais tenham sido modelados. A
cooperao desejvel quando:
i) O agente no encontra um plano local que satisfaa os objetivos;
ii) O plano disponvel envolve aes de outros agentes; e
iii) O agente considera que um plano externo pode ser melhor (menor custo ou mais e-
ficiente) do que um plano local;

29

Durante a fase de planejamento pode-se encontrar ainda outras situaes:
i) O agente encontra planos incompletos, que podem ser completados em cooperao
com outros agentes; ou
ii) Quando o agente enfrenta situaes para o qual no esteja capacitado, mas entende
que outros agentes podem ser capazes de trat-las.

A cooperao entre os agentes oferece as seguintes vantagens (Moulin e Chaib-Draa,
1996):
i) otimizao do tempo de execuo de uma tarefa;
ii) aumento do escopo de tarefas executveis atravs do compartilhamento de recursos;
iii) maior probabilidade de finalizao de uma tarefa; e
iv) diminuio da interferncia entre as tarefas, evitando interaes desnecessrias.

b) Planejamento
O processo de planejamento constitui uma forma especializada de processo de coope-
rao, produzindo um conjunto de atividades organizadas com um curso de ao definido, na
qual estas atividades so distribudas aos agentes capacitados a execut-las. O planejamento
pode acontecer de maneira centralizada ou distribuda. Centralizada quando um nico agente
responsvel em desenvolver um plano e distribuda quando pressupe que o plano seja desen-
volvido por mais de um agente, sendo considerada quando um nico agente no possui uma
viso global das atividades do grupo.
Segundo Durfee (1996) o planejamento em sistemas multiagente consiste em trs eta-
pas:
i) formulao de um curso de ao, considerando as aes a serem executadas em pa-
ralelo pelos demais agentes;
ii) identificao do curso de ao de outros agentes; e
iii) identificao da maneira pela qual um agente poderia comprometer-se com seus
prprios modelos.
Pode ocorrer que os agentes necessitem ajustar seus planos, devido a motivos como: i)
resultados de suas prprias aes; ii) resultados de aes de outros agentes; iii) alteraes no
ambiente; iv) alteraes de objetivos; e v) alteraes na percepo do agente quanto ao con-
texto multiagente no qual est inserido.
30

Tcnicas como planejamento centralizado, reconciliao de planos, planejamento dis-
tribudo e anlise organizacional so alternativas para auxiliar as atividades dos agentes em
determinar tarefas, aps raciocinar sobre as consequncias destas em certas organizaes.

c) Negociao
A negociao importante nas atividades cooperativas dentro das sociedades huma-
nas, pois permite que pessoas resolvam conflitos que possam interferir no comportamento
cooperativo (Moulin e Chaib-Draa, 1996). Segundo Huhns e Stephens (1999), os principais
elementos utilizados pelos agentes envolvidos no processo de negociao so:
i) Linguagem;
ii) Protocolo que define a maneira que os agentes negociam; e
iii) Processo de deciso que determina suas posies, concesses e critrios utilizados
para os acordos.

A negociao pode ter as seguintes abordagens:
i) Centradas no ambiente: o mecanismo de negociao deve possuir suas prprias re-
gras, na inteno de interagir com os demais agentes de maneira produtiva e razovel.
Nesse caso, as principais propriedades so:
- Eficincia: os agentes devem otimizar recursos para alcanar determinados acor-
dos;
- Estabilidade: todos os agentes devem cumprir os acordos;
- Simplicidade: baixas demandas computacionais e de comunicao devem ser im-
postas aos agentes;
- Distribuio: realizar decises de maneira descentralizada; e
- Simetria: no deve haver diferenciao (benefcios) entre os agentes.
ii) Centradas nos agentes: assume que os agentes sejam racionais e o conjunto deles
reduzido, pois necessitam de uma linguagem e abstrao do problema comum. Podem
ser utilizados protocolos de negociao unificados onde agentes criam um acordo que
constitui um plano conjunto para satisfazer os objetivos.

Do processo de negociao, algumas situaes podem surgir (Rosenschein e Zlotkin,
1994), por exemplo: (i) conflito, quando o conjunto de negociaes nulo; (ii) compromisso,
quando os agentes preferem trabalhar de maneira isolada, caso contrrio, tentam chegar ao
31

acordo negociado; e (iii) cooperativo, quando todos os acordos do conjunto de negociao so
desejados pelos agentes.
Uma abordagem bastante utilizada em sistemas multiagente o protocolo de redes de
contrato proposto por (Smith, 1980), inspirado nos processos de contratao existentes em
organizaes humanas. Neste processo, agentes coordenam suas aes atravs de contratos
para cumprir seus objetivos especficos, onde existe um agente que atua como gerente, de-
compondo seus contratos em subcontratos a serem realizados por outros agentes potenciais
executores. Da perspectiva do gerente, o processo consiste em (Huhns e Stephens, 1999):
i) Anunciar uma tarefa que precisa ser executada;
ii) Receber e avaliar ofertas dos agentes executores potenciais;
iii) Alocar um contrato para um executor apropriado; e
iv) Receber e sintetizar os resultados.

A partir da perspectiva do executor, o processo : (i) receber anncios de tarefa; (ii)
avaliar a prpria capacidade de resposta; (iii) responder (recusa, oferta); (iv) executar a tarefa
se a oferta enviada foi aceita; e (v) enviar resultados ao gerente.
O protocolo de redes de contrato oferece a vantagem de degradao suave do desem-
penho. Se um executor no est apto a prover uma soluo considerada satisfatria, o gerente
pode procurar outros agentes executores potenciais para a tarefa. Outros modelos de negocia-
o baseados em mercados econmicos (Raiffa, 1985) podem ser encontrados em Faratin
(1998) e estratgias de negociao para sistemas multiagentes so descritas em (Kraus, 2001).
Os primeiros trabalhos sobre negociao entre agentes foram propostos por Rosens-
chein e Genesereth em 1985, e Sycara em 1988 e 1990. O sistema denominado persuader
(Sykara, 1990) foi implementado para operar no domnio da negociao das leis de trabalho.
O sistema possua trs agentes, inspirados na negociao humana. O sistema permitia a troca
interativa de propostas e contrapropostas para que os agentes chegassem a um acordo. A ne-
gociao envolvia vrias questes, tais como salrios, penses, tempo de servio, contratos de
servios, e assim por diante. A reviso de crenas para alterar a utilidades dos agentes era rea-
lizada por argumentao persuasiva. Alm disso, tcnicas de aprendizagem baseadas em casos
tambm foram incorporadas ao modelo.
Diante do exposto nesta seo, vrios mtodos so apresentados para a coordenao e
aprendizagem dos agentes. As subsees 2.3.1 2.3.7 discutem alguns dos principais mtodos
que apresentam esses princpios.

32

2.3 Mtodos de Coordenao e Aprendizagem para Sistemas Multiagentes
A aprendizagem em sistemas multiagentes, diferentemente da aprendizagem em ambi-
ente com um nico agente, supe que o conhecimento relevante no est disponvel localmen-
te em um nico agente (Modi e Shen, 2001). Na aprendizagem multiagente, os agentes apren-
dem a realizar uma tarefa que envolve mais do que um agente na sua execuo. Segundo
Weiss e Sen (1996) a aprendizagem pode ser dividida de duas formas: a aprendizagem isolada
e a aprendizagem coletiva. Na aprendizagem isolada, o processo de aquisio do conhecimen-
to pelo agente ocorre sem a influncia dos demais agentes ou qualquer outro elemento da sua
sociedade. J na aprendizagem coletiva, o processo de aquisio do conhecimento tem influ-
ncia direta de todos os elementos da sociedade em que o agente est inserido.
Stone e Veloso (1996) completam ainda que, se um agente est aprendendo a conquis-
tar habilidades para interagir com outros agentes em seu ambiente, e independentemente se os
outros agentes esto ou no aprendendo simultaneamente, esta aprendizagem considerada
aprendizagem multiagente. Dessa forma, aprendizagem multiagente inclui algumas situaes
na qual o agente aprende interagindo com outros agentes, alterando e evoluindo o prprio mo-
delo de coordenao.

2.3.1 Coordenao por Interao
A interao propicia a combinao de esforos entre um conjunto de agentes na busca
de solues para problemas globais, pressupondo aes de coordenao entre os agentes (De-
Loach e Valenzuela, 2007). Alguns aspectos podem ser considerados no processo de interao
dos agentes:
i) Quais agentes devem interagir;
ii) Em que momento ocorrer a interao;
iii) Qual o contedo da interao ou comunicao;
iv) Como ser realizada a interao, definindo os processos e recursos a serem utiliza-
dos;
v) Definir se a interao necessria; e
vi) Empregando algum mecanismo, de que maneira ser estabelecida a compreenso
mtua (linguagem comum, interpretao baseada no contexto, etc.).

33

Uma situao de interao um conjunto de comportamento resultantes de um grupo
de agentes que agem para satisfazer seus objetivos, e que levam em conta as restries devidas
limitaes de recursos e limitao de suas competncias individuais (Ferber, 1999).
Considerando que a interao entre agentes pode ocorrer atravs de aes para atingir
seus objetivos, agentes realizam aes, que podem eventualmente utilizar recursos, consum-
veis ou no, que se encontram disponveis no ambiente. Tais situaes de interao podem ser
classificadas de acordo com as dimenses distintas (Sichman, 2003):
i) Compatibilidade de objetivos: os objetivos dos agentes so considerados compat-
veis/incompatveis quando o fato de atingir um deles no acarretar/acarretar necessari-
amente a impossibilidade de atingir o outro;
ii) Quantidade de recursos: os recursos so considerados suficientes/insuficientes
quando os agentes puderem/no puderem realizar suas tarefas simultaneamente;
iii) Competncia dos agentes: a competncia de um agente considerada suficien-
te/insuficiente quando ele for capaz/incapaz de realizar sua tarefa, de modo a tingir seu
objetivo.

Um exemplo ilustrativo com o cenrio 1 da empresa de livros destas noes objetivo,
interao e recurso a situao na qual o agente A esteja disponibilizando informaes (inte-
rao) aos agentes C e D atravs das anotaes (recursos) nos locais de entrega (objetivo).
A tabela 2.1 apresenta as possveis situaes de interaes segundo tais dimenses,
conforme Ferber (1999).
Tabela 2.1: Situaes de interaes
Objetivos Recursos Competncias Situaes de interaes
Compatveis Suficientes Suficientes Independncia
Compatveis Suficientes Insuficientes Colaborao simples
Compatveis Insuficientes Suficientes Obstruo
Compatveis Insuficientes Insuficientes Colaborao coordenada
Incompatveis Suficientes Insuficientes Competio individual pura
Incompatveis Suficientes Insuficientes Competio coletiva pura
Incompatveis Insuficientes Suficientes Conflito individual por recursos
Incompatveis Insuficientes Insuficientes Conflito coletivo por recursos

Muitas vezes, a interao entre os agentes est diretamente relacionada a um mecanis-
mo de aprendizagem. Em sistemas multiagente a aprendizagem est diretamente relacionada
com a maneira que os agentes se interagem, podendo comprometer a convergncia parcial ou
total da aprendizagem dos agentes ou at mesmo causar situaes inexplicveis nas suas a-
34

es, devido a conflitos entre comportamentos e objetivos e limitao de recursos e habili-
dades. Por exemplo, em cenrios clssicos como monitoramento com sensores distribudos
(Conway et al. 1983), alocao distribuda de tarefas (Rosenschein e Zlotkin, 1994), e forma-
o de coalizo (Sandholm et al. 1998), cada agente percebe uma parte do estado global do
cenrio e toma medidas que modificam alguma parte deste estado, na inteno de maximizar
uma funo de utilidade local (Vidal, 2004).
Dessa maneira, os agentes devem ser capazes de interagir em um ambiente comum,
trocando informaes relevantes e cooperando com os indivduos que podem contribuir para
conquistar um determinado objetivo. Na literatura so encontrados diversos trabalhos que des-
crevem diferentes formas de aprendizagem a partir da interao (Ferber, 1999; Wooldridge,
2002), aprendizagem coletiva ou social (Sichman, 2003).
Um modelo de aprendizagem por interao possui um conjunto de comportamentos re-
sultantes do grupo de agentes que agem para satisfazer seus objetivos e ainda consideram as
restries impostas pela limitao de recursos e pelas competncias individuais (Ferber,
1999). Em problemas de aprendizagem usando mtodos de aprendizagem por reforo, a inte-
rao depende de um modelo que possibilita a troca das melhores recompensas acumuladas e
dos reforos imediatos da transio. Com esse objetivo, Chapelle et al. (2002) propuseram um
modelo por interaes onde o valor da recompensa calculado usando a satisfao individual
dos agentes vizinhos. No processo de aprendizagem os agentes continuadamente emitem um
nvel de satisfao pessoal. Por exemplo, se a ao do agente A no ambiente E pode ajudar o
agente B, o nvel da satisfao de B tambm aumenta. O processo de aprendizagem ocorre at
que todos os agentes vizinhos alcancem um nvel satisfatrio para as recompensas recebidas.
Em um trabalho anterior (Ribeiro et al. 2006a) foi desenvolvida uma estratgia de a-
prendizagem na qual os agentes inseridos no sistema so capazes de manter na memria pol-
ticas aprendidas para serem reusadas nas polticas futuras, evitando atrasos ou falta de conver-
gncia na aprendizagem dos agentes com a dinmica no ambiente. O mtodo proposto, deno-
minado poltica adaptativa baseada em recompensas passadas (K-learning), foi testado em
cenrios com caractersticas de trnsito com diferentes nveis de congestionamento, usando de
3 a 10 agentes em ambientes com at 100 estados. Resultados experimentais mostraram que o
mtodo proposto melhor do que o algoritmo Q-learning padro, pois estima valores e encon-
tra solues usando polticas passadas. O mtodo tambm foi testado em ambientes dinmicos
e com espao de estados de tamanho da ordem de centenas (Ribeiro et al. 2009b).
Mataric (1998) props um mtodo onde os agentes podem, de forma cooperativa,
transmitir para outros agentes a situao atual do estado alterado, aps a realizao de uma
35

tarefa. Neste caso, um agente somente poder dividir seu aprendizado com o agente mais pr-
ximo do seu estado atual, a fim de economizar recursos e evitar troca de informaes incorre-
tas.
DeLoach e Valenzuela (2007) propuseram um mecanismo chamado de modelo de ca-
pacidade. O modelo visava demonstrar como os agentes interagiam em um dado ambiente,
colocando em evidncia o uso de suas capacidades. Esse modelo composto pelos seguintes
elementos: um modelo de capacidade, um ambiente e um conjunto de interaes entre os obje-
tos do modelo de capacidade e do ambiente. Neste caso, cada agente tem a capacidade de per-
ceber e manipular os objetos do ambiente por meio de interaes, aprendendo/refinando estra-
tgias para alcanar seu objetivo. O modelo de capacidade define as aes possveis que cada
agente pode realizar com o objetivo de manipular os objetos do ambiente. Quando executada
uma ao, essa atividade recebe uma recompensa do ambiente. Se a ao modifica o objeto, o
ambiente consequentemente alterado com as recompensas recebidas.
Na maioria das vezes difcil adaptar os mtodos propostos em um modelo genrico
de coordenao, devido diversidade das classes de problemas existentes e o demasiado co-
nhecimento do domnio exigido. Alm disso, essas interaes podem no compartilhar as me-
lhores informaes de algoritmos baseados em recompensas, pois no consideram a reputao
de cada agente e acabam ocasionando a troca de informaes no satisfatrias.
Alm da interao, cada agente deve ser capaz de aprender e cooperar no ambiente.
Em ambientes complexos, um nico agente s pode, ao longo do tempo, adquirir experincias
suficientes que convergem para uma poltica tima, se e somente se uma grande quantidade de
episdios possvel, bem como se estratgias especficas so utilizadas para evitar mximos
locais. No entanto, em um sistema com vrios agentes, valores contraditrios para recompen-
sas acumuladas podem ser gerados, medida que cada agente utiliza apenas valores locais de
aprendizagem. Dessa forma, a aprendizagem coletiva, diferentemente da aprendizagem com
um nico agente, pressupe que o conhecimento relevante ocorre quando recompensas so
compartilhadas, intensificando a relao entre os agentes. Uma das propostas deste trabalho
mostrar que a interao entre os agentes melhoram a utilidade da poltica quando as recom-
pensas so compartilhadas, favorecendo o modelo de aprendizagem por reforo.

2.3.2 Coordenao por Sincronizao
A coordenao por sincronizao a maneira mais simples e limitada de coordenao,
a qual deve descrever precisamente a sequncia de aes concorrentes. A sincronizao pode
gerar uma simultaneidade de vrias aes e verificar se os resultados das operaes so coe-
36

rentes. Desta forma, necessrio definir a relao de tempo existente entre as aes de modo
que sejam executadas na ordem correta e produzam o resultado esperado (Ferber, 1999).
Geralmente, quando diversos agentes tm acesso e compartilham o mesmo recurso,
suas aes precisam ser sincronizadas, de forma que o recurso no fique escasso, evitando
conflitos e incoerncias (Ferber, 1999). Como exemplo desse tipo de coordenao, podemos
considerar o fato de andar de bicicleta, onde existem dois agentes (ao esquerda e ao direi-
ta). Para que ocorra o processo de pedalar de maneira sincronizada, necessrio que ambos
coordenem suas aes, quando um pressionar o pedal, o outro deve relaxar e vice-versa. A
coordenao das aes de um ciclista pode ser representada de uma forma bastante simples
como ilustrado na figura 2.4. Cada etapa representada sob a forma de uma localizao e uma
transio, com o local que representa a ao na posio superior e a transio corresponde
ao de pressionar o pedal.


Figura 2.4: Sincronizao de aes (Ferber, 1999)

Outro exemplo de sincronizao ocorre quando dois robs so responsveis pela mon-
tagem de peas em uma fbrica, onde a mquina s aceita um nico rob por vez. As aes de
um rob iro obviamente afetar as aes do outro. Desta forma surge a necessidade de intro-
duzir mecanismos de sincronizao, para que o segundo rob no prejudique o trabalho do
primeiro rob, quando o mesmo estiver operando a mquina. Para resolver esse problema, os
robs precisam se organizar de uma forma que um espere o outro terminar de montar a sua
pea, para s ento comear a realizar o seu trabalho. Para resolver tal problema utilizando
agentes inteligentes (consideramos tambm a mquina como um agente), mensagens podem
ser utilizadas informando se a mquina est disponvel ou no, assim como os semforos de
um sistema operacional multitarefa garantem a execuo de vrios processos em um mesmo
processador. No entanto, os robs devem se coordenar para que a ordem de utilizao seja
respeitada (Ferber, 1999).
37


2.3.3 Coordenao por Regulamentao
um mtodo baseado em leis ou convenes sociais utilizadas para assegurar a coor-
denao imediata. O princpio deste mtodo utilizar regras de comportamento que visam
eliminar possveis conflitos. Este um mtodo raramente descrito na literatura, mas frequen-
temente posto em prtica em sistemas que exigem coordenao limitada como modelos ma-
croscpicos de simulao. O princpio deste mtodo utilizar regras de comportamento que
visam eliminar possveis conflitos. Por exemplo, atribuir regras de prioridade veculos em
cruzamentos, com o objetivo de evitar colises (Ferber, 1999).
Portanto, a busca de sistemas com comportamento satisfatrio, combinado com a natu-
reza complexa da interao de agentes, justifica a necessidade de utilizao e de desenvolvi-
mento de sofisticados mtodos de coordenao das atividades dos agentes em um ambiente
multiagente.
Usando como exemplo o cenrio 1 da empresa de livros, os agentes C e D poderiam
ter acesso as anotaes ou aos recursos de comunicao, desde que outros agentes com maior
prioridade no uso destes recursos no necessitassem utiliz-lo no mesmo instante.

2.3.4 Coordenao por Planejamento
A coordenao por planejamento um mtodo tradicional em sistemas multiagentes.
O mtodo dividido em fases. Na primeira, determinado um conjunto de aes a serem rea-
lizadas para atingir o objetivo global, ocorrendo a elaborao de planos. J na segunda, os
planos so selecionados e na sequncia executados. Os planos escolhidos podem ser revisados
durante a sua execuo. Os diferentes planos elaborados pelos agentes podem ocasionar con-
flitos de objetivos ou de acesso a recursos. Portanto, os planos devem ser coordenados de for-
ma a resolver os conflitos e satisfazer os objetivos dos agentes (Ferber, 1999).
Em sistemas multiagentes, o planejamento pode ser divido em trs fases: elaborao de
planos; sincronizao/coordenao; e execuo de planos. Durfee (1999) apresenta os seguin-
tes modelos de coordenao distribudos para um sistema multiagente:
Planejamento centralizado para planos distribudos: apenas um agente planeja e orga-
niza as aes para todos os agentes que iro apenas executar os planos. Nessa etapa o
agente coordenador ter a viso global do sistema e pode definir as relaes de coor-
denao;
Coordenao centralizada para planos parciais: onde apenas a etapa de coordenao
centralizada, cabendo a cada agente a funo de desenvolver seus prprios planos par-
38

ciais, e encaminh-los para o coordenador, o qual responsvel em avaliar tais aes
classificando-as de forma que elimine possveis conflitos; e
Coordenao distribuda para planos parciais: no existe um coordenador central. Des-
ta forma, cada agente planeja individualmente as aes que deseja executar de acordo
com seus objetivos. Para que agentes possam trocar informaes sobre seus planos, foi
desenvolvido por Durfee e Lesser (1991) o planejamento parcial global.

Grosz e Kraus (1996) desenvolveram um modelo de planejamento colaborativo, de-
nominado sharedplans. O modelo fornece uma especificao para projetar agentes com capa-
cidades de colaborao e um framework para identificar e investigar questes sobre colabora-
o. Hadad e Kraus (1999) apresentam vrios exemplos ilustrativos que usam o sharedplans
para melhorar o uso dos recursos, a coordenao das tarefas e aumentar a utilidade dos agen-
tes para alcanarem os objetivos propostos usando o planejamento. As propriedades particula-
res do sharedplans contribuem com tais melhorias fornecendo aos agentes a possibilidade de
planejar e agir, incluindo comportamentos que podem levar os agentes a comportar-se ade-
quadamente e restries que probem a adoo de intenes conflitantes. Grosz et al. (1999)
descrevem algumas tcnicas para o planejamento colaborativo e sistemas para a comunicao
homem-mquina baseado no modelo sharedplans. Por exemplo, (i) o GigAgents um sistema
multiagente para a colaborao de grupos heterogneos de pessoas e agentes; (ii) o webTrader
um sistema multiagente que atua como um ambiente colaborativo no comrcio eletrnico e;
(iii) o DIAL um sistema que fornece uma interface colaborativa para a aprendizagem a dis-
tncia. Essas tcnicas motivaram o desenvolvimento de ambientes, onde vrios sistemas e
pessoas conseguem colaborar usando as tcnicas de planejamento colaborativo.

2.3.4.1 Planejamento Global Parcial
O planejamento global parcial proposto por Durfee e Lesser (1991) tem por objetivo
aumentar a qualidade da coordenao dos agentes, evitando que realizem atividades redundan-
tes ou se tornem ociosos, auxiliando na organizao do sistema multiagente.
O planejamento global parcial uma tcnica desenvolvida para controlar sistemas dis-
tribudos, visando resoluo coerente de um dado problema. Trata-se de uma abordagem
flexvel de coordenao, que no assume qualquer distribuio de subproblemas, mas permite
que agentes se coordenem em resposta situao atual (Durfee e Lesser, 1991). Cada agente
pode representar e raciocinar sobre as aes e interaes do grupo de agentes e como essas
aes afetam as atividades locais do sistema. Essas representaes so chamadas de planos
39

globais parciais. Cada agente pode manter seu prprio conjunto de planos, podendo ser utili-
zado independentemente ou assincronamente para coordenar suas atividades aos demais agen-
tes de um sistema.
Um planejamento global parcial contm um (i) objetivo, que contm informaes do
planejamento global parcial, inclui metas, sua importncia em forma de grau de prioridade ou
razes para sua utilizao; (ii) um mapa de atividades, que representa as atividades dos agen-
tes (o que esto executando), incluindo um descritivo dos planos mais relevantes, custos e
resultados esperados; (iii) um grafo de construo da soluo, que contm informaes sobre
como os agentes devem interagir, incluindo especificaes de quando e quais resultados parci-
ais devem ser trocados com os demais agentes; e (iv) o acompanhamento de todo o processo,
que requer informaes a serem registradas no planejamento global parcial, incluindo pontei-
ros para os dados mais relevantes recebidos de outros agentes e quando foram recebidos.
O planejamento global parcial uma estrutura geral para representar as atividades co-
ordenadas em termos de objetivos, interaes e relaes entre os agentes, a qual conta com um
agente denominado de pgplanner, responsvel por verificar o estado atual da representao
dos objetivos, aes e planos dos demais agentes que constituem o sistema multiagente. As-
sim, buscam reunir as atividades comuns, relacionando e reorganizando aes no intuito de
alcanar objetivos maiores (Durfee e Lesser, 1991).
O pgplanner desenvolve e mantm atualizado o mapa de atividades, permitindo a dis-
tribuio de tarefas entre os agentes de forma cooperativa. Isso necessrio para que as solu-
es parciais das aes de um agente, beneficiem os demais agentes na resoluo de seus pr-
prios subproblemas. O pgplanner responsvel tambm pela manuteno do grafo de cons-
truo da soluo, atualizando de forma constante e reordenando as atividades dos agentes,
para ento identificar quando e onde o resultado parcial deve ser compartilhado entre os agen-
tes. Isso auxilia o agente a concluir sua tarefa de maneira mais eficiente.
O planejamento global parcial foi utilizado num dos primeiros simuladores para testes
de um sistema multiagente: a bancada de monitoramento distribuda de veculos. Este simula-
dor utilizou o conceito de resoluo distribuda de problemas, sob o domnio da deteco e
monitoramento distribudo de veculos, o qual consistia em detectar e seguir um conjunto de
veculos que passavam por uma determinada regio, monitorados por um conjunto de sensores
distribudos (Durfee e Lesser, 1991).
O domnio da aplicao era especialmente apropriado para agentes com capacidade de
perceber o ambiente e responder as mudanas, pois sempre que um novo veculo era observa-
do, o sistema disparava um processo de deteco e seguimento. A rapidez do processamento
40

era fundamental, uma vez que o domnio era dinmico e exigia que os agentes determinassem
as trajetrias dos veculos presentes em tempo real.

2.3.4.2 Planejamento Parcial Global Generalizado
O planejamento parcial global generalizado proposto por (Decker e Lesser, 1992),
um conjunto de mecanismos de coordenao que atuam unidos a uma arquitetura de agente e a
um escalonador de tarefas local, para que agentes possam comunicar e planejar suas aes.
Em relao arquitetura do agente, este possui um conjunto de crenas sobre as tarefas a se-
rem executadas, onde cada agente possui um escalonador de tarefas local. A funo do meca-
nismo de coordenao fornecer informaes ao agente, para que as tarefas sejam realizadas
de maneira adequada.
O planejamento parcial global generalizado visa abstrair a coordenao do sistema, se-
parando os processos de coordenao da programao em geral e foi estendido por (Decker e
Lesser, 1995) com cinco novas metodologias:
Comunicao de informao: para a atualizao de perspectivas no-locais, de forma
que um agente partilhe informaes relacionadas sua viso local com outros agentes,
fazendo com que estes atinjam uma viso mais completa do ambiente;
Comunicao de resultados: a troca de resultados obtidos entre agentes pode beneficiar
de forma a tornar mais eficiente a soluo de problemas ainda no resolvidos;
Tratamento de redundncia: a redundncia pode ser deliberada, preocupando-se com a
confiabilidade dos resultados obtidos entre dois ou mais agentes, porm, em geral, ela
representa um desperdcio de recursos e deve ser evitada;
Tratamento de relaes rgidas de coordenao: uma determinada ao de um agente
pode interferir diretamente em uma ao executada por outro agente. Este problema
pode ser evitado atravs do reescalonamento de aes conflituosas; e
Tratamento de relaes flexveis de coordenao: nesta forma o reescalonamento no
obrigatrio, porm pode causar interferncia na eficincia ou qualidade de execuo
das atividades realizadas pelos agentes.

Em comparao com o planejamento parcial global, o planejamento parcial global ge-
neralizado acrescenta ainda o escalonamento de tarefas com deadlines, heterogeneidade nos
agentes e comunicao a mltiplos nveis de abstrao. Estes adicionais tornam este mecanis-
mo mais flexvel e utilizvel na prtica. O mecanismo foi implementado no simulador TA-
41

EMS (Task Analysis, Environment Modeling and Simulation) (Decker e Lesser, 1993). Este
ltimo um simulador para ambientes multiagente que mostra graficamente as tarefas, os da-
dos estatsticos e as aes dos agentes presentes no sistema, permitindo modelar um tipo de
ambiente com tarefas computacionais complexas, nas quais podem ser utilizadas abordagens
baseadas em agentes. O sistema dividido em trs camadas:
i) nvel objetivo: descreve a estrutura essencial do ambiente e suas tarefas;
ii) nvel subjetivo: descreve a forma que os agentes percebem e atuam sobre o ambi
ente e;
iii) nvel generativo: so descritas as caractersticas necessrias para gerar a informa
o objetiva e subjetiva em um dado domnio (Decker e Lesser, 2003).

Neste contexto, outro modelo de coordenao proposto por (Tambe, 1997), chamado
de STEAM (Simply, a Shell for Teamwork), baseado na teoria de intenes conjuntas e na
teoria de planos conjuntos, onde consistem em coordenar agentes cujos objetivos so idnti-
cos, e que trabalham formando uma equipe para atingir o objetivo de maneira eficaz.

2.3.5 Coordenao Reativa
A coordenao reativa consiste na reao do agente a modificaes que ocorrem em
seu ambiente e na adaptao de suas aes em relao s aes dos demais agentes (Ferber,
1999). A tcnica se torna mais adequada em situaes na qual difcil prever os estados futu-
ros do ambiente, possibilitando as aes sem haver o planejamento antecipado, onde a reao
dos agentes depende apenas da percepo do ambiente (Arkin, 1990).
Brooks (1986) props a arquitetura subsumption empregada no contexto da robtica
mvel. Tal arquitetura difere de abordagens tradicionais, onde para construir um sistema de
controle de robs, realizada a diviso do controle em unidades funcionais. Dessa forma, cada
unidade est conectada a nveis vizinhos, de maneira que o sistema seja projetado de forma
completa, j que uma unidade individualmente no conseguiria realizar todas as atividades.
Portanto, quando h necessidade de inserir novas atividades, todo o projeto alterado e o con-
trole dividido em mdulos funcionais como percepo, modelagem, planejamento, execuo
da tarefa e controle dos motores (figura 2.5).

42


Figura 2.5: Diviso tradicional do sistema de controle em mdulos funcionais (Brooks, 1990)

Na arquitetura subsumption, o agente organizado como um conjunto de camadas que
representam tarefas ou comportamentos completos (figura 2.6). Alm disso, alguns compor-
tamentos podem ativar ou inibir o comportamento de camadas inferiores. Neste caso, o agente
opera em nvel baixo de abstrao, sem ter conhecimento prvio do ambiente, estabelecendo
um raciocnio lgico complexo baseado no princpio da reatividade dos agentes e na interao
entre os comportamentos locais.


Figura 2.6: Diviso do sistema em camadas de tarefas (Brooks, 1990)

A diviso em camadas de atividades permite acrescentar quando necessrio um com-
portamento, gerando uma nova camada. A inteno construir um sistema autnomo e sim-
ples, podendo ser testado em ambientes do mundo real.


Figura 2.7: O sistema pode ser particionado em qualquer nvel, e as camadas abaixo formam
um completo sistema de controle (Brooks, 1990)

43

Na figura 2.7, os nveis elevados suprimem o fluxo de dados das camadas inferiores. O
sistema pode ser separado em qualquer nvel e as camadas inferiores iro continuar formando
o sistema. Devido a essa estrutura, a arquitetura denominada de subsumption.
Brooks (1990) implementou inicialmente a arquitetura subsumption em um rob que
possua trs camadas de comportamentos e um conjunto de sonares, os quais do a medida de
profundidade a cada tempo. A camada de nvel mais baixo a camada zero, que responsvel
por evitar a coliso com obstculos. A segunda camada, camada um, faz o rob parar quando
no est evitando obstculos e a camada dois incrementa a capacidade de fazer o rob explo-
rar.
Mahadevan e Connel (1992) utilizaram a arquitetura subsumption em um rob com um
sistema de controle central, com um nmero de pequenos processos paralelos e concorrentes.
Cada um desses comportamentos usa um subconjunto de dados avaliados pelos sensores para
controlar os parmetros de sada. Nesta implementao cada camada de controle consiste de
um mdulo, que gera um comportamento especfico no rob. Um mdulo tem dois componen-
tes internos: o bloco poltica, indica o que fazer com a informao sensorial e o bloco predica-
do de aplicabilidade, informa quando realizar a ao. Para construir um sistema de controle
usando a arquitetura subsumption, as tarefas globais so divididas inicialmente em subtarefas.
Na sequncia, para cada subtarefa, dispositivos so projetados com planos de gerao de ao
e condies de aplicabilidade. Em seguida as ordens de prioridade dos comportamentos so
definidas permitindo ao sistema resolver alguns conflitos que possam existir entre as camadas.
Outro mtodo de controle e resoluo de problemas foi proposto por Ferber (1999),
onde o problema decomposto em um conjunto denominado eco-agentes. Na resoluo eco-
problema, cada eco-agente possui um objetivo a atingir um estado de satisfao e dois com-
portamentos gerais que so: de satisfao, procura atingir seu estado de satisfao e de fuga,
do agente que est agredindo. Um eco-agente apresenta quatro estados internos: i) satisfeito:
estado alcanado quando o agente atinge seu objetivo, no sendo necessria outra ao do
agente. Porm, quando atacado, o agente altera seu estado para busca de um local para fugir;
ii) busca por satisfao: o estado inicial do eco-agente. Neste estado, o agente realiza aes a
fim de alcanar seu objetivo. Um agente em busca por satisfao pode mudar tanto para satis-
feito (quando encontra um objetivo que o satisfaa) como para busca de um local para fugir
(quando outro agente o ataca); iii) busca de um local para fugir: neste estado o agente atacado
procura por um local para escapar do ataque. Aps encontrar um local de fuga, o agente altera
seu estado para fuga; e iv) fuga: ao encontrar um local para fugir, o agente deve realizar a fu-
44

ga. Aps isso, o agente agressor deve retirar o ataque e o agente agredido volta ao estado em
busca por satisfao.
O diagrama da figura 2.8 mostra os estados de um eco-agente e as possveis transies
entre eles. Cada mudana de um estado a outro corresponde s aes dos agentes (Ferber,
1999).


Figura 2.8: Diagrama do eco-agente (Ferber, 1999)

2.3.6 Coordenao por Formao de Coalizo
Em ambientes onde agentes com habilidades diferentes esto inseridos, a convergncia
pode ser demorada ou no ocorrer. Desta forma surge uma proposta interessante, formar gru-
pos de agentes (coalizo) com interesses em comum, que cooperam e compartilham conheci-
mentos para reduzir custos e atingem seus objetivos rapidamente, quando comparado com
aes individuais (Sandholm e Lesser, 1995).
Uma coalizo um grupo de agentes que decidem cooperar, a fim de executar uma ta-
refa comum (Shehory e Kraus, 1995). Os agentes podem determinar a importncia das tarefas
a executar e participar de mais de uma coalizo. Agentes membros de uma coalizo recebem
uma recompensa quando satisfazem a tarefa solicitada, onde normalmente a populao de
agentes no se altera durante a formao da coalizo.
Uma vez que o grupo de agentes apresenta interesse em comum, suas funes no am-
biente so melhor exploradas atravs da coalizo. Sichman (2003) define coalizo como uma
organizao de agentes que cooperam para resolver um determinado problema, onde as orga-
nizaes podem ser classificadas da seguinte maneira:
Esttica: o projetista do sistema tem o total controle sobre a especificao dos agentes
e a definio da organizao, visando construir um grupo capaz de resolver o problema
proposto; e
45

Dinmica: todo o processo de organizao deste grupo de agentes ocorre de forma di-
nmica, os agentes no possuem papis pr-definidos e suas funes podem variar.

A formao de coalizo um processo que deve aumentar a eficincia e adaptabilidade
s alteraes no ambiente, se exploradas as capacidades dos demais agentes que compem o
grupo. Entretanto, este processo acaba formando dependncias entre os agentes, o que dificul-
ta a alterao de planos individuais (Mrida-Campos e Willmott, 2004).
Quando uma coalizo formada, os agentes devem se coordenar distribuindo tarefas e
sincronizando suas aes, de modo que suas atividades sejam realizadas pouco a pouco, at
alcanar o objetivo global do grupo. Assim que a organizao de agentes tenha alcanado a
soluo do problema proposto, esta formao desfeita, e os integrantes desta estaro dispo-
nveis para participar de outros grupos (Sichman, 2003). Esse autor props um modelo de coa-
lizes baseadas em dependncia, o qual visa formar organizaes de forma dinmica, baseado
na teoria do poder social, que utiliza o conceito de relaes de dependncia. Neste modelo,
antes que os agentes possam iniciar suas atividades dentro de uma coalizo, precisam realizar
uma espcie de apresentao, para que tanto o novo integrante, quanto os demais componentes
do grupo conheam as habilidades que cada agente possui. O mesmo ocorre quando um agen-
te decide sair de uma sociedade.
Um dos problemas com tcnicas de formao de coalizo est relacionado ao nmero
exponencial de coalizes candidatas. Abdallah e Lesser (2006) desenvolveram um algoritmo
distribudo que retorna uma soluo em tempo polinomial, garantindo a qualidade desse retor-
no e aumentando o ganho dos agentes. A soluo utiliza fundamentos de organizao para
guiar o processo da formao da coalizo. Para isso, so usadas tcnicas de aprendizagem por
reforo para otimizar as decises de alocao local feita pelos agentes da organizao. Na de-
finio do problema, o tempo de uma tarefa dividido em episdios. Ao iniciar cada episdio,
cada agente recebe uma sequncia de tarefas. Assim que uma tarefa alocada a uma coalizo,
os agentes pertencentes coalizo no podem ser alocados para outras tarefas at o final do
episdio. Ao final do episdio, os agentes so liberados e podem ento ser alocados para a
prxima sequncia de tarefas. Resultados experimentais mostram o potencial da tcnica, veri-
ficando a escalabilidade e o nmero de troca de mensagens.
Mrida-Campos e Willmott (2004) utilizam formao de coalizo que combina fun-
damentos da teoria dos jogos para cobrir casos onde a populao de agentes deve resolver
problemas dinmicos. O mtodo pode levar a uma sequncia iterativa de coalizes, sendo que
os resultados experimentais mostram como coalizes fortes podem surgir ao longo o tempo,
46

mesmo com estratgias simples. Alm disso, a utilidade das coalizes proporcional ao valor
de centralidade e relevncia de seus membros para a comunidade.

2.3.7 Otimizao Distribuda de Restrio para Coordenao de Sistemas Multiagentes
A otimizao distribuda de restrio est baseada em tcnicas de coordenao que vo
alm da busca por solues satisfatrias ou de simples mtodos de otimizao (Lesser et al.
2003). Em otimizao por restrio, cada restrio do problema caracterizada como uma
funo de otimizao (ou funo de custo). Desta forma, o mecanismo de busca em um pro-
blema de otimizao distribuda de restrio preocupa-se em encontrar valores para as vari-
veis de modo a otimizar as funes de custo, proporcionando garantia de qualidade para as
solues encontradas (Lesser et al. 2003).
Um problema de otimizao distribuda de restrio composto por n variveis V=
{v
1
,v
2
,...,v
n
}, no qual cada varivel est associada a um agente x
i
. Por sua vez, uma varivel
contm um domnio finito e discreto, D
1
,D
2
,...,D
n
, respectivamente. Apenas o agente x
i
ca-
paz de atribuir valores para a varivel v
i
e conhecer o domnio D
i
. Cada agente deve escolher
um valor d
i
para sua varivel, tal que v
i
D
1
. Portanto, a coordenao deve permitir a escolha
dos valores para as variveis de modo a minimizar uma dada funo objetivo global definida
para o problema (Modi et al. 2005).
O conceito de restrio no problema da otimizao distribuda de restrio denomi-
nado como funo de custo. A funo de custo para um par de variveis x
i
e x
j
dada por f
ij
:D
i
x D
j
N. Dois agentes x
i
e x
j
so vizinhos em um grafo de restries quando existir alguma
restrio entre eles. Deste modo, o problema da otimizao distribuda de restrio deve ento
encontrar um conjunto: } ..., , , | ,..., , { *
2 2 1 1 2 1 n n n
D d D d D d d d d A = de atribuies para
as variveis, de modo que o custo F acumulado seja mnimo (Mailler e Lesser, 2004). A fun-
o objetivo global F definida na equao 2.1:

=
V x x
j j i i j i ij
j i
emA d x d x onde d d f A F
,
, , ), , ( ) (

(2.1)

Os mtodos para resoluo da otimizao distribuda de restrio podem ser divididos
em duas categorias: sncronos e assncronos. Entretanto, os mtodos sncronos so dispendio-
sos, no sentido que os agentes devem aguardar at o recebimento de uma mensagem particular
para continuar a processar (Modi et al. 2005). Tal caracterstica onera o desempenho da busca,
devido ao fato de no ser possvel explorar as vantagens do processamento paralelo ao distri-
47

buir o problema. Em contrapartida, em mtodos assncronos os agentes devem ser capazes de
tomar suas aes com base em suas vises locais do problema, o que aumenta a complexidade
do mecanismo de busca. Em funo do desempenho dos mtodos sncronos, esta subseo
aborda com maior nfase os algoritmos de busca assncrona.
Um dos principais algoritmos para resoluo da otimizao distribuda de restrio o
Asynchronous Distributed Constraint Optimization (ADOPT), proposto por (Modi et al.
2005). O ADOPT foi o primeiro algoritmo assncrono completo a oferecer garantia de quali-
dade aliado a um mtodo de busca assncrono. Portanto, o ADOPT capaz de encontrar solu-
es timas usando comunicao assncrona e localizada entre os agentes (apenas entre os
agentes vizinhos).
No ADOPT os agentes devem ser priorizados em uma estrutura de pseudo-rvore. Por
meio desta ordem de prioridade, o ADOPT executa uma busca em profundidade por backtrac-
king distribudo usando uma estratgia oportunista, isto , cada agente mantm a escolha do
melhor valor baseado em sua viso local. Deste modo, uma rotina de pr-processamento
necessria para transformar o grafo de restries do problema em uma estrutura de pseudo-
rvore. A figura 2.9 ilustra um exemplo de uma pseudo-rvore gerada a partir de um grafo de
restries.



Grafo de restries (a) Pseudo-rvore (b)
Figura 2.9: Pseudo-rvore gerada a partir de um grafo de restries (Modi et al. 2005)

O grafo apresentado na figura 2.9 cclico. Uma das alternativas para eliminar os ci-
clos do grafo e consequentemente facilitar o processo de busca transform-lo em uma pseu-
do-rvore. Por definio, uma pseudo-rvore semelhante a uma rvore tradicional, porm,
cada n pode estar conectado a mltiplos ns de maior hierarquia. Contudo, apenas um dos
ns de maior hierarquia definido como pai, enquanto os demais ns de maior hierarquia so
denominados pseudo-pais. A figura 3.9 (b) ilustra o exemplo de uma pseudo-rvore, onde as
linhas contnuas representam as ligaes entre pai e filho e as linhas pontilhadas representam
as ligaes entre pseudo-pai e pseudo-filho. Maiores detalhes do algoritmo ADOPT podem ser
encontrados em (Modi et al. 2005). Alm disso, uma grande variedade de algoritmos para
48

problemas da otimizao distribuda de restrio foram propostas. Dentre estes podemos citar
Dynamic Programming OPtimization (DPOP) e suas variantes (Petcu e Faltings, 2005) e ou-
tros algoritmos como o Optimal Asynchronous Partial Overlay (OptAPO) (Mailler e Lesser,
2004) e o No-Commitment Branch and Bound (NCBB) (Chechetka e Sycara, 2006).
Alm dos mtodos descritos anteriormente, possvel encontrar na literatura outros
mtodos menos explorados de coordenao com diferentes abordagens. Dentre estes podemos
citar:

Coordenao Look-Ahead: visa aumentar a visibilidade global dos agentes e fornecer
informaes para tomada de decises, j que os agentes necessitam coordenar suas a-
es constantemente, a fim de completar suas tarefas e melhorar o desempenho do sis-
tema. O escalonamento das operaes realizado pelos agentes atravs de um algorit-
mo simples baseado em regras de prioridade, que indicam as operaes que esperam
por execuo. Cada tarefa completada pela execuo das operaes pelos agentes.
Esse mtodo foi usado por (Liu e Sycara, 2001).
Coordenao por Pontos Focais: coordenao baseada em interaes humanas livre
de comunicao, abordando os pontos focais como uma heurstica para a coordenao
em ambientes reais (Fenster e Kraus, 1998). Um exemplo de sucesso na aplicao des-
ta abordagem a coordenao de escolhas comuns entre agentes em simulaes (dois
agentes escolherem o mesmo objeto em um ambiente sem comunicao). Algoritmos
de pontos focais so capazes de identificar, em um ambiente, objetos com proprieda-
des diferentes dos demais e de fornecer formas de escolha destes objetos pelos agentes;
e
Coordenao por Matriz de Possibilidades: a coordenao requer que um agente re-
conhea o estado corrente do ambiente e modele as aes dos outros agentes para de-
cidir seu prprio comportamento (Noh e Gmyrasiewicz, 1997). Nesta abordagem, cada
agente independente para tomar decises e executar suas aes, sendo que a coorde-
nao entre os agentes emerge como resultado das aes dos agentes individuais. No
h comunicao entre os agentes e utilizado o mtodo de modelagem recursiva
(Gmytrasiewicz e Durfee, 1995).

Na prxima seo, apresentada uma avaliao dos principais mtodos de coordena-
o a partir de critrios e abordagens encontradas na literatura.

49

2.4 Critrios de Anlise e Comparao para Coordenao
Alm das tcnicas de coordenao citadas, h ainda diversas outras tcnicas de coor-
denao para sistemas multiagentes citadas por (Jennings, 1996; Nwana et al. 1996; Ossowski
1999; Ferber, 1999) menos estudadas. Comparar tcnicas de coordenao uma tarefa com-
plexa, devido quantidade de critrios que devem ser considerados ao longo do processo da
anlise. Os seguintes critrios podem ser utilizados neste sentido (Frozza e Alvares, 2002):
Preditividade: capacidade de determinar o estado futuro do ambiente e dos agentes;
Adaptabilidade: capacidade de adaptar-se a eventos ou a situaes inesperados;
Controle das aes: centralizado ou distribudo;
Modo de comunicao: forma dos agentes tomarem conhecimento das aes dos ou-
tros agentes. Pode ser via interao, percepo, sem comunicao direta ou com co-
municao direta;
Tipo de troca de informao: informao manipulada e trocada entre os agentes para
que se efetue a coordenao; til para aplicaes que tratam da elaborao de planos
de ao;
Aplicaes a que se destinam: adaptveis a qualquer domnio (caracterstica que tende
a ser menos eficaz) ou adaptveis a certos domnios especficos;
Vantagens da abordagem de coordenao utilizada;
Desvantagens da abordagem de coordenao utilizada;
Escalabilidade: quantidade de esforo computacional necessrio medida que a com-
plexidade do ambiente aumenta.

Esses critrios contriburam para a escolha dos mtodos de coordenao empregados
no domnio da aplicao do trabalho em questo. Em funo das caractersticas e do objetivo
da aplicao a ser desenvolvida, uma anlise das questes que envolvem a coordenao pode
contribuir para melhorar o desempenho dos agentes durante a resoluo das tarefas.
Os itens I ao IV apresentam a avaliao dos principais mtodos de coordenao descri-
tos neste trabalho, considerando os critrios apresentados nesta seo.

I. Formao de Coalizo
Avaliao dos mtodos por planejamento e sincronizao.

50

Vantagens: atravs da formao de grupos de agentes com interesses em comum,
possvel combinar as capacidades complementares de cada agente, pois estaro atuan-
do de forma conjunta em busca de um objetivo especfico. Portanto, h o aumento da
eficincia de execuo em tarefas de grupo. Utiliza ideia de utilidade para agentes e
para as coalizes.
Desvantagens: um agente tende a ficar dependente de vrios outros agentes presentes
em seu grupo. Desta forma, suas aes estariam comprometidas e a alterao de planos
individuais se torna uma opo pouco vivel, pois pode afetar todo o andamento do
grupo. Ademais, o nmero de possveis coalizes entre agentes cresce de forma expo-
nencial, necessitando de alguma estratgia de controle.
Escalabilidade: a quantidade de dados pode ser bem elevada, tornando vivel a pre-
sena de diversos agentes com caractersticas distintas, distribudos entre vrios grupos
formados por indivduos com interesses em comum. A quantidade de informao
transmitida entre indivduos e a quantidade de coalizes candidatas pode inviabilizar o
sistema para um nmero elevado de agentes.
Preditividade: no ocorre.
Adaptabilidade: os agentes podem se associar a diferentes grupos de uma forma di-
nmica. Desde que estes grupos tenham indivduos em busca de um objetivo pelo qual
as aes deste agente podem ser proveitosas. Os agentes adaptam-se a tarefas que vari-
am constantemente.
Controle de aes: distribudo entre os agentes que formam a coalizo, os quais de-
terminam um tipo de escalonamento de atividades, sincronizando aes deste grupo a
fim de alcanar o objetivo global do mesmo.
Modo de comunicao: os agentes trocam informaes atravs de mensagens, as
quais devem seguir um padro que seja adotado por todos os membros da equipe..
Troca de informaes: as mensagens podem ser interessantes quando um agente ofe-
rece uma informao til para que outro agente modifique seus planos de forma a al-
canar seus objetivos mais rapidamente. Podem trocar informaes para elaborao de
planos.
Aplicaes: ambientes de execuo de tarefas.

II. Planejamento
51

Avaliao do planejamento global parcial e planejamento global parcial generalizado,
comparando os mtodos de coordenao por planejamento e sincronizao.

Vantagens: Atravs de um planejamento antecipado, as aes executadas pelos agen-
tes tendem a ser mais eficientes, pois desta forma estaro evitando atividades redun-
dantes e estaro sempre ativos, reduzindo consideravelmente o tempo ocioso. Inde-
pendncia de uso dos mecanismos de coordenao.
Desvantagens: em ambientes dinmicos o custo para a elaborao de planos e a esco-
lha destes pode ser elevado, afetando diretamente no desempenho do sistema.
Escalabilidade: devido ao alto custo para o processamento de planos parciais e glo-
bais, a quantidade de agentes deve ser moderada, a fim de evitar gargalos na execuo
do sistema.
Preditividade: no ocorre.
Adaptabilidade: no aborda.
Controle de aes: distribudo entre os agentes. O pgplanner especifica os planos pe-
los quais cada agente deve executar, tornando o controle de aes centralizado.
Modo de comunicao: podem adotar o modelo de comunicao blackboard, onde
cada agente deposita suas percepes, resultados obtidos e conhecimento sobre o am-
biente, que estar disponvel para todos os demais agentes, facilitando na alterao de
planos parciais, elevando as chances de obter sucesso ao alcanar um determinado ob-
jetivo.
Troca de informaes: atravs da troca de informaes, os agentes podem alterar seus
planos parciais. Trocam informaes para realizar o escalonamento de tarefas.
Aplicaes: Diferentes aplicaes, que envolvem escalonamento de tarefas.

III. Coordenao Reativa
Avaliao dos mtodos que utilizam algoritmos baseados em recompensas e colnia de
formigas.

Vantagens: a utilizao de agentes reativos se torna interessante em contextos dinmi-
cos, onde h uma grande dificuldade em antecipar as mudanas no ambiente.
Desvantagens: dificuldades em alcanar tarefas coletivas de longo prazo e com alto
nvel de abstrao. No tem capacidade de planejar sobre eventos futuros.
52

Escalabilidade: diversos agentes podem ser necessrios para lidar com problemas di-
nmicos. Os agentes so geralmente simples e exigem pouco recurso localmente.
Preditividade: no ocorre.
Adaptabilidade: por se tratar de agentes que reagem a alteraes no ambiente, eles
possuem um alto grau de adaptabilidade.
Controle de aes: o controle de aes totalmente baseado em suas percepes lo-
cais sobre o problema.
Modo de comunicao: atravs de marcaes que os agentes podem deixar no ambi-
ente, permitindo aos demais agentes utiliz-las como referncia para encontrar mais
facilmente a resposta para evitar conflitos e melhorar a utilizao dos recursos.
Troca de informaes: no h troca de informaes.
Aplicaes: diferentes aplicaes, que envolvem ambientes dinmicos cuja preditivi-
dade seja praticamente inexistente.

IV. Otimizao Distribuda de Restrio
Avaliao dos mtodos de coordenao reativa e regulamentao.

Vantagens: atravs da eliminao de resultados menos eficientes, em conjunto com as
restries impostas possvel traar um conjunto de possveis solues timas para o
problema, e desta forma tornar a busca pelo melhor resultado mais fcil.
Desvantagens: a falta de mecanismos de preditividade e a dificuldade de modelagem.
Escalabilidade: em ambientes dinmicos onde a busca pela melhor soluo exige que
todos os agentes estejam constantemente alterando o valor de suas variveis, o nmero
de agentes deve ser moderado, para que no ocorram problemas com o desempenho do
sistema.
Preditividade: no ocorre.
Adaptabilidade: em contextos dinmicos, podem ocorrer constantemente variaes
nos valores de restries, o que exige que os agentes se adaptem a essas regras.
Controle de aes: ocorre atravs da eliminao de resultados no-satisfatrios, sem-
pre respeitando as restries impostas pelo sistema.
Modo de comunicao: alterao de valores atribudos s variveis.
53

Troca de informaes: os agentes trocam informaes apenas com seus vizinhos (pai
e filhos). Algoritmos diferem quanto ao tipo de informao trocada, informao local
ou global.
Aplicaes: domnios cujo objetivo principal seja a otimizao de resultados.

possvel observar que diferentes mtodos de coordenao podem ser aplicados em
sistemas multiagentes. Cada mtodo possui caractersticas especficas com relao s caracte-
rsticas dos agentes, aes, maneira de comunicao, e que podem influenciar no desempenho
do mtodo de coordenao utilizado.
Observa-se que os mtodos de coordenao podem ser combinados ou associados a
outras tcnicas na resoluo de problemas, com o objetivo de atingirem a eficincia na execu-
o das aes de forma coordenada pelos agentes envolvidos. Aps anlise, algumas observa-
es foram levantadas:
Com a abordagem da coordenao sem comunicao, as escolhas das aes a serem
executadas pelos agentes podem depender do conhecimento obtido com o ambiente e
pelo uso da abordagem de pontos focais;
Com a abordagem da coordenao com comunicao, as informaes trocadas entre os
agentes so a base para que a coordenao ocorra de maneira eficiente;
Poucas formas de coordenao se preocupam apenas com a resoluo de conflitos, o
que pode influenciar negativamente a atuao dos agentes e a resoluo das tarefas; e
Os mtodos e as abordagens de comunicao apresentados no abordam a questo do
aprendizado. O aprendizado uma tendncia que pode trazer benefcios para a atuao
coordenada dos agentes, principalmente em ambientes dinmicos, onde o tempo para
tomada de deciso de aes a serem executadas pode afetar o desempenho e os resul-
tados do sistema.

2.5 Consideraes Finais
Observou-se neste captulo que no h uma definio universalmente aceita na literatu-
ra para o termo agente. Agentes so capazes de atuar de maneira autnoma em um ambiente
em comum, adaptando-se s tarefas para os quais foram designados, a fim de satisfazer os
objetivos estabelecidos. Os termos autonomia e adaptao so as caractersticas mais impor-
tantes dos agentes. Autonomia a capacidade de um agente executar o controle sobre suas
prprias aes, e adaptao a capacidade de melhorar seu comportamento em funo de ex-
54

perincias anteriores. Essas caractersticas so encontradas em agentes conhecidos como aut-
nomos adaptativos. A aprendizagem de um agente pode ser realizada atravs de tentativa e
erro ao atuar sobre um ambiente. Assim, a fonte de aprendizagem do agente a prpria expe-
rincia, cujo objetivo formal adquirir uma poltica de aes que maximize a funo objetivo.
Foram discutidos diversos mtodos de coordenao para agentes e observado que a
aplicao de agentes de aprendizagem no problema de coordenao de sistemas multiagente
tem se tornado cada vez mais frequente e necessrio. H diferentes critrios para selecionar
um mtodo de coordenao e a escolha depende das caractersticas e do objetivo da aplicao.
Isso ocorre porque a adaptao dos modelos de coordenao geralmente necessria em pro-
blemas complexos, eliminando e/ou reduzindo deficincias dos mecanismos de coordenao
tradicionais, tais como escalabilidade, preditividade, comunicao e adaptabilidade. Nessas
condies, a coordenao o ato de gerenciar dependncias entre atividades. Estas dependn-
cias podem aumentar, como consequncia de atividades sendo executadas em um mesmo am-
biente, e podem ocorrer naturalmente quando os agentes esto em um ambiente comum e
compartilham recursos.
No captulo seguinte so apresentados os conceitos da teoria das redes sociais e fun-
damentos matemticos da teoria dos grafos. Discutimos ainda a relao das redes sociais e dos
sistemas multiagente na construo de estruturas sociais. Nesse captulo ser mostrado como
esses conceitos podem contribuir para a gerao de modelos de coordenao baseados em
algoritmos de colnia de formigas ou aprendizagem por reforo que melhoram o comporta-
mento dos agentes ao longo do processo de interao.


55

Captulo 3
Teoria das Redes Sociais
Foram apresentados no captulo 2 diversos mtodos de coordenao para sistemas
multiagentes. No captulo 4 mostrado como algoritmos baseados em populao constituem
uma forma coletiva de coordenao para sistemas multiagentes, onde a partir das recompensas
sociais os indivduos melhoram o comportamento do grupo reforando as relaes existentes
entre os estados do sistema.
Neste captulo so apresentados os principais conceitos das redes sociais. As redes so-
ciais fornecem ferramentas que permitem analisar as redes de relacionamentos construdas ao
longo do processo de interao dos agentes, identificando indivduos relevantes e as relaes
mais frequentes que interferem no processo de coordenao quando recompensas so compar-
tilhadas.
Mtodos de inteligncia de enxames, aprendizagem por reforo e os modelos de sis-
temas sociais esto baseados em princpios muitas vezes complementares, possibilitando ob-
servar o impacto das relaes estabelecidas atravs da aplicao da teoria das redes sociais na
adaptao de mtodos de coordenao baseados em recompensas. Acredita-se que com os
conceitos da anlise das redes sociais, a estrutura social construda a partir das interaes pode
melhorar a coordenao dos indivduos de um sistema.
As redes sociais foram inicialmente analisadas pela sociologia, psicologia social e an-
tropologia, onde os atributos observados a partir dos grupos sociais (movimentos sociais, gru-
pos tnicos, grupos de empresas ou naes) eram representados em termos de ligaes entre
os indivduos da rede (Freeman, 1996). As conexes entre os indivduos so o foco primrio e
os atributos dos focos secundrios (Wasserman e Faust, 1994).
O socilogo Jacob L. Moreno considerado pioneiro da utilizao de redes sociais. No
artigo Who shall survive?, publicado em 1934, Moreno props os sociogramas e as socio-
56

matrizes, utilizadas para representar o relacionamento entre crianas (quem interagia com
quem) (Moreno, 1978). A antropologia e sociologia utilizaram redes sociais para mapear rela-
es familiares durante estudos de campo, estabelecendo laos quando interagiam.
Granovetter em 1973 diferenciou essas relaes como: fortes, ausentes e fracas; mos-
trando aos socilogos a importncia das relaes fracas, devido sua importncia de ligao
entre os elementos da rede social que no esto conectados diretamente, originando o conceito
de ponte. O elemento que faz a ponte responsvel pelo relacionamento entre os subgrupos da
rede, portanto, o elemento ponte est fortemente conectado a um grupo que interage com um
elemento de outro grupo (Grosser, 1991).
As metodologias para anlises das redes sociais comearam a avanar com o desen-
volvimento das ferramentas matemticas e o uso da computao. Atualmente, possvel en-
contrar o uso dos conceitos de redes sociais em diversas reas, como: computao, matemti-
ca, fsica, economia, cincias sociais e da informao, sade pblica, biologia, antropologia,
sociologia, psicologia, entre outros, aplicados em diferentes domnios, como a Internet, dis-
seminao de vrus, movimentos sociais, redes de terrorismos, importncia dos indivduos
para uma organizao, estudos epidemiolgicos, relacionamentos, modelos de disseminao e
marketing de produtos, etc.

3.1 Definies de Redes Sociais
Uma das primeiras definies de redes sociais foi descrita por James Clyde Mitchell
em 1969, que definiu as redes sociais como um tipo especfico de relao que ligam um con-
junto de objetos ou acontecimentos (Mitchell, 1969). As redes sociais seriam parte integrante
da sociedade humana, e poderiam ser usadas para explicar por que a sociedade funciona de tal
maneira.
Uma rede social consiste em um conjunto de ns (atores, indivduos, elementos, esta-
dos)
1
e as ligaes (conexes ou laos) entre eles (Wasserman e Faust, 1994). Os ns podem
representar pessoas, entidades, organizaes, sistemas, elementos computacionais, etc., que
podem ser analisados individualmente ou coletivamente, observando a relao entre eles. Um
dos objetivos compreender o impacto social dos ns atravs de suas conexes, na formao
da estrutura da rede. Esse estudo realizado com as mtricas da anlise de redes sociais.

1
O termo n pode ser adequado conforme o domnio da aplicao. Em algoritmos de aprendizagem por reforo e
colnia de formigas o termo n pode ser chamado de estado e a ligao entre eles chamada de relao.
57

Na anlise de redes sociais os ns esto relacionados por laos, responsveis por esta-
belecer a ligao entre pares ou grupos de ns. Os laos fortes indicam relaes consistentes
entre os ns, e laos fracos tm a funo de ligar partes da rede que no esto ligadas direta-
mente pelos laos fortes. Essa conexo d origem ao conceito de ponte (Granovetter, 1973).
Dessa forma, o n que faz a ponte o responsvel pela ligao entre os subgrupos da rede.
H vrias definies e anlises matemticas que envolvem os elementos que compe
uma rede social, tais como: grafos direcionados, subgrafo, clique, cutpoint, distncia geodsi-
ca, tamanho do caminho, ponte, dade, trade, grau do n, medidas de centralidade e prestgio.
Ao longo deste trabalho, tais elementos so descritos e oportunamente mencionados quanto
utilidade observada para algoritmos de otimizao.
Quando ocorre a ligao entre dois e trs ns formam-se unidades de anlise, denomi-
nados de dade e trade respectivamente. A anlise de dades procura identificar se a ligao
entre os ns recproca. Com as trades pode-se observar a transitividade, analisando o balan-
o ou equilbrio estrutural da rede. Um subgrupo um subconjunto de ns e possveis liga-
es. Um clique um subgrupo no qual cada n tem ligaes com todos os demais, sem haver
outros ns que tenham conexes com todos os ns do clique. Um grupo um conjunto finito
com todos os ns para os quais os laos foram mensurados.
Redes sociais podem ser formalizadas e analisadas com a teoria dos grafos, onde fun-
damentaes matemticas so utilizadas para compreender os elementos e mtodos. Para per-
mitir a visualizao e anlises numricas, h disponvel vrios sistemas computacionais para
anlise dos dados das redes sociais. Tais indicaes so descritas nas prximas sees.

3.1.1 Classificao das Redes Sociais
Recentemente, novos modelos de redes foram desenvolvidos na tentativa de capturar
as propriedades observadas nas redes do mundo real. Esses modelos incluem redes do mundo
pequeno (Milgram, 1967) e redes de livre escala (Barabsi et al. 2000). Alm desses modelos,
h os grafos regulares e grafos aleatrios, tipicamente usados para estudar os sistemas sociais.
Grafos aleatrios foram inicialmente apresentados por Erds e Rnyi em 1960, mos-
trando os princpios da formao de redes sociais (Erds e Rnyi, 1960). Um grafo aleatrio
G
N,p
consiste de N ns que esto conectados aleatoriamente, onde p denota a probabilidade de
existir uma ligao entre um par de ns escolhido aleatoriamente. Grafos aleatrios so am-
plamente estudados, pois muitas de suas propriedades podem ser analiticamente computadas.
Por exemplo, o nmero mdio de ligaes no direcionadas em G
N,p
N(N1)p/2, e o grau
mdio do n k=p (N1) pN.
58

Erds e Rnyi exemplificam que uma nica conexo entre cada um dos convidados de
uma festa faria com que todos estivessem conectados ao final da mesma. Assim, quanto mais
conexes fossem adicionadas, maior seria a probabilidade de gerar grupos. Dessa forma, uma
festa poderia ser um conjunto de grupos, que estabelecem relaes aleatrias com os demais.
Para Erds e Rnyi a relao entre os convidados acontece de maneira aleatria, ou seja, o
processo de formao dos grafos aleatrio. Assim, concluram que todos os ns, em uma
determinada rede, deveriam ter mais ou menos a mesma quantidade de conexes, ou a mesma
probabilidade de receber novas conexes, constituindo-se como redes igualitrias (Barabsi,
2003a).
O modelo de rede de mundos pequenos uma tentativa de introduzir mais agrupamen-
tos na rede e computar o comprimento mdio dos caminhos (Watts e Strogatz, 1998). A prin-
cipal observao que as redes do mundo pequeno possuem propriedades identificadas em
redes regulares e grafos aleatrios. Um exemplo uma rede na forma de anel, onde cada n se
conecta aos ns mais prximos. A caracterstica chave que para qualquer vizinhana, a mai-
oria dos ns estar conectada a outros agrupamentos.
Uma maneira para diminuir o comprimento mdio do caminho usar uma probabili-
dade para ligaes aleatrias, resultando em conexes shortcut atravs do grafo, conforme
figura 3.1. O parmetro p usado para determinar se uma ligao substituda por um short-
cut. possvel observar que na construo de uma rede mundo pequeno o grafo pode tornar-
se desconectado. Quando as arestas so substitudas por shortcuts com probabilidade p= 1 o
grafo ser aleatrio.


(a) p=0.0 (b) p=0.1 (c) p=0.3
Figura 3.1: Redes do mundo pequeno, onde: a) rede sem ligaes shortcut; b) rede com pou-
cas shortcut; e c) mundo pequeno com muitos shortcuts, semelhante a um grafo quase com-
pleto (Gaston e DesJardins, 2005)

O modelo de rede de mundos pequenos foi usado por Milgram na dcada de 60, na in-
teno de observar o grau de separao entre as pessoas (Milgram, 1967; Watts, 2003). Para
isso, ele enviou de maneira aleatria uma determinada quantidade de cartas para algumas pes-
soas. A mensagem explicava que a carta deveria ser entregue para uma pessoa especfica. Ca-
59

so no o conhecessem, deveriam ento direcionar a carta para uma pessoa que acreditassem
conhecer o destinatrio. Com o experimento, observou-se que as cartas chegariam ao destina-
trio passando por uma quantidade pequena de pessoas. Isso indicou que as pessoas estariam a
poucos graus de separao, o que se denominou de mundo pequeno.
Isso mostra a importncia do trabalho de (Granovetter, 1973), mostrando que pessoas
com pouco relacionamento, chamados de laos fracos, eram muito mais importantes na manu-
teno da rede social, do que pessoas com forte relacionamento, chamados de laos fortes,
pois conectariam as pessoas a outros grupos sociais. Dessa forma, as redes sociais no so
aleatrias, pois existe alguma ordem na formao de sua estrutura (Watts, 2003).
A partir de tais experimentos e teorias, Watts (2003), e Watts e Strogatz (1998), des-
cobriram que as redes sociais apresentavam padres altamente conectados, tendendo a formar
pequenas quantidades de conexes entre cada pessoa. O modelo de Watts e Strogatz especi-
almente adaptado s redes sociais e mostram um modelo mais prximo da realidade. Em larga
escala, essas conexes mostram a existncia de poucos graus de separao entre as pessoas.
Eles criaram um modelo semelhante ao de Erds e Rnyi, onde os laos eram estabelecidos
entre as pessoas mais prximas e alguns laos estabelecidos de modo aleatrio entre algumas
pessoas, mostrando uma rede como um mundo pequeno (Watts, 2003).
Apesar de estabelecer certos padres, Milgram (1967) e mais tarde Watts (1999), as-
sumiam as redes sociais como redes aleatrias, como Erds e Rnyi. Por sua vez, Barabsi
(2000) demonstrou que as redes no so formadas de modo aleatrio, mas que existe uma or-
dem na dinmica de estruturao. Este padro de estruturao foi identificado por Barabsi,
mostrando que quanto mais conexes um indivduo possui, maior a probabilidade de ter novas
conexes, conceito conhecido como ricos ficam mais ricos. Isso implicaria que as redes no
seriam constitudas de ns igualitrios, ou seja, com a possibilidade de haver uma distribuio
uniforme do nmero de conexes. Ao contrrio, em tais redes haveria poucos ns com muitas
conexes (hubs), e muitos ns com poucas conexes. Portanto, os hubs seriam os ricos, que
tem maior probabilidade de receber mais conexes. Redes com essas caractersticas foram
denominadas de redes livres de escala (Barabsi e Bonabeau, 2003b).
Um modelo de rede livre de escala motivado pela distribuio de grau da Internet e a
WWW (Barabsi, 2002), onde h poucos sites com muitas ligaes e muitos sites com poucas
ligaes. O modelo de Barabsi segue esse exemplo. J o modelo de Watts e Strogatz tem um
grau de conectividade parecido com os grafos aleatrios de Erds e Rnyi, onde os ns possu-
em uma quantidade semelhante de ligaes. Alm disso, os modelos livres de escala so utili-
60

zadas para a modelagem de redes que possuem tamanho varivel, ou seja, um nmero indefi-
nido de indivduos pode ser adicionado na rede gradualmente.

3.2 Fundamentos Matemticos e a Teoria dos Grafos
Seja V um conjunto finito e no vazio de ns, e E uma relao binria sobre V. O par
ordenado (v,w) E, (ou simplesmente vw), onde v, w V, representado por uma linha li-
gando v a w. Tal representao de um conjunto V e a relao binria G=(V,E) sobre o mesmo
denominada grafo (West, 2001).
Os elementos de V so denominados vrtices (ns, pontos), e os pares ordenados de E
so denominados de arestas (ligaes, linhas ou arcos do grafo). Uma aresta dita incidente
com os vrtices que ela liga. Uma aresta incidente a um nico vrtice denominada um lao.
Dois vrtices so adjacentes, se eles esto ligados por uma aresta. Um vrtice dito isolado se
no existe aresta incidindo sobre ele.
A figura 3.2 mostra uma representao geomtrica do grafo G=(V,E) onde v
5
um
vrtice isolado e a aresta (v
1
, v
1
) um lao.


Figura 3.2: V = {v
1
, v
2
, v
3
, v
4
, v
5
} e E = {v
1
v
2
, v
1
v
3
, v
2
v
4
, v
3
v
4,
v
1
v
1
}

O cardinal |V| = n a ordem de G, adotando-se |E| = m, sem designao especfica.
Duas arestas que incidam sobre o mesmo vrtice so ditas adjacentes. Se existem duas
arestas e
i
= (v,w) e e
j
= (v,w), ento diz-se que e
i
e e
j
so arestas paralelas (figura 3.3).




V = {x, y, z, v, w}
E = {xy, xv, yv, yw, vw, vw, zw}

Figura 3.3: As arestas dos vrtices v e w so paralelas

61

Se um grafo possui arestas paralelas, ento este grafo denominado de multigrafo. Ca-
so contrrio, diz-se que o grafo simples. Um grafo simples, em que cada par distinto de vr-
tices adjacente, denominado grafo completo. O grafo completo de n vrtices usualmente
representado por K
n
. Todo grafo completo de n vrtices possui
(

=
2
n
m arestas.
Um grafo G dito complementar de G se possui a mesma ordem de G, e se uma ares-
ta (v
i
, v
j
) G ento (v
i
, v
j
) G . Se G=(V
1
V
2,
E) tal que V
1
V
2
= e toda aresta (v
i
, v
j
)
E
,
tem-se que v
i
V
1
e v
j
V
2
, ento o grafo denominado grafo bipartite e denotado por
K
r,s
, onde |V
1
| = r e |V
2
| = s.
Um grafo dito dirigido (ou dgrafo), se suas arestas possuem orientao, caso contr-
rio o grafo no dirigido. Um grafo no dirigido uma representao de um conjunto e uma
representao simtrica binria sobre esse conjunto. Em um grafo no dirigido, uma aresta
ligando dois vrtices v e w pode ser representada por (v,w) ou (w,v) indistintamente, diferen-
temente de um dgrafo.
Desde que grafos podem ser usados para representar uma classe muito geral de estrutu-
ras, a teoria dos grafos uma importante rea de estudo na matemtica combinatria. Por e-
xemplo, considerando a transmisso de quatro mensagens, a, b, c e d, atravs de um canal de
comunicao, onde o destinatrio receber as quatro mensagens correspondentes a, b, c e
d. Devido interferncia de rudos no canal de comunicao, uma mensagem pode chegar
errada ao destinatrio. A relao entre mensagens transmitidas e recebidas pode ser represen-
tada por um dgrafo, conforme figura 3.4 (a). Pode-se observar que a ou b ser recebido
quando a for transmitido, b ou c ser recebido quando b for transmitido e assim sucessiva-
mente (Rabuske, 1992).


(a) (b)
Figura 3.4: Grafos isomorfos

O grafo da figura 3.4 (a) pode ser desenhado de diferentes formas, sendo uma delas
mostrada na figura 3.4 (b). Esses grafos so denominados isomorfos (Roberts, 1984). Dois
grafos so isomorfos se for possvel fazer coincidir, respectivamente, os vrtices de suas re-
62

presentaes grficas, preservando as adjacncias das arestas. Formalmente pode-se dizer que
G
1
=(V
1
, E
1
) e G
2
=(V
2
, E
2
) so isomorfos se satisfazerem as seguintes condies: i) |V
1
|=|V
2
| =
n; e ii) existe uma funo biunvoca f:V
1
V
2
, tal que (v,w) E
1
(f(v),f(w)) E
2
v,w
E
1.

Um grafo G=(V, E) um subgrafo de G=(V,E), se V for subconjunto de V e E um
subconjunto de E. A figura 3.5 mostra um exemplo.
Seja G=(V,E) um grafo simples. Define-se grau de um vrtice v V, denotado por
gr(v), como sendo o nmero de arestas incidente a v. Um grafo dito regular de grau r, se
todos seus vrtices possuem grau r. Se um grafo regular de grau zero, ento o grafo dito
nulo.


G=(V,E) G=(V,E)
Figura 3.5: Exemplo de subgrafo

Um vrtice que no possui aresta incidente dito isolado ou vrtice de grau zero. Um
vrtice de grau igual a 1 dito pendente.
Teorema 1: a soma dos graus dos vrtices em um grafo (dirigido ou no) igual a duas
vezes o nmero de arestas.
Prova: Desde que cada aresta contribui na contagem de um no grau de cada dois vrti-
ces com os quais incidente, ento cada aresta sempre contada duas vezes (equao 3.1):

m v gr
i
n
i
2 ) (
1
=
=

(3.1)

Teorema 2: Em qualquer grafo existe sempre um nmero par de vrtices de grau m-
par.
Prova: Suponha que exista um grafo G=(V,E) onde todos os vrtices possuam grau
mpar, logo:

63

=
= mpar for n se mpar nmero
par for n se par nmero
v gr
i
n
i ,
,
) (
1

(3.2)

Pelo teorema 1 a soma dos graus dos vrtices par, portanto n obrigatoriamente par
(equao 3.2).
Se cada par de vrtices no grafo est ligado por um caminho, isto , para todos x, y
V(G) existe um caminho (x,y), ento o grafo chamado de conexo. Um grafo dito rotulado
quando seus vrtices e/ou arestas so distinguidos uns dos outros por rtulos. Caso contrrio o
grafo no rotulado (grafos rotulados esto relacionados com problemas de enumerao com-
binatria) (Rabuske, 1992).

3.2.1 Ciclos Hamiltonianos
Um ciclo hamiltoniano em um grafo conexo G definido como um caminho simples
fechado, isto , passa-se em cada vrtice de G exatamente uma vez, exceto naturalmente no
vrtice inicial que considerado tambm vrtice terminal. Portanto um ciclo hamiltoniano em
um grafo de n vrtices consiste de exatamente n arestas (Roberts, 1984).
O comprimento do caminho hamiltoniano em um grafo conexo de n vrtices n1.
Obviamente, nem todo grafo conexo possui um ciclo hamiltoniano. Portanto, o problema
que no possvel saber antecipadamente se existe condio necessria e suficiente para que
um grafo conexo G possua um ciclo hamiltoniano.
Essa questo foi proposta pelo matemtico William Rowan Hamilton, em 1859, e con-
siderada insolvel. O problema de Hamilton parece ser, at agora, mais complexo do que o
problema de Euler (Wilson, 1996). Porm pode-se afirmar que existem certos tipos de grafos
que contm um ciclo hamiltoniano, como, por exemplo, um grafo simples, conexo e comple-
to, de n > 2 vrtices. Se n= 2, ento G contm um caminho hamiltoniano. Um dos problemas
tratados neste trabalho consiste em um grafo hamiltoniano, ilustrado pelo problema do caixei-
ro viajante.

3.2.2 Teoria dos Grafos na Anlise de Redes Sociais
A teoria dos grafos vem sendo empregada em anlises de redes sociais devido a sua
capacidade de representao e simplicidade. Uma rede pode ser interpretada de diferentes ma-
neiras. Uma boa maneira para identific-la como um grafo, composto de ns conectados
pelas arestas.
64

Conforme observado, a teoria dos grafos fornece operaes matemticas a partir das
quais muitas propriedades podem ser quantificadas. Essa teoria pode fornecer uma lista de
termos para denotar as propriedades da estrutura social, fornecendo um conjunto de conceitos
que permite referenciar tais propriedades.
Em redes sociais a representao visual por grafos denominada de sociograma, cria-
do por Moreno em 1978 para representar a relao social entre estados
2
e as ligaes (Moreno,
1978). A figura 3.6 exemplifica um sociograma formado pelas interaes dos agentes com
algoritmos de colnia de formigas no problema do caixeiro viajante.

Figura 3.6: Sociograma formado pelas interaes dos agentes com algoritmos de colnia de
formigas

Baseado na nomenclatura utilizada em Wasserman e Faust (1994), os estados (ns) de
uma rede possuem a notao e, e E o conjunto de estados. As ligaes (arestas) de uma rede
tm a notao c, e o conjunto de ligaes ser C. Assim, uma rede de n estados e de m liga-
es ter um conjunto de estado E= {e
1
,e
2
,...,e
n
} e um conjunto de ligaes C= {c
1
,c
2
,...,c
m
}.
Quando h ligao entre dois estados, ento formado um par de estados (ou dade).
Por exemplo, uma ligao c
1
pode ser referente ligao entre os estados e
1
e e
2
, que pode ser
denotada por c
1
= (e
1
,e
2
). A ligao de dois estados pode ser direcionada ou no-direcionada.
Por exemplo, se a ligao c
1
direcionada do estado e
2
para o estado e
5
, ser ento c
1
=
(e
2
e
5
). Para encontrar a quantidade mxima c
max
de ligaes em um grafo simples no-
direcionado, a equao 3.3 empregada.


2
No problema do caixeiro viajante um estado representa uma cidade.
65

2
) 1 (
max

=
n n
c (3.3)

Dessa forma, c
max
= 1 indica dois estados conectados; c
max
= 3 indica trs estados conec-
tados; c
max
= 6 quando h quatro estados conectados, e assim por diante. A figura 4.7 mostra a
quantidade mxima de ligaes em grafos no-direcionados.


A b c
Figura 3.7: Quantidade mxima de ligaes em grafos no-direcionados

Em grafos direcionados simples, a quantidade mxima de ligaes entre dois estados
de duas ligaes opostas, para trs estados o mximo de seis, e assim por diante. A expres-
so c
max.dir
= n(n1) define a quantidade mxima de ligaes direcionadas no grafo (Knoke e
Yang, 2008).
Dessa forma, os grafos fornecem mtodos interessantes para a anlise de redes sociais,
e observaes visuais podem auxiliar na compreenso da rede. No entanto, isso se torna im-
praticvel em redes com muitos estados e ligaes, e informaes importantes como a intensi-
dade da ligao e valores especficos (e.g., recompensas e/ou feromnios gerados por algorit-
mos de otimizao) so dificilmente aplicveis no grafo. Para resolver tal problema, possvel
empregar matrizes desenvolvidas pela sociometria, chamadas ento de sociomatrizes ou ma-
triz de adjacncia, na qual a representao na matriz ir indicar se estados esto ou no adja-
centes. Dessa maneira, a sociometria com as sociomatrizes fazem parte da teoria dos grafos,
fornecendo base matemtica para a anlise das redes sociais (Wasserman e Faust, 1994).
Uma matriz pode mostrar as ligaes entre os estados da rede. Cada elemento da ma-
triz pode indicar a ligao entre dois estados. Cada elemento da matriz indica o valor para uma
determinada linha e coluna (figura 3.9). Considerando os valores de i e j, cada elemento pode
ser identificado, onde x
ij
= 1 indica ligao entre n
i
e n
j
, e x
ij
= 0 quando no h ligao. Se x
ij
=
x
ji
ento a matriz simtrica.
O uso de grafos necessrio para criar modelos ou sistemas de representao dos esta-
dos da rede. Muitas vezes, no possvel representar a totalidade das caractersticas dos atri-
66

butos da rede. Para isso, conceitos adicionais podem ser usados para auxiliar na anlise dos
relacionamentos.

3.2.2.1 Grau do Estado
Em uma rede no-direcionada, pode-se medir o nmero de ligaes incidentes em um
estado, denominado grau do estado. O grau do estado zero quando no h ligao com os
demais estados, ou valor n 1 quando existe ligao do estado com os demais. A medida do
grau de um estado pode definir sua importncia, como sua influncia na rede.
Conhecendo a quantidade de ligaes ao estado, possvel obter o grau de um deter-
minado estado g(e
n
). Na figura 3.8 possvel computar a quantidade de ligaes incidentes em
cada estado:


Figura 3.8: Rede no direcionada com 8 estados

no qual, g(e
1
)= 5, g(e
2
)= 5, g(e
3
)= 3, g(e
4
)= 3, g(e
5
)= 5, g(e
6
)= 6, g(e
7
)= 4, g(e
8
)= 5. A figura
3.9 apresenta a sociomatriz usada para mostrar a ligao dos estados, onde 1 indica relao.
Neste trabalho, as sociomatrizes sero usadas para mostrar a intensidade da relao entre os
estados.

1 2 3 4 5 6 7 8
1 0 1 0 0 1 1 1 1
2 1 0 1 0 1 0 1 1
3 0 1 0 1 0 1 0 0
4 0 0 1 0 1 1 0 0
5 1 1 0 1 0 1 0 1
6 1 0 1 1 1 0 1 1
7 1 1 0 0 0 1 0 1
8 1 1 0 0 1 1 1 0
Figura 3.9: Sociomatriz do grafo da figura 3.8

67

Em grafos direcionados possvel identificar a direo da ligao. Dessa maneira
possvel quantificar as ligaes que chegam e que saem dos estados (Wasserman e Faust,
1994).

3.2.2.2 Densidade da rede
A densidade da rede indica a quantidade de ligaes existentes, redes com alta densi-
dade possuem grande quantidade de ligaes e redes com poucas ligaes so chamadas de
esparsas (Wasserman e Faust, 1994). Para medir a densidade de uma rede no-direcionada,
define-se a quantidade de ligaes C da rede, dividida pela quantidade mxima C
max
de liga-
es. A equao 3.4 usada para computar a densidade da rede.

) 1 (
2
2 / ) 1 (
=

=
n n
C
n n
C
D
(3.4)

Se a rede possui mxima ligao, a rede ento completa e o valor da densidade ser
1. Se a rede no possui ligaes a densidade 0. Para uma rede direcionada a medida da den-
sidade definida pela quantidade de ligaes da rede, dividido pela quantidade mxima. A
equao 3.5 simplificada para computar a densidade de grafos direcionados.

) 1 (
=
n n
C
D
(3.5)

3.2.2.3 Geodsico
O caminho mais curto entre dois estados chamado de geodsico, onde o comprimen-
to do caminho denominado de distncia geodsica (Wasserman e Faust, 1994). Tal distncia
permite verificar a quantidade de ligaes e estados que esto intermedirios aos estados.
Considerando a distncia geodsica entre dois estados quaisquer e
i
e e
j
, possvel calcular a
distncia d(e
i
, e
j
). Considerando o estado e
1
da figura 3.10, possvel computar as distncias
geodsicas aos demais estados:

68


Figura 3.10: Grafo para exemplificar a distncia geodsica

na qual, d(e
1
, e
2
)= 1; d(e
1
, e
3
)= 2; d(e
1
, e
4
)= 3; d(e
1
, e
5
)= 4; d(e
1
, e
6
)= 3; d(e
1
, e
7
)= 2; e d(e
1
,
e
8
)= 1. A maior distncia ir determinar o dimetro da rede (nesse caso d(e
1
, e
5
)) e quando no
houver caminho entre dois estados a distncia considerada infinita.

3.2.2.4 Cutpoint e Pontes
Um estado cutpoint aquele que se excludo da rede far com que alguns estados se-
jam desconectados (Wasserman e Faust, 1994). Pode haver estados cutpoint importantes, e se
excludos podem dividir a rede, aumentando a distncia geodsica entre alguns estados. Por
exemplo, considerando o estado e
4
da figura 3.10 como um cutpoint, a distncia geodsica
entre os estados e
3
e e
5
, d(e
3
, e
5
), iria aumentar de 2 para 6.
A noo de pontes similar do estado de corte, no entanto, refere-se somente ex-
cluso de determinadas ligaes, mantendo o estado na rede. Estados cutpoint e pontes podem
ser importantes em grafos onde a busca por determinados valores so necessrios, pois o seu
uso poderia diminuir o espao de busca quando muitos estados esto disponveis. Usar cutpo-
int diminui a quantidade de ligaes da rede, melhorando o processo de busca de um algorit-
mo.

3.2.2.5 Centralidade e Prestgio
Dois importantes conceitos em redes sociais so a centralidade e o prestgio, identifi-
cando estados importantes na rede (Wasserman e Faust, 1994). H vrias maneiras para calcu-
lar a centralidade, por exemplo, para um determinado estado e
i
, a centralidade pode ser deno-
tada como C(e
i
) e a medida dada pela quantidade de ligaes do estado na rede (grau do es-
tado). A equao 3.6 utilizada para obter a centralidade de grau:

1
) (
) (

=
n
k d
e C
i
i

(3.6)
69


onde n a quantidade de estados da rede e k
i
a quantidade de estados adjacentes do estado
analisado. Como ) (
i
e C independente de n, ento essa mtrica pode ser usada em redes com
quantidades diferentes de estados.
O conceito de prestgio de um estado e
i
est atrelado s redes direcionadas, onde a di-
reo das ligaes define seu prestgio na rede. Mtricas de centralidade de grau, centralidade
de intermediao e centralidade de proximidade podem ser usadas em conjunto com algorit-
mos de colnia de formigas. Ser mostrado como conceitos bsicos de grafos podem ser em-
pregados para analisar a evoluo de redes sociais em problemas de otimizao, tais como
relacionamento, prestgio, influncia e outras definies.

3.3 Abordagens Computacionais
Para facilitar a anlise e a visualizao das redes sociais, diversas ferramentas foram
propostas, como: UCINET (Borgatti et al. 2002b), Pajek (Batagelj e Mrvar, 2003b), STRUC-
TURE (Burt, 1991), StOCNET (Huisman e Van Duijn, 2003), MultiNet (Richards e Seary,
2003) e GRADAP (Stokman e Sprenger, 1989). H ainda aplicaes mais especficas, como
Netdraw (Borgatti, 2002a), SIENA (Snijders, 2001) e KrackPlot (Krackhardt et al. 1994). Al-
guns dos principais aplicativos so sumarizados na sequncia. A descrio detalhada de tais
aplicativos pode ser encontrada no trabalho de (Huisman e Van Duijn, 2004).
Pajek: um aplicativo para visualizao e anlise de redes, especialmente desenvolvi-
do para lidar com grandes conjuntos de dados (Batagelj e Mrvar, 2003ba). Os principais obje-
tivos do Pajek so: i) reduzir redes imensas em vrias redes menores, onde seja possvel anali-
s-las empregando mtodos estatsticos; ii) fornecer ferramentas para visualizao dos dados;
e iii) disponibilizar algoritmos para anlise (Batagelj e Mrvar, 2002).
GRADAP (Graph Definition and Analysis Package): um aplicativo para anlise e
definies grficas (Stokman e Sprenger, 1989). Foi desenvolvido com a colaborao de pes-
quisadores das seguintes universidades: Amsterdam, Groningen, Nijmegen, e Twente. GRA-
DAP analisa explicitamente os dados da rede representados por grafos. Para isso, inclui uma
variedade de mtodos de centralidade e subgrupos coesos.
Structure: um aplicativo que fornece sociogramas, cliques, equivalncia estrutural,
tabelas de densidade e outros (Burt, 1991). Structure suporta modelos de redes com os seguin-
tes tipos de anlise: anlise estrutural, coeso (deteco de cliques) e equivalncia (anlise
estrutural ou equivalncia, e blockmodeling).
70

UCINET: um dos aplicativos mais abrangentes para a anlise de redes sociais e a-
proximao de dados, pois contm um grande nmero de rotinas analticas para a rede (Bor-
gatti et al. 2002b).
NetMiner II: um aplicativo que combina anlise de redes sociais e tcnicas de ex-
plorao visual (Cyram, 2003). O aplicativo permite explorar os dados da rede de maneira
visual e interativa, ajudando a detectar padres e estruturas da rede.
StOCNET (StOChastic NETworks): um sistema aplicativo para anlise estatstica
avanada de redes sociais (Boer et al. 2003). fornecida uma plataforma que disponibiliza os
mtodos estatsticos apresentados em mdulos, e permite que novas rotinas sejam implemen-
tadas (Huisman e Duijn, 2003). O sistema divido em sesses, que consistem de um processo
cclico de cinco etapas: (i) definio dos dados; (ii) transformao; (iii) seleo; (iv) modelo
de especificao e anlise; e v) inspees dos resultados.
Apesar desses aplicativos oferecerem as ferramentas computacionais para a visualiza-
o grfica da rede e permitirem o uso das equaes de centralidade e subgrupos, no trivial
empregar tais aplicativos em aplicaes com algoritmos de otimizao. Devido a isso, foi de-
senvolvido no trabalho em questo um framework que permite a visualizao de sociogramas
e implementa as equaes essenciais da anlise de redes sociais, que foram integradas a um
algoritmo de colnia de formigas.

3.4 Redes Sociais e Sistemas Multiagente
Um sistema como uma sociedade de agentes, pode ser definido como uma entidade
cognitiva e social, que possui relacionamentos identificveis e ligaes entre os agentes, po-
dendo ser coordenados por algum mtodo de coordenao (Panzarasa e Jennings, 2001).
Geralmente, as sociedades esto organizadas de acordo com alguma estrutura, tais co-
mo redes ou hierarquias. Ao contrrio das hierarquias, as redes tm sido identificadas como
estruturas sociais. Redes sociais bem estabelecidas permitem a seleo de grupos dos melho-
res agentes para a realizao de determinadas tarefas. Em sociedades complexas, noes de
intensidade da relao so fundamentais para a criao de uma estrutura social. Dessa forma,
redes sociais podem ser consideradas essenciais para atribuir conceitos de reputao e relao
entre os agentes de um sistema multiagente.
As redes sociais apresentam vrias caractersticas que favorecem os mtodos de coor-
denao para sistemas multiagentes. Por exemplo, no trabalho de (Mrida-Campos e Will-
mott, 2004) verificou-se que as coalizes formadas com agentes que apresentavam alto grau
71

de intermediao em uma rede de agentes relacionados (betweeness) apresentavam valores
elevados de utilidade. No trabalho de (Gaston e DesJardins, 2005) apresentado um estudo
sobre como a estrutura de uma rede social tem impacto na deciso dos indivduos em situa-
es especficas como: difuso de inovaes, formao de opinio e formao de times. Na
difuso de inovao os agentes tm dois estados [1,0], i.e. adota ou no adota a inovao. Um
agente tem maior probabilidade de adotar a inovao em funo da capacidade de processa-
mento e da quantidade de vizinhos que adotaram a inovao. Na formao de opinio calcu-
lado o impacto social para observar a mudana de opinio do agente, baseado na fora de cada
agente, distncia entre os agentes, na influncia externa e no rudo social, sem considerar a
estrutura organizacional. O agente lder (agente com a menor distncia mdia em relao aos
demais agentes) deve convencer os agentes a adotar a sua opinio mais facilmente do que a-
gentes mais isolados. Na formao de times a topologia da rede restringe os agentes que po-
dem participar do mesmo time. Um time um subgrupo conectado de agentes onde a soma de
todas as competncias suficiente para a execuo de uma tarefa. As tarefas so distribudas
em broadcast e em intervalos regulares de tempo. Os resultados mostram que redes de livre
escalas apresentam resultados melhores em relao eficincia organizacional.
Estes so apenas alguns dentre os diversos trabalhos que aplicam tais conceitos para o
aprimoramento de tcnicas de inteligncia artificial distribuda. Dentre outros trabalhos pode-
mos citar (Dautenhahn, 1995; Dautenhahn e Christaller, 1996; Ogden e Dautenhahn, 2001;
Bowman e Hexmoor, 2005; Arajo e Lamb, 2008).

3.5 Consideraes Finais
Observou-se que uma rede social composta por um conjunto de indivduos sociais,
ou agentes e seus relacionamentos, que interagem caracterizando um sistema multiagente.
Como caracterstica, um agente no atua somente de maneira autnoma, isto , seu compor-
tamento individual geralmente influencia no comportamento dos demais agentes, modificando
a estrutura social do sistema. Ferramentas da anlise das redes sociais podem identificar o
grau de sociabilidade dos agentes e da estrutura social a partir dos comportamentos, servindo
como base para a construo de modelos sociais.
Critrios como caractersticas pessoais, profissionais, problemas sociais, confiana, pa-
rentesco, etc., so comuns para a representao de redes sociais da sociedade humana. No
entanto, em sistemas multiagente, tais conceitos no fazem sentido na sua interpretao literal,
podendo ser adaptados ou redefinidos. Mostramos como os conceitos relacionados s medidas
72

de centralidade e intensidade das relaes estabelecem relaes sociais entre os agentes. Alm
disso, outras abordagens sero discutidas adiante para estabelecer a estrutura social de um
sistema multiagente.
No captulo 4 sero apresentados os principais conceitos sobre aprendizagem por re-
foro e otimizao por enxames, e seus principais algoritmos. Esses princpios nos ajudam a
entender como um conjunto de agentes pode se coordenar com valores (recompensas) gerados
a partir de seus comportamentos individuais. Ser observado que a manuteno desses com-
portamentos realizada por valores de recompensas que determinam as atitudes dos agentes,
podendo ser compartilhadas influenciando a gerao de novos comportamentos. Neste caso as
recompensas so denominadas de recompensas sociais. Acredita-se que medida que os agen-
tes influenciam ou alteram a estrutura social compartilhando essas recompensas, eles podem
melhorar seu comportamento individual e coletivo.

73

Captulo 4
Aprendizagem por Reforo e Otimizao por Enxa-
mes
Foi possvel observar no captulo 3 que as redes sociais so formadas por um conjunto
de estados que podem se conectar atravs de ligaes que representam relaes. Essas rela-
es podem ser constitudas por aspectos que indicam a fora ou a intensidade da relao, ou
ainda a frequncia de incidncias no estado, mostrando sua centralidade, prestgio ou influn-
cia na rede. A computao, de certa forma, tem contribudo para a aplicao sistemtica de
metodologias que permitem representar, quantificar e analisar estas relaes como possvel
verificar nos pargrafos seguintes.

Pavlov, um cientista russo, publicou em 1903 um artigo chamado reflexo condicional
e a sua experincia ficou mundialmente conhecida como o cachorro de Pavlov (Fon-
seca, 2000). No seu trabalho, ele tocava um sino toda vez que dava comida ao seu ca-
chorro. Com o passar do tempo o co comeou a associar o som do sino com comida,
aprendendo que o som estava relacionado com comida. Seguindo em sua pesquisa Pa-
vlov ensinou ao co que alguns dos sinais eram bons e outros ruins, ento o co co-
meou a evitar os sinais ruins e aumentou o seu interesse pelos sinais bons.

Pavlov imps ao seu cachorro aspectos que indicam relaes atravs de sinais, atribu-
indo recompensas quando a ao boa e punies quando a ao no desejada. Esse contex-
to mostra a ligao de Pavlov com seu cachorro, onde so observados conceitos da aprendiza-
gem por reforo que podem determinar a relao pela interao de ambos.
A aprendizagem por reforo fornece as tcnicas necessrias para estabelecer e intensi-
ficar as relaes entre os estados de uma rede. Algoritmos como o Q-learning (Watkins e Da-
yan, 1992), podem de maneira iterativa estabelecer relaes compartilhando recompensas ou
74

polticas quando o modelo do sistema no est definido, aprendendo uma poltica de ao que
indica a intensidade ou a fora dos estados na rede. De maneira mais geral, so apresentados
na prxima seo os fundamentos essenciais para o entendimento da aprendizagem por refor-
o. Esses fundamentos so rediscutidos adiante, onde mostrado como algoritmos de aprendi-
zagem por reforo podem gerar e compartilhar recompensas de outros agentes, melhorando a
poltica de ao e produzindo redes de relacionamentos entre estados e aes.

4.1 Definies da Aprendizagem por Reforo
A aprendizagem por reforo um paradigma computacional de aprendizagem em que
um agente aprendiz procura maximizar uma medida de desempenho baseada nos reforos (re-
compensas ou punies) que recebe ao interagir com um ambiente (Ribeiro, 1999). A aprendi-
zagem por reforo vem sendo utilizada nos ltimos anos por diversos pesquisadores (Tesauro,
1995; Crites e Barto, 1996; Kaelbling et al. 1996; Littman e Kaelbling, 1996; Sutton e Barto,
1998; Ribeiro, 1999; Porta e Celaya, 2005; Ribeiro et al. 2009b) no intuito de encontrar solu-
es para problemas de aprendizagem com o uso de agentes.
O agente atua no ambiente formado por um conjunto de estados e pode escolher aes
dentro de um conjunto de aes possveis, indicando o valor imediato da transio de estado
resultante. A tarefa do agente consiste em aprender uma poltica de controle (sequncia de
aes) que maximiza a soma esperada destes reforos, descontando (usualmente de modo ex-
ponencial) as recompensas ou punies proporcionalmente ao seu atraso temporal (Sutton e
Barto, 1998).
No problema de aprendizagem por reforo tem-se um agente, que atua em um ambien-
te. O agente percebe um conjunto discreto S de estados, e pode realizar um conjunto discreto
A de aes. A cada instante de tempo t, o agente pode detectar seu estado atual s, e, de acordo
com esse estado, escolher uma ao a ser executada, que o levar para um outro estado s.
Para cada par estado/ao, (s,a), h um sinal de reforo dado pelo ambiente, ) , ( a s R , que
informado ao agente quando ele executa a ao a no estado s. O problema da aprendizagem
por reforo ilustrado na figura 4.1.

75


Figura 4.1: Aprendizagem por reforo (Sutton e Barto, 1998)

O sinal de reforo a base do aprendizado do agente, pois o valor do reforo deve in-
dicar o objetivo a ser alcanado pelo agente. O agente receber uma recompensa positiva caso
o seu novo estado seja melhor do que o seu estado anterior. Com isso, o reforo mostra ao
agente que a sua meta maximizar recompensas at o seu estado final.
Assim, o objetivo do mtodo levar o agente a escolher a sequncia de aes que ten-
dem a aumentar a soma de valores de reforo, ou seja, encontrar a poltica tima, definida
como o mapeamento de estados em aes que maximize as recompensas acumuladas no tem-
po.

4.1.1 Caractersticas da Aprendizagem por Reforo
Algumas caractersticas que diferenciam a aprendizagem por reforo de outros mto-
dos so descritas a seguir (Sutton e Barto, 1998):
Aprendizado pela interao: essa a principal caracterstica que define um problema
de aprendizagem por reforo, onde um agente age no ambiente e aguarda pelo valor de
reforo que o ambiente deve informar como resposta pela ao tomada, assimilando a-
travs do aprendizado o valor de reforo obtido para tomar decises posteriores;
Retorno atrasado: um valor mximo de reforo que o ambiente envia para o agente no
indica necessariamente que a ao tomada pelo agente foi a melhor. Uma ao pro-
duto de uma deciso local no ambiente, sendo seu efeito imediato de natureza local,
enquanto que em um sistema de aprendizagem por reforo, busca-se alcanar objetivos
globais no ambiente. Assim as aes tomadas devem levar a maximizar o retorno total,
isto , a qualidade das aes tomadas vista pelas solues encontradas em longo pra-
zo;
Orientado a objetivo: em aprendizagem por reforo, o problema tratado considerado
como um ambiente que d respostas frente s aes efetuadas, no sendo necessrio
conhecer detalhes da modelagem desse ambiente. Simplesmente, existe um agente que
76

age dentro do ambiente tentando alcanar um objetivo. O objetivo , geralmente, oti-
mizar algum comportamento; e
Investigao x explorao
3
: em aprendizagem por reforo, agentes presenciam o dile-
ma conhecido na literatura como the Exploration x Exploitation dilemm, que consis-
te em decidir quando se deve aprender sobre o ambiente, usando informaes obtidas
at o momento.

A deciso fundamentalmente uma escolha entre agir baseado na melhor informao
de que o agente dispe no momento ou agir para obter novas informaes sobre o ambiente
que possam permitir nveis de desempenho maiores no futuro. Isto significa que o agente deve
aprender quais aes maximizam os valores dos ganhos obtidos no tempo, mas tambm, deve
agir de forma a atingir esta maximizao, explorando aes ainda no executadas ou regies
pouco visitadas do espao de estados. Como ambas as formas trazem, em momentos especfi-
cos, benefcios soluo dos problemas, uma boa estratgia mesclar estas formas (Sutton e
Barto, 1998).

4.1.2 Elementos Fundamentais da Aprendizagem por Reforo
Conforme apresentado em Sutton e Barto (1998), o problema da aprendizagem por re-
foro apresenta cinco partes fundamentais a serem consideradas: (i) o ambiente, (ii) a poltica,
(iii) o reforo e o retorno, (iv) a funo de reforo e (v) a funo valor-estado, descritos assim:
i) O ambiente: todo sistema de aprendizagem por reforo aprende um mapeamento de
situaes e aes por experimentao em um ambiente. O ambiente no qual est inserido o
sistema, deve ser pelo menos parcialmente observvel atravs de sensores ou descries sim-
blicas. Tambm possvel, entretanto, que toda informao relevante do ambiente esteja
perfeitamente disponvel. Neste caso, o agente poder escolher aes baseadas em estados
reais do ambiente.
ii) A poltica: uma poltica sendo expressa pelo termo , representa o comportamento
que o sistema de aprendizagem por reforo segue para alcanar o objetivo. Em outras pala-
vras, uma poltica um mapeamento de estados s e aes a em um valor ) , ( a s . Assim, se
um agente altera a sua poltica, ento as probabilidades de seleo de aes sofrem mudanas
e consequentemente, o comportamento do sistema apresenta variaes medida que o agente

3
Explorao em algoritmos de busca escolher caminhos no visitados e investigao (explotao) optar pelo
caminho da melhor soluo.
77

vai acumulando experincia a partir das interaes com o ambiente. Portanto, o processo de
aprendizagem por reforo pode ser expresso em termos da convergncia at uma poltica ti-
ma ) , ( * a s que conduz soluo do problema de forma tima.
iii) Reforo e retorno: o reforo um sinal do tipo escalar r
t+1
, que devolvido pelo
ambiente ao agente assim que uma ao tenha sido efetuada e uma transio de estado s
t

s
s+1
tenha ocorrido. Existem diferentes formas de definir o reforo para cada transio no am-
biente, gerando-se funes de reforo que, intrinsecamente, expressam o objetivo que o siste-
ma de aprendizagem por reforo deve alcanar. O agente deve maximizar a quantidade total
de reforos recebidos chamado de retorno, que nem sempre significa maximizar o reforo
imediato a receber, mas o reforo acumulado durante a execuo total.
De modo geral, a aprendizagem por reforo busca maximizar o valor esperado de re-
torno, com isso, o retorno pode ser definido como uma funo da sequncia de valores de re-
foro at um tempo T final. No caso mais simples um somatrio como demonstrado na e-
quao 4.1.

=
+ +
=
T
k
k t
r R
0
1
(4.1)

Em muitos casos a interao entre agente e ambiente no termina naturalmente em um
episdio (sequncia de estados que chegam at o estado final), mas continua sem limite, como
por exemplo, em tarefas de controle contnuo. Para essas tarefas a formulao do retorno um
problema, pois T= e o retorno que se deseja tambm tender a infinito R
t
= .
Para este problema foi criada a taxa de amortizao y, a qual determina o grau de in-
fluncia que tm os valores futuros sobre o reforo total. Assim, a expresso do retorno apli-
cando taxa de amortizao expressa pela equao 4.2:

=
+ +
=
0
1
k
k t
k
r y R (4.2)

na qual, 1 0 y . Se 0 y , o agente tem uma viso baixa dos reforos, maximizando ape-
nas os reforos imediatos. Se 1 y , a viso do reforo abrange todos os estados futuros dan-
do maior importncia ao estado final, desde que a sequncia R seja limitada. Um sistema de
78

aprendizagem por reforo faz um mapeamento de estados em aes baseado nos reforos re-
cebidos.
Assim, o objetivo da aprendizagem por reforo definido usando-se o conceito de
funo dos reforos futuros que o agente procura maximizar. Ao maximizar essa funo, o
objetivo ser alcanado de forma tima. A funo de reforo define quais so os bons e maus
eventos para os agentes.
iv) Funo de Reforo: as funes de reforo podem ser bastante complexas, porm
existem pelo menos trs classes de problemas frequentemente usados para criar funes ade-
quadas a cada tipo de problema, descritas assim:
Reforo s no estado final: nesta classe de funes, as recompensas so todas iguais a
zero, exceto no estado final, em que o agente recebe uma recompensa real (e.g., +1) ou
uma penalidade (e.g., 1). Como o objetivo maximizar o reforo, o agente ir apren-
der que os estados correspondentes a uma recompensa so bons e os que levaram a
uma penalidade devem ser evitados;
Tempo mnimo ao objetivo: funes de reforo nesta classe fazem com que o agente
realize aes que produzam o caminho ou trajetria mais curta para um estado final.
Toda ao tem penalidade 1, sendo que o estado final 0. Como o agente tenta ma-
ximizar valores de reforo, ele aprende a escolher aes que minimizam o tempo que
leva para alcanar o estado final; ou
Minimizar reforos: nem sempre o agente precisa ou deve tentar maximizar a funo
de reforo, podendo tambm aprender a minimiz-las. Isto til quando o reforo
uma funo que representa recursos limitados e o agente deve aprender a conserv-los
ao mesmo tempo em que alcana o estado final.

v) Funo Valor-Estado: define-se uma funo valor-estado como o mapeamento do
estado, ou par estado-ao, em um valor que obtido a partir do reforo atual e dos reforos
futuros. Se a funo valor-estado considera s o estado s indicada como V(s), por outro lado,
se considerado o par estado-ao (s,a), ento a funo valor-estado denotada como funo
valor-ao Q(s,a).

4.1.3 Processos Markovianos
A maneira mais tradicional para formalizar a aprendizagem por reforo consiste em u-
tilizar o conceito de processos decisrios de Markov. Por ser matematicamente bem estabele-
cido e fundamentado, este formalismo facilita o estudo da aprendizagem por reforo. Por ou-
79

tro lado, assume uma condio simplificadora, conhecida como condio de Markov, que re-
duz a abrangncia das solues, mas que compensada em grande parte pela facilidade de
anlise (Ribeiro, 2002).
A condio de Markov especifica que o estado de um sistema no prximo instante
(t+1) uma funo que depende somente do que se pode observar acerca do estado atual e da
ao tomada pelo agente neste estado (descontando alguma perturbao aleatria), isto , o
estado do sistema independe de sua histria. Pode-se ver que muitos domnios obedecem esta
condio: problemas de roteamento, controle de inventrio, escalonamento, robtica e pro-
blemas de controle discreto em geral.
Um processo decisrio de Markov aquele que obedece condio de Markov e pode
ser descrito como um processo estocstico no qual a distribuio futura de uma varivel de-
pende somente do seu estado atual (Littman, 1994; Mitchell, 1997). Um processo decisrio de
Markov definido formalmente pela qudrupla < S,A,T,R >, onde:
S: um conjunto finito de estados do ambiente;
A: um conjunto finito de aes que o agente pode realizar;
T:SxA (S): a funo de transio de estado, onde (S) uma distribuio de
probabilidades sobre o conjunto de estados S e ) | , (
1 t t t
a s s T
+
define a probabilidade
de realizar a transio do estado s
t
para o estado s
t+1
quando se executa a ao a
t
; e
R:SxA : a funo de recompensas, que especifica a tarefa do agente, definindo a
recompensa recebida por um agente ao selecionar a ao a estando no estado s.

Usando o processo decisrio de Markov como formalismo, pode-se definir a capacida-
de do agente que aprende por reforo como: capacidade de aprender a poltica * : SxA que
mapeia o estado atual s
t
em uma ao desejada, de forma a maximizar a recompensa acumula-
da ao longo do tempo, descrevendo o comportamento do agente (Kaelbling et al. 1996).
Um processo decisrio de Markov pode ser determinstico ou no-determinstico, de-
pendendo da funo de probabilidade de transio ) ( T . Caso ) ( T especifique apenas uma
transio vlida para um par (estado-ao), o sistema determinstico; caso a funo defina
um conjunto de estados sucessores potencialmente resultantes da aplicao de uma determina-
da ao em um estado, o sistema chamado de no-determinstico. Um exemplo deste ltimo
pode ser dado para o domnio do futebol de robs, no qual uma bola chutada em direo ao
gol pode entrar, pode bater no travesso ou pode ir para fora do campo. Outro exemplo do
lanamento de uma moeda, no qual dois resultados so possveis.
80


4.2 Algoritmos de Aprendizagem por Reforo
A aprendizagem por reforo dispe de vrios algoritmos de aprendizagem, como Q-
learning (Watkins e Dayan, 1992), R-learning (Schwartz, 1993), H-learning (Tadepalli e Ok,
1994), Sarsa (Sutton e Barto, 1998), Dyna (Singh e Sutton, 1996) entre outros. Na sequncia,
esses algoritmos so sumarizamos e descrito o Q-learning devido sua similaridade e inspira-
o para os algoritmos de colnia de formiga.

4.2.1 Algoritmo Q-learning
O algoritmo Q-learning proposto por Watkins e Dayan em 1992 o mtodo mais po-
pular utilizado para problemas de aprendizagem por reforo (Watkins e Dayan, 1992). Trata-
se de um algoritmo que permite estabelecer de maneira autnoma e iterativa uma poltica de
aes. Pode-se demonstrar que o algoritmo Q-learning converge para um procedimento de
controle timo, quando a hiptese de aprendizagem de pares estado-ao Q for representada
por uma tabela completa contendo a informao de valor de cada par. A convergncia ocorre
tanto em processos de deciso Markovianos determinsticos quanto no-determinsticos.
A ideia bsica do Q-learning que o algoritmo de aprendizagem aprenda uma funo
de avaliao tima sobre todo o espao de pares estado-ao SxA. A funo Q fornece um
mapeamento da forma Q:SxAV, onde V o valor de utilidade esperada ao se executar uma
ao a no estado s. Desde que o particionamento do espao de estados do agente e o particio-
namento do espao de aes no omitam informaes relevantes, uma vez que a funo tima
seja aprendida, o agente saber que ao resultar na maior recompensa futura em uma situa-
o particular s.
A funo Q(s,a), da recompensa futura esperada ao se escolher a ao a no estado s,
aprendida atravs de tentativa e erro, conforme equao 4.3:

)] , ( ) , ' ( max . [ ) , ( ) , ( a s Q a s Q y r a s Q a s Q
a
+ + (4.3)

no qual a taxa de aprendizagem, r a recompensa, ou custo, resultante de tomar a ao a
no estado s, y o fator de desconto e o termo max
a
Q(s,a) a utilidade do estado s resultante
da ao a, obtida utilizando a funo Q que foi aprendida at o presente. A funo Q repre-
senta a recompensa descontada esperada ao se tomar uma ao a quando visitando o estado s,
e seguindo-se uma poltica tima desde ento.
81

O fator y pode ser interpretado de vrias formas: pode ser visto como uma taxa de gra-
tificao, como uma probabilidade de ir para o prximo estado ou como um artifcio matem-
tico para evitar a soma infinita (Watkins e Dayan, 1992). A forma procedimental do algoritmo
Q-learning apresentada na figura 4.2.

Algoritmo Q-learning()
01 Para cada s,a inicialize Q(s,a)=0
02 Percebe s
03 Repita at que critrio de parada seja satisfeito:
04 Selecione ao a usando a poltica de aes atual
05 Execute a ao a
06 Receba a recompensa imediata r(s,a)
07 Observe o novo estado s
08 Atualize Q(s,a) de acordo com a equao 4.3
09 s s
10 Se critrio de parada falso retorne ao passo 3
11 Fim
Figura 4.2: Algoritmo Q-learning

Uma vez que todos os pares estado-ao tenham sido visitados um nmero finito de
vezes, garante-se que o mtodo gerar estimativas Q
t
que convergem para o valor de Q*
(Watkins e Dayan, 1992). Na prtica, a poltica de aes converge para a poltica tima em
tempo finito, embora de forma lenta.
Uma caracterstica do Q-learning a funo valor-ao Q aprendida, que se aproxima
diretamente da funo valor-ao tima Q*, sem depender da poltica que est sendo utilizada.
Este fato simplifica bastante a anlise do algoritmo e permite fazer testes iniciais da conver-
gncia. A poltica ainda mantm um efeito ao determinar quais pares estado-ao devem ser
visitados e atualizados, porm, para que a convergncia seja garantida, necessrio que todos
os pares estado-ao sejam visitados continuamente e atualizados.
Dados os valores Q, existe uma poltica definida pela execuo da ao a , quando o
agente est em um estado s, que maximiza o valor Q(s,a). Watkins e Dayan (1992) demonstra-
ram que se cada par estado-ao for visitado um nmero suficientemente grande de vezes e a
decrescer apropriadamente, as funes de valorao de Q iro convergir com certa probabili-
dade para Q* e, consequentemente, a poltica ir convergir para uma poltica tima.
A convergncia do algoritmo Q-learning no depende somente do mtodo de explora-
o usado. Um agente pode explorar suas aes a qualquer momento, no existindo requisitos
para a execuo de aes estimadas como as melhores. No entanto, para melhorar o desempe-
82

nho do sistema necessria, durante o aprendizado, a busca das aes que maximizam o re-
torno.
Resumidamente, podem-se enumerar alguns dos aspectos mais importantes do algo-
ritmo Q-learning:
O objetivo do uso do algoritmo Q-learning achar uma regra de controle que maximi-
ze cada ciclo de controle;
O uso do reforo imediato indicado sempre que possvel e necessrio, desde que ele
contenha informao suficiente que auxilie o algoritmo a encontrar a melhor soluo;
O algoritmo Q-learning adotado quando o nmero de estados e aes a serem sele-
cionados finito e pequeno;
O algoritmo Q-learning foi o primeiro mtodo de aprendizagem por reforo a possuir
provas de convergncia. uma tcnica simples que calcula diretamente as aes sem o
uso de modelo.

4.2.2 Algoritmo R-learning
A tcnica proposta por (Schwartz, 1993), chamada de R-learning, maximiza a recom-
pensa mdia a cada passo, ou seja, utiliza o modelo de recompensa mdia. O algoritmo R-
learning possui regra similar ao Q-learning, sendo baseado na deduo de valores R(s,a), e
devendo escolher uma ao a em um estado s. A cada situao, o agente escolhe a ao que
tem o maior valor R, exceto em algumas vezes quando ele escolhe uma ao qualquer. Os
valores de R so ajustados a cada ao, baseado na seguinte regra de aprendizagem, conforme
indica a equao 4.4.

)] ' ( [ ) , ( ) 1 ( ) , ( s eR r a s R a s R + + (4.4)

Esta regra difere da regra do Q-learning, simplesmente por subtrair a recompensa m-
dia do reforo imediato r e por no ter desconto y para o prximo estado,
) ' , ' ( max ) ' ( a s R s eR
a
= . A recompensa mdia calculada como:

)] ( ) ' ( [ ) 1 ( s eR s eR r + + (4.5)

83

O ponto chave da equao 4.5 que somente atualizado quando uma ao no a-
leatria foi tomada, ou seja, max
a
R(s,a)= R(s,a). A recompensa mdia no depende de um
estado particular, ela uma constante para todo o conjunto de estados. A figura 4.3 apresenta
o algoritmo R-learning, no qual se podem observar pequenas reestruturaes nas equaes de
atualizao de R e , que melhoram o custo computacional.

Algoritmo R-Learning
01
Inicialize e R(s,a) arbitrariamente
02 Repita at condio de parada ser alcanada:
03 s estado atual
04 Escolha ) (s A a
05 Execute a ao a
06 Observe os valores s e r
07
)] , ( ) ' , ' ( max [ ) , ( ) , (
'
a s R a s R r a s R a s R
a
+ +
08 se ) , ( max ) , ( a s R a s R
a
= ento
09
)] , ( max ) ' , ' ( max [
'
a s R a s R r
a a
+ +
10 Fim
Figura 4.3: Algoritmo R-learning (Schwartz, 1993)

4.2.3 Algoritmo H-learning
O algoritmo H-learning foi proposto em (Tadepalli e Ok, 1994) na tentativa de otimi-
zar a recompensa mdia sem utilizar descontos. O algoritmo H-learning estima as probabili-
dades ) , | ' ( a s s P e os reforos R(s,a) por contagem direta e atualiza os valores da recompensa
esperada h utilizando a equao 4.6, que segundo teorema demonstrado em (Bertsekas, 1987),
converge para uma poltica tima.

+ =
n
s
s A u
s h a s s P a s r s h
1 '
) (
)} ' ( ) , | ' ( ) , ( { max ) ( (4.6)

O algoritmo H-learning pode ser observado na figura 4.4:

84

Algoritmo H-learning
01
Se a estratgia de explorao sugere uma ao aleatria
ento
02 Selecione uma ao aleatria para i
03 Seno execute a ao ) (
max
i a
04
Faa k ser o estado resultante e ' r a recompensa imedia-
ta recebida:
05 1 ) , ( ) , ( + a i N a i N
06 1 ) , , ( ) , , ( + k a i N k a i N
07 ) , ( / ) , , ( ) ( a i N k a i N a P
ik

08 ) , ( / )) , ( ' ( ) , ( ) , ( a i N a i r r a i r a i r +
09 Se a ao executada ) (
max
i a Ento
10 1 + T T
11 T k h i h r / ) ) ( ) ( ' ( + +
12 Faa

=
+ =
n
j
ij
j h u p u i r u i H
1
) ( ) ( ) , ( ) , (
13 )} , ( max ) , ( | { ) (
) ( max
u i H i H i U
i U u
=
14 , ) , ( ) ( a i H i h onde ) (
max
i a
15 k i
16 Fim
Figura 4.4: Algoritmo H-learning (Tadepalli e Ok, 1994)

Neste algoritmo N(i,u) o nmero de vezes que a ao u foi executada no estado i e
N(i,u,j) o nmero de vezes que ela resultou no estado j, p
ij
(u) a probabilidade de ir de um
estado i para um estado j executando a ao u, r(i,a) a recompensa estimada por executar a
ao a no estado i, h(i) a recompensa mxima esperada para o estado i e corresponde ao
eQ(s) no algoritmo Q-learning, T o nmero total de passos que uma ao aparentemente
tima foi executada e inicializada com zero.
Todos os mtodos em AR, exceto o H-learning, tem um ou mais parmetros, como por
exemplo, o Q-learning tem e y e o R-learning tem e . O desempenho desses algoritmos
sensvel a estes parmetros, e consequentemente necessrio ajust-los para obter um me-
lhor desempenho.

4.2.4 Algoritmo
) ( Q

O algoritmo ) ( Q proposto em (Peng e Williams, 1996), caracterizado por ser uma
adaptao de uso de traos de elegibilidade para o algoritmo Q-learning. Traos de elegibili-
dade so registros temporrios da ocorrncia de um evento, como por exemplo, visita a um
estado ou a execuo de uma ao. O trao marca os parmetros de memria associados aos
eventos como estados elegveis para passar por mudanas no aprendizado. Quando um passo
85

de aprendizado ocorre, apenas os estados ou aes elegveis recebem o crdito pela recompen-
sa ou a culpa pelo erro.
Do ponto de vista terico, traos de elegibilidade so como uma ponte entre os mto-
dos de Monte Carlo (Rubinstein, 1981) e de diferenas temporais (Sutton e Barto, 1998), onde
se enquadram os algoritmos Q-learning e o Sarsa. Quando mtodos de diferenas temporais
so incrementados com traos de elegibilidade, eles produzem uma famlia de mtodos atra-
vessando um espectro que tm mtodos de Monte Carlo em uma ponta e mtodos de diferen-
as temporais na outra (Ribeiro, 1999). Neste intervalo esto mtodos que herdam vantagens
de ambos os extremos, frequentemente apresentando melhor desempenho.
Mtodos de Monte Carlo podem apresentar vantagens para lidar com processos no-
Markovianos, porque no atualizam estimativas baseados em valores estimados anteriormente.
A principal desvantagem destes mtodos o grande esforo computacional. Mtodos que u-
sam traos de elegibilidade buscam, portanto, combinar a vantagem da rapidez relativa de
aprendizado dos mtodos de diferenas temporais e a capacidade de lidar com reforos atrasa-
dos ou observabilidade parcial dos mtodos Monte Carlo (Monteiro e Ribeiro, 2004).

4.2.5 Algoritmo Sarsa
O algoritmo Sarsa uma modificao do algoritmo Q-learning que utiliza um meca-
nismo de iterao de poltica (Sutton e Barto, 1998). A funo de atualizao do algoritmo
Sarsa obedece a equao 4.7.

)] , ( ) , ( [ ) , ( ) , (
1 1 1 t t t t t t t t t t t t t
a s Q a s Q r a s Q a s Q + + =
+ + +
(4.7)

A forma procedimental do algoritmo Sarsa similar a do algoritmo Q-learning. Ide-
almente, o algoritmo Sarsa converge para uma poltica e valor de funo de ao tima. As-
sim que todos os pares estado-ao tenham sido visitados um nmero finito de vezes e a pol-
tica de escolha da prxima ao convirja, no limite, para uma poltica que utiliza a melhor
ao (ou seja, aquela que maximiza a recompensa futura esperada).
Naturalmente, caso a ao escolhida a
t+1
seja max a
t+1
Q(s
t+1,
a
t+1
), este algoritmo ser
equivalente ao do Q-learning padro. Entretanto, o algoritmo Sarsa admite que a
t+1
seja esco-
lhido aleatoriamente com uma probabilidade predefinida. Por eliminar o uso do operador max
sobre as aes, este mtodo pode ser mais rpido que o Q-learning para situaes onde o con-
junto de aes tenha cardinalidade alta.
86


4.2.6 Algoritmo Dyna
O termo Dyna foi introduzido em (Singh e Sutton, 1996), e define uma tcnica simples
para integrar funes de aprendizado, planejamento e atuao. O agente interage com o ambi-
ente gerando experincias. Estas experincias so utilizadas para melhorar diretamente as fun-
es de valor e poltica de aes (atravs de algum mtodo de AR) e aperfeioar um modelo
do ambiente, que o agente pode usar para prever como o ambiente responder a suas aes. As
experincias originrias de simulao sobre este modelo so ento utilizadas para melhorar as
funes de valor e poltica de aes (planejamento sobre o modelo).
Aps cada transio s
t
,a
t
s
t+1
,r
t
, o algoritmo Dyna armazena em uma tabela, para o
valor de (s
t
,a
t
), a transio observada (s
t+1
,r
t
). Durante o planejamento, o algoritmo escolhe
amostras aleatrias de pares estado-ao que foram experimentados anteriormente, ou seja,
contidos no modelo. A seguir, realiza experincias simuladas nestes pares estado-ao sele-
cionados. Finalmente, aplicada uma atualizao baseada em um mtodo de aprendizagem
por reforo sobre essas experincias simuladas. Tipicamente, o mesmo mtodo de aprendiza-
gem por reforo utilizado tanto para o aprendizado a partir da experincia gerada quanto
para o planejamento das experincias simuladas (Monteiro e Ribeiro, 2004).
Tcnicas e funes de clculo de recompensas tambm tm sido empregadas em outras
abordagens com agentes, principalmente como forma de aprimorar modelos de coordenao.
As sees 4.3 e 4.4 apresentam o modelo de coordenao baseado em enxames, em especial
algoritmos de colnia de formigas, onde funes de recompensas auxiliam a reproduo de
estratgias de explorao e comportamento emergente.

4.3 Inteligncia Baseada em Enxames
A Inteligncia de Enxames um modelo de resoluo de problemas baseado no com-
portamento coletivo e social de agentes reativos inseridos em ambientes dinmicos (Kennedy
e Eberhart, 2001). A inteligncia de enxames inspirada na natureza, onde grupos de animais
como bando de pssaros, cardume de peixes e colnia de formigas conseguem sobreviver a-
travs de interaes de grupo, e deste modo alcanar um determinado objetivo global. Este
grupo de agentes denominado de Swarm (Beni e Wang, 1989).
Agentes de enxames podem comunicar-se com seus pares (diretamente ou indireta-
mente), agindo sobre o ambiente que esto inseridos. Esses agentes seguem regras simples, e
embora no exista uma estrutura de controle centralizado, possuem enorme capacidade de
87

auto-organizao, o que torna esse mtodo robusto e desejvel para problemas computacionais
(Kennedy e Eberhart, 2001).
O objetivo dos modelos computacionais baseados em enxames modelar o comporta-
mento dos indivduos, e de suas interaes locais com o ambiente e com seus vizinhos mais
prximos. Desta forma, o comportamento de grupo desejvel para que possa ser utilizado na
busca por solues de problemas complexos.
Tcnicas baseadas em inteligncia de enxames podem ser utilizadas em diversas apli-
caes em problemas de otimizao e busca. Por exemplo, o mtodo de otimizao por enxa-
mes de partculas modelado por dois comportamentos (Engelbrecht, 2005): i) cada indivduo
se aproxima do vizinho mais prximo que tenha o melhor conhecimento sobre o ambiente; e
ii) caso o estado atual no apresente melhores resultados, o indivduo retorna para o estado
anterior. Como resultado, o comportamento coletivo que emerge aquele no qual todos os
indivduos agem de maneira coerente, ou seja, o melhor comportamento para todos os indiv-
duos.
Um exemplo dessa abordagem a otimizao por colnia de formigas, que modela o
comportamento de formigas que seguem o caminho com a maior concentrao de feromnio,
agindo localmente por probabilidade. Deste modo, o comportamento dos agentes emerge de
forma a encontrar a melhor alternativa (caminho de menor custo) dentre as solues candida-
tas (Dorigo, 1992).
A seguir, discutimos algumas das principais abordagens de inteligncia de enxames.

4.3.1 Otimizao por Enxames de Partculas
A otimizao por enxames de partculas um mtodo de coordenao inspirado no
comportamento e na dinmica dos movimentos dos pssaros, insetos e peixes, composto por
diversos indivduos presentes em ambientes desconhecidos e altamente dinmicos. A otimiza-
o por enxames de partculas proposta por Kennedy e Eberhart em 1995, foi originalmente
desenvolvida para problemas de otimizao com variveis contnuas (Kennedy e Eberhart,
1995; Eberhart e Kennedy, 1995).
A formao de grupos tem sido observada em muitas espcies de animais. Algumas
espcies, times ou grupos, so controlados por um lder, tais como alcateia de lees, bando de
macacos, entre outros. Nessas sociedades o comportamento dos indivduos fortemente base-
ado em hierarquias (Coello et al. 2004). No entanto, interessante observar o comportamento
de auto-organizao de espcies que vivem em grupos onde o lder no identificado, como
por exemplo, bandos de pssaros, cardumes de peixes e rebanho de ovelhas. Tais grupos soci-
88

ais de indivduos no tm conhecimentos do comportamento global do grupo, e tambm no
possuem informao global do ambiente.
Um grande nmero de estudos de comportamentos coletivos sociais tem sido realiza-
do, dentre eles destacam-se bando de pssaros migratrios e cardume de peixes.

4.3.2 Inteligncia Baseada em Cardume de Peixes
Um dos modelos de enxames desenvolvidos recentemente baseado no Fish School
Search (FSS), inspirado em cardume de peixes para realizar buscas no espao de estados (Bas-
tos Filho et al. 2008). O algoritmo utilizado no FSS baseado em agentes reativos que se mo-
vem pelo espao de estados assim como em outros mtodos baseados na natureza.
Como em situaes reais, os peixes do FSS so atrados pela comida que colocada no
aqurio em concentraes diferentes. A fim de encontrar grandes quantidades de comida, os
peixes do cardume realizam movimentos independentes. Como resultado, cada peixe pode
crescer ou diminuir em peso, dependendo de seu sucesso ou falha na busca por comida.
Bastos Filho et al. (2008) propem a equao 4.8 para representar o ganho e a perda de
peso dos peixes ao longo do tempo:

} | )] ( [ )] 1 ( [ | max{
)] ( [ )] 1 ( [
) ( ) 1 (
t x f t x f
t x f t x f
t W t W
i i
i i
i i
+
+
+ = +

(4.8)

onde W
i
(t) representa o peso do peixe i no tempo t, x
i
(t) a posio do peixe i e f[x
i
(t)] avalia
a funo de aptido (quantidade de comida) em x
i
(t).
Algumas medidas adicionais foram inclusas para assegurar a convergncia sobre reas
interessantes do aqurio, as quais fazem com que haja uma variao no peso do peixe a cada
ciclo do FSS. Um parmetro adicional, nomeado peso escalar (W
scale
) foi criado para limitar o
peso de um peixe. O peso do peixe pode variar entre 1 e W
scale
. Todos os peixes nascem com
peso igual a
2
scale
W
.
O instinto natural dos animais reagir a estmulos (ou algumas vezes, falta dele). No
FSS a movimentao realizada pelos peixes considerada uma forma de reagir em relao
sobrevivncia, tais como alimentao, reproduo, fuga de predadores, movimentao para
regies habitveis, entre outras. Movimentos individuais ocorrem para cada peixe do aqurio a
cada ciclo do algoritmo FSS. A direo que os peixes nadam escolhida aleatoriamente. De-
pois que todos os peixes se moveram individualmente, uma mdia de seus movimentos rea-
89

lizada, baseada no sucesso instantneo de todos os peixes do cardume. Quando a mdia cal-
culada, uma nova direo computada, e ento cada peixe reposicionado. Este movimento
calculado na equao 4.9:

=
=
+
+
+ = +
N
i
i i
N
i
i i i ind
i i
t x f t x f
t x f t x f x
t x t x
1
1
)]} ( [ )] 1 ( [ {
)]} ( [ )] 1 ( [ {
) ( ) 1 (

(4.9)

onde x
ind i
representa o deslocamento do peixe i devido ao movimento individual a cada ciclo
do FSS.
A reproduo no FSS, como na natureza, pode ser vista como um forte indicador de
que as coisas vo bem. No FSS a procriao ocorre entre o par de peixes que se encontra em
um determinado ponto do espao de busca. A prole que passa atuar no ambiente herda os co-
nhecimentos de seus pais. O tamanho do novo peixe k dado atravs da mdia do tamanho de
seus pais i e j, computado pela equao 4.10. Esse novo indivduo posicionado entre seus
pais, onde tal posio calculada pela equao 4.11.

2
) ( ) (
) 1 (
t W t W
t W
j i
k
+
= +
(4.10)

e,

2
) ( ) (
) 1 (
t x t x
t x
j i
k
+
= +
(4.11)

A fim de manter o nmero de peixes constante no cardume, medida que um novo
peixe nasce o menor peixe do aqurio removido.

4.3.3 Otimizao por Colnia de Formigas
A otimizao por colnia de formigas (Dorigo et al. 1991a; Dorigo, 1992; Dorigo et
al. 1996; Dorigo et al. 1999) uma abordagem baseada em populao aplicada em vrios pro-
blemas de otimizao combinatria. Em outras palavras, a otimizao por colnia de formigas
90

uma metaheurstica
4
para a soluo de problemas combinatrios, inspirada no comportamen-
to de um grupo de formigas na busca por alimento (objetivo).
Estudos sobre o comportamento forrageiro entre vrias espcies de formigas mostram
que elas seguem um padro de deciso baseado na aleatoriedade (Dorigo, 1992), medida que
uma fonte de alimento localizada, as formigas utilizam um mecanismo indireto de comuni-
cao, denominado feromnio, que induz as formigas a seguirem o caminho indicado. Esse
comportamento emergente resultado de um mecanismo de recrutamento, onde formigas in-
fluenciam outras a seguirem em direo s fontes de alimento pelo caminho mais curto (Gam-
bardella et al. 1997a).
Quando formigas localizam uma fonte de alimento, elas carregam a comida at o ni-
nho e vo depositando o feromnio. Dessa forma, as formigas iro seguir o caminho baseado
na concentrao de feromnio no ambiente. Portanto, quanto maior a quantidade de formigas
seguindo o mesmo caminho, maior a probabilidade do caminho ser escolhido, aumentando a
qualidade e atraindo mais formigas.
A figura 4.5 ilustra a experincia realizada por (Goss et al. 1989) para estudar o com-
portamento das formigas. Inicialmente, as formigas exploram aleatoriamente a rea ao redor
do formigueiro procura de comida. Enquanto se deslocam, depositam sobre o ambiente uma
quantidade de feromnio, que indica a direo de retorno ao formigueiro. Desta forma, quan-
do uma formiga estabelece um caminho entre a fonte de alimento e o formigueiro, o caminho
percorrido fica indicado por rastros de feromnios. As demais formigas podem detectar a pre-
sena do feromnio no ambiente e assim tendem a escolher esse caminho.
Portanto, as formigas que escolheram o caminho mais curto faro o percurso em me-
nor tempo, e o rastro de feromnio ser aumentado com mais frequncia. Por ser uma subs-
tncia que evapora ao longo do tempo, caminhos que no so mais utilizados deixam de influ-
enciar na deciso das formigas.


4
As metaheursticas so procedimentos destinados a encontrar uma boa soluo, eventualmente a tima, consis-
tindo de uma heurstica que deve ser modelada para cada problema especfico.
91


(a) (b)

(c) (d)
Figura 4.5: Comportamento de formigas reais (Goss et al. 1989)

A figura 4.5 mostra como formigas reais encontram o caminho mais curto. As formi-
gas se movem da direita para esquerda (D) e da esquerda para direita (E). Na figura 4.5 (a) as
formigas localizam no ambiente um local com alternativas diferentes para alcanar o formi-
gueiro. Na figura 4.5 (b) as formigas escolhem de maneira aleatria o caminho a seguir. As
formigas que escolheram o caminho mais curto (menor custo) alcanam o objetivo mais rpi-
do (figura 4.5 (c)). J na figura 4.5 (d) o caminho mais curto apresenta maior concentrao de
feromnio. O nmero de linhas desenhados nos caminhos proporcional quantidade de fe-
romnio depositado pelas formigas.
Estudos tm sido realizados no intuito de obter um melhor entendimento de como tais
indivduos tem sucesso exibindo um comportamento emergente complexo. O primeiro algo-
ritmo inspirado em colnia de formigas tem origem no trabalho de Dorigo (1992), que props
um sistema chamado de ant system para solucionar o problema do caixeiro viajante.

4.4 Algoritmos Baseados em Colnia de Formigas
O primeiro algoritmo inspirado em colnia de formigas tem origem no trabalho de
(Dorigo et al. 1991b), que desenvolveram um sistema chamado de ant system para solucionar
o problema do caixeiro viajante, e desde ento vrios algoritmos tm sido desenvolvidos, co-
mo: Ant-Q (Gambardella e Dorigo, 1995), ant colony system (Dorigo e Gambardella, 1997),
max-min ant system (Stutzle e Hoos, 1997), fast ant system (Taillard, 1998), antabu (Roux et
al. 1998; Roux et al. 1999; Kaji, 2001) e uma srie de variantes desses algoritmos que podem
ser encontrados em (Dorigo e Gambardella, 1997; Gambardella e Dorigo, 1997b; Michel e
92

Middendorf, 1998; Stutzle, 1998; Di Caro e Dorigo, 1998; Bullnheimer et al. 1999b; Gambar-
della et al. 1999a). Na sequncia so sumarizados alguns dos principais algoritmos de colnia
de formigas.

4.4.1 Ant System
O primeiro algoritmo de formiga foi desenvolvido por Dorigo et al. (1991b), referen-
ciado como sistema de formiga. Embora seu desempenho no parea satisfatrio quando com-
parado com os demais algoritmos, sua importncia foi propiciar o desenvolvimento de outros
algoritmos baseados no paradigma de otimizao por colnia de formigas.
No ant system cada formiga escolhe uma ao baseada no valor da probabilidade a ca-
da iterao. Na inteno de evitar a seleo de aes indesejadas, cada formiga possui uma
memria, que armazena os estados visitados, assegurando que o caminho seja visitado pela
formiga somente uma vez. A probabilidade de escolha do caminho proporcional ao ferom-
nio e atratividade, que altera de acordo com a modelagem do problema. Aps visitar todos os
estados, a formiga deposita uma quantidade de feromnio nas arestas (i,j). Para calcular a pro-
babilidade de escolher uma ao, cada formiga utiliza a regra da equao 4.12 (Dorigo et al.
1996):

=


) ( 0
) (
) ( ) (
) ( ) (
) (
) (
t N j if
t N j if
t t
t t
t p
k
i
k
i
t N u
iu
iu
ij
ij
k
ij
k
i





(4.12)

onde e so os parmetros para indicar a importncia do feromnio e da heurstica respec-
tivamente,
ij
a quantidade de feromnio na aresta ij,
ij
representa o efeito a priori do mo-
vimento de i para j (e.g., atrao ou a qualidade do movimento) influenciado por . A concen-
trao do feromnio
ij
indica a importncia das aes no passado, agindo como memria
para os melhores movimentos. O conjunto
k
i
N
define os possveis estados para cada formiga k
no n i.
Ao final de cada iterao, a taxa de evaporao diminui o valor do feromnio nas ares-
tas. Isso evita que as formigas fiquem estacionadas em timos locais (ou seja, escolhendo a-
restas que representam o melhor valor local, onde no entanto, no melhoram a soluo global),
93

diminuindo a probabilidade de escolher arestas que no foram utilizadas. A expresso que
determina a variao do feromnio apresentada na equao 4.13:

) ( ) 1 ( ) ( t t
ij ij


(4.13)

onde representa a taxa de evaporao com [0,1], simulando o esquecimento de decises
passadas das formigas. Quanto mais prximo do valor 1 est , mais acelerada a evaporao
do feromnio. Portanto, quanto mais acelerado a evaporao, mais aleatria a busca, resul-
tando em maior explorao do espao de busca. Para = 1, a busca completamente aleatria.
Assim que uma dada formiga completa um caminho, o feromnio de cada aresta atu-
alizado pela equao 4.14:

) ( ) ( ) 1 ( t t t
ij ij ij
+ = +
(4.14)

com,

=
=
k
n
k
k
ij ij
t t
1
) ( ) (

(4.15)

onde ) (t
k
ij
da equao 4.15 representa a quantidade de feromnio depositado pela formiga
k no estado (i, j) no tempo t.

4.4.2 Ant Colony System
O ant colony system (ACS) que foi desenvolvido por Gambardella e Dorigo para me-
lhorar o desempenho do algoritmo ant system (Dorigo e Gambardella, 1997). O ACS difere do
ant system em aspectos como: (i) diferente regra de transio; (ii) diferente regra de atualiza-
o do feromnio; (iii) introduo de atualizaes de feromnio locais; e (iv) uso de listas de
estados candidatos para favorecer estados especficos. Cada uma dessas modificaes exa-
minada na sequncia.
A regra de transio do ACS, conhecida como critrio de seleo pseudo-aleatrio-
proporcional foi desenvolvida para balancear as habilidades de explorao e explotao do
algoritmo. Assim, a formiga k no estado i se move para o estado j empregando a regra de tran-
sio da equao 4.16:

94

>

=

0
0
) (
)} ( ) ( { max arg
r q if J
r q if t t
j
iu iu
t N u
k
i



(4.16)

onde r ~ U(0,1), e q
0
[0,1] um parmetro especificado; ) (t N J
k
i
representa um estado
selecionado aleatoriamente de acordo com a probabilidade calculada com a equao 4.17:


=
k
i
N u
iu
iu
iJ
iJ
k
iJ
t t
t t
t p
) ( ) (
) ( ) (
) (




(4.17)

no qual
) (t N
k
i representa o conjunto vlido de estados a serem visitados.
A regra de transio da equao 4.17 induz as formigas a seguirem o caminho mais
curto e estados com maior valor de feromnio. O parmetro q
0
usado para balancear a explo-
rao e explotao; se
0
q q a formiga ir para o estado com maior feromnio; se
0
q q > a
formiga poder explorar novos estados. Desta forma, quanto menor o valor de q
0
maior a bus-
ca por novos estados.
Diferentemente do algoritmo AS, somente o melhor resultado (i.e., a formiga que per-
correu o menor caminho) utilizado para atualizao do feromnio nas arestas que pertencem
ao melhor caminho. O feromnio atualizado empregando a regra de atualizao global da
equao 4.18.

) ( ) ( ) 1 ( ) 1 (
1 1
t t t
ij ij ij
+ = +
(4.18)

onde,


=
+
+
contrrio caso
t x j i if
t x f
t
ij
0
) ( ) , (
)) ( (
1
) (

(4.19)

com | ) ( | ) ( ) ( t x t x f
+
=
+
, no caso de encontrar caminhos de menor custo.
A regra de atualizao global do algoritmo ACS permite que formigas encontrem as
melhores solues. Tal estratgia favorece a explotao, sendo aplicada logo aps as formigas
construrem a soluo.
95

Dorigo e Gambardella (1997) implementaram dois mtodos para selecionar o caminho
) (t x
+
:
Iteration-Best: onde ) (t x
+
representa o melhor caminho encontrado durante a itera-
o corrente t, denotada como ) (
~
t x ; e
Global-Best: onde ) (t x
+
representa o melhor caminho encontrado deste a primeira
iterao do algoritmo, denotada como ) ( t x .

Para a estratgia Global-Best o processo de busca baseado em informaes globais.
O algoritmo de ACS utiliza a equao 4.20 como regra de atualizao local:

0 2 2
) ( ) 1 ( ) ( + = t t
ij ij

(4.20)

onde
2
tem valor entre (0,1), e
0
a constante com valor positivo.
No algoritmo de ACS tambm modificado a maneira que os prximos estados so
escolhidos. O conjunto de estados
) (t N
k
i organizado para conter uma lista de estados can-
didatos. Esses estados so os preferidos e sero visitados inicialmente.

4.4.3 Ant-Q
Gambardella e Dorigo (1995) desenvolveram uma variante do algoritmo ACS onde a
regra de atualizao local foi inspirada no algoritmo Q-learning (apresentado na seo 4.2).
No algoritmo Ant-Q o feromnio denotado por Ant-Q Value (ou AQ-Value). O objetivo do
Ant-Q aprender AQ-values de tal forma que encontre boas solues que favoream a tomada
de deciso. A regra de transio utilizada para selecionar a prxima ao mostrada na equa-
o 4.21, onde
su
denota o AQ-values do estado s e u no tempo t:


=

contrrio caso J
q q if t t
j
si si
t N i
k
s
0
) (
)} ( ) ( { max arg



(4.21)

onde e representam o valor de importncia do AQ-value e da heurstica respectivamente; q
um valor selecionado aleatoriamente com probabilidade uniforme em [0,1], quanto maior o
valor de q
0
menor a probabilidade de escolher um estado aleatoriamente; J uma varivel
96

aleatria selecionada de acordo com a probabilidade dada pela funo de AQ-values
su
(AQ(s,u)); e
su
a informao heurstica.
Trs diferentes regras foram propostas para selecionar o valor da varivel aleatria J:

Regra de escolha de aes pseudo-aleatria: J um estado selecionado aleatoriamente
do conjunto de estados ) (t N
k
s
de acordo com a distribuio uniforme;
Regra de escolha de aes pseudo-aleatria-proporcional: J selecionado de acordo
com a distribuio apresentada na equao 4.22:

=


contrrio caso
t N j if
t t
t t
t p
k
s
t N u
si si
su su
k
sj
k
s
0
) (
) ( ) (
) ( ) (
) (
) (





(4.22)

e,
Regra de escolha de aes aleatria-proporcional: com q
0
= 0 na equao 4.21, o pr-
ximo estado ser sempre selecionado aleatoriamente baseado na distribuio dada na
equao 4.22.

Gambardella e Dorigo mostram que a melhor regra para a escolha das aes para o
Ant-Q o pseudo-aleatria-proporcional (considerando o problema do caixeiro viajante).
Dessa forma, o AQ-value aprendido utilizando a regra de atualizao da equao 4.23, simi-
lar a do Q-learning, onde y representa o fator de desconto e a taxa de aprendizagem.

|
|

\
|
+ +

) , ( max . ) , ( . ) , ( ). 1 ( ) , (
) (
i j AQ u s AQ u s AQ u s AQ
t N i
k
j

(4.23)

No Ant-Q a equao de atualizao 4.23 aplicada para cada formiga k aps o estado j
ter sido selecionado, com AQ(s,u)= 0. O efeito que o AQ-value associado aresta (s,u)
reduzido pelo fator y cada vez que a aresta estiver na soluo candidata (Gambardella e Dori-
go, 1995).
Devido a similaridade do algoritmo Ant-Q com algoritmos de aprendizagem por refor-
o, ele ser usado com a proposta apresentada no captulo 5.

97

4.4.4 Fast Ant System
Taillard e Gambardella (1997) e Taillard (1998) desenvolveram o fast ant system
(FANT), para resolver o problema de atribuio quadrtica. A principal diferena entre o
FANT e demais algoritmos de otimizao por colnia de formigas que o FANT usa somente
uma formiga e a regra de atualizao no utiliza estratgias de evaporao.
O uso de somente uma formiga reduz significativamente a complexidade computacio-
nal. O FANT usa como regra de transio a equao 4.21, com = 0, onde nenhuma informa-
o heurstica empregada. A regra de atualizao do feromnio definida pela equao
4.24:

) ( ) ( ) ( ) 1 (
^
2
~
1
t t t t
ij
ij
ij ij
+
+ + = +

(4.24)

no qual w
1
e w
2
so os parmetros para determinar o reforo relativo fornecido pela soluo
atual na iterao t e a melhor soluo encontrada anteriormente. Os feromnios adicionados
so calculados pelas equaes 4.25 e 4.26:


=
contrrio caso
t x j i if
t ij
0
) ( ) , ( 1
) (
~
~

(4.25)

e,


=
contrrio caso
t x j i if
t ij
0
) ( ) , ( 1
) (
^
^

(4.26)

onde
~
x ( ) e
^
x ( ) so respectivamente os melhores caminhos encontrados na iterao t e o
melhor caminho global encontrado na busca.
Os feromnios so inicializados em
ij
(0)= 1. Assim que um novo ) (
^
t x obtido, to-
dos os feromnios so reinicializados em
ij
t (0)= 1. Dessa forma, so exploradas as reas pr-
ximas do melhor caminho global, ) (
^
t x . Se no passo t, alguma soluo encontrada como a
melhor soluo global, o valor de w
1
aumentado. Isso facilita a explorao diminuindo a
contribuio ) (
^
t T
ij
, associada com o melhor caminho global.

98

4.4.5 Antabu
Roux et al. (1998), Roux et al. (1999) e Kaji (2001) adaptaram o ant system incluindo
uma busca local para melhorar as solues. Como procedimento de busca local, a regra de
atualizao global alterada de forma que os feromnios gerados pelas formigas so deposi-
tados para construir um caminho proporcional a qualidade da soluo. Cada formiga k usa a
equao 4.27 para atualizao do feromnio:

|
|
|

\
|

|
|

\
|
+ = +


)) ( (
)) ( )) (
)) ( (
) ( ) 1 ( ) 1 (
^
t
t t
t
t t
x
x x
x
k
k ij ij



(4.27)

onde ) ( ( t x f

o custo do pior caminho encontrado, )) ( (
^
t x f o custo do melhor caminho
encontrado, e ) ( ( t x f
k
o custo do caminho encontrado pela formiga k. A equao 4.27
aplicada por cada formiga k para cada ligao ). ( ) , ( t x j i
k


4.4.6 AS-rank
Bullnheimer et al. (1999a) propuseram algumas modificaes para o ant system, tais
como:
i) permitir que somente a melhor formiga atualize os feromnios;
ii) usar formigas elitistas; e
iii) permitir que as melhores formigas sejam selecionadas e ento elencadas para atua-
lizarem os feromnios.
No AS-rank, a regra de atualizao global alterada conforme a equao 4.28:

) ( ) ( ) ( ) 1 ( ) 1 (
^
t t n t p t
r
ij
ij
e ij ij
+ + = +
(4.28)

onde,

=
)) ( (
) (
^
^
t
Q
t
ij
x


(4.29)

no qual ) (
^
t x o melhor caminho. Se n
e
usado pelas formigas elitistas e n
k
so as formigas
ordenadas ), ( ( ... )) ( ( )) ( (
2 1
t x f t x f t x f
nk
logo:
99


) ( ) (
1
t t
ij
ne
ij



=
=
(4.30)

onde,

contrrio caso
t x j i if
t
Q
t
x
ne
ij
0
) ( ) , (
)) ( (
) (
) (


(4.31)

no qual na equao 4.31 indica a classificao da formiga. Esta estratgia elitista difere da
AS, na qual a atualizao das formigas elencadas diretamente proporcional a sua classifica-
o: quanto melhor sua classificao (i.e., menor ) maior sua contribuio.

4.4.7 Resolues com Algoritmos de Colnia de Formigas
Algoritmos de colnia de formigas tm sido aplicados em diversas classes de proble-
mas de otimizao, como: roteamento de veculos (Gambardella et al. 1999a); atribuio qua-
drtica (Gambardella et al. 1999b); atribuio bi-quadrtica de recursos (Taillard, 1998), colo-
rao de grafos (Costa e Hertz, 1997), circuitos digitais (Abd-El-Barr et al. 2003), circuitos
lgicos (Coello et al. 2002), dentre outros.
Em problemas de roteamento de veculos agentes devem visitar um conjunto predefi-
nido de localizaes, no qual uma funo objetivo depende da ordenao dos locais visitados.
O roteamento de veculos requer a determinao de um conjunto timo de rotas para que um
conjunto de veculos atenda a demanda. Mazzeo e Loiseau (2004) propuseram um roteamento
de veculos capacitados, onde existe limite de peso e capacidade de volume que cada veculo
pode transportar. Os autores utilizaram um algoritmo de colnia de formigas para o roteamen-
to de veculos baseado na tcnica de metaheurstica, introduzida em (Dorigo, 1992). O objeti-
vo atender o conjunto de pontos de demanda, localizados nos vrtices do grafo G=(N,A), de
modo a minimizar o comprimento total das rotas dos veculos.
Bell e McMullen (2004) aplicaram um mtodo de otimizao de colnia de formigas
para estabelecer um conjunto de problemas de roteamento de veculos. Foram simulados pro-
cessos de tomada de deciso, onde o algoritmo de colnia de formigas foi alterado para permi-
tir a busca de mltiplas rotas. O uso de mltiplas colnias de formigas fornece solues com-
petitivas, especialmente em problemas complexos. Quando comparado com outros mtodos, o
tempo computacional favorvel.
100

Em problemas de atribuio, a tarefa atribuir um conjunto de itens (objetos, ativida-
des) para um dado nmero de recursos (locaes, agentes) determinados. Atribuies podem
ser representadas como um mapeamento de um conjunto I para um conjunto J, e uma funo
objetiva para minimizar as atribuies. Gmez e Puerta (2002) propuseram uma nova maneira
de lidar com problemas de triangulao de grficos. O problema centralizado em aplicaes
de otimizao por colnia de formigas, na qual heursticas so utilizadas para as atribuies. O
uso de heursticas melhora os resultados obtidos por outras tcnicas, tanto em preciso como
na eficincia. Algoritmos genticos foram utilizados por (Gmez e Puerta, 2002) para testar os
algoritmos de otimizao, acelerando o processo de busca devido s boas solues na fase
inicial da populao.
Lim et al. (2006) desenvolveram uma heurstica para resolver problemas de largura de
banda que utilizou o mtodo de busca subida da montanha (hill climbing) guiada por algorit-
mos de colnia de formigas. O mtodo foi comparado com outras abordagens de otimizao
por colnia de formigas, mostrando que busca local eficiente, combinada com mecanismo de
busca global pode produzir resultados competitivos. Dois mtodos construtivos foram utiliza-
dos com o algoritmo de colnia de formigas. Maniezzo e Carbonar (2000) consideram o pro-
blema em atribuir frequncias de rdio entre a estao base e transmissores mveis, na inten-
o de minimizar a interferncia global sobre uma determinada regio. Como o problema
NP-completo, foi aplicada uma heurstica baseada em otimizao por colnia de formigas.
Resultados experimentais mostram a eficincia da abordagem proposta.
O problema de atribuio em clulas essencial para o desenvolvimento de servios
de comunicao pessoal. Shyu et al. (2006) desenvolveram um algoritmo de otimizao por
colnia de formigas para resolver o problema em servios de comunicao pessoal. O proble-
ma modelado em forma de combinao em um grafo ponderado bipartido dirigido, de modo
que formigas artificiais possam construir seus caminhos. Experimentos foram realizados para
captar o comportamento das formigas em problemas de otimizao e analisar o desempenho
do algoritmo de colnia de formigas.
Annaluru et al. (2004) propuseram um algoritmo de colnia de formigas para encon-
trar localizaes timas e classificar capacitores em rede de distribuio em compensao de
potncia reativa. A abordagem multinvel no qual duas tabelas de feromnios so mantidas
pelo algoritmo. Formigas geram solues estocsticas, baseadas nas tabelas de feromnio que
so atualizadas periodicamente, de maneira que os feromnios acumulados melhorem a solu-
o atual ao longo do tempo. Resultados obtidos pelo algoritmo proposto foram comparados
101

com outras tcnicas, mostrando que a abordagem pode ser aplicada em problemas de classifi-
cao.
Em problemas de alocao de recursos, o objetivo alocar recursos para atividades de
forma que o custo se torne timo. Lee e Lee (2005) desenvolveram um algoritmo de busca
hbrido com heurstica para problemas de alocao de recursos encontrados na prtica. O algo-
ritmo proposto tm as vantagens dos algoritmos gentico e colnia de formigas, que permitem
explorar o espao de busca pela melhor soluo. Resultados parecem mostrar que devido s
propriedades dos algoritmos gentico e colnia de formigas, a abordagem hbrida supera ou-
tros algoritmos existentes.
Em problemas de roteamento de redes o objetivo encontrar caminhos com menor
custo na rede. Se os custos da rede so fixos, ento o problema de roteamento de redes redu-
zido a um conjunto de caminhos de custo mnimo, que pode ser resolvido usando algoritmos
de tempo polinomial. Bean e Costa (2005) apresentam uma tcnica de modelagem analtica
para o estudo de uma nova classe de algoritmos de roteamento de rede adaptativo, a qual
inspirada na resoluo de problemas emergentes observadas em colnias de formigas. Esta
classe de algoritmos utiliza agentes chamados de antlike que percorrem a rede e constroem
coletivamente polticas de roteamento. Resultados indicam que o algoritmo tem bom desem-
penho em relao s mudanas em tempo real em demandas de trfego e condies da rede.
Su et al. (2005) propuseram um algoritmo de busca de colnia de formigas para resol-
ver problemas de reconfigurao de redes para reduzir a perda de energia eltrica. O problema
de reconfigurao de rede de um sistema de distribuio da companhia de energia de Taiwan
foi resolvido usando o mtodo proposto. Tal mtodo foi comparado com algoritmo gentico e
a metaheurstica tmpera simulada (simulated annealing). Resultados numricos mostram que
o mtodo proposto melhor do que os demais mtodos.
Alm dos trabalhos discutidos, h ainda outros mtodos que apresentam caractersticas
interessantes no presentes em outras implementaes de otimizao por colnia de formigas.
Tsai et al. (2004) propuseram um novo algoritmo de colnia de formigas com different favor
para resolver problemas de agrupamento de dados. O algoritmo possui as seguintes estrat-
gias: i) adota conceitos de tmpera simulada para as formigas diminurem o nmero de esta-
dos visitados, e ii) utiliza estratgia de torneio de seleo para escolher o caminho. O mtodo
comparado com a tcnica de mapas auto-organizveis com K-means e algoritmos genticos.
O algoritmo parece eficiente e preciso em conjuntos de dados com alta dimenso.
Guntsch e Middendorf (2001) propuseram uma tcnica para melhorar a soluo quan-
do alteraes ocorrem no ambiente, aplicando procedimentos de busca local para as solues.
102

Alternativamente, estados afetados pela mudana so retirados da soluo, conectando o esta-
do predecessor e sucessor do estado excludo. Dessa forma, novos estados (no usados ainda
na soluo) so inseridos na soluo. O novo estado inserido na posio que causa o custo
mnimo ou diminui o custo mais alto (dependendo do objetivo) no ambiente.
Sim e Sun (2002) usaram mltiplas colnias de formigas, onde uma colnia repelida
pelo feromnio de outras colnias favorecendo a explorao quando o ambiente alterado.
Outras tcnicas para tratar a dinmica no ambiente alteram a regra de atualizao do ferom-
nio para favorecer a explorao. Por exemplo, Li e Gong (2003) modificaram as regras de
atualizao local e global do ant colony system. A regra de atualizao local foi alterada con-
forme equao 4.32:

1
( 1) (1 ( ( ))) ( ) ( )
ij ij ij ij
t t t t + = +
(4.32)

onde 1
( )
ij

uma funo de
ij
, e.g.:

1 ( )
1
( )
1 e
iJ
iJ
p

+
=
+
(4.33)

onde > 0.
A dinmica da evaporao faz com que valores elevados de feromnios fossem dimi-
nudos. Assim, quando o ambiente se altera e a soluo no a melhor, a concentrao de
feromnio nas arestas correspondentes diminui ao longo do tempo. A atualizao global
feita similarmente, mas consideram somente a melhor e a pior soluo global (equao 4.34):

2
( 1) (1 ( ( ))) ( ) ( )
ij ij ij ij ij
t t t t + = +
(4.34)

onde,

,
1 ( , )
1 ( , )
0
i j
se i j a melhor soluo global
se i j a pior soluo global
caso contrrio

(4.35)

Uma regra similar de atualizao global tambm foi usada em (Lee et al. 2001a; Lee et
al. 2001b). Guntsch e Middendorf (2001) propuseram trs regras de atualizao do feromnio
para ambientes dinmicos. O objetivo das regras encontrar um equilbrio timo da recompo-
sio de informaes, permitindo explorar novas solues enquanto mantm informaes su-
ficientes de processos de buscas passadas, para acelerar o processo para encontrar uma solu-
103

o. Para cada estratgia, y
1
[0,1] calculado e o feromnio reinicializado, conforme equa-
o 4.36:


1
( 1) (1 )
1
ij ij ij i
t
nG
+ = +

(4.36)

onde nG o nmero de estados na representao. As seguintes estratgias foram propostas:

Estratgia de recomeo: para essa estratgia usada a equao 4.37:

1 R
= (4.37)

onde
[0,1]
R

referido como parmetro de estratgica especfica, onde as alteraes no
ambiente no so consideradas.

-estratgia: informao heurstica usada para decidir o grau de valor dos feromnios
atualizados (equao 4.38):

max{0, }
i ij
d

= (4.38)

na qual,

1 , [0, )
ij
ij
d


(4.39)

e,

1 1,
1
nG
ij
i j j i
G G

= =
=

n (n - 1)

(4.40)

Nesse caso, y
i
proporcional distncia do estado alterado, e a atualizao realiza
em todas as arestas incidentes.


-
estratgia: o valor do feromnio usado para atualizar as arestas prximas ao esta-
do alterado (equao 4.41):


T T
min{1, }, [0, )
i ij
d

= (4.41)
104


na qual,

N
( , ) max
max
ij
ij
xy
ij
x y N
d


(4.42)

e N
ij
o conjunto do percurso de i at j.

4.5 Consideraes Finais
Neste captulo foram estudadas as principais caractersticas da aprendizagem por re-
foro e baseada em enxames. Podem-se observar diversas semelhanas desses conceitos, sen-
do que um agente aprende interagindo em um ambiente baseado no comportamento individual
ou social. Quando a interao entre os agentes melhora o comportamento coletivo, ento a
tendncia para se reproduzir uma relao entre eles reforada. Observou-se que a aprendiza-
gem por reforo uma metodologia utilizada por diversos algoritmos. Uma maneira de forma-
lizar esses algoritmos utilizando conceitos de processos decisrios de Markov, onde o for-
malismo inclui um conjunto de estados do ambiente, um conjunto de aes do agente, um con-
junto de transies de estados e uma funo de recompensas.
Foram citados alguns dos principais algoritmos baseados em recompensas. Algoritmos
como o Q-learning e o Ant-Q possuem propriedades em comum, pois buscam aprender uma
poltica de maneira iterativa quando o modelo do sistema no conhecido, a partir de recom-
pensas que podem ser socializadas com os demais agentes. Neste trabalho defende-se a idia
de que essas recompensas podem ser socializadas com modelos especficos de compartilha-
mento de recompensas e princpios de redes sociais, onde uma estrutura social dinmica pode
ser identificada e utilizada para melhorar a coordenao dos agentes. Esse o princpio fun-
damental da metodologia apresentada no captulo a seguir.

105

Captulo 5
Metodologia
Observou-se nos captulos anteriores que muitos mtodos de coordenao utilizam al-
goritmos de aprendizagem por reforo para coordenar as tarefas dos agentes. Muitas ativida-
des precisam ser realizadas em conjunto, pois um nico agente no concentra todos os recur-
sos e habilidades necessrias para satisfazer o objetivo global. As interaes entre os agentes e
as recompensas geradas estabelecem o comportamento individual e social. As interaes aca-
bam por formar uma estrutura social, na qual a sociabilidade interfere no comportamento dos
agentes que interagem a fim de executar tarefas em comum. Um dos objetivos desse trabalho
desenvolver modelos sociais para compartilhamento de recompensas sociais. Agentes que
interagem compartilhando recompensas devem dispor de modelos especficos que permitam
melhorar o comportamento global do sistema. Isso vai de encontro ao segundo objetivo, que
prope utilizar a estrutura social construda com as relaes dos indivduos de um sistema
multiagente.
A metodologia apresentada neste captulo est dividida em trs partes:
a) estudo do impacto de recompensas sociais em algoritmos de aprendizagem por re-
foro como forma de aprimor-los (seo 5.1);
b) estudo das caractersticas e do comportamento do Ant-Q em diferentes cenrios
(seo 5.2) de forma a esclarecer os aspectos que podem ser melhorados com o
auxlio de recompensas e teorias sociais. Tambm propomos nessa seo estrat-
gias que podem ser usadas em estruturas sociais dinmicas, aproveitando as re-
compensas de polticas aprendidas;
c) estudo do impacto das teorias sociais como meio para se estabelecer fundamentos
tericos e computacionais para um mtodo social de otimizao baseado no Ant-Q
(seo 5.3), uma vez que esta tcnica de coordenao multiagente tambm segue
106

princpios de aprendizagem por reforo e os experimentos apresentados na seo
anterior (5.2) demonstraram o potencial e a viabilidade dessa proposta.

5.1 Impacto das Recompensas em Aprendizagem por Reforo
Foi discutido no captulo 4 que algoritmos de aprendizagem por reforo, como o Q-
learning, podem ser utilizados para a descoberta de polticas de ao com um nico agente,
explorando repetidamente o espao de estados. A poltica de ao determina a sequncia de
aes que devem ser executadas no ambiente, gerando um processo decisrio de Markov. Usar
um nico agente tende a ser ineficiente em problemas onde o espao de estados grande. Nes-
tes casos, aprendizagem por reforo com mltiplos agentes tem se mostrado uma alternativa
interessante (Ribeiro, 2008a). Na aprendizagem por reforo, cada agente pode ter uma poltica
parcial (i.e., cada agente pode ter acesso parte do conhecimento global (Weiss, 1996), e o
objetivo interagir para formar relaes com os demais agentes, no intuito de melhorar o co-
nhecimento sobre o ambiente e melhorar a qualidade global da soluo.
Diferentes abordagens foram propostas para aprendizagem por reforo com mltiplos
agentes (Mataric, 1998; Chapelle et al. 2002; Hadad e Kraus, 2002; Soh e Luo, 2003; Scher-
merhorn e Scheutz, 2006; Ribeiro, 2008a), no entanto, elas geralmente apresentam problemas
de convergncia por no possurem um modelo genrico para coordenao dos agentes. Para
melhorar a coordenao em abordagens de aprendizagem por reforo com mltiplos agentes
so propostos modelos de interao que permitem o compartilhamento de recompensas gera-
das. Quando os agentes interagem, polticas de ao so geradas para indicar uma possvel
soluo para o problema. Tais polticas so formadas por valores que determinam as aes dos
agentes. Quando esses valores so compartilhados pelos agentes, ocorre a aprendizagem por
recompensas compartilhadas, que determinam a intensidade da relao entre os agentes no
sistema.
Os modelos de compartilhamento de recompensas propostos neste trabalho definem as
melhores recompensas do sistema a partir das seguintes estratgias:
i) recompensas compartilhadas em episdios pr-determinados;
ii) recompensas compartilhadas a cada ao, a partir de uma regra de transio baseada
na prpria poltica de ao; e
iii) recompensas compartilhadas de forma local e global, conforme a configurao dos
parmetros do algoritmo Q-learning.
107

Antes de discutir profundamente os modelos e os resultados experimentais, formali-
zado um framework implementado para a avaliao dos algoritmos de aprendizagem.

5.1.2 Aprendizagem por Recompensas Partilhadas
A aprendizagem por reforo com mltiplos agentes baseada em recompensas compar-
tilhadas pode produzir um conjunto refinado de comportamentos obtidos a partir das aes
tomadas. Parte do conjunto de comportamentos (i.e., uma poltica global) compartilhada
pelos agentes por meio de uma poltica de ao parcial (Q
i
). Geralmente, tais polticas parciais
contm informaes (valores de aprendizagem) incompletas sobre o ambiente, mas com um
modelo para compartilhar as recompensas, essas podem ser integradas para maximizar a soma
das recompensas parciais obtidas ao longo da aprendizagem. Quando polticas Q
1
,,Q
x
so
unificadas, possvel formar uma nova poltica, denominada de poltica de ao baseada em
recompensas partilhadas = {Q
1
,....,Q
x
}, na qual (s,a) uma tabela que denota as melhores
recompensas adquiridas pelos agentes durante o processo de aprendizagem.


Figura 5.1: Interao com informaes partilhadas

A figura 5.1 mostra como os agentes trocam informaes ao longo das interaes. Em-
pregando o algoritmo Q-learning, um Agente
i
gera e armazena as recompensas em
i
Q
^
. Quan-
do o agente A* recebe as recompensas o seguinte procedimento realizado: quando Agente
i

alcana o estado s
objetivo
a partir do estado inicial s s
objetivo
com caminho de menor custo, o
agente usa um modelo para compartilhar as recompensas com os demais agentes. Os valores
de aprendizagem de uma poltica parcial Q
i
podem ser utilizados para atualizar a poltica glo-
108

bal (s,a) disponvel, interferindo posteriormente na forma como os demais agentes atualizam
seus conhecimentos e interagem no ambiente.
O algoritmo da figura 5.2 apresenta a funo que compartilha as recompensas dos a-
gentes. Essa tarefa pode ser realizada de trs formas e so discutidas na subseo 5.1.3, sendo
que todas elas utilizam internamente um algoritmo de aprendizagem por reforo (Q-learning).
As melhores recompensas de cada agente so enviadas para a (s,a), formando uma nova pol-
tica com as melhores recompensas adquiridas pelos agentes I = {i
1
,...i
x
}, que na sequncia
podem ser socializadas com os demais agentes. Para estimar (s,a), usada uma funo custo,
que encontra o caminho de menor custo do estado inicial ao estado objetivo em uma dada po-
ltica. A descoberta desse caminho realizada com o algoritmo A* que produz um modelo
generativo para administrar a poltica que maximiza a recompensa total esperada, i.e., poltica
tima, de acordo com a metodologia apresentada em (Ribeiro et al. 2006c).
Os seguintes elementos so necessrios para a compreenso e formalizao dos mode-
los sociais de aprendizagem por reforo propostos:
- Um conjunto de estados S = {s
1
,...,s
m
};
- Um conjunto de agentes I= {i
1
,...,i
x
};
- Polticas de ao parcial {Q
1
,....,Q
x
}, onde Q
i
representa a poltica parcial do agente i;
- Uma funo de recompensa st(S) ST, onde ST= {1, 0.4, 0.3, 0.2, 0.1};
- Um instante de tempo de valor discreto t= 1,2,3,...,n;
- Um episdio de tempo c onde c < n;
- Um conjunto de aes A= {a
1
,...,a
k
}, onde cada ao executada no tempo t;
- Uma tabela de aprendizagem
^
: ( x ) S A
Q
, que define uma poltica Q;
- Um conjunto de modelos de compartilhamento de recompensas M= {discreto, cont-
nuo, dirigido por objetivo};
- Uma funo custo:
objetivo
S S
custo( , ) 0.1 (x)
i i
s s
s s st

= +

usada para calcular o custo de um
episdio (caminho do estado inicial s at o estado s
objetivo
) baseado na poltica atual;
- Uma funo que define o modelo de partilha f: (t M I S A) (s,a) e a condi-
o de parada do modelo;
- Uma poltica tima objetivo Q* estimada com um algoritmo supervisor (A*)

109

Algoritmo aprendizagem_social (I, modelo)
Tabela de aprendizagem: Q
i
, Q*,
01 0 ) , ( a s ;
02 Para cada agente i I faa:
03 Para cada estado s S faa:
04
// inicializao dos valores de aprendizagem
Para cada ao a A faa:
05
0 ) , (
^
a s Q
i
;
06 Fimpara
07 Fimpara
08 Fimpara
09 Step 0; t 0;
10 Para cada agente i I faa:
11 Enquanto no f(t, modelo, Q*, Q
i
, (s,a)) repita:
12 t t + 1;
13 Escolha estado s S, ao a A
14
Atualize:
) , ( ) , ( max
^
1 1
^
1
t t t t t t
a
a s Q a s Q V
t

+ +
+
;
[ ] V a s R a s Q a s Q
t t t t t t t t
+ +
+
) , ( ) , ( ) , (
^
1
^
;
15 Fimenquanto
16 Fimpara
17 Para cada agente i I faa:
18
) , ( ) , (
^
a s a s Q
i
;
19 Fimpara
20 Fim
Figura 5.2: Algoritmo de aprendizagem por reforo social.

110

Algoritmo f (t, modelo, Q*, Q
i
, (s,a))
C: nmero de episdios
01 Escolha modelo:
02 Caso discreto:
03 Se t mod C = 0 ento
04 (s,a) = atualiza_poltica(Q*, Q
i
, (s,a))
05 Fimse
06 Caso contnuo:
07

) , (
^
1
a s Q r
i
x
i=

;
08
r a s
Q
i
) , (
^
;
09 (s,a) = atualiza_poltica(Q*, Q
i
, (s,a))
10 Caso dirigido_por_objetivo:
11 Se s = s
objetivo
ento
12
) , (
^
1
a s Q r
i
x
i=
;
13

r a s Q
i
) , (
^
;
14 (s,a) = atualiza_poltica(Q*, Q
i
, (s,a))
15 Fimse
16 Fimescolha
17 Retorne((s,a))
Figura 5.3: Modelos de compartilhamento de recompensas

Funo atualiza_poltica(Q*, Q
i
, (s,a))
01 Para cada estado s S faa:
02 Se custo(Q
i
,s) custo(Q*,s) ento
03
) , ( ) , (
^
a s Q a s
i
;
04 Fimse
05 Fimpara
06 Fimpara
07 Retorne((s,a))
Figura 5.4: Atualiza poltica

O algoritmo da figura 5.2 deve ser interpretado da seguinte forma:
- Linha 2-8: Inicializao da ) , (
^
a s Q
i
;
- Linha 10: Interao dos agentes i I;
- Linha 11: A funo f seleciona um modelo de partilha; no qual < t, modelo, Q
i
, s, a >
so os parmetros, onde t a iterao corrente, modelo {discreto, contnuo, dirigido
por objetivo}, s e a so o estado e a ao escolhidos respectivamente da poltica Q
i
;
111

- Linha 14: Para cada par estado-ao empregada a regra de atualizao que calcula os
valores de recompensas;
- Linha 17-18:
i
Q
^
do agente i I atualizado com (s,a).


Figura 5.5: Diagrama de atividade do processo de aprendizagem

Para auxiliar a compreenso dos pseudocdigos, ilustrado na figura 5.5 o diagrama
de atividades que utiliza os algoritmos 5.2, 5.3 e 5.4.

5.1.3 Modelos de Compartilhamento de Recompensas para Aprendizagem Multiagente
Os seguintes modelos de compartilhamento de recompensas so discutidos nesta sub-
seo:
a) discreto: recompensas compartilhadas em determinados episdios;
b) contnuo: recompensas compartilhadas a cada ao; e
c) dirigido por objetivo: compartilha a soma das recompensas quando o agente alcan-
a o estado objetivo.

Modelo Discreto: com o modelo discreto o agente acumula as recompensas obtidas a
partir de suas aes ao longo das iteraes (por exemplo, c iteraes). No final da iterao c
cada agente informa os valores da
i
Q
^
para a (s,a). Se o valor da recompensa adequado, i.e.
se melhora a eficincia dos outros agentes para o mesmo estado (linha 3 do algoritmo 5.4) os
112

agentes socializam essas recompensas (linha 4 do algoritmo 5.4). Caso a recompensa seja til
somente para o agente que gerou a recompensa, o agente continuar usando tais recompensas
com o objetivo de acumular novos valores que possam ser compartilhados nas prximas itera-
es. observado que empregando o modelo discreto os agentes so capazes de compartilhar
as melhores recompensas, dado que haja uma quantidade suficiente de iteraes para acumular
boas recompensas. A soma das recompensas obtidas na iterao geralmente capaz de melho-
rar a convergncia de .
Modelo Contnuo: com o modelo contnuo os agentes se relacionam compartilhando o
valor do reforo obtido a cada transio
a
s,s
. O reforo obtido determinado pela ao basea-
do na poltica de ao. A aprendizagem ocorre da seguinte maneira: cada ao do agente gera
um valor de reforo (linha 7 algoritmo 5.3). O objetivo acumular altas recompensas em
i
Q
^

que possam ser compartilhadas no final do processo da aprendizagem (linha 19 do algoritmo
5.2).
A inteno com esse modelo mostrar que recompensas podem ser acumuladas mes-
mo quando geradas por transies de diferentes polticas, demonstrando que recompensas
adquiridas de vrias polticas geradas separadamente podem gerar uma poltica Q*.
Modelo Dirigido por Objetivo: diferentemente do modelo discreto, a cooperao o-
corre quando o agente alcana o estado objetivo (linha 11 algoritmo 5.3). Neste caso, o agente
interage no ambiente com o objetivo de acumular as maiores recompensas. Isso necessrio
porque com esse modelo o agente compartilha suas recompensas em diferentes episdios. Por-
tanto, essa estratgia usa como heurstica a rpida acumulao de recompensas adquiridas
pelos agentes durante a aprendizagem.
Quando o agente alcana o estado objetivo, o valor das recompensas adquiridas en-
viado para a (s,a). Se o valor da recompensa do estado melhora a eficincia global, ento os
agentes compartilham tais recompensas. Isso mostra que mesmo compartilhando recompensas
baixas e no satisfatrias do incio da aprendizagem, o agente capaz de aprender, sem preju-
dicar a convergncia global.

5.1.3.1 Resultados Experimentais com os Modelos Discreto, Contnuo e Dirigido por Ob-
jetivo
Os modelos sociais de aprendizagem por reforo foram avaliados a partir de um ambi-
ente artificial construdo com este objetivo. O ambiente de simulao utilizado para avaliao
dos modelos constitudo por um espao de estados onde h um estado inicial (s
inicial
), um
113

estado objetivo (s
objetivo
) e um conjunto de aes A= { (para frente), (para a direita), (pa-
ra trs), (para a esquerda)}. Um estado s um par (X,Y) com coordenadas de posies nos
eixos X e Y respectivamente. Em outras palavras, o conjunto de estados S representa um mapa
de uma cidade. No ambiente h uma funo status st : S ST que mapeia os estados e situa-
es de trfego (recompensas) onde ST = {0.1 (livre), 0.2 (pouco congestionado), 0.3
(congestionado ou desconhecido), 0.4 (muito congestionado), 1 (bloqueado), 1.0 (s
objetivo
)}.
Aps cada movimento do agente (transio) de um estado s para o estado s, o agente sabe se
sua ao foi positiva ou negativa por meio das recompensas atribudas. A recompensa para a
transio
a
s,s
st(s). A figura 5.6 mostra uma representao simplificada de um ambiente
com uma poltica .


Figura 5.6: Exemplo de um ambiente com 400 estados. Os agentes so posicionados aleatori-
amente no ambiente e possuem campo de profundidade visual de 1

A imagem da figura 5.7 ilustra a interface do framework dos algoritmos 5.2, 5.3 e 5.4,
e os principais componentes que compe a interface do sistema.

114


Figura 5.7: Interface do framework de aprendizagem por reforo

Na figura 5.7 possvel observar 3 regies principais. No canto superior esquerdo
representado o ambiente onde os agentes interagem usando o Q-learning e os modelos. Neste
ambiente possvel representar as situaes de congestionamento para cada estado, conforme
legenda direita. Logo abaixo est o ambiente que representa o algoritmo A*, que mostra o
caminho de menor custo de um estado s at o estado objetivo. O agente representado pelo
crculo . O ltimo ambiente apresenta as melhores aes do sistema para cada estado, repre-
sentando a poltica atual atravs de nveis de cores e setas indicativas que mostram as aes
dos agentes aps aprendizagem.
Os experimentos foram realizados com agentes que empregam o algoritmo Q-learning
original e os modelos sociais de recompensas descritos anteriormente. Os seguintes parme-
tros foram usados: = 0.9 e = 0.2. De 1 a 10 agentes foram usados com o objetivo de avaliar
o impacto no ambiente da interao social produzida com os modelos.
Na inteno de observar a convergncia em ambientes com muitos estados, os algorit-
mos foram executados em ambientes com 400 estados (2020). lembrado que um nmero
de estados S pode gerar um grande espao de solues, na qual o nmero de polticas poss-
115

veis |A|
|S|
. Quinze ambientes com configuraes diferentes foram gerados arbitrariamente
(figura 5.8). O processo de aprendizagem em cada ambiente foi repetido quinze vezes (quanti-
dade de amostras) para avaliar a variao na eficincia, que pode ocorrer devido aos valores
gerados na aprendizagem com ambientes diferentes. Os valores apresentados correspondem
mdia de todos os experimentos gerados. Pde-se observar que a eficincia dos modelos no
foi significativamente afetada (2,15%) quando um nmero maior de iteraes foi utilizado.





Figura 5.8. Ambientes usados nas simulaes

Inicialmente, a (s,a) foi avaliada usando o modelo discreto com as polticas de ao
parcial. Esse modelo converge para a poltica tima Q* porque os reforos adquiridos pelos
agentes so gerados em iteraes pr-definidas e geralmente acumulam valores de reforos
satisfatrios que levam a uma boa convergncia. Pode-se observar na figura 5.9 que com o
modelo discreto a (s,a) converge para Q*, pois h um intervalo suficiente de iteraes para
acumular as melhores recompensas (regio R1).

116


Figura 5.9: Modelo discreto

J a figura 5.10 ilustra o desempenho do sistema usando o modelo contnuo. A (s,a)
do modelo contnuo capaz de acumular bons valores de reforos em poucas iteraes. Pode-
se observar na figura 5.10 que depois de algumas iteraes, o desempenho da diminui (regi-
o R2). Isso ocorre porque os estados mais prximos do estado objetivo comeam a acumular
reforos com valores altos, caracterizando um mximo local, penalizando o agente que ao
longo do tempo no capaz de visitar outros estados. Esse problema pode ser minimizado
empregando a estratgia -greedy (Sutton e Barto, 1998). Quando a probabilidade mxima,
somente as melhores aes so escolhidas, limitando o espao de possibilidades. Portanto, a
explorao de poltica -greedy seleciona as aes aleatoriamente, com probabilidade e as
melhores aes com probabilidade 1 . Essa abordagem foi discutida em (Ribeiro et al.
(2006a; Ribeiro, 2006c).


Figura 5.10: Modelo contnuo

A figura 5.11 ilustra o desempenho dos agentes com o modelo dirigido por objetivo.
Com esse modelo o agente compartilha o aprendizado em um nmero varivel de episdios e
a cooperao ocorre quando o agente alcana o estado objetivo. A (s,a) gerada capaz de
acumular bons valores de reforos, dado que haja uma quantidade de iteraes suficiente para
117

acumular valores de recompensas satisfatrias. Nas iteraes iniciais, o desempenho do algo-
ritmo Q-learning com o modelo geralmente baixo. Isso acontece porque o valor do reforo
de um estado s pode apresentar muitos rudos (i.e., valor de reforo que pode ser satisfatrio
somente para a poltica de um agente). Geralmente, os rudos so gerados pela poltica de ao
parcial, acumulando reforos que no so satisfatrios, produzindo uma convergncia irregu-
lar (mnimo local). possvel observar na figura 5.11 uma quantidade considervel de rudos
no incio do processo de aprendizagem do algoritmo Q-learning com o modelo (regio R3),
especialmente quando h cooperao entre muitos agentes. No entanto, a (s,a) converge para
Q*, mesmo compartilhando recompensas no satisfatrias. Em problemas de deciso sequen-
cial um agente interage repetidamente no ambiente e tenta otimizar seu desempenho baseado
nas recompensas recebidas. Assim, difcil determinar as melhores aes em cada situao,
pois uma deciso especfica pode ter um efeito prolongado, em funo da influncia sobre
aes futuras.


Figura 5.11: Modelo dirigido por objetivo

5.1.4 Modelo Hbrido de Aprendizagem
Em aprendizagem por reforo baseada em recompensas compartilhadas a descoberta
de polticas no satisfatrias pode ocorrer em um dado momento, pois a troca de conhecimen-
to entre os agentes pode gerar novas polticas intermedirias incompatveis com uma rpida
convergncia. Como h mudanas no aprendizado de cada agente, necessrio que todos os
agentes estejam atualizando e trocando suas recompensas enquanto interagem.
No h garantia de convergncia da poltica de ao baseada em recompensas compar-
tilhadas usando os modelos descritos anteriormente. Observou-se empiricamente que polticas
com estados e valores de recompensas inadequados, podem sofrer modificaes com recom-
pensas informadas por outras polticas parciais, melhorando a (s,a). No entanto, pode ocorrer
o efeito contrrio, onde polticas com estados com altas recompensas, podem se tornar menos
118

interessantes para a poltica corrente, pois estados que produziam acertos passam a produzir
erros.
Para resolver esse problema, foi desenvolvido um modelo hbrido de aprendizagem.
Esse modelo surgiu a partir dos modelos discreto, contnuo e dirigido por objetivo e de consta-
taes observadas nos experimentos. Pode-se notar que o comportamento da (s,a) com os
modelos se altera em funo da quantidade de iteraes, de episdios e da quantidade de agen-
tes. As figuras 5.12, 5.13 e 5.14 ilustram os modelos em ambientes com 400 estados.


Figura 5.12: Ambiente 400 estados, 3 agentes


Figura 5.13: Ambiente 400 estados, 5 agentes

119


Figura 5.14: Ambiente 400 estados, 10 agentes

O modelo hbrido de aprendizagem utiliza as particularidades de cada modelo, permi-
tindo a utilizao das melhores caractersticas. Esse modelo descobre novas polticas de ao
sem causar atrasos na aprendizagem, reduzindo possveis conflitos entre aes com recom-
pensas de polticas diferentes, melhorando a convergncia. O modelo hbrido de aprendizagem
funciona da seguinte forma: a cada iterao do algoritmo Q-learning com um modelo, o de-
sempenho do agente com os modelos comparado, gerando uma nova tabela de aprendiza-
gem, de nome MH-(s,a) (Modelo Hbrido). Quando a condio de atualizao do modelo
alcanada, o agente inicia o aprendizado utilizando o modelo de melhor desempenho e a a-
prendizagem transferida para a MH-(s,a). Portanto, a MH-(s,a) ter as melhores recom-
pensas adquiridas dos modelos discreto, contnuo e dirigido por objetivo. Os resultados do
modelo hbrido so apresentados a seguir.

5.1.5 Modelo Hbrido vs. Modelos Contnuo, Discreto e Dirigido por Objetivo
Nesta subseo so apresentados os principais resultados comparando o modelo hbri-
do de aprendizagem com os modelos discutidos anteriormente. Os parmetros utilizados no
modelo hbrido so os mesmos dos demais modelos. Os experimentos foram realizados em
ambientes que variam entre 100 (10 10) e 400 (20 20) estados. Os resultados apresentados
nas figuras 5.15 a 5.23 comparam o modelo hbrido e os demais modelos com diferentes quan-
tidades de agentes e estados.

120


Figura 5.15: Ambiente de 100 estados; 3 agentes


Figura 5.16: Ambiente de 100 estados; 5 agentes


Figura 5.17: Ambiente de 100 estados; 10 agentes

121


Figura 5.18: Ambiente de 250 estados; 3 agentes


Figura 5.19: Ambiente de 250 estados; 5 agentes


Figura 5.20: Ambiente de 250 estados; 10 agentes


Figura 5.21: Ambiente de 400 estados; 3 agentes

122


Figura 5.22: Ambiente de 400 estados; 5 agentes


Figura 5.23: Ambiente de 400 estados; 10 agentes

As figuras 5.15 a 5.23 mostram que o modelo hbrido apresenta eficincia superior em
relao s polticas geradas com os modelos discreto, contnuo e dirigido por objetivo. Geral-
mente, o modelo hbrido obtm desempenho superior em qualquer fase das iteraes. Isso fez
com que diminusse significativamente o nmero de iteraes necessrias para encontrar uma
boa poltica de ao. Em ambientes com 100 estados o nmero de iteraes diminuiu aproxi-
madamente 23.4% quando utilizados 3 agentes, 27.1% com 5 agentes e 40.4% com 10 agen-
tes. Nos ambientes com 250 estados o modelo hbrido consegue diminuir o nmero de itera-
es em 20% com 3 agentes, 22.8% com 5 agentes e 33.9% com 10 agentes. J nos ambientes
com 400 estados o nmero de iteraes diminuiu 18.6% com 3 agentes, 23.3% com 5 agentes
e 28.7% com 10 agentes. A tabela 5.1 sumariza a superioridade mdia da eficincia do modelo
hbrido comparado com o melhor dentre os demais modelos.

123

Tabela 5.1: Superioridade mdia do modelo hbrido em relao aos demais modelos
Quantidade de agentes
#Estados 3 5 10
100 17.6% 69.8% 37.2%
250 50.3% 31.4% 33.7%
400 45.1% 40.9% 37.6%

possvel observar que o desempenho dos agentes com o modelo hbrido melhor do
que o desempenho das polticas de ao baseadas em recompensas individuais. O bom desem-
penho dos agentes que cooperam utilizando o modelo hbrido decorrente de (s,a) gerada a
partir de valores de aprendizagem descobertos de forma colaborativa. Assim, os agentes con-
seguem gerar polticas com boas recompensas para aproximar os valores aprendidos de uma
boa poltica. Ademais, o nmero de iteraes diminuiu significativamente com o modelo h-
brido.

5.2 Anlise do Ant-Q
No captulo 4 foram discutidas algumas tcnicas para problemas de otimizao combi-
natria a partir de algoritmos de colnia de formigas, enquanto na seo anterior observou-se
como a coordenao dos agentes pde ser melhorada a partir de interaes com as recompen-
sas sociais geradas por algoritmos de aprendizagem por reforo. A aprendizagem por reforo e
o algoritmo Ant-Q se relacionam devido maneira que este algoritmo estabelece o comporta-
mento dos agentes com as recompensas geradas pelas interaes e sua capacidade de combi-
nar tcnicas de aprendizagem por reforo com buscas heursticas para melhorar a explorao.
Antes de discutirmos detalhadamente a relao dos algoritmos de colnia de formigas com as
redes sociais, apresentado um framework de teste desenvolvido para demonstrar o desempe-
nho dos agentes com o algoritmo Ant-Q e para descrever o comportamento do Ant-Q com di-
ferentes cenrios e parmetros.
O framework capaz de mostrar de maneira interativa o impacto da variao dos pa-
rmetros e da quantidade de agentes no algoritmo. O algoritmo foi testado no problema do
caixeiro viajante, sabidamente NP-completo. O problema do caixeiro viajante um problema
clssico de otimizao combinatria, frequentemente utilizado na computao para demons-
trar problemas de difcil resoluo, podendo ser formalizado pela teoria dos grafos. O objetivo
encontrar o percurso (caminho) de menor distncia, passando por todos os estados uma ni-
ca vez at a origem (ciclo hamiltoniano de menor custo).
124

Uma alternativa para solucionar o problema do caixeiro viajante testar as permuta-
es possveis, empregando algoritmos de busca exaustiva para encontrar o percurso com me-
nor custo. No entanto, dado que a quantidade de permutaes (n 1)!, tal alternativa torna-
se impraticvel para a soluo na maioria das vezes. Portanto, diferentemente das tcnicas
exaustivas, algoritmos heursticos como o Ant-Q, buscam solues desejveis em menor tem-
po. Mesmo sem garantir a melhor soluo (poltica tima), o ganho computacional favorece a
soluo.
A figura 5.24 apresenta uma viso geral do framework e os principais componentes da
interface.


Figura 5.24: Framework de teste

Na figura 5.24 possvel observar um plano cartesiano que representa o local onde os
estados so posicionados. A linha escura representa a melhor poltica (melhor percurso) des-
coberta pelo algoritmo Ant-Q. As demais linhas representam as recompensas acumuladas ao
longo dos episdios.
Logo abaixo do plano, apresentado o grfico que mostra a evoluo da aprendizagem
do algoritmo (eixo X), onde possvel observar o comportamento dos agentes em relao ao
custo da poltica (eixo Y). Um episdio uma sequncia de aes, que determina os estados
125

que foram visitados pelo agente. Dessa forma, um episdio finalizado quando o agente re-
torna ao estado de origem (estado que iniciou o percurso). A linha mais regular do grfico
representa a poltica de menor custo global e a linha com mais variaes, mostra o custo das
melhores polticas do episdio. A figura 5.25 ilustra um grfico que indica o custo da poltica
global com valor 154,6 e o custo da poltica do episdio corrente com valor 175,9. O custo da
poltica a somatria das distncias (euclidiana) entre os estados da soluo em cada episdio.


Figura 5.25: Custos das polticas em cada episdio

direita da figura 5.24, esto posicionados os parmetros do algoritmo e do ambiente,
onde e so respectivamente os parmetros da regra de transio, e y e so os parmetros
de aprendizagem do algoritmo. As variveis m
k
, S e n
t
representam o nmero de agentes, a
quantidade de estados e o nmero de episdios respectivamente, onde n
t
usado como critrio
de parada do algoritmo.
No intuito de formalizar a apresentao do framework, so apresentadas as estruturas
internas principais do simulador com pseudocdigos. Os algoritmos das figuras 5.27 a 5.32
compem o algoritmo Ant-Q apresentado na figura 5.26.

126

Algoritmo Ant-Q
01 Incio
02 Distribua os estados no plano cartesiano
03 Calcule e distribua o AQ
0
, conforme a equao 5.1
04 Para (cada episdio) Repita:
05 Defina a posio inicial dos Agentes
06 Enquanto (existirem estados a serem visitados) Faa
07 Para (cada Agente) Repita:
08 Se (q(rand(0..1) <= q
0
) Ento
09 Escolha a ao conforme a equao 4.21
10 Seno
11 Escolha a ao conforme a equao 4.22
12 Fimse
13 Atualize o feromnio da aresta i com a equao
4.22
14 Fimpara
15 Fimenquanto
16 Compute o melhor custo do episdio
17 Atualizao global, conforme a equao 5.3
18 Fimpara
19 Fim
Figura 5.26: Pseudocdigo do Ant-Q

O algoritmo da figura 5.26 descrito da seguinte maneira. Inicialmente, calculado
com a equao 5.1 o valor inicial do feromnio (AQ
0
):

n avg
1

(5.1)

( ) ( )
2 2
u s u s su
y y x x d + =
(5.2)

onde avg a mdia das distncias euclidianas dos estados pares su calculada pela equao 5.2,
e n o nmero de agentes no sistema.

Funo calculaAQ
0
(numEstados, numAgentes)
01 Incio
02 Para (cada par de estados) Repita:
03 Soma calcDist(x
s
,y
s
,x
u
,y
u
); //conforme a equao 5.2
04 Fimpara
05 Media soma / numEstados;
06 AQ
0
1 / (media * numAgentes);
07 return (AQ
0
)
08 Fim
Figura 5.27: Clculo para AQ
0


127

O algoritmo da figura 5.27 usado para calcular o valor de AQ
0
, que ser atribudo a
todas as arestas que compem o grafo. Assim, os agentes podem selecionar os estados basea-
dos no valor do feromnio ou da heurstica (proporcional ao inverso de sua distncia).
Um parmetro importante no algoritmo Ant-Q o q
0
, que define o tipo de explorao
adotada pelo agente a cada ao. O valor gerado de maneira aleatria no intervalo [0,1]. Ca-
so o valor gerado seja inferior ou igual a q
0
, o agente adota a ao do tipo gulosa, i.e. escolhe
a aresta com maior recompensa (max), figura 5.28; caso contrrio, o agente utiliza a estratgia
exploratria (figura 5.29).

Funo exploitation()
01 Incio
02 Para (cada aresta s,i) Repita:
03 Se (i >= max) Ento
04 max i
05 Fimse
06 Fimpara
07 Return (max)
08 Fim
Figura 5.28: Funo exploitation

Funo exploration()
01 Incio
02 Para (cada estado a ser visitado) Repita:
03 probabilidade calcProb();//conforme a equao 4.22
04 Fimpara
05 Para (cada estado a ser visitado) Repita:
06 Se (probabilidade <= rand(estado)) Ento
07 estadoSelecionado = estado
08 Fimse
09 Fimpara
10 Return (estadoSelecionado)
11 Fim
Figura 5.29: Funo exploration

Para cada ao do agente, o valor na aresta dos estados adjacentes atualizado con-
forme a equao 5.3.

|
|

\
|
+ +

) , ( max . ) , ( . ) , ( ). 1 ( ) , (
) (
i j AQ u s AQ u s AQ u s AQ
t N i
k
j

(5.3)

O valor para max calculado investigando todas as arestas adjacentes (estados poss-
veis a i). O maior valor encontrado usado na soluo.
128

Um importante aspecto do algoritmo a forma de atualizao na tabela de aprendiza-
gem, podendo ocorrer de maneira global ou local. A atualizao global ocorre no final de cada
episdio, onde escolhida a poltica de menor custo e atualizados os valores dos estados com
o parmetro de reforo (figura 5.30). Esse procedimento similar ao modelo dirigido por ob-
jetivo descrito na seo 5.1. A equao 5.4 usada para calcular o valor de AQ(s,u), que ser
o reforo da atualizao global (figura 5.31).

=
Best
L
W
u s AQ ) , (

(5.4)

onde W uma varivel parametrizada com o valor 10 e L
best
custo total do percurso. J a
atualizao local ocorre a cada ao dentro do episdio, onde AQ(s,u) ter valor zero.

Funo atualizaoLocal(s,u)
01 Incio
02 max calcmax()
03 AQ(s,u) = calcFeromon(s,u,max);//conforme a equao 5.3
04 Fim
Figura 5.30: Atualizao local

Funo atualizaoGlobal(melhorRota)
01 Incio
02 Reforo calcReforo(); //conforme a equao 5.4
03 Para (cada aresta pertencente a melhor poltica) Repi-
ta:
04 atualizaoLocal(Reforo)
05 Fimpara
06 Fim
Figura 5.31: Atualizao global

5.2.1 Resultados Experimentais
Experimentos so mostrados para avaliar o impacto dos parmetros de aprendizagem
do algoritmo Ant-Q. Os parmetros de aprendizagem podem influenciar a coordenao dos
agentes durante a interao, e, se ajustados inadequadamente, podem ocasionar atrasos no
aprendizado ou at mesmo causar situaes inesperadas de transio, convergindo para uma
soluo no satisfatria. Portanto, os experimentos realizados com o algoritmo avaliam sua
eficincia considerando fatores como: variaes na taxa de aprendizagem; fator de desconto;
taxa de explorao, regras de transio e quantidade de agentes no sistema.
129

Para analisar a eficincia dos parmetros do algoritmo, foram gerados 5 cenrios dife-
rentes para cada tipo de experimento, em ambientes de 35, 45 e 55 estados (figura 5.32). O
aprendizado em cada cenrio foi realizado 15 vezes pelo algoritmo (15 amostras), pois se ob-
serva que fazendo experimentos em um mesmo ambiente, com entradas iguais, podem ocorrer
variaes na eficincia gerada pelo algoritmo. Isto ocorre porque as aes dos agentes so
probabilsticas e os valores gerados durante sua aprendizagem so estocsticos. Portanto, as
polticas de ao dos agentes podem variar de um experimento para outro. Assim, a eficincia
apresentada nesta seo representa a mdia de todos os experimentos gerados nos 5 cenrios
com 15 amostras em cada ambiente. Esse nmero de repeties foi suficiente para avaliar a
eficincia do algoritmo, pois observamos que a partir deste nmero os resultados dos experi-
mentos no alteravam significativamente a qualidade das polticas. O eixo Y dos grficos das
figuras 5.34 a 5.38 apresenta o custo da poltica em % encontrada com cada parmetro
5
. O
eixo X do grfico indica o valor do parmetro. Em muitos problemas de otimizao no pos-
svel a priori conhecer a poltica tima. Para calcular a eficincia do algoritmo em percentual
(eixo Y), usada uma escala para cada poltica, onde 100% indica a poltica de menor custo e
0 caso contrrio.
A quantidade de agentes no ambiente igual quantidade de estados. Inicialmente, os
parmetros foram configurados com os seguintes valores: = 1; = 2; = 0,3; = 0,1; q
0
= 0,9 e
W= 10. Foi utilizada como critrio de parada a quantidade de 300 episdios. Cabe observar
que dependendo do tamanho e da complexidade do ambiente, esse nmero no suficiente
para encontrar a melhor poltica. No entanto, o objetivo dos experimentos avaliar o impacto
dos parmetros na convergncia dos agentes e no a qualidade da poltica encontrada.

5
Em muitos problemas de otimizao no possvel a priori conhecer a poltica tima. Para mostrar o desempe-
nho do algoritmo em percentual, usada uma escala para cada poltica, onde 100% indica a poltica de menor
custo e 0 caso contrrio.
130


35 estados (11 x 10)

45 estados (11 x 10)

55 estados (15 x 14)
Figura 5.32: Ambientes usados na simulao, onde os estados esto expressos em um sistema
euclidiano de coordenadas 2D

Antes de discutirmos os resultados variando os fatores de aprendizagem, importante
lembrar que observamos a necessidade de poucos episdios para encontrar as melhores polti-
cas. Isso acontece devido influncia da heurstica, que foi parametrizada com o dobro do
valor da influncia do feromnio. As imagens da figura 5.33 ilustram a evoluo da poltica
em um ambiente com 55 estados a cada 50 episdios.

131


episdio 50


episdio 100


episdio 150

episdio 200


episdio 250


episdio 300
Figura 5.33: Evoluo da poltica a cada 50 episdios

5.2.1.1 Taxa de Aprendizagem
A taxa de aprendizagem indica a importncia do feromnio computado ao estado
selecionado. Para verificar os melhores valores para foram realizados experimentos nos
trs ambientes usando valores entre 0 e 1. Os melhores valores para esto entre 0.1 e 0.2.
Valores superiores fazem com que, os agentes ao estabelecerem uma melhor ao em um de-
terminado estado do ambiente, no efetuassem outras aes na busca de caminhos de menor
custo. Valores inferiores no do a devida importncia ao aprendizado, no permitindo que os
agentes selecionem caminhos diferentes da poltica corrente. O melhor valor de para a pol-
tica foi de 0.1, sendo usado nos demais experimentos. Observamos ainda que, quanto menor a
taxa de aprendizagem, menor a variao da poltica. A figura 5.34 apresenta a eficincia das
taxas de aprendizagem no intervalo [0,1].

132


Figura 5.34: Eficincia da taxa de aprendizagem

5.2.1.2 Fator de Desconto
O fator de desconto determina o peso temporal relativo dos reforos recebidos. Os me-
lhores valores para o fator de desconto esto entre 0.2 e 0.3 conforme apresentado na figura
5.35. Valores diferentes de 0.2 e 0.3 mostraram-se ineficientes para a convergncia, tendo
pouca relevncia para a aprendizagem dos agentes. Quando o valor superior a 0.3, ele apre-
senta relevncia excessiva, induzindo os agentes a timos locais.


Figura 5.35: Eficincia do fator de desconto

5.2.1.3 Taxa de Explorao
A taxa de explorao q
0
indica a probabilidade de um agente escolher um determinado
estado. Os experimentos para encontrar a melhor taxa de explorao foram realizados em am-
bientes com estados e tamanhos diferentes. Os melhores valores utilizados esto entre 0.8 e 1.
medida que o valor se aproxima de zero, as aes dos agentes vo se tornando cada vez
mais aleatrias, consequentemente as solues comeam a no ser satisfatrias.
O melhor valor encontrado para q
0
0.9. Com isso, agentes selecionam os caminhos de
menor custo e com maior concentrao de feromnio. Com q
0
= 0.9 a busca praticamente
133

gulosa, pois 0.1 ser a probabilidade de escolher os demais caminhos. A figura 5.36 mostra os
resultados para q
0
no intervalo [0,1].


Figura 5.36: Resultados do parmetro de explorao

5.2.1.4 Regra de Transio
Os experimentos alterando os fatores e foram realizados em ambientes com estados
e tamanhos diferentes. Conforme observado, o algoritmo dependente de heursticas, onde o
peso representado pelo parmetro . Para obter bons resultados, o valor de deve ser pelo
menos 65% do valor de . A figura 5.37 ilustra os resultados variando os fatores e .


Figura 5.37: Resultados da regra de transio ( e )

5.2.1.5 Quantidade de Agentes
Para avaliar o impacto da quantidade de agentes no sistema, foram utilizados de 10 a
80 agentes. A figura 5.38 mostra que as melhores polticas so encontradas quando a quanti-
dade de estados igual quantidade de agentes no sistema (m
k
= x), onde x a quantidade de
estados e x
i
a variao dos agentes no sistema. Pode-se observar que a quantidade superior
de agentes ao nmero de estados (m
k
> x) mostra-se inadequada para boas solues, apresen-
tando comportamento de estagnao. Assim, ao encontrarem uma soluo, agentes evitam a
134

busca por outros caminhos, determinando um mximo local. Quando a quantidade de agentes
inferior ao nmero de estados (m
k
< x), o nmero de episdios teve que ser aumentado de
maneira exponencial para encontrar as melhores solues.


Figura 5.38: Quantidade de agentes (m
k
)

5.2.2 Estratgias de Atualizao de Polticas para Ambientes Dinmicos
Observou-se nas sees anteriores que algoritmos de colnia de formigas so eficien-
tes quando os parmetros de aprendizagem so ajustados e quando no ocorrem alteraes no
ambiente que modificam a poltica tima. No entanto, em ambientes dinmicos no se tem a
garantia da convergncia do algoritmo Ant-Q, pois sabe-se que esse algoritmo foi original-
mente desenvolvido e aplicado em problemas estticos, onde a funo objetivo no se altera
no tempo. No entanto, raramente h problemas do mundo real que so estticos, devido a mu-
danas de prioridades por recursos, alteraes nos objetivos e tarefas que no so mais neces-
srias. Essas particularidades caracterizam um ambiente dinmico.
Conforme discutido na subseo 4.4.7, vrias tcnicas baseadas em algoritmos de co-
lnia de formigas foram desenvolvidas para melhorar a habilidade de explorao dos algorit-
mos em ambientes dinmicos. Essas tcnicas podem ser usadas como alternativas para melho-
rar a soluo assim que o ambiente alterado. As abordagens propostas so baseadas em tc-
nicas que usam estratgias para melhorar a explorao usando a transio probabilstica do ant
colony system, aumentando a explorao do espao de estados. Dessa forma, a deciso de
transio mais aleatria usada, variando alguns parmetros onde a nova informao heursti-
ca influencia a seleo das arestas mais desejveis.
Alguns trabalhos utilizam regras de atualizao nas arestas da soluo, incluindo um
componente de evaporao similar regra de atualizao do ant colony system. Dessa forma,
ao longo do tempo a concentrao do feromnio diminui, fazendo que os estados menos favo-
rveis sejam menos explorados nos episdios futuros. Para isso, uma alternativa seria reinicia-
135

lizar o valor do feromnio aps observar as alteraes no ambiente, mantendo uma referncia
para as melhores solues encontradas. Se identificado o local da alterao no ambiente, o
feromnio dos estados adjacentes reinicializado, fazendo com que os estados se tornem mais
desejados. Se um estado no satisfatrio, reforos podem ser menores (geralmente propor-
cional a qualidade da soluo), e ao longo do tempo, tornam-se menos desejveis devido
reduo do feromnio pela evaporao.
possvel observar que a maioria dos trabalhos propostos concentra seus esforos em
melhorar as regras de transio empregando estratgias sofisticadas para a convergncia. No
entanto, os experimentos mostram que tais mtodos no conseguem bons resultados em ambi-
entes altamente dinmicos e onde o tamanho do espao de busca incerto.
Para isso, so apresentadas nesta seo algumas estratgias que foram desenvolvidas
para a atualizao de polticas geradas por recompensas (feromnios) para ambientes dinmi-
cos. verificado que quando os parmetros de algoritmos baseados em recompensas so ajus-
tados inadequadamente pode ocorrer atrasos no aprendizado e convergncia para uma soluo
no-satisfatria. Alm disso, esse problema agravado em ambientes altamente dinmicos,
pois o ajuste dos parmetros de tais algoritmos no suficiente para garantir convergncia.
As estratgias desenvolvidas modificam valores de feromnio, melhorando a coorde-
nao entre os agentes e permitindo convergncia mesmo quando h mudanas na posio
cartesiana dos estados do ambiente. O objetivo das estratgias encontrar o equilbrio timo
da recomposio da poltica, que permita explorar novas solues usando informaes de pol-
ticas passadas. Equilibrar o valor do feromnio equivale a reajustar as informaes das liga-
es, dando ao processo de busca flexibilidade para encontrar uma nova soluo quando o
ambiente alterado, compensando a influncia das polticas passadas na construo de novas
solues.
Uma das estratgias de atualizao desenvolvidas inspirada nas abordagens propostas
em (Guntsch e Middendorf, 2001) e (Lee et al. 2001b), reinicializando localmente os valores
de feromnio quando alteraes no ambiente so identificadas. Este mtodo chamado de
estratgia mdia global. Essa estratgia atribui s ligaes adjacentes dos estados alterados, a
mdia de todos os valores de feromnio da melhor poltica. A estratgia mdia global limi-
tada, pois no observa a intensidade de alterao do ambiente. Por exemplo: muitas vezes,
boas solues com estados alterados podem diminuir a qualidade da soluo, sendo necessrio
atualizar apenas parte da poltica de ao. A estratgia distncia global atualiza o feromnio
dos estados considerando a distncia euclidiana entre todos os estados do ambiente com a dis-
tncia euclidiana do ambiente alterado. Se o custo da poltica aumenta com a alterao, ento
136

o valor do feromnio diminui proporcionalmente, caso contrrio, o valor aumentado. A es-
tratgia distncia local similar estratgia distncia global, no entanto, a atualizao do
feromnio proporcional diferena na distncia euclidiana dos estados que foram alterados.
Antes de discutirmos com mais detalhes como as estratgias atribuem valores para a
poltica corrente, apresentado como as alteraes ocorrem no ambiente. Os estados do ambi-
ente podem ser alterados devido a fatores como, escassez dos recursos, mudana de objetivos
ou atribuies de tarefas, de tal maneira que estados podem ser inseridos, excludos, ou sim-
plesmente movimentados no ambiente. Tais caractersticas podem ser encontradas em diferen-
tes aplicaes como gerenciamento de trfego, redes de sensores, gerenciamento de cadeias de
suprimentos ou redes de comunicao mveis.


(a) Posio dos estados antes da alterao (A) (b) Posio dos estados aps alterao (A)
Figura 5.39: Dinmica do ambiente

A figura 5.39 mostra uma representao simplificada de um ambiente com 9 estados. A
figura 5.39a ilustra o ambiente antes da alterao, enquanto a figura 5.39b ilustra o ambiente
depois das alteraes. A configurao do ambiente mostrada na tabela 5.2.

137

Tabela 5.2: Estados antes e aps as alteraes
Antes das alteraes (A) Aps alteraes (A)
estados ligaes estados ligaes
e
1
(0,5) 12, 19 e
1
(0,5) 12, 18
e
2
(2,7) 23, 21 e
2
(2,7) 23, 21
e
3
(3,5) 32, 34 e
3
(3,5) 35, 32
e
4
(5,5) 43, 45 e
4
(5,4) 46, 45
e
5
(6,7) 54, 56 e
5
(6,7) 54, 53
e
6
(5,1) 65, 67 e
6
(5,1) 64, 67
e
7
(3,0) 76, 78 e
7
(3,0) 79, 76
e
8
(2,3) 89, 87 e
8
(2,3) 89, 81
e
9
(1,1) 91, 98 e
9
(2,1) 97, 98

Pode-se observar que a alterao dos estados e
4
e e
9
ir atribuir poltica corrente seis
novas ligaes. As alteraes no ambiente so realizadas de maneira aleatria, considerando
alteraes na posio cartesiana dos estados mas restringindo-se ao tamanho do campo limite,
ou seja, adjacentes uma posio cartesiana.
Portanto, uma mudana introduzida no ambiente pode modificar a localizao (posio)
de um estado e isso pode causar diferenas parciais entre a poltica corrente e a poltica tima,
causando temporariamente polticas indesejadas e erros. As estratgias devem atualizar o va-
lor do feromnio de cada ligao dos estados alterados, conforme as caractersticas de cada
estratgia.

A. Estratgia Mdia Global
A estratgia mdia global no considera a intensidade da alterao no ambiente, no en-
tanto consegue perceber os estados alterados. atribudo s ligaes incidentes aos estados
alterados o valor mdio do feromnio de todas as ligaes da melhor poltica corrente (Q).
Diferentemente de outros trabalhos, que reinicializam o feromnio sem considerar o valor
aprendido, a estratgia mdia global reutiliza os valores de polticas passadas para estimar os
valores de atualizao. A equao 5.5 mostra como so computados os valores desta estrat-
gia:

l
Q l
n
l AQ
global mdia

=
) (
_
(5.5)
onde n
l
o nmero de ligaes e AQ(l) o valor do feromnio da ligao l.

138

B. Estratgia Distncia Global
Na estratgia distncia global calculada a distncia entre todos os estados e o resulta-
do comparado com a distncia dos estados do ambiente alterado. Assim, esta estratgia con-
sidera a intensidade total de alterao no ambiente. Se a distncia entre os estados aumenta,
ento a atualizao do valor do feromnio inversamente proporcional em relao distncia.
Caso o custo da distncia entre os estados diminua, ento o valor aumentado na mesma pro-
poro. A equao 5.6 usada para estimar o valor de atualizao nas ligaes dos estados do
ambiente A.

) (
) (
) (
_
1 1
'
1 1
su
n
s
n
s u
su A
n
s
n
s u
su A
l AQ
l d
l d
global distncia
e e
e e
=


= + =
= + =
(5.6)
onde n
e
o nmero de estados, A o ambiente aps as alteraes e d a distncia euclidiana
entre os estados.

C. Estratgia Distncia Local
A estratgia distncia local similar estratgia anterior, no entanto atualiza o fero-
mnio somente nas ligaes incidentes aos estados modificados. Dessa forma, cada ligao
atualizada proporcionalmente distncia dos estados adjacentes que modificaram, tornando a
atualizao dessa estratgia local, melhorando a convergncia quando ocorrem poucas altera-
es no ambiente. A equao 5.7 usada para computar o valor da atualizao nas ligaes:

) (
) (
) (
_
'
su
su A
su A
l AQ
l d
l d
local distncia = (5.7)

O pseudocdigo da figura 5.26 foi modificado com a incluso das estratgias supraci-
tadas, produzindo o algoritmo da figura 5.40.

139

Algoritmo Ant-Q com estratgias ()
01 Incio
02 Distribua os estados
03 Calcule o feromnio inicial com a equao 5.1 e o dis-
Tribua nas ligaes
04 Para cada episdio Repita:
05 Defina a posio inicial dos Agentes
06 Enquanto existirem estados a serem visitados Faa:
// Nesse caso, lista tabu <>
07 Para cada Agente repita:
08 Se (q(rand(0..1) <= q
0
) Ento
09 Escolha a ao conforme equao 4.21
10 Seno
11 Escolha a ao conforme equao 4.22
12 Fimse
13 Atualize o feromnio da ligao (s,u) usando a
atualizao local
14 Fimpara
15 Fimenquanto
16 Calcule o custo da melhor poltica do episdio
17 Realize a atualizao global, usando as equaes 5.3
e 5.4
18 Se ocorrer alteraes no ambiente Ento
19 Caso: (Estratgia mdia_global) Ento
20 valor estrategia1(); // equao 5.5
21 Caso: (Estratgia distncia_global) Ento
22 valor estrategia2(); // equao 5.6
23 Caso: (Estratgia distncia_local) Ento
24 valor estrategia3(); // equao 5.7
25 Para cada estado alterado Faa:
26 Para cada ligao (s,u) incidente ao estado alte-
rado Faa:
27 AQ(s,u) valor;
28 Fimpara
29 Fimpara
30 Fimse
31 Fimpara
32 Fim
Figura 5.40: Pseudocdigo do Ant-Q com as estratgias

5.2.2.1 Resultados com as Estratgias de Atualizao
Para avaliar as estratgias propostas na seo anterior, foram gerados ambientes din-
micos com 35 estados. O comportamento dos agentes foi avaliado considerando a porcenta-
gem de mudana gerada pelo ambiente a cada 100 episdios. Essa janela temporal foi utiliza-
da porque em trabalhos anteriores foi observado que em ambientes de 35 estados ela permitiu
ao algoritmo conquistar boa convergncia (Ribeiro et al. 2009c).
140

A alterao ocorre da seguinte maneira: a cada 100 episdios, o ambiente produz um
conjunto de alteraes. As mudanas so realizadas aleatoriamente, de tal maneira que simule
alteraes em locais parcialmente conhecidos ou sujeitos a rudo. Dessa forma, ambientes com
35 estados tero 7 estados alterados quando 20% de mudana ocorrer. Ademais, foram simu-
ladas alteraes considerando o espao do campo limite com profundidade 1 e 2, limitando
assim a mudana da posio de um estado e permitindo simular dinmicas graduais prximas
de problemas do mundo real.
Os resultados dos experimentos comparam as trs estratgias com a poltica descoberta
com o Ant-Q original. Os parmetros de aprendizagem utilizados na simulao so os mesmos
empregados na seo 5.2. Cada estratgia permitiu que na maioria das vezes o nmero de epi-
sdios diminusse, pois a combinao das recompensas pde estimar valores melhores, que
levaram os agentes a uma convergncia quando a poltica atualizada. As figuras 5.41, 5.42,
5.43 e 5.44 demonstram a convergncia do algoritmo em ambientes com 35 estados. O eixo X
dessas figuras indica os episdios. Quando o percurso de menor custo encontrado, a eficin-
cia 100% (eixo Y).
Observando as figuras 5.41 5.44, possvel notar que a poltica global com as estra-
tgias superior a do Ant-Q original. A estratgia mdia global mostra-se mais adequada para
ambientes com variaes maiores (figuras 5.42 e 5.44). Isso ocorre porque a estratgia utiliza
todos os valores de reforos do ambiente. No entanto, os agentes sofrem para convergir quan-
do o ambiente tem poucas alteraes, pois estados alterados tero recompensas menores que
os estados que constituem a melhor soluo atual. J a estratgia distncia global mostra-se
mais robusta em ambientes com poucas variaes (figuras 5.41 e 5.43). Quando o ambiente
alterado, a estratgia age nos estados atualizando a recompensa proporcionalmente quanti-
dade de alteraes do ambiente. Dessa forma, o efeito da atualizao diminui o impacto aps
as mudanas, fazendo que os agentes convergissem uniformemente. A estratgia distncia
local considera somente as alteraes locais, dessa forma, a atualizao da poltica com tal
estratgia melhor quando os valores dos reforos so maiores, ou seja, nos episdios finais.
De maneira geral, a poltica global das estratgias consegue acumular bons valores de
reforos com um nmero pequeno de episdios de aprendizagem. As estratgias atualizam a
poltica global acumulando bons valores de reforos, desde que haja uma quantidade de epi-
sdios necessria. Nos episdios iniciais da aprendizagem, a poltica menos sensvel s es-
tratgias, o que melhora o desempenho da poltica aps a atualizao. Algumas estratgias
podem estimar valores no adequados para a poltica, principalmente aps muitos episdios e
mudanas no ambiente, ocasionando mximos locais.
141



Figura 5.41: Campo limite de 1; 10% de alteraes a cada 100 episdios


Figura 5.42: Campo limite de 1; 20% de alteraes a cada 100 episdios


Figura 5.43: Campo limite de 2; 10% de alteraes a cada 100 episdios

142


Figura 5.44: Campo limite de 2; 20% de alteraes a cada 100 episdios

Uma observao interessante o impacto do campo limite (adjacentes posio carte-
siana) nas estratgias. Mesmo com campo limite restrito, as estratgias melhoram a conver-
gncia do algoritmo. Em outros experimentos com o campo limite igual a 5, a eficincia do
algoritmo Ant-Q inferior (21%) quando comparado com a melhor estratgia (figuras 5.45 e
5.46).


Figura 5.45: Campo limite de 5; 10% de alteraes a cada 100 episdios


Figura 5.46: Campo limite de 5; 20% de alteraes a cada 100 episdios

143

A estratgia mdia global mais adequada quando o campo limite inferior a 5 (figu-
ras 5.41 a 5.44). Como a atualizao feita com a mdia de todos os valores de feromnio, o
valor das ligaes dos estados alterados equalizado. As estratgias distncia global e distn-
cia local podem convergir rapidamente quando o campo limite igual 5 (figuras 5.45 e 5.46).
Isso ocorre porque a atualizao proporcional distncia de cada ligao incidente nas liga-
es dos estados alterados. Assim, as ligaes que no pertencem mais poltica Q
*
, tero o
valor do feromnio enfraquecido.

Consideraes finais
Esta seo apresentou um framework de teste para analisar o desempenho dos agentes
com o algoritmo Ant-Q e para descrever o comportamento do Ant-Q com diferentes cenrios,
parmetros e estratgias de atualizao para ambientes dinmicos. O framework apresentado
capaz de mostrar de maneira interativa o impacto da variao dos parmetros e da quantidade
de agentes no algoritmo, possibilitando conhecer os valores adequados dos parmetros do Ant-
Q.
Os resultados obtidos a partir da utilizao das estratgias de atualizao de polticas
para ambientes dinmicos mostram que o desempenho do algoritmo Ant-Q superior ao de-
sempenho da poltica global descoberta sem as estratgias. Apesar das particularidades de
cada estratgia, os agentes conseguem melhorar a poltica com atualizaes globais e locais,
mostrando que as estratgias podem ser usadas em estruturas sociais dinmicas, onde a estru-
tura de uma rede baseada em relaes alterada com a interao dos agentes, como apresen-
tada na seo 5.3.
A aplicao das estratgias de atualizao uma oportunidade para as estruturas soci-
ais dinmicas, pois como as estratgias so baseadas em valores de recompensas de polticas
passadas, a estrutura social construda com as relaes dos indivduos pode ser melhorada a
partir das recompensas sociais, identificadas a partir do processo de interao dos indivduos.

5.3 SAnt-Q (Social Ant-Q): um algoritmo de otimizao baseado em Colnia
de Formigas, Aprendizagem por Reforo e Teorias Sociais

Nas sees anteriores deste captulo, pde-se observar que a sociabilidade uma carac-
terstica importante para a aprendizagem por reforo e que pode influenciar a coordenao dos
agentes que interagem compartilhando recompensas, conforme foi observado na primeira eta-
144

pa da metodologia. Alguns modelos de coordenao entre agentes so baseados no princpio
de reforo (algoritmo Ant-Q) e portanto necessrio estudar metodologias que se beneficiem
dessa sociabilidade.
A sociabilidade desse algoritmo baseada na descoberta colaborativa de valores de a-
prendizagem (feromnio) acumulados ao longo do processo de interao. Entretanto, neste
trabalho acredita-se que estruturas e relacionamentos explcitos entre indivduos podem ser
identificados com a teoria das redes sociais, que contribui e fornece modelos fundamentados
tanto teoricamente quanto matematicamente para a anlise de situaes que exigem a tomada
de deciso coletiva. A sociabilidade, neste caso, decorrente das interaes sociais, que emer-
gem de uma estrutura social mostrando o relacionamento entre os agentes e os comportamen-
tos dos indivduos que influenciam na tomada de deciso.
A coordenao para a tomada de deciso coletiva melhorada quando um sistema so-
cial formado com os melhores indivduos, onde aqueles com maior fora influenciam os
demais atravs de recompensas individuais ou coletivas, seguindo os princpios da aprendiza-
gem por reforo.
Isso mostra a necessidade de estudar esses princpios com as redes sociais, para a for-
malizao de um processo de construo de estruturas sociais de tomada de deciso com o
objetivo de aprimorar a coordenao baseada em aprendizagem por reforo. Essa seo mostra
como a utilizao desses princpios melhora a coordenao dos agentes a partir de uma estru-
tura social extrada do conhecimento adquirido e das relaes entre os agentes ao longo das
interaes.
Agentes que empregam algoritmos de formao de colnia de formigas interagem
formando uma rede e compartilhando informaes no intuito de alcanarem os objetivos indi-
viduais e coletivos propostos. Quando agentes interagem, o valor da recompensa e/ou ferom-
nio depositado na ligao que conecta os estados alterado, podendo modificar a poltica de
ao corrente. Em ambientes onde a aprendizagem dinmica, o valor e a ligao entre os
estados tambm so alterados continuamente pela poltica ou pelo modelo de coordenao,
tornando o processo dinmico.
Em ambientes com caractersticas sociais, os agentes podem ser influenciados por ati-
tudes comportamentais de outros agentes. Tais atitudes esto relacionadas a modelos de siste-
mas sociais, que tentam descrever a estrutura das relaes ou ligaes com as mtricas da an-
lise das redes sociais.
Nesse contexto, algoritmos de colnia de formigas e redes sociais possuem caracters-
ticas semelhantes, como por exemplo, a similaridade da estrutura formada por estados que
145

esto relacionados por alguma propriedade em comum. Algoritmos de colnia de formigas
conectam os estados para resolver ou melhorar um problema de otimizao, onde os agentes
so conduzidos por heursticas ou valores de retorno pela ao, ou ainda alguma influncia
externa do ambiente. Dessa maneira, os agentes interagem no ambiente a partir de influncias
dos demais agentes que compem o sistema e procuram se relacionar ou seguir as aes dos
agentes com melhor utilidade.

5.3.1 Redes Baseadas em Relaes
Em um cenrio na qual as relaes entre os estados representam uma soluo, o objeti-
vo encontrar o arranjo de relaes que aumenta a utilidade da poltica. Isso consiste em um
problema de otimizao combinatria, que pode ser formalizado com ferramentas da teoria
dos grafos. Seja G=(E,R) um grafo ponderado e simtrico, no qual E o conjunto dos estados
e R o conjunto das relaes, os estados so conectados por ligaes, que denotam alguma re-
lao entre os estados conectados. Nesse caso, o custo de cada relao de G um valor que
indica a intensidade associada relao. Agentes devem interagir para intensificar os valores
das relaes, formando a combinao que gera o melhor custo para a soluo.
Segundo Radclife-Brown (1940) a interao entre os agentes de um sistema social des-
creve a estrutura que pode ser vista como uma rede de relaes. Em nosso trabalho, a rede de
relaes (ou rede de relacionamento) formada pelo conjunto de estados e as possveis rela-
es. Uma relao definida como a ligao que conecta um par de estados da rede, onde as
relaes so fortalecidas ou enfraquecidas com tcnicas da anlise de redes sociais e algorit-
mos baseados em colnia de formigas.
A relao modificada quando o agente realiza uma ao, movendo-se de um estado
para outro. Quando tal ao ocorre, o valor da relao entre esses estados alterado, atravs
de valores de feromnio ou informaes externas, como por exemplo, recompensas sociais
geradas por alguma mtrica social. As relaes so, em geral, assimtricas e um estado pode
estar relacionado com vrios estados ao longo das interaes.
A relao entre um par de estados constitui a dade, e o conjunto das dades ir consti-
tuir um grafo. A anlise das redes sociais demonstra que a anlise de uma dade s tem signi-
ficado se considerado o conjunto das demais dades, pois uma rede de relacionamento me-
lhor interpretada quando includos todos os estados (Wasserman e Faust, 1994). A rede de
relacionamento proposta pode assumir uma ou vrias polticas de ao. Para o problema do
caixeiro viajante, utilizado como estudo de caso, o custo de uma poltica a soma das distn-
cias euclidianas entre os estados conectados, formando um conjunto de estados E= {e
1
, e
2
,...,
146

e
n
} e um conjunto de relaes R= {r
1
, r
2
,..., r
n
}, onde a quantidade possvel de relaes |R|! e
de polticas
2
|! | E
. O grau mximo de um estado para uma soluo 2 e o nmero mximo de
relaes dessa poltica n-1, caracterizando um ciclo hamiltoniano. O custo da soluo repre-
senta a soma das relaes existentes na poltica encontrada.
Da rede de relacionamento proposta emerge uma topologia baseada na interao dos
agentes, intensidade dos relacionamentos dos estados e em medidas de centralidade da anlise
de redes sociais. A anlise das redes sociais descreve a topologia da rede, mostrando as rela-
es, frequncias e intensidade das relaes durante a interao dos agentes no sistema. A
estrutura da topologia forma a rede de relacionamento, e as interaes dos agentes emergem
como um sistema multiagente com caractersticas de redes sociais.
Uma rede de relacionamento vista como um sistema social formada por agentes que
interagem seguindo princpios da teoria do impacto social, como os conceitos da formao de
opinio e da influncia propostos por Latan (1981). Ao interagirem na rede, agentes estabele-
cem as relaes e se tornam mais suscetveis s influncias de outros agentes quando adotam
outras relaes, mesmo quando todos possuem a mesma fora de influncia (i.e., mesma pro-
babilidade de se relacionarem). Nesse caso, as polticas de melhor utilidade tm maior proba-
bilidade de influncia, seguindo as regras das conexes preferenciais. Isso gera um processo
de construo de rede de onde emergem demasiadamente estados com poucas ligaes e pou-
cos estados com muitas ligaes (hubs), caracterizando uma rede livre de escala (Barabsi et
al. 2003).
De maneira intuitiva, agentes coordenados por algoritmos de colnia de formigas for-
mam redes com comportamentos sociais, formadas por polticas de agentes que executam ta-
refas em conjunto. Esse modelo de rede pode ser analisado pela teoria do impacto social, estu-
dada inicialmente por Latan (1981) que fornece elementos que explicam porque alguns agen-
tes exercem maior influncia em uma rede social do que os demais agentes.
Agentes interagem na rede na tentativa de descobrir uma poltica que satisfaa o pro-
blema. Quando uma soluo construda num episdio, afirmado que uma poltica de ao
foi descoberta. Normalmente em algoritmos de colnia de formigas, o agente com poltica de
melhor utilidade dissemina com mais intensidade suas relaes na rede. Na figura 5.47 so
ilustradas algumas polticas de ao em uma rede de 40 estados, onde as linhas na cor mais
escura so as relaes mais intensas, indicando as polticas de melhor utilidade para a soluo.

147


Poltica 1, t= 1 Poltica 2, t= 2 Poltica 3, t= 3

Poltica 4, t= 4 Poltica 5, t= 5 Poltica n, t= n
Figura 5.47: Exemplo de polticas de ao

Dado que um episdio pode produzir vrias polticas, podem-se gerar muitas relaes
candidatas at a convergncia. No entanto, apesar da quantidade de relaes, no assegurada
a melhor poltica, devido a dependncia dos agentes aos fatores de aprendizagem e coordena-
o. O efeito prtico disso pde ser observado usando mtricas da anlise das redes sociais,
onde se observou nos experimentos com o Ant-Q que a utilidade da poltica diminua quando
estados possuam elevado grau de conectividade (muitas relaes). O grfico da figura 5.48
mostra que a eficincia da poltica aumenta quando o grau dos estados diminui. A constatao
foi observada nos experimentos com um conjunto de problemas de benchmark (eil51 e eil71),
apresentados nas sees seguintes.

148


Figura 5.48: Eficincia da poltica em relao ao grau dos estados

Algoritmos de colnia de formigas so utilizados para coordenar o comportamento dos
agentes de uma rede. possvel melhorar a coordenao dos agentes construindo uma rede de
relacionamento com conceitos da teoria social e mtricas bem conhecidas na anlise das redes
sociais, como intensidade das relaes e medidas de centralidade. Utilizar algoritmos de oti-
mizao em redes com caractersticas sociais constitui uma nova abordagem que denomina-
mos de mtodo de otimizao social, descrito nas sees seguintes.

5.3.2 Construo da Rede de Relacionamentos com o SAnt-Q
Baseado em medidas de centralidade e na intensidade da relao de estados dades, so
apresentadas as etapas de construo da rede de relacionamentos com o SAnt-Q. ilustrado na
figura 5.49 o processo de crescimento da rede, usando os valores das polticas da rede de fe-
romnio (AQ(s,u)) geradas pelo algoritmo Ant-Q.

149



a. Rede de feromnio AQ
t-1
b. Poltica global de AQ
t-1




c. Rede de feromnio AQ
t
d. Poltica global de AQ
t


Crescimento da rede
de relacionamentos




Relaes das polticas de AQ (b e d),
gerando uma poltica Q(r
s,u
)
Figura 5.49: Processo de crescimento da rede de relacionamentos

A rede do SAnt-Q construda a partir da poltica atual (AQ
t
) e as polticas de epis-
dios anteriores da rede de feromnio
6
. O processo de construo da rede com o SAnt-Q inicia
quando os agentes completam o ciclo hamiltoniano, onde a quantidade de polticas geradas
igual ao nmero de agentes do sistema. Devido grande quantidade de polticas geradas, so
utilizadas apenas as polticas escolhidas para atualizao global (aquelas que apresentam me-
nor custo), diminuindo o nmero de polticas candidatas no satisfatrias. As imagens da figu-
ra 5.49 ilustram a poltica global atual (5.49d) e a poltica global anterior (5.49c), onde o custo
dessas polticas dado pela equao 5.8:


=
AQ r
t
u s
u s d u s AQ
,
) , ( ) , (
(5.8)

no qual r uma relao proveniente da poltica AQ
t
do episdio t e d(s,u) a distncia eucli-
diana entre os estados conectados. O valor de AQ
t
utilizado para indicar a importncia da
poltica corrente. A equao 5.9 demonstra como os valores de AQ
t-1
e AQ
t
so usados para

6
O framework para o desenvolvimento da rede de feromnio foi apresentado na seo 5.2.
150

calcular o valor que determina o fortalecimento ou enfraquecimento das relaes da rede de
relacionamento (Q(r
s,u
)).

t
t
AQ
AQ
1
=
(5.9)

O parmetro v utilizado como uma funo de fitness, no qual empregado na equa-
o 5.10 para determinar a influncia de AQ nas relaes observadas na poltica atual.

r r r = ) ( ) inf( (5.10)

Computado o valor da funo inf(r), a equao 5.11 determina o valor de Q(r
s,u
), que
armazena a intensidade da relao r que conecta os estados s e u dentro da rede de relaciona-
mento:

]) ) [inf( ) ( ( ) (
, 1 , ,
+ =
u s t u s t u s
r r Q r Q
(5.11)

onde o parmetro que indica a importncia do valor da relao computada para a rede.
possvel observar que quando 1 , a soluo candidata gerada melhor do que a anterior,
sendo que o caso contrrio ocorre quando 1 < . Dessa forma, valores entre [0,1] foram simu-
lados para o parmetro em diferentes situaes: (i) quando 1 e a relao da dade est
presente em AQ
t
e AQ
t-1
(a manuteno da dade possivelmente contribuiu para melhorar a
soluo); (ii) quando 1 e a relao da dade no est presente em AQ
t-1
(o aparecimento da
dade tambm contribuiu possivelmente para melhorar a soluo); (iii) quando 1 < e a rela-
o da dade est presente em AQ
t
e AQ
t-1
(a manuteno da dade possivelmente piorou a so-
luo); e (iv) quando 1 < e a relao da dade no est presente em AQ
t
(a soluo atual pio-
rou com a remoo da dade).
A relao de uma dade dita presente quando essa pertence a AQ
t
e AQ
t-1
concomi-
tantemente. A equao 5.12 mostra os valores usados para o parmetro . considerado por
convenincia que = 0,8, ou seja, a influncia da relao na atualizao de Q(r) de 80%
quando a relao est presente em AQ
t
e AQ
t-1
e quando 1 ; = 1 indica que a influncia da
relao de 100%, quando no est presente em AQ
t-1
e quando 1 ; = 0,5 indica que a
influncia da relao de 50%, quando est presente em AQ
t
e AQ
t-1
e quando 1 < . Final-
151

mente = 1 quando a influncia da relao 100%, pois a relao da dade no est em AQ
t
e
1 < . Essas configuraes atribuem privilgios s relaes que melhoram o custo da poltica
global, fazendo emergir da rede uma estrutura capaz de melhorar as polticas, conforme discu-
tido na subseo 5.4.3.

<
<
<
<



=

) ( ) ( )) 1 ( ) 1 (( 0
) ( ) ( ) 1 ( 1
) ( ) ( ) 1 ( 1
) ( ) ( ) 1 ( 5 , 0
) ( ) ( ) 1 ( 0
) ( ) ( ) 1 ( 1
) ( ) ( ) 1 ( 8 , 0
1
1
1
1
1
1
1
t x t x
t x t x
t x t x
t x t x
t x t x
t x t x
t x t x
AQ r AQ r se
AQ r AQ r se
AQ r AQ r se
AQ r AQ r se
AQ r AQ r se
AQ r AQ r se
AQ r AQ r se

(5.12)

O parmetro indica o quo rapidamente ocorre o fortalecimento ou enfraquecimento
da relao. Se o valor de prximo de 0, o valor da Q(r
s,u
) aumenta lentamente e com baixa
convergncia. Se o valor 1, o algoritmo pode no convergir, pois o valor da relao rapi-
damente fortalecido, induzindo os agentes ao mnimo global. O parmetro similar ao fator
de aprendizagem do Q-learning, no entanto, o valor de dinmico, pois usado conforme a
melhora da soluo, indicada pelo valor do parmetro v. Os valores utilizados para foram
sugeridos a partir de constataes observadas nos experimentos, onde os valores foram testa-
dos e variados no intervalo de [0,1] em um conjunto de problemas de benchmark (eil51 e e-
il76).

A. Demonstrao Analtica
Nesta seo apresentado um exemplo analtico de clculo da metodologia apresenta-
da anteriormente. Uma rede de estados conectados por valores de feromnio apresenta os se-
guintes componentes: um conjunto de estados E= {e
1
, e
2
, e
3
, e
4
, e
5
} e um conjunto de relaes
R= {r
1
, r
2
, r
3
, r
4
, r
5
, r
6
, r
7
, r
8
, r
9
, r
10
}, onde a distncia euclidiana entre os estados : d
e1,e2
=4,
d
e1,e3
=14, d
e1,e4
=6, d
e1,e5
=7, d
e2,e3
=7, d
e2,e4
=5, d
e2,e5
=11, d
e3,e4
=5, d
e3,e5
=10, d
e4,e5
= 5. Os valores
de feromnio so substitudos pelas distncias para indicar o custo da poltica global (melhor
caminho). A tabela 5.3 mostra as relaes, distncias e feromnios dos estados conectados.

152

Tabela 5.3: Relaes, distncias e feromnios
Estados
Conectados
Relao Distncia Feromnio
e
1
e
2
r
1
4 0,029105
e
1
e
3
r
3
14 0,033513
e
1
e
4
r
9
6 0,080156
e
1
e
5
r
6
7 0,072481
e
2
e
3
r
2
7 0,018169
e
2
e
4
r
10
5 0,098347
e
2
e
5
r
8
11 0,014455
e
3
e
4
r
4
5 0062196
e
3
e
5
r
5
10 0,033418
e
4
e
5
r
7
5 0,097124

A figura 5.50 ilustra os valores da tabela 5.3 nos grafos.



a. Relaes b. Distncias c. Feromnios
Figura 5.50: Grafos de relaes, distncias e feromnios

Dados os subconjuntos R
1
= {r
2
, r
3
, r
7
, r
8
, r
9
} AQ
t
1
, R
2
= {r
3
, r
4
, r
6
, r
8
, r
10
} AQ
t
2
e
R
3
= {r
1
, r
10
, r
4
, r
5
, r
6
} AQ
t
3

ilustrados na figura 5.51, a rede de relacionamento construda
com as equaes 5.8, 5.9, 5.10, 5.11 e 5.12 na qual as tabelas 5.4, 5.5 e 5.6 exemplificam os
procedimentos. A rede inicializada com os relacionamentos observados na poltica R
1
sendo
os pesos inicializados arbitrariamente com valor 0,1.




AQ
t
1
AQ
t
2
AQ
t
3

Figura 5.51: Polticas usadas para simular o crescimento da rede de relacionamento

153

Usando a equao 5.8, o valor do ciclo hamiltoniano das polticas AQ
t
1
, AQ
t
2
e AQ
t
3
da
figura 5.51 so computados, onde: AQ
t
1
= 43; AQ
t
2
= 42; AQ
t
3
= 31. Com esses valores, so cal-
culados com a equao 5.9 os valores para v, donde: 023 , 1
42
43
2
1
1
= = =
t
t
AQ
AQ
e
354 , 1
31
42
3
2
2
= = =
t
t
AQ
AQ
.
Com os valores de v
1
e v
2
possvel computar a influncia nas relaes com a equao
5.10. As tabelas 5.4 e 5.6 mostram a influncia de v
1
e v
2
nas relaes. A rede de relaciona-
mentos possui uma tabela de aprendizagem Q:(R) , que indica as relaes e os valores de
intensidade de cada relao r de R. Para estimar Q(r) utilizada a equao 5.11 que determina
a intensidade das relaes na rede. As tabelas 5.5 e 5.7 mostram a equao 5.11 computando a
intensidade das relaes de Q(r) em t
2
e t
3
.

Tabela 5.4: Influncia de v
1
nas relaes de Q(r) em t
2

Influncia de v
1
= 1,023
R{}
Q(r) em t
1

(valores arbitrrios)
Equao 5.10:
inf(r
x
) = (v
1
x xx x r
x
) r
x

r
1
Q(r
1
)= 0,1 inf(r
1
)= (1,023 x 0,1) 0,1= 0,0023
r
2
Q(r
2
)= 0,1 inf(r
2
)= (1,023 x 0,1) 0,1= 0,0023
r
3
Q(r
3
)= 0,1 inf(r
3
)= (1,023 x 0,1) 0,1= 0,0023
r
4
Q(r
4
)= 0,1 inf(r
4
)= (1,023 x 0,1) 0,1= 0,0023
r
5
Q(r
5
)= 0,1 inf(r
5
)= (1,023 x 0,1) 0,1= 0,0023
r
6
Q(r
6
)= 0,1 inf(r
6
)= (1,023 x 0,1) 0,1= 0,0023
r
7
Q(r
7
)= 0,1 inf(r
7
)= (1,023 x 0,1) 0,1= 0,0023
r
8
Q(r
8
)= 0,1 inf(r
8
)= (1,023 x 0,1) 0,1= 0,0023
r
9
Q(r
9
)= 0,1 inf(r
9
)= (1,023 x 0,1) 0,1= 0,0023
r
10
Q(r
10
)= 0,1 inf(r
10
)= (1,023 x 0,1) 0,1= 0,0023


A tabela 5.5 mostra que se a relao de AQ
t
1

no est presente na AQ
t
2
, o valor da rela-
o no alterado (r
1
, r
2
, r
5
, r
7
, r
9
), pois atribudo a o valor 0.

154

Tabela 5.5: Intensidade das Q(r) em t
2

Computa Q(r)
R{}
Q(r) em t
1

Equao 5.11:
]) ) [inf( ) ( ( ) (
, 1 , ,
+ =
u s t u s t u s
r r Q r Q

) 1 (
r
1
Q(r
1
)= 0,1 Q(r
1
)= 0,1

+ (0,0023 x 0)= 0,1 0
r
2
Q(r
2
)= 0,1 Q(r
2
)= 0,1

+ (0,0023 x 0)= 0,1 0
r
3
Q(r
3
)= 0,1 Q(r
3
)= 0,1

+ (0,0023 x 0,8)= 0,1018 0,8
r
4
Q(r
4
)= 0,1 Q(r
4
)= 0,1

+ (0,0023 x 1)= 0,1023 1
r
5
Q(r
5
)= 0,1 Q(r
5
)= 0,1

+ (0,0023 x 0)= 0,1 0
r
6
Q(r
6
)= 0,1 Q(r
6
)= 0,1

+ (0,0023 x 1)= 0,1023 1
r
7
Q(r
7
)= 0,1 Q(r
7
)= 0,1

+ (0,0023 x 0)= 0,1
0
r
8
Q(r
8
)= 0,1 Q(r
8
)= 0,1

+ (0,0023 x 0,8)= 0,1018 0,8
r
9
Q(r
9
)= 0,1 Q(r
9
)= 0,1

+ (0,0023 x 0)= 0,1 0
r
10
Q(r
10
)= 0,1 Q(r
10
)= 0,1

+ (0,0023 x 1)= 0,1023 1

O procedimento seguinte calcular a influncia de v
2
nas relaes de AQ
t
3
(tabela 5.6).

Tabela 5.6: Influncia de v
2
nas relaes de Q(r) em t
3

Influncia de v
2
= 1,354
R{}
Q(r) em t
2

Equao 5.10
inf(r
x
) = (v
1
x xx x r
x
) r
x

r
1
Q(r
1
)= 0,1 inf(r
1
)= (1,354 x 0,1) 0,1= 0,0354
r
2
Q(r
2
)= 0,1 inf(r
2
)= (1,354 x 0,1) 0,1= 0,0354
r
3
Q(r
3
)= 0,1018 inf(r
3
)= (1,354 x 0,1018) 0,1018= 0,0360
r
4
Q(r
4
)= 0,1023 inf(r
4
)= (1,354 x 0,1023) 0,1023= 0,0362
r
5
Q(r
5
)= 0,1 inf(r
5
)= (1,354 x 0,1) 0,1= 0,0354
r
6
Q(r
6
)= 0,1023 inf(r
6
)= (1,354 x 0,1023) 0,1023= 0,0362
r
7
Q(r
7
)= 0,1 inf(r
7
)= (1,354 x 0,1) 0,1= 0, 0354
r
8
Q(r
8
)= 0,1018 inf(r
8
)= (1,354 x 0,1018) 0,1018= 0,0360
r
9
Q(r
9
)= 0,1 inf(r
9
)= (1,354 x 0,1) 0,1= 0, 0354
r
10
Q(r
10
)= 0,1023 inf(r
10
)= (1,354 x 0, 1023) 0,1023= 0,0362


possvel observar na tabela 5.7 que os valores das relaes r
2
, r
3
, r
7
, r
8
e r
9
no so
alterados, pois essas relaes no esto presentes em AQ
t
3
. Na tabela 5.8 so mostrados os
valores da rede de relacionamentos gerada a partir dos episdios t
1
, t
2
e t
3
.

155

Tabela 5.7: Intensidade das Q(r) em t
3

Computa Q(r)
R{}
Q(r) em t
2

Equao 5.11:
]) ) [inf( ) ( ( ) (
, , 1 ,
+ =
u s u s t u s
r r Q r Q

) 1 (
r
1
Q(r
1
)= 0,1 Q(r
1
)= 0,1

+ (0,0354 x 1)= 0,1354 1
r
2
Q(r
2
)= 0,1 Q(r
2
)= 0,1

+ (0,0354 x 0)= 0,1 0
r
3
Q(r
3
)= 0,1018 Q(r
3
)= 0,1018

+ (0,0360 x 0)= 0,1018 0
r
4
Q(r
4
)= 0,1023 Q(r
4
)= 0,1023 + (0,0362 x 0,8)= 0,1312 0,8
r
5
Q(r
5
)= 0,1 Q(r
5
)= 0,1

+ (0,0354 x 1)= 0,1354 1
r
6
Q(r
6
)= 0,1023 Q(r
6
)= 0,1023 + (0,0362 x 0,8)= 0,1312 0,8
r
7
Q(r
7
)= 0,1 Q(r
7
)= 0,1

+ (0,0354 x 0)= 0,1 0
r
8
Q(r
8
)= 0,1018 Q(r
8
)= 0,1018 + (0,0360 x 0)= 0,1018 0
r
9
Q(r
9
)= 0,1 Q(r
9
)= 0,1

+ (0,00354 x 0)= 0,1 0
r
10
Q(r
10
)= 0,1023 Q(r
10
)= 0,1023 + (0,0362 x 0,8)= 0,1312 0,8

Na figura 5.52 ilustrada a rede de relacionamento com os valores das relaes dos 3
episdios. As linhas na cor mais escura indicam as relaes mais intensas (melhor poltica) da
rede de relacionamentos no episdio t
3
. Para selecionar a melhor polcia foi usado o algoritmo
de busca Best-first, descrito em Pearl (1984).

Tabela 5.8: Valores da Q(r) em t
1
, t
2
e t
3

Valores de intensidade das Q(r)
R{}
Q(r) de AQ
t
1
Q(r) de AQ
t
2
Q(r) de AQ
t
3

r
1
0,1 0,1 0,1354
r
2
0,1 0,1 0,1
r
3
0,1 0,1018 0,1018
r
4
0,1 0,1023 0,1312
r
5
0,1 0,1 0,1354
r
6
0,1 0,1023 0,1312
r
7
0,1 0,1 0,1
r
8
0,1 0,1018 0,1018
r
9
0,1 0,1 0,1
r
10
0,1 0,1023 0,1312


156


Figura 5.52: Rede de relacionamentos em t
3


O processo da construo da rede iterativo e ocorre at que uma condio de parada
do algoritmo seja satisfeita.
Um dos problemas observados com a rede de relacionamentos que nos episdios
iniciais os agentes no conseguem estabilizar suas relaes quando utilizam os valores de
Q(r), causando variaes no custo das polticas. Isso ocorre porque a intensidade dos valores
das relaes no incio da aprendizagem ainda baixa, na inteno de evitar a estagnao. Ou-
tra observao, que algoritmos baseados em recompensas realizam a busca no espao de
estados usando regras de transio como estratgias de explorao, o que altera com frequn-
cia o relacionamento entre os estados no perodo inicial da aprendizagem.
Uma caracterstica importante da rede de relacionamentos o crescimento da rede sem
a dependncia excessiva de parmetros de aprendizagem e atualizaes globais. Isso impor-
tante, pois devidamente sabido que algoritmos como o Ant-Q e o Q-learning so sensveis a
estes parmetros e aos dados do domnio, como por exemplo, o posicionamento dos estados
no plano, e a quantidade de indivduos na rede, conforme discutido na seo de anlise do
Ant-Q (seo 5.2). Outra observao importante que como a rede de relacionamentos no
depende do posicionamento dos estados (funo heurstica), a explorao favorecida quando
alguma relao removida ou inserida.
Outra questo observada com a rede de relacionamentos a possibilidade de ocorrer
pouca frequncia de interaes entre alguns estados, devido a dependncia da rede de ferom-
nio. Isso ocorre, porque o Ant-Q utiliza os valores de feromnios que foram estimados pelas
atualizaes locais e globais (equaes 5.3 e 5.4), onde normalmente, esses valores so dimi-
nudos (evaporados) para melhorar a explorao. Esse comportamento ocasiona a existncia
de algumas relaes com valores muito baixos, o que pode no garantir a convergncia do
algoritmo em alguns momentos da interao.
Uma alternativa foi adaptarmos o Ant-Q para que ele utilize aps um determinado n-
mero de episdios a rede de feromnio e a rede de relacionamentos, denominando esta nova
157

abordagem de SAnt-Q (Social Ant-Q). Para mostrar o processo de interao do algoritmo de
colnia de formigas com os princpios da anlise das redes sociais, ilustrado na figura 5.53 o
diagrama de atividades.


Figura 5.53: Diagrama de atividades

Na primeira coluna (ambiente) so configurados os parmetros de aprendizagem do
algoritmo Ant-Q e os valores de configurao do ambiente. Na sequncia, um episdio gera-
do e os agentes so posicionados aleatoriamente nos estados. Na segunda coluna (agente Ant-
Q - rede de feromnio) so gerados os valores de recompensas pelo algoritmo Ant-Q para a
construo da rede de feromnio. Quando essa rede gerada, possvel selecionar com a e-
quao 5.8 a poltica de melhor custo investigando as polticas candidatas do episdio corren-
te. Na terceira coluna (rede de relacionamentos) so mostradas as atividades que do incio
construo da rede de relacionamentos, na qual os procedimentos de tais atividades foram
descritos nesta subseo. A rede de relacionamentos utilizada pelo Ant-Q quando um epis-
dio t
x
alcanado. A partir desse episdio, a probabilidade do agente explorar a rede de rela-
cionamentos ou a rede de feromnio igual. Isso melhora a explorao, pois o agente utiliza
tanto a estratgia de explorao do Ant-Q como a estratgia do SAnt-Q (equao 5.15).
158

Para melhorar a explorao do SAnt-Q na rede de relacionamentos, a regra de transio
do Ant-Q foi adaptada, j que o SAnt-Q no disponibiliza uma funo heurstica baseada nas
distncias associadas s relaes (r
s,u
). Com a regra de transio do SAnt-Q o agente posicio-
nado em um estado s move-se para o estado u usando a regra da equao 5.15:

=
=
=
0
1 ) ) ( max( arg
0
0 ,
q se I
q se r Q
u
t u s


(5.15)

onde argmax(Q(r
s,u
)
t
) indica a relao de maior intensidade no estado s no episdio t e I a
probabilidade de selecionar a relao u de acordo com a equao 5.16:

=
=
x
s Adjacentes i i
t i s
t u s
r Q
r Q
I
) ( | 1
,
,
) (
) (

(5.16)

Com q
0
= 1 a escolha da relao u similar ao exploration, onde a probabilidade do a-
gente selecionar um novo estado para se mover proporcional ao valor das relaes com os
estados adjacentes. Quando q
0
= 0 selecionada a ao gerada pelo maior relacionamento. O
parmetro q
0
selecionado arbitrariamente.
Na subseo a seguir, apresentamos os resultados experimentais comparando o Ant-Q
e o SAnt-Q.

5.3.3 Resultados Experimentais
Nos experimentos foi observada a utilidade das polticas geradas com agentes intera-
gindo na rede de feromnio do Ant-Q e na rede de relacionamentos do SAnt-Q. Os experimen-
tos foram realizados em problemas de benchmark: eil51 e eil76, encontrados na biblioteca
online TSPLIB
7
(Reinelt, 1991).
Os conjuntos eil51 e eil76 so compostos por 51 e 76 estados respectivamente e foram
formulados por Christofides e Eilon (1969). Tais conjuntos representam caractersticas impor-
tantes para simular problemas de otimizao combinatorial, como por exemplo, a quantidade
de estados e a existncia de estados adjacentes com distncias semelhantes. Eles tambm fo-

7
http://www.iwr.uni-heidelberg.de/groups/comopt/software/TSPLIB95/
159

ram utilizados em (Dorigo, 1992; Gambardella e Dorigo, 1995; Bianchi et al. 2002). A figura
5.54 mostra a distribuio dos estados no plano, onde esto expressos em um sistema euclidi-
ano de coordenadas 2D.



a. Conjunto de instncias (eil51) b. Conjunto de instncias (eil76)
Figura 5.54: Distribuio dos estados no plano

Os experimentos foram rodados 10 vezes para cada conjunto. Os parmetros do algo-
ritmo Ant-Q foram configurados com os seguintes valores: = 1; = 2; = 0,3; = 0,1; q
0
= 0,9
e W= 10. A quantidade de agentes igual ao nmero de estados de cada conjunto. Para obser-
var o impacto da rede de relacionamentos na poltica com o SAnt-Q, a rede foi utilizada a par-
tir dos episdios t
30
, t
50
e t
100
.
Foram utilizadas como critrio de parada as quantidades de 500, 5000 e 10000 epis-
dios. Vale observar que devido ao nmero de estados e a complexidade dos problemas, a
quantidade de episdios no suficiente para encontrar a melhor poltica. No entanto, o obje-
tivo dos experimentos avaliar o impacto da rede de relacionamentos no algoritmo Ant-Q e na
utilidade da poltica final com o SAnt-Q.
Notamos que para avaliar o desempenho de uma tcnica pode-se empregar diferentes
mtricas, como o tempo de execuo, a quantidade de episdios da melhor poltica ou consi-
derar somente a utilidade das melhores polticas encontradas.
Para limitar a quantidade dos experimentos, foi considerada a utilidade das polticas
em um nmero estabelecido de episdios, observando ento a poltica com melhor custo no
final da aprendizagem. Ademais, vale observar que h diferena entre encontrar a poltica -
tima e encontrar uma poltica satisfatria. Encontrar a poltica tima, normalmente significa
160

empregar buscas exaustivas, pois a maneira mais comum de explorar todo o espao de esta-
dos. Por outro lado, encontrar uma poltica satisfatria, significa encontrar uma alternativa que
satisfaa o problema, sem se importar se a melhor poltica descoberta a melhor possvel.
Para verificar se houve ou no diferena significativa dos algoritmos, foi escolhido um
teste estatstico do tipo no-paramtrico, devido s caractersticas dos experimentos e por ser
mais provvel de rejeitar a hiptese nula (Siegel, 1975). Assim, os testes estatsticos no-
paramtricos (e.g., teste de Friedman) no tm exigncias quanto ao conhecimento da distribu-
io da varivel na populao, onde so testadas associaes, dependncia/independncia e
modelos ao invs de parmetros. Para o teste de Friedman que escolhemos, os algoritmos so
ranqueados para cada conjunto de dados separadamente, onde o algoritmo com melhor de-
sempenho ocupa a primeira posio do ranque, o segundo melhor ocupa a segunda posio no
ranque e assim sucessivamente (Demsar, 2006). Em caso de empates no desempenho dos al-
goritmos Ant-Q e SAnt-Q, feita a mdia dos ranques.
Deste modo, o teste de Friedman com as equaes 5.13 e 5.14 computa o ranque e a
mdia do custo das polticas, onde
j
i
r o ranque do j-simo dentre dos k algoritmos dos N
conjuntos de dados.

=
i
j
i j
r
N
R
1

(5.13)
(

+
=

j
j F
k k
R
k k 4
) 1 (
) 1 (
12
2 2
(5.14)

O objetivo deste teste verificar se os algoritmos apresentam diferenas significativas.
Caso a hiptese nula seja caracterizada, o custo das polticas dos algoritmos equivalente uma
vez que eles possuem ranques iguais. Ao considerar como hiptese nula a inexistncia de dife-
renas entre as condies dos k algoritmos, se obtm amostras bem distribudas, no havendo
co-relao entre elas. Porm, para verificar se h correlao entre as condies, deve-se fazer
o somatrio das varincias (Q) dos ranques. Obtido o valor de Q, calcula-se o p-valor como a
probabilidade do valor ser superior ou igual varincia obtida utilizando a distribuio qui-
quadrada com k-1 graus de liberdade.
O resultado numrico do teste estatstico de Friedman fornece um nvel de significn-
cia (p-valor). Caso este seja menor que 0,05 (valor usado nos experimentos) 5% ser a tole-
161

rncia de aceitao, ento recomendvel rejeitar a hiptese nula, podendo afirmar que existe
diferena significativa entre os experimentos.
Os resultados iniciais apresentam o impacto da regra de transio do SAnt-Q. Nos ex-
perimentos utilizando a regra de transio com o parmetro q
0
= 0 foram necessrios muitos
episdios (aproximadamente 5000) para encontrar as melhores polticas nos problemas eil51 e
eil76, conforme os grficos da figura 5.55. Os picos P1 e P2 observados no episdio 100 das
figuras 5.55a e 5.55b, so decorrentes dos valores da rede de feromnio apresentarem relaes
que ainda foram pouco exploradas pelo Ant-Q. Em ambientes com muitos estados, e.g. eil51 e
eil76, o agente necessita de um nmero maior de episdios, devido necessidade de interagir
com cada estado inmeras vezes para realizar o aprendizado.

a. SAnt-Q q
0
=0 (eil51) b. SAnt-Q q
0
=0 (eil76)

c. SAnt-Q q
0
=1 (eil51)

d. SAnt-Q q
0
=1 (eil76)
e. Ant-Q (eil51) f. Ant-Q (eil76)
Figura 5.55: Variaes do custo das polticas com o Ant-Q e o SAnt-Q

Apesar das variaes do custo das polticas do SAnt-Q com q
0
= 1 (figuras 5.55c e
5.55d), as variaes so menores quando comparadas com as polticas do Ant-Q (figuras 5.55e
e 5.55f). Devido a essas observaes, os resultados com SAnt-Q foram obtidos com o parme-
tro q
0
= 1. No entanto, vale observar que o custo mdio das melhores polticas (tabelas 5.9 e
5.10) com q
0
= 0 menor que o apresentado com q
0
= 1 com 5.000 episdios. No problema
eli51, o custo mdio das melhores polticas com q
0
= 0 em mdia, 0,98% menor com t
30
;
0,99% com t
50
; e 0,98% com t
100
(tabela 5.9) do que o custo daquelas geradas com q
0
= 1. No
162

problema eil76, o custo mdio das melhores polticas com q
0
= 0 em mdia, 0,98% menor
com t
30
; 0,97% com t
50
; e 0,96% com t
100
(tabela 5.10) do que as produzidas com q
0
= 1.

Tabela 5.9: Custo mdio das melhores polticas (eil51) com 5000 episdios
SAnt-Q
q
0
= 1 q
0
= 0


Ant-Q
t
30
t
50
t
100
t
30
t
50
t
100

Custo mdio
das polticas
455,67 436,73 438,71 441,46 432,1 434,9 436,4

Tabela 5.10: Custo mdio das melhores polticas (eil76) com 5000 episdios
SAnt-Q
q
0
= 1 q
0
= 0


Ant-Q
t
30
t
50
t
100
t
30
t
50
t
100

Custo mdio
das polticas
602,92 583,49 579,43 579,87 575,1 567,4 561,2

Uma explicao para os resultados preliminares observados que aps longo perodo
de aprendizagem, as relaes mais fortes so enfraquecidas, o que melhora a probabilidade de
selecionar novos estados desejveis. Isso decorrente da configurao do parmetro , que
favorece o crescimento da rede de relacionamentos com uma topologia de baixa densidade, o
que diminui a instabilidade dos estados e a existncia de hubs.
As tabelas 5.11 e 5.12 apresentam o custo das polticas com o SAnt-Q e o Ant-Q.
possvel observar que o custo mdio das polticas melhor com o SAnt-Q quando comparado
com o Ant-Q.

163

Tabela 5.11: Custo das polticas (eil51)
SAnt-Q
q
0
=1; 500 episdios
Experimentos Ant-Q
t
30
t
50
t
100

1 453,93 431,61 441,25 451,98
2 453,70 438,99 439,89 438,57
3 455,76 443,53 437,79 437,69
4 456,09 440,51 439,48 445,30
5 454,36 431,72 431,42 433,43
6 451,65 436,30 436,64 445,92
7 455,24 434,62 441,93 431,37
8 455,39 437,31 445,28 440,06
9 460,94 440,86 438,26 445,23
10 459,67 431,90 435,20 445,13
Mdia
455,67
(2,768)
436,73
(4,246)
438,71
(3,840)
441,46
(6,357)


Figura 5.56: Ant-Q vs. SAnt-Q, eil51 com 500 episdios

164

Tabela 5.12: Custo da poltica (eil76)
SAnt-Q
q
0
=1; 500 episdios
Experimentos Ant-Q
t
30
t
50
t
100

1 601,13 589,16 588,95 582,39
2 605,22 582,85 578,87 578,15
3 602,66 575,67 578,52 582,97
4 606,89 575,61 579,19 578,91
5 592,60 575,97 588,83 570,58
6 610,17 584,48 565,13 583,26
7 602,45 585,33 581,66 579,24
8 599,15 583,56 584,36 578,53
9 603,03 583,95 576,69 584,82
10 605,98 598,38 572,18 579,93
Mdia
602,92
(4,798)
583,49
(6,981)
579,43
(7,257)
579,87
(4,004)


Figura 5.57: Ant-Q vs. SAnt-Q, eil76 com 500 episdios

O custo mdio das melhores polticas com o SAnt-Q no problema eli51 , em mdia,
4,14% menor com t
30
; 3,72% com t
50
; e 3,11% com t
100
quando comparado com o custo mdio
da poltica do Ant-Q (tabela 5.11). No problema eil76 o custo mdio das polticas do SAnt-Q ,
em mdia, 3,22% menor com t
30
; 3,89% com t
50
; e 3,82% com t
100
(tabela 5.12) quando com-
paradas com as polticas do Ant-Q. A melhora decorrente do processo de evoluo da rede
de relacionamentos que influencia a explorao do algoritmo, tendo impacto positivo no algo-
ritmo de otimizao.
Pode-se observar que ao utilizar a rede de relacionamentos aps os episdios t
50
e t
100
,
o algoritmo SAnt-Q precisa de mais episdios para melhorar o custo da poltica. Isso ocorre
porque a rede de relacionamentos est formada com uma quantidade maior de polticas, au-
mentando assim o grau dos estados, e consequentemente, o espao de busca e a possibilidade
165

de novas relaes. Em outras palavras, a rede tem maior densidade, o que necessariamente no
melhora a poltica global.
Os grficos da figura 5.58 ilustram a variao das polticas do Ant-Q e do SAnt-Q nos
episdios t
30
, t
50
e t
100
. possvel observar que as oscilaes das polticas com a rede de rela-
cionamentos diminuem quando comparadas com as imagens da figura 5.55.

t
30


t
30


t
50

t
50


t
100


t
100

a. eil51 b. eil76
Figura 5.58: Oscilao das polticas com o SAnt com q
0
=1 aps os episdios t
30
, t
50
e t
100


As imagens das figuras 5.59 e 5.60 ilustram as melhores polticas descobertas para ca-
da experimento, onde possvel observar que as polticas com o SAnt-Q apresentam as melho-
res solues.

a. Solues com o Ant-Q (eil51)

453,93 (1)

453,70 (2)

455,76 (3)

456,09 (4)

454,36 (5)
166


451,65 (6)

455,24 (7)

455,39 (8)

460,94 (9)

459,67 (10)

b. Solues com o SAnt-Q (eil51)

431,61 (1)

438,99 (2)

443,53 (3)

440,51 (4)

431,72 (5)

436,30 (6)

434,62 (7)

437,31 (8)

440,86 (9)

431,90 (10)
t
30


441,25 (1)

439,89 (2)

437,79 (3)

439,48 (4)

431,42 (5)

436,64 (6)

441,93 (7)

445,28 (8)

438,26 (9)

435,20 (10)
t
50


451,98 (1)

438,57 (2)

437,69 (3)

445,30 (4)

433,43 (5)
167


445,92 (6)

431,37 (7)

440,06 (8)

445,23 (9)
445,13 (10)
t
100

Figura 5.59: Solues com o Ant-Q e SAnt-Q (eil51)

a. Solues com o Ant-Q (eil76)

601,13 (1)

605,22 (2)

602,66 (3)

606,89 (4)

592,60 (5)

610,17 (6)

602,45 (7)

599,15 (8)

603,03 (8)

605,98 (10)

b. Solues com o SAnt-Q (eil76)

589,16 (1)

582,85 (2)

575,67 (3)

575,61 (4)

575,97 (5)

584,48 (6)

585,33 (7)

583,56 (8)

583,95 (9)

598,38 (10)
t
30


588,95 (1)

578,87 (2)

578,52 (3)

579,19 (4)

588,83 (5)
168


565,13 (6)

581,66 (7)

584,36 (8)

576,69 (9)

572,18 (10)
t
50


582,39 (1)

578,15 (2)

582,97 (3)

578,91 (4)

570,58 (5)

583,26 (6)

579,24 (7)

578,53 (8)

584,82 (9)

579,93 (10)
t
100

Figura 5.60: Solues com o Ant-Q e SAnt-Q (eil76)

Como mencionado, foi usado o teste no-paramtrico de Friedman para verificar se h
diferena significativa entre as polticas do Ant-Q e do SAnt-Q. Caso a hiptese nula seja ca-
racterizada, as polticas dos algoritmos so equivalentes, uma vez que possuem ranques iguais.
O resultado numrico do teste estatstico de Friedman utiliza um nvel de significncia (p-
valor), caso este seja menor que 0.05, ento recomendado rejeitar a hiptese nula.
Foram consideradas as seguintes comparaes nos problemas eil51 e eil76: Ant-Q vs.
SAnt-Q t
30
; Ant-Q vs. SAnt-Q t
50
; e Ant-Q vs. SAnt-Q t
100
. A tabela 5.13 mostra os p-valor ob-
tidos com os conjuntos de instncias eil51 e eil76.

Tabela 5.13: p-valor com o teste de Friedman
Episdio eil51 eil76
t
30
p= 0,00026 p= 0,00078
t
50
p= 0,00026 p= 0,00078
t
100
p= 0,00026 p= 0,00078

169

Assim, para um valor de p-valor < 0.05 possvel concluir que existe diferena signi-
ficativa entre os algoritmos, ou seja, a hiptese nula rejeitada. Com isso, a confiana de ha-
ver diferena significativa entre o Ant-Q e SAnt-Q de 95%. A tabela 5.14 mostra os resulta-
dos obtidos com os algoritmos, onde mostrado o custo mdio das polticas, a mdia e a soma
dos ranques.

Tabela 5.14: Comparativo das mdias com o teste de Friedman (500 episdios)
SAnt-Q
Ant-Q
iniciando em t
30
iniciando em t
50
iniciando em t
100


eil51 eil76 eil51 eil76 eil51 eil76 eil51 eil76
Custo mdio
das polticas
455,67
(4,768)
602,92
(4,798)
436,73
(4,246)
583,49
(6,981)
438,71
(3,840)
579,43
(6,257)
441,46
(6,357)
579,87
(4,004)
Mdia dos
ranques
2,000 2,000 1,000 1,000 1,000 1,000 1,000 1,000
Soma dos
ranques
20,00 20,00 10,00 10,00 10,00 10,00 10,00 10,00

5.3.4 Mtodo de Otimizao Social
Foi observado na subseo 5.4.3 que a rede gerada seguindo alguns princpios de redes
sociais capaz de melhorar a utilidade das polticas geradas por algoritmos de colnia de for-
migas. No intuito de observar a evoluo da rede em outras situaes, o SAnt-Q foi testado
sem a influncia de algoritmos que utilizam funes heursticas como a distncia euclidiana,
ou seja, tentamos verificar se a rede de relacionamentos gerada capaz de garantir convergn-
cia para polticas de boa qualidade mesmo quando um algoritmo gerador produz polticas a-
leatoriamente. Dessa forma podemos caracterizar a independncia da abordagem em relao
ao algoritmo de otimizao de entrada gerador de solues candidatas.
Para auxiliar nessa abordagem, includo na equao 5.11 um parmetro ( ) para
privilegiar as relaes entre estados mais centrais, que determina uma recompensa em funo
da centralidade de grau. Em redes com muitos agentes, os estados tendem a ter alto grau, de-
vido quantidade de interaes dos agentes ao longo da aprendizagem. Quando isso ocorre,
normalmente h atraso na aprendizagem, devido ao aumento de tempo para ligar os estados
soluo. Para aproveitar essa caracterstica, usada na rede de relacionamentos uma medida
de centralidade para melhorar o crescimento da rede.
Ns adaptamos a abordagem de (Barabsi et al. 2000), considerando que o crescimen-
to da rede de relacionamentos se d preferencialmente pelas relaes de adjacncias (dades)
170

que ocorrem com maior frequncia durante as geraes de polticas candidatas intermedirias
no episdio atual. Portanto, a frequncia das relaes de estados dades utilizada como fator
preferencial para adio de novas relaes (e possivelmente novos estados) na rede. Assim, o
parmetro de reforo (r
s,u
) baseado na quantidade de vezes que a adjacncia entre dois es-
tados ocorreu dentre as polticas candidatas do episdio atual, i.e., o nmero de vezes que os
agentes (formigas) se moveram do estado s para o estado u. Essa abordagem permite afirmar
que relaes mais frequentes tendem a se repetir nas polticas, indicando convergncia do al-
goritmo. Relaes com baixa frequncia possuem pouca influncia na poltica. A equao 3.6
foi adaptada para a equao 5.17 para computar a frequncia das interaes dos estados:

1
0
1
) (
1
,
,
,

=
n
AQ r se
AQ r se
r
n
i
i u s
i u s
t u s
t
t

(5.17)

onde
t u s
r ) (
,
a frequncia das interaes no episdio t e n o nmero de polticas geradas
(equivalente ao nmero de agentes e estados).
Outras mtricas como centralidade por aproximao, intermediao e distncia poderi-
am ser usadas e/ou adaptadas para privilegiar determinadas relaes da rede de relacionamen-
tos. Apesar dessas mtricas, a centralidade de grau parece adequada devido s caractersticas
do domnio e a simplicidade da adaptao ao estudo de caso deste trabalho.
Para substituir as polticas geradas com o Ant-Q, foi usado o framework apresentado
na seo 5.2 para gerar polticas candidatas aleatoriamente para os problemas eil51 e eil76. As
imagens das figuras 5.61 e 5.62 ilustram quinze polticas obtidas com o gerador de teste.

171


1398 (1)

1445 (2)

1317 (3)

1262 (4) 1162 (5)
1471 (6)

1476 (7)

1422 (8)

1399 (9)

1477 (10)

1355 (11)

1368 (12)

1411 (13)

1382 (14)

1401 (15)
Figura 5.61: Polticas obtidas com o gerador de teste (eil51)


2089 (1)

2153 (2)

2239 (3)

2121 (4)

2266 (5)

2145 (6)

2389 (7)

2316 (8)

2209 (9)

2116 (10)

2234 (11)

2171 (12)

2119 (13)

2233 (14)

2366 (15)
Figura 5.62: Polticas obtidas com o gerador de teste (eil76)

O procedimento para o crescimento da rede com as polticas do gerador de teste o
mesmo apresentado nos experimentos anteriores. Devido a quantidade de episdios utilizados
nesses experimentos, foi adotado na regra de transio do SAnt-Q o parmetro q
0
com valor 0.
Usando os procedimentos apresentados na subseo 5.4.2 ilustrada nas figuras 5.63 e 5.65 a
evoluo da rede, onde mostrado o custo da poltica do SAnt-Q em intervalos de tempo. Os
resultados foram obtidos usando 10000 episdios com os problemas eil51 e eil76.
172


Incio (eil51),
poltica 1

1398, t
1-99

(1)


1103, t
100-199

(2)


1051, t
200-599

(3)


994, t
600-1099


886, t
1100-1399

(4)


869, t
1400-1599

(5)


802, t
1600-1799

(6)


795, t
1800-1899


753, t
1900-2099

(7)


746, t
2100-2299

(8)


709, t
2300-2399

(9)


697, t
2400-2599


671, t
2600-2799

(10)


623, t
2800-3199

(11)


608, t
3200-3499

(12)


603, t
3500-3899


599, t
3900-4299

(13)


597, t
4300-4399

(14)


594, t
4400-4499

(15)


593, t
4500-4899


591, t
4900-4999

(16)


584, t
5000-5299

(17)


583, t
5300-5299

(18)


572, t
5300-5399


568, t
5400-5599

(19)


566, t
5600-5699

(20)


555, t
5700-7000

(21)


531, t
7000-7399

173


523, t
7400-7699

(22)


502, t
7700-7899

(23)


494, t
7700-7899

(24)


486, t
7900-10000

Figura 5.63: Evoluo da rede com o mtodo de otimizao social (eil51)

As figuras 5.64 e 5.66 mostram as melhores polticas obtidas com o mtodo de otimi-
zao social no problema eil51 para cada experimento.

486, t
8611
(1) 483, t
7421
(2)

485, t
8366
(3)

488, t
7993
(4) 494, t
5767
(5)

476, t
7459
(6) 495, t
7005
(7)

498, t
6352
(8)

499, t
6190
(9)

503, t
7744
(10)

506, t
6087
(11)

508, t
6350
(12)
491, t
6967
(13)

514, t
7329
(14) 519, t
6673
(15)
Figura 5.64: Polticas obtidas com o mtodo de otimizao social (eil51) em 10.000 episdios

Incio (eil76),
poltica 1

2145, t
1-99

(1)


1597, t
100-4199

(2)


1451, t
4200-4399

(3)


1348, t
4400-4499


1311, t
4500-4699

(4)


1219, t
4700-4799

(5)


1116, t
4800-4999

(6)


1109, t
5000-5199

174


1101, t
5200-5299

(7)


1069, t
5300-5399

(8)


1030, t
5400-5499

(9)


1020, t
5500-5699


980, t
5700-5899

(10)


968, t
5900-6399

(11)


949, t
6400-6899

(12)


908, t
6900-7199


872, t
7200-7499

(13)


838, t
7500-7799

(14)


804, t
7800-8299

(15)


788, t
8300-8599


756, t
8600-8799

(16)


748, t
8800-8999

(17)


738, t
9000-9099

(18)


732, t
9100-9199


720, t
9200-9299

(19)


717, t
9300-9399

(20)


713, t
9400-9499

(21)


710, t
9500-9599


703, t
9600-9699

(22)


701, t
9700-9799

(23)


692, t
9800-9899

(24)


683, t
9900-10000

Figura 5.65: Evoluo da rede com o mtodo de otimizao social (eil76) em 10.000 episdios

175


683, t= 9961 (1)

686, t= 9951 (2)

701, t= 9605 (3)

702, t= 9711 (4)

703, t= 9398 (5)

704, t= 9662 (6)

706, t= 9510 (7)

706, t= 9799 (8)

708, t= 9313 (9)

713, t= 9412 (10)

716, t= 9118 (11)

719, t=9007 (12)

722, t= 9398 (13)

732, t= 9665 (14)

764, t= 8844 (15)
Figura 5.66: Polticas obtidas com o mtodo de otimizao social (eil76) em 10.000 episdios.

possvel observar na figura 5.63 que durante a evoluo da rede no problema eil51,
as melhores polticas emergem a partir do episdio 3000. No problema eil76 (figura 5.65), as
melhores polticas so encontradas a partir do episdio 9000, pois devido aos baixos valores
das relaes, o parmetro de explorao q
0
= 0 precisa de mais episdios para estabelecer as
melhores relaes em ambientes com muitos estados. O parmetro de explorao q
0
= 1 induz
a poltica para uma convergncia acelerada, no entanto com valores no satisfatrios, devido
estagnao em mnimos locais nos episdios iniciais.
Para comparar o mtodo de otimizao social com abordagens baseadas em recompen-
sas que no utilizam heursticas do domnio, foi utilizado o Ant-Q com o parmetro heurstico
= 0, sendo a configurao dos demais parmetros o mesmo dos experimentos anteriores. As-
sim, o Ant-Q com essa parametrizao utiliza somente as recompensas adquiridas para guiar a
busca no espao de estados e usa as regras de atualizaes (local e global) para estimar as re-
compensas. A tabela 5.15 mostra o custo mdio dos valores das melhores polticas do mtodo
de otimizao social e do Ant-Q sem heurstica.

Tabela 5.15: Custo mdio das polticas do Ant-Q sem heurstica e
do mtodo social (eil51 e eil76)
Ant-Q = 0 Mtodo Social
eil51 1146,33 495,46
eil76 1912,33 711

176

possvel observar na tabela 5.15 que o Ant-Q sem heurstica (= 0) no consegue a
convergncia para boas solues usando somente as recompensas como fator de explorao,
mesmo que haja muitos episdios e elevada quantidade de interaes entre os agentes (dade).
Essa observao encontrada no mtodo de otimizao social, que aproveita a sociabilidade
dos agentes com algoritmos por recompensas para melhorar o processo de tomada de deciso.
Os grficos das figuras 5.67 e 5.68 mostram os valores das polticas em cada experimento.


Figura 5.67: Ant-Q sem heurstica vs. mtodo social, eil51 com 10000 episdios


Figura 5.68: Ant-Q sem heurstica vs. Mtodo Social, eil76 com 10000 episdios

5.3.4.1 Discusses sobre o SAnt-Q
Os resultados experimentais mostram que mesmo sem um gerador de solues heurs-
tico a convergncia ainda possvel com o mtodo de otimizao social SAnt-Q. As boas pol-
ticas (figuras 5.64 e 5.66) obtidas com esse mtodo so decorrentes dos ajustes dos valores das
intensidades das relaes construdas pelos agentes durante a interao.
177

Isso demonstra que tcnicas da anlise de redes sociais podem melhorar algoritmos
baseados em reforos que tem a sociabilidade como uma das principais caractersticas. A a-
daptao de uma mtrica das redes sociais permitiu privilegiar as relaes mais frequntes na
rede, sendo capaz de produzir forte influncia nas relaes utilizando aprendizagem por refor-
o e tcnicas da anlise das redes sociais. Isso foi demonstrado com o uso do parmetro ,
que atua como uma alternativa s heursticas baseadas em dados do domnio, beneficiando as
relaes mais frequentes.
Os resultados obtidos com o mtodo de otimizao social mostram que a sociabilidade
decorrente das interaes sociais, melhora a coordenao dos agentes com a estrutura social
para a tomada de deciso. O comportamento coletivo a partir das interaes capaz de gerar
um mecanismo de coordenao com comportamentos autnomos e locais, sem necessitar da
coordenao centralizada.
A estrutura social construda a partir das interaes desses indivduos pde melhorar a
coordenao para o objetivo global. Como em outros sistemas sociais, o fortalecimento das
relaes entre indivduos pares ou em grupos ocorre por algum tipo de relao, e.g., trabalho,
amizade, ou por proximidade geogrfica ou tarefa comum, que ao longo do tempo so intensi-
ficadas e enfraquecidas. O mtodo proposto segue esses princpios, e mostra que atitudes
comportamentais individuais e coletivas podem ser estendidas para modelos computacionais.

Consideraes finais
Neste captulo foi apresentada a metodologia para o desenvolvimento de mtodos de
coordenao empregando tcnicas de redes sociais, aprendizagem por reforo e algoritmos de
colnia de formigas. Inicialmente, discutimos como os agentes podem se coordenar comparti-
lhando recompensas para alcanarem o objetivo estabelecido. Os resultados experimentais
foram discutidos, analisando o impacto das recompensas compartilhadas no aprendizado dos
agentes.
Foi observado que na aprendizagem por reforo a interao com modelos sociais que
compartilham as recompensas pode em algum momento no satisfazer a poltica, pois a troca
de conhecimento entre os agentes pode gerar novas polticas intermedirias incompatveis
com uma rpida convergncia.
Para resolver esse problema, um mtodo hbrido de aprendizagem foi implementado,
sendo os resultados comparados com os modelos que no partilham recompensas. Foi mostra-
do o desenvolvimento de frameworks de testes, que permitiram analisar o impacto dos par-
metros dos algoritmos Ant-Q e Q-learning na convergncia do sistema. A ltima parte da me-
178

todologia abordou como a sociabilidade dos indivduos que utilizam algoritmos de colnia de
formigas importante para melhorar o comportamento coletivo na tomada de decises. Os
resultados mostram que as tcnicas da anlise das redes sociais so teis na formalizao do
processo para a construo de estruturas sociais. A melhora da coordenao de agentes basea-
do nessas discusses mostra o aspecto inovador desde trabalho.

179

Captulo 6
Concluses e Discusses Finais
O comportamento coletivo quando coordenado atribui aos indivduos de um sistema
habilidades (recompensas pelas atitudes) e padres de comportamentos que melhoram a inte-
rao. Em um sistema com caractersticas sociais a coordenao entre os indivduos neces-
sria, pois a troca de informaes deve beneficiar tanto o comportamento coletivo como o
individual. O comportamento social quando dois ou mais indivduos dependem mutuamente
um do outro para a execuo de tarefas em um ambiente social.
Foi observado que as interaes sociais estabelecem relaes entre os indivduos de
um sistema multiagente que realizam alguma atividade em comum a partir da tomada de deci-
so coletiva. Neste contexto, um indivduo atua em um ambiente estabelecendo ligaes com
os demais indivduos a partir das recompensas geradas por algoritmos de reforo. Esses indi-
vduos socializam as recompensas para melhorar o seu comportamento e possivelmente de
outros agentes, caracterizando a interao social.
Para que a interao social tenha efeito sobre os indivduos, necessrio que ela pro-
duza alteraes no comportamento individual (Brown, 2006). Portanto, a interao social o
resultado do comportamento coletivo dos indivduos, que utilizam recompensas sociais para a
manuteno de suas relaes.
possvel verificar na metodologia proposta que a interao social fundamental para
o desenvolvimento de comportamentos coletivos, pois atua na construo da estrutura social
e na qualidade da coordenao. Ressalta-se tambm a importncia dos princpios da sociabili-
dade nas atividades em comum dos indivduos. Muitas vezes esses conceitos esto relaciona-
dos a teorias de ao e modelos de sistemas sociais, onde as interaes entre os indivduos
devem resultar dos modelos de aprendizagem construdos a partir da prpria interao, levan-
180

do em considerao as mudanas que ocorrem entre os membros do grupo, aperfeioando o
desempenho das tarefas.
Embora as caractersticas sociais de um sistema sejam reconhecidamente importantes
para a coerncia de comportamentos dos indivduos, destaca-se tambm que a formalizao
dessas influncias constitui uma rea de pesquisa ainda pouco explorada. Neste sentido, este
trabalho defende a utilizao de medidas de centralidade e intensidade das relaes entre
pares de indivduos (dades) oriundas da anlise das redes sociais. A adaptao e a constru-
o da rede de relacionamentos ocorrem com modelos e equaes matemticas, mostrando
a influncia dos indivduos. Para melhorar a adaptao da rede de relacionamento devem ser
utilizadas as melhores polticas identificadas. O crescimento da rede se d preferencialmente
pelas relaes das dades mais influentes, que ocorrem com maior frequncia durante as ge-
raes de polticas candidatas. Isso determinado pela sobreposio dos melhores indivduos
do sistema, onde os indivduos com maior fora influenciam os demais atravs de recompen-
sas individuais.
A identificao dos indivduos mais relevantes pode ser realizada observando aque-
les cujos comportamentos so reproduzidos por outros indivduos intensificando as relaes
entre estados e aes especficos. Neste caso, as medidas de centralidade da anlise das redes
sociais auxiliam na determinao de comportamentos desejveis, produzindo melhores polti-
cas coletivas de ao.
Quando polticas de ao devem ser construdas em um ambiente coletivo, modelos
especficos de gerao e compartilhamento de recompensas devem ser empregados, como
por exemplo, compartilhando recompensas (i) em episdios pr-determinados, (ii) a cada
ao, a partir de uma regra de transio baseada na prpria poltica de ao, e (iii) de forma
local e global. Esses modelos incluem no processo de gerao de comportamentos uma di-
menso social implcita, mas que tambm pode ser constituda por uma estrutura social expli-
citamente representada.
Uma estrutura social pode ser gerada, por exemplo, a partir de uma rede de ferom-
nio produzida por um algoritmo de colnia de formigas. A partir do comportamento dos indi-
vduos e da aplicao da teoria da anlise de redes sociais, possvel identificar a estrutura
social (rede) e padres de comportamentos entre os estados do sistema, destacando quem inte-
rage com quem, a frequncia e a intensidade de interao. O conhecimento adquirido pelos
agentes permite que as relaes mais intensas tenham maior prioridade de serem includas na
gerao da rede, favorecendo os estados proeminentes e diminuindo consequentemente a in-
tensidade das relaes potencialmente inteis.
181

possvel dizer a partir dos resultados apresentados pelo algoritmo SAnt-Q que a es-
trutura social gerada melhora o comportamento do Ant-Q, identificando a topologia que
emerge a partir de determinados episdios produzindo uma rede de relacionamentos. A topo-
logia inicial da rede gerada com o algoritmo SAnt-Q semelhante ao modelo de redes e gra-
fos aleatrios. Essa topologia de rede no a desejada no incio da aprendizagem, pois o grau
da maioria dos estados semelhante, o que ocasiona mesma probabilidade de se conectarem
aos demais estados. Entretanto, iterativamente, as relaes da rede de relacionamentos so
intensificadas, alterando a topologia para uma rede do tipo mundo pequeno.
A alterao das caractersticas da rede ocorre porque algoritmos de colnia de formi-
gas so dotados de mecanismos que induzem os agentes a usarem estratgias exploratrias,
devido ao parmetro que define a taxa de explorao e induz os agentes a aes baseadas em
probabilidade. Estados com recompensas menores tambm podem ser escolhidos, na inteno
de maximizar as recompensas no final da aprendizagem. De uma forma geral, estados mais
prximos tendem a estar conectados com mais intensidade. Porm, alguns estados estaro
relacionados com estados mais distantes, criando novas conexes e reduzindo o tamanho m-
dio do caminho entre todos os estados.

6.1 Trabalhos Futuros
Os resultados observados com os modelos de compartilhamento de recompensas soci-
ais indicam que novas pesquisas podem ser realizadas em ambientes mais complexos e com
elevada dinamicidade. Alguns experimentos preliminares neste tipo de ambiente mostram que
os modelos desenvolvidos podem favorecer a convergncia para polticas de boa qualidade
neste tipo de problema (seo 5.1).
Apesar dos resultados obtidos com os modelos sociais serem encorajadores, algumas
diretivas futuras so merecedoras de investigaes, como por exemplo, avaliar a interao dos
agentes quando compartilham recompensas em ambientes com centenas de agentes. Como os
agentes interagem compartilhando recompensas de modelos diferentes, a priori, os agentes
devero ter um comportamento coletivo adequado, pois as recompensas obtidas com o modelo
hbrido parece menos susceptvel a rudos nos dados de aprendizagem. Portanto, esses estudos
complementares so importantes para a evoluo dos modelos sociais, pois a diversidade de
experimentos a serem produzidos enorme, o que faz surgir novos cenrios a serem estuda-
dos.
182

Apesar dos resultados encorajadores com o SAnt-Q, possvel que novas estratgias
de atualizao, como por exemplo, procedimentos para atualizaes globais, possam melhorar
a coordenao dos agentes, pois a intensidade de algumas relaes pode levar a mnimos lo-
cais. Outra alternativa o uso de uma estratgia para melhorar a busca global, onde procedi-
mentos poderiam penalizar as relaes com valores muito elevados. Isso poderia ser aplicado
a um nmero especfico de episdios, diminuindo o valor de algumas relaes favorecendo o
surgimento de novos relacionamentos (novas solues de boa qualidade).
Neste trabalho foi observado que a rede de relacionamentos entre estados do sistema,
gerada a partir dos comportamentos dos agentes (recompensas) e valores em funo de uma
centralidade de grau, produziram bons resultados em problemas de benchmark. Mesmo des-
considerando o uso de funes heursticas especficas do domnio (e.g. distncia geogrfica
entre estados) a topologia da rede de relacionamentos suficiente para gerar novos compor-
tamentos. Outra alternativa baseada em uma funo de centralidade seria utilizar outras mtri-
cas da anlise das redes sociais, como por exemplo, medidas de centralidade por aproximao
e intermediao, onde adaptadas poderiam privilegiar determinadas relaes da rede de rela-
cionamentos. Essas medidas poderiam ser usadas conforme a manuteno da dade e dos va-
lores utilizados para o parmetro de aprendizagem (equao 5.12).

6.2 Publicaes Relacionadas
Neste trabalho procurou-se desenvolver metodologias cientficas voltadas para duas
direes principais: (i) o desenvolvimento de modelos para o compartilhamento de recompen-
sas sociais e (ii) a utilizao da estrutura social construda com a sociabilidade para melhorar
o comportamento dos indivduos de um sistema multiagente. Esses objetivos foram alcana-
dos com as metodologias apresentadas no captulo 5, onde as principais inovaes apresenta-
das permitiram a adaptao de mtodos de coordenao multiagente, colnia de formigas e
aprendizagem por reforo a partir de conceitos oriundos das redes sociais. Essas contribuies
serviro como base para a elaborao de trabalhos cientficos relacionados e tambm origina-
ram alguns trabalhos j publicados listados a seguir:
Otimizao dos Parmetros de Aprendizagem para a Coordenao dos Agentes em
Algoritmos de Enxames (SCA - Simpsio de Computao Aplicada, Passo Fundo,
2009, ISNN 2176-8196 - Ribeiro, R.; Ronszcka, A. F.; Borges, A. P.; Enembreck, F.);
A Strategy for Converging Dynamic Action Policies (IEEE Symposium Series on
Computational Intelligence, 2009, Nashville. Procedings of IEEE Symposium Series
183

on Computational Intelligence, p. 136-143, March, 2009, ISBN 978-1-4244-2767-3 -
Ribeiro, R.; Borges, A. P.; Koerich, A.; Scalabrin, E. E.; Enembreck, F.);
Uma Arquitetura de Aprendizagem para a Conduo Automtica de Veculos (In.
Proceedings of XXXV Conferencia Latinoamericana de Informtica, 2009 - Borges,
A. P.; Ribeiro, R.; Leite, A. R.; Dordal, O.; Giacomet, B.; vila, B. C.; Enembreck,
F.; Scalabrin, E. E.);
A Learning Agent to Help Drive Vehicles (In: 13th International Conference on Com-
puter Supported Cooperative Work in Design (CSCWD 2009), Santiago, 2009b, p.
282-287 - Borges, A. P.; Ribeiro, R.; vila, B.C.; Enembreck, F.; Scalabrin, E. E.)
Discovering Action Policies in Dynamic Environments (gora (Caador), v. 15, n.1 p.
175-185, 2008, ISSN 0104-7507 - Ribeiro, R.; Borges, A. P.; Ulbrich, G.; Koerich, A.
L.; Scalabrin, E. E.; Enembreck, F.);
Interaction Models for Multiagent Reinforcement Learning (International Conference
on Computational Intelligence for Modelling, Control and Automation - CIMCA08,
Vienna, Austria, 2008 - Ribeiro, R., Borges, A. P. e Enembreck, F.);
Noise Tolerance in Reinforcement Learning Algorithms (IEEE/WIC/ACM Interna-
tional Conference on Intelligent Agent Technology (IAT2007), Silicon Valley, Cali-
fornia, USA. Proceedings of the IAT 2007. Los Alamitos: IEEE Computer Society, p.
265-268, 2007, ISSN/ISBN 0769530273 - Ribeiro, R.; Koerich A. L. and Enembreck
F.);
Reinforcement Learning: Adaptive Agents for Discovery of Policies of Action (gora
(Caador), v. 14, p. 9-24, 2007, ISSN 0104-7507 - Ribeiro, R.; Koerich, A. L.; Enem-
breck, F.).
184

Referncias Bibliogrficas
ABDALLAH, S.; LESSER, V. R. Learning scalable coalition formation in an organizational
context. Coordination of Large-Scale Multiagent Systems, Springer US, 2006, p. 195-215.

ABD-EL-BARR, M.; SAIT, S. M.; SARIF, B. A. B.; AL-SAIARI, U. A modified ant colony
algorithm for evolutionary design of digital circuits. IEEE Congress on Evolutionary Compu-
tation (1) 2003, p. 708-715.

ANNALURU, R.; DAS, S.; PAHWA, A. Multi-Level Ant Colony Algorithm for Optimal
Placement of Capacitors in Distribution Systems. IEEE. 2004, p. 1932-1937.

ARAJO, R. M.; LAMB, L. C. Memetic Networks: analyzing the effects of network proper-
ties in multi-agent performance. In: Twenty-Third Conference on Artificial Intelligence
(AAAI-08), 2008, Chicago. Menlo Park, CA: Association for the Advancement of Artificial
Intelligence Press (AAAI Press), v. 1, 2008, p. 1-6.

ARKIN, R. Integrating Behavioral, Perceptual and World Knowledge in Reactive Naviga-
tion. Robotics and Autonomous Systems, Special Issue on Designing Autonomous Agents:
Theory and Practice from Biology to Engineering and Back. P. Maes, ed., v. 6, n. 1-2, 1990,
p. 105-122.

BARABSI, A-L; ALBERT, R.; JEONG, H. Scale-free characteristics of random networks:
The topology of the World Wide Web. Physical A, v. 281, 2000, p. 69-77.

BARABSI, A-L. Linked, The new science of networks. Perseus Publishing, Cambridge,
Massachusetts, 2002.

BARABSI, A-L. Linked. How Everything is Connected to Everything else and What it
means for Business, Science and Every day Life. Cambridge: Plume, 2003a.
185


BARABSI, A-L; BONABEAU, E. Scale-Free Networks. Scientific American, Issue 5, 60
(2003b), New York, NY, 2003, p. 60-69.

BASTOS FILHO, C. J. A.; LIMA NETO, F. B.; LINS, A. J. C. C.; NASCIMENTO, A. I. S.;
LIMA, M. P. A Novel Search Algorithm based on Fish School Behavior. IEEE International
Conference on Systems, Man and Cybernetics, SMC 2008, p. 2646-2651.

BATAGELJ, V.; MRVAR, A. Pajek - A program for large network analysis. Lecture Notes
in Computer Science, Graph Drawing, v. 2265, 2002, p. 8-11.

BATAGELJ, V.; MRVAR, A. Pajek: Package for large networks. Version 0.92. Ljubljana:
University of Ljubljana, 2003a.

BATAGELJ, V.; MRVAR, A. Pajek. Analysis and visualization of large networks. n Junger,
M., and Mutzel, P. (eds.), Graph Drawing Software. New York: Springer. 2003b, p. 77-44.

BEAN, N.; COSTA, A. An analytic modeling approach for network routing algorithms that
use ant-like mobile agents. Computer Networks: The International Journal of Computer and
Telecommunications Networkin, v. 49, 2005, p. 243-268.

BELL, J. E.; MCMULLEN, P. R. Ant colony optimization techniques for the vehicle routing
problem. Advanced Engineering Informatics, v. 18, 2004, p. 41-48.

BENI, G., WANG, J. Swarm Intelligence in Cellular Robotic Systems. Proceeding NATO
Advanced Workshop on Robots and Biological Systems, Tuscany, Italy, June, 1989, p. 26-30.

BERTSEKAS, D. P. Dynamic Programming: Deterministic and Stochastic Models. Prentice-
Hall, Englewood Cliffs, N.Y, 1987.

BIANCHI, L.; GAMBARDELLA, L. M.; DORIGO, M. An Ant Colony Optimization Ap-
proach to the probabilistic Traveling Salesman Problem, In Proceedings of PPSN-VII, Sev-
enth International Conference on Parallel Problem Solving from Nature, LNCS. Springer Ver-
lag, Berlin, Germany, 2002.
186


BOER, P.; HUISMAN, M.; SNIJDERS, T. A. B.; ZEGGELINK, E. P. H. StOCNET: An open
software system for the advanced statistical analysis of social networks. Version 1.4. Gronin-
gen: ProGAMMA/ICS, University of Groningen. 2003.

BORGATTI, S. P. NetDraw 1.0: Network visualization software. Version 1.0.0.21. Harvard:
Analytic Technologies, 2002a.

BORGATTI, S. P.; EVERETT, M. G.; FREEMAN, L. C. UCINET 6 for Windows: Software
for social network analysis. Harvard: Analytic Technologies, 2002b.

BORGES, A. P.; RIBEIRO, R.; VILA, B.C.; ENEMBRECK, F.; SCALABRIN, E. E. A
Learning Agent to Help Drive Vehicles. In: 13th International Conference on Computer Sup-
ported Cooperative Work in Design (CSCWD 2009), Santiago, 2009b, p. 282-287.

BORGES, A. P.; RIBEIRO, R.; LEITE, A. R.; DORDAL, O.; GIACOMET, B.; VILA, B.
C.; ENEMBRECK, F.; SCALABRIN, E. E. Uma Arquitetura de Aprendizagem para a Con-
duo Automtica de Veculos. In. Proceedings of XXXV Conferncia LatinoAmericana de
Informtica, 2009c, p. 1-6.

BOWMAN, R. S.; HEXMOOR, H. Agent collaboration and social networks, Integration of
Knowledge Intensive Multi-Agent Systems, April, 2005, p. 211-214.

BRADSHAW, J. M. An Introduction to software Agents. In: Bradshaw, J. M. (Ed.). Software
Agents. Massachussetts: MIT Press 1997.

BROOKS, R. A. A robust layered control system for a mobile robot. IEEE J. Rob. Autom 2.
1986, p. 14-23.

BROOKS, R. A. Elephants Don't Play Chess, Robotics and Autonomous Systems, v. 6, 1990,
p. 3-15.

BROWN, L. D. Introducing Social Interaction Theory. American Sociological Association,
Montreal Convention Center, Montreal, Quebec, Canada, 2006.
187


BULLNHEIMER, B.; HARTL, R. F.; STRAUSS, C. A new rank-based version of the Ant
System: a computational study. Central European Journal for Operations Research and Eco-
nomics, v. 7(1), 1999a, p. 25-38.

BULLNHEIMER, B.; HARTL, R. F.; STRAUSS, C. An improved ant system algorithm for
the vehicle routing problem. Annals of Operations Research, v.89, 1999b, p. 319-328.

BURT, R. S. STRUCTURE. Version 4.2. New York: Columbia University. 1991.

CASTELFRANCHI, C.; MICELI, M.; CESTA, A. Dependence Relations among Autono-
mous Agents, in Y.Demazeau, E.Werner (Eds), Decentralized A.I., Elsevier (North Holland),
1992.

CASTELFRANCHI, C. To Be or Not To Be an Agent, Intelligent Agents III, Agent Theories,
Architectures, and Languages, ECAI '96 Workshop (ATAL), Budapest, Hungary, August 12-
13, 1996, p. 37-39.

CHAPELLE, J.; SIMONIN, O.; FERBER, J. How Situated Agents can Learn to Cooperate by
Monitoring their neighbors Satisfaction. ECAI2002, Lyon, 2002, p. 68-72.

CHECHETKA, A.; SYCARA, K. No-commitment branch and bound search for distributed
constraint optimization, Proceedings of the fifth international joint conference on Autono-
mous agents and multiagent systems, Hakodate, Japan, 2006, p. 1427-1429.

CHRISTOFIDES, N.; EILON, S. An Algorithm for the Vehicle-Dispatching Problem. Opera-
tions Research Quarterly 20, 1969, p. 309-318.

COELLO, C. A. C.; GUTIRREZ, R. L. Z; GARCA, B. M.; AGUIRRE, A. H. Automated
Design of Combinational Logic Circuits using the Ant System. Engineering Optimization, v.
34, n. 2, 2002, p. 109-127.

188

COELLO, C. A. C.; TOSCANO, G.; LECHUGA, M. S. Handling Multiple Objectives with
Particle Swarm Optimization. IEEE Transactions on Evolutionary Computation, v. 8, n. 3,
2004, p. 256-279.

CONWAY, L.; LESSER, V. R.; CORKILL, D. G. The distributed vehicle monitoring testbed:
A tool for investigating distributed problem solving networks. AI Magazine, 4(3):15-33, 1983.

COSTA, D; HERTZ, A. Ants can colour graphs, Journal of the Operational Research Society,
v. 48, 1997, p. 295-305.

CRITES, R. H.; BARTO, A.G. Improving Elevator Performance Using Reinforcement Learn-
ing. Advances in Neural Information processing Systems 8. MIT Press, Cambridge, MA,
1996, p. 1017-1023.

CYRAM. Cyram NetMiner II. Version 2.0.5. Seoul: Cyram Co., Ltd. 2003.

DAUTENHAHN, K. Getting to know each other - artificial social intelligence for autono-
mous robots, Robotics and Autonomous Systems, v. 16, 1995, p. 333-356.

DAUTENHAHN, K.; CHRISTALLER, T. Remembering, rehearsal and empathy - towards a
social and embodied cognitive psychology for artifacts. In Two Sciences of the Mind. Read-
ings in cognitive science and consciousness, S. ONuallain and P. McKevitt, Eds. John Ben-
jamins Publ., 1996, p. 257-282.

DECKER, K. S.; LESSER, V. R. Generalizing the Partial Global Planning Algorithm. Inter-
national Journal on Intelligent Cooperative Information Systems, v. 1, n. 2, 1992, p. 319-346.

DECKER, K. S.; LESSER, V. R. Quantitative modeling of complex computational task envi-
ronments. In Proceedings of the Eleventh National Conference on Artificial Intelligence,
Washington, 1993, p. 217-224.

DECKER, K. S.; LESSER, V. R. Designing a Family of Coordination Algorithms. In Pro-
ceedings of the First International Conference on Multi-Agent Systems, AAAI Press: San
Francisco, CA, San Francisco, 1995, p. 73-80.
189


DELOACH, S. A.; VALENZUELA, J. L. An Agent-Environment Interaction Model. In L.
Padgham and F. Zambonelli (Eds.): AOSE 2006, LNCS 4405. Springer-Verlag, Berlin Hei-
delberg, 2007, p. 1-18.

DEMSAR, J. Statistical Comparisons of Classifiers over Multiple Data Sets. Journal of Ma-
chine Learning Research, 7: 1-30, 2006.

DI CARO, G.; DORIGO, M. AntNet: Distributed stigmergetic control for communications
networks. Journal of Artificial Intelligence Research (JAIR), AI Access Foundation and Mor-
gan Kaufmann Publishers, 1998, p. 317-365.

DORIGO, M.; MANIEZZO, V.; COLORNI, A. Positive feedback as a search strategy. Tech-
nical Report TR91-016, Dip. Elettronica, Politecnico di Milano, Italy, 1991a.

DORIGO, M.; MANIEZZO, V.; COLORNI, A. The Ant System: an autocatalytic
optimization process. Technical Report TR91-016 Revised. Dipartimento di Elettronica,
Politecnico di Milano, Itlia, 1991b.

DORIGO, M. Optimization, learning, and natural algorithms. PhD thesis, Dip. Elettronica,
Politecnico di Milano, Italy, 1992.

DORIGO, M.; MANIEZZO, V.; COLORNI, A. Ant System: Optimization by a Colony of Co-
operating Agents. IEEE Transactions on Systems, Man, and Cybernetics-Part B, 26(1): 1996,
p. 29-41.

DORIGO, M.; GAMBARDELLA, L. M. Ant Colony System: A Cooperative Learning Ap-
proach to the Traveling Salesman Problem. IEEE Transactions on Evolutionary Computation,
1(1): 1997, p. 53-66.

DORIGO, M.; DI CARO, G.; GAMBARDELLA, L. M. Ant algorithms for distributed dis-
crete optimization. Artificial Life, 5(2): 1999, p. 137-172.

190

DOYLE, J. Rationality and its role in reasoning. Computational Intelligence, v. 8, p. 376-
409, 1992.

DURFEE, E. H. Coordination of Distributed Problem Solvers. Kluwer Academic Press, Bos-
ton, 1988.

DURFEE, E. H.; LESSER, V. R. Partial Global Planning: A coordination framework for
distributed hypothesis formation. IEEE Transactions on Systems, Man, and Cybernetics,
21(5): 1991, p. 1167-1183.

DURFEE, E. H. Planning in distributed artificial intelligence. In: OHare, Greg; Jennings,
Nick (Eds.). Foundations of distributed artificial intelligence, Willey, 1996.

DURFEE, E. H. Distributed Problem Solving and Planning. Chapter 3 in Gerhard Weiss,
editor. Multiagent Systems: A Modern Approach to Distributed Artificial Intelligence, MIT
Press, Cambridge MA, 1999.

EBERHART, R. C.; KENNEDY, J. F. A new optimizer using particle swarm theory. In: Pro-
ceedings of the sixth international symposium on micromachine and human science, Nagoya,
Japan; 1995, p. 39-43.

ENEMBRECK, F. Contribution la conception dagentes assistants personnels adaptatifs,
Thse de Docteur. Universite de Technologie de Compiegne U. F. R. de Sciences Et Techno-
logie, 2003.

ENGELBRECHT, A. P. Fundamentals of Computational Swarm Intelligence. Chichester: J.
Wiley & Sons, 2005.

ERDS, P.; RNYI, M. On Random Graphs. Publication of the Mathematical Institute of
The Hungarian Academy of Sciences, v. 5, 1960, p. 17-61.

FARATIN, P.; SIERRA, C.; JENNINGS, N. R. Negotiation Decision Functions for Autono-
mous Agents. Int. Journal of Robotics and Autonomous Systems, 24 (3 - 4), 1998, p. 159-182.

191

FENSTER, M.; KRAUS, S. Coordination Without Communication: Experimental Validation
of Focal Point Techniques. Readings in Agents. Michael N. Huhns and Munindar P. Singh
(Eds.) chapter 4. San Francisco: Morgan Kaufmann Publishers, 1998, p. 380-386.

FERBER, J. Multi-Agent System: An Introduction to Distributed Artificial Intelligence. Addi-
son-Wesley, Longman Ink., New York, 1999.

FONSECA, J. M. M. R. Protocolos de Negociao com Coligaes em Sistemas Multiagen-
tes - Uma aplicao Gesto Distribuda de Recursos. Tese de Doutorado. Universidade de
Nova Lisboa, Faculdade de Cincias e Tecnologia. 2000.

FREEMAN, L. C. Some antecedents of social network analysis. Connections, v. 19, n. 1,
1996, p. 39-42.

FROZZA, R.; ALVARES, L. O. C. Criteria for the Analysis of Coordination in Multi-Agent
Applications. In: Coordination Models and Languages - Coordination, York. Lecture Notes in
Computer Science 2315. 2002, p. 158-165.

GMEZ, J. A.; PUERTA, J. M. Searching for the best elimination sequence in Bayesian net-
works by using ant colony optimization. Pattern Recognition Letters (23), 2002, p. 261-277.

GAMBARDELLA. L. M.; DORIGO, M. Ant-Q: A Reinforcement Learning Approach to the
Traveling Salesman Problem. Machine Learning, Proceedings of the Twelfth International
Conference on Machine Learning, Tahoe City, California, USA, 1995, p. 252-260.

GAMBARDELLA, L. M.; TAILLARD, E. D.; DORIGO, M. Ant Colonies for the QAP.
Technical report, IDSIA, Lugano, Switzerland, 1997a.

GAMBARDELLA, L. M.; DORIGO, M. HAS-SOP: Hybrid ant system for the sequential
ordering problem. Technical Report IDSIA, IDSIA, Lugano, Switzerland, 1997b, p. 11-97.

GAMBARDELLA, L. M.; TAILLARD, E. D.; AGAZZI, G. MACS-VRPTW: A multiple ant
colony system for vehicle routing problems with time windows. In D. Corne, M. Dorigo, and
F. Glover, editors, New Ideas in Optimization. McGraw-Hill, London, UK, 1999a, p. 63-76.
192


GAMBARDELLA, L. M.; TAILLARD, E. D.; DORIGO, M. Ant Colonies for the Quadratic
Assignment Problems. Journal of Operational Research Society, v. 50, 1999b, p. 167-176.

GASTON, M. E.; DESJARDINS, M. Social Network Structures and their Impact on Multi-
agent System Dynamics. In Proceedings of the 18th International Conference of the Florida
Artificial Intelligence Research Society (FLAIRS-05), Clearwater Beach, FL, 2005, p. 32-37.

GMYTRASIEWICZ, P. J.; DURFEE, E. H. A rigorous, operational formalization of recur-
sive modeling. In V. Lesser (Ed.), Proceedings of the First International Conference on Multi-
Agent Systems (ICMAS), Cambridge, MA: MIT Press, 1995, p. 125-132.

GOSS, S.; ARON, S.; DENEUBOURG, J. L.; PASTEELS, J. M. Self-organized shortcuts in
the Argentine ant. Naturwissenschaften, v. 76, 1989, p. 579-581.

GRANOVETTER, M. S. The strength of weak ties. American Journal of Sociology, v. 78, n.
6, 1973, p. 1360-1380.

GROSSER, K. Human networks in organizational information processing. Annual Review of
Information Science and Technology, Charlotte, v. 26, 1991, p. 349-402.

GROSZ, B. J.; HUNSBERGER, L.; KRAUS, S. Planning and Acting Together, AI Magazine
Volume 20 N. 4, 1999, (AAAI).

GROSZ, B. J.; KRAUS, S. Collaborative Plans for Complex Group Action. Artificial Intelli-
gence 86(2): 269-357, 1996.

GUNTSCH, M.; MIDDENDORF, M. Pheromone Modification Strategies for Ant Algorithms
Applied to Dynamic TSP. In Proceedings of the Workshop on Applications of Evolutionary
Computing, 2001, p. 213-222.

HADAD, M.; KRAUS, S. SHAREDPLANS in Electronic Commerce. In Intelligent
Information Agents,ed. M. Klusch, Heidelberg, Germany: Springer-Verlag, 1999, p. 204-231.

193

HADAD, M.; KRAUS S. Exchanging and Combining Temporal Information in a Coopera-
tive Environment. Cooperative Information Agents (CIA 2002), Madrid, Spain. Lecture Notes
in Computer Science, v. 2446, 2002, p. 279-286.

HENDLER, J. A. Intelligent Agents: Where AI Meets Information Technology. IEEE Expert,
v. 11, n. 6, 1996, p. 20-23.

HUHNS, M. N.; STEPHENS, L. M. Multiagent Systems and Societies of Agents. In: Weiss,
Gerhard (Ed.). Multiagent Systems - A modern Approach. [S.I.]: MIT Press, 1999.

HUISMAN, M.; VAN DUIJN, M. A. J. StOCNET: Software for the statistical analysis of
social networks. Connections, 25(1), 2003, p. 7-26.

HUISMAN, M.; VAN DUIJN, M. A. J. Software for statistical analysis of social networks.
Proceedings of the Sixth International Conference on Logic and Methodology. Amsterdam,
The Netherlands. 2004.

JENNINGS, N. R. Coordination Techniques for Distributed Artificial Intelligence. Founda-
tions of Distributed Artificial Intelligence. OHARE, G.M.P. and JENNINGS, N. R. (Eds.).
1996, p. 187-210.

JENNINGS, N. R.; BUSSMANN, S. Agent-Based Control Systems. IEEE Control Systems
Magazine, 2003, p. 61-73.

KAELBLING, L. P.; LITTMAN, M. L.; MOORE, A. W. Reinforcement learning: A survey.
Journal of Artificial Intelligence Research, v. 4, 1996, p. 237-285.

KAJI, T. Approach by Ant Tabu Agents for Traveling Salesman Problem. In Proceedings of
the IEEE International Conference on Systems, Man, and Cybernetics, v. 5, 2001, p. 3429-
3434.

KENNEDY, J. F.; EBERHART, R. C. Particle swarm optimization. In: Proceedings of the
IEEE international conference on neural networks, vol. 4. Perth, Australia; 1995, p. 1942-
1948.
194


KENNEDY, J. F.; EBERHART, R. C.; SHI, Y. Swarm intelligence. San Francisco: Morgan
Kaufmann Publishers, 2001.

KNOKE, D.; YANG, S. Social Network Analysis. 2nd ed., Series: Quantitative Applications
in the Social Sciences, Sage Publications, Inc, 2008.

KRACKHARDT, D.; BLYTHE, J.; MCGRATH, C. KrackPlot 3: An improved network
drawing program. Connections. 17: 1994, p. 53-55.

KRAUS, S. Strategic Negotiation in Multiagent Environments. MIT Press, Cambridge, USA,
2001.

LATAN, B. The psychology of social impact American Psychologist, v. 36, n. 4, 1981, p.
343-356.

LEE, S. G.; JUNG, T. U.; CHUNG, T. C. An Effective Dynamic Weighted Rule for Ant Col-
ony System Optimization. In Proceedings of the IEEE Congress on Evolutionary Computa-
tion, 2001a, p. 1393-1397.

LEE, S. G.; JUNG, T. U.; CHUNG, T. C. Improved Ant Agents System by the Dynamic Pa-
rameter Decision. In Proceedings of the IEEE International Conference on Fuzzy Systems,
2001b, p. 666-669.

LEE, Z. J.; LEE, C. Y. A hybrid search algorithm with heuristics for resource allocation
problem. Information Sciences, v. 173, 2005, p. 155-167.

LESSER, V. R.; ORTIZ, C. L.; TAMBE, M. Distributed Sensor Networks: a Multiagent Per-
spective. Massachusetts, New York: Kluwer Academic Publishers, v. 9, 2003, p. 11-20.

LI, Y.; GONG, S. Dynamic Ant Colony Optimisation for TSP. International Journal of Ad-
vanced Manufacturing Technology, 22(7-8): 2003, p. 528-533.

195

LIM, A.; LIN, J.; RODRIGUES, B.; XIAO, F. Ant colony optimization with hill climbing for
the bandwidth minimization problem. Applied Soft Computing, v. 6, Issue 2, 2006, p. 180-
188.

LITTMAN, M. L. Markov games as a framework for multi-agent reinforcement learning. In:
Proceedings of the 11th International Conference on Machine Learning (ICML-94). New
Brunswick, NJ: Morgan Kaufmann, 1994, p. 157-163.

LITTMAN, M. L.; KAELBLING, L.P. Reinforcement Learning: A Survey. Journal of Intelli-
gence Research 4, 1996, p. 237-285.

LIU, J. S.; SYCARA, K. Multiagent Coordination in Tightly Coupled Task Scheduling. In
Tokoro, M., editor, Proceedings of the Second International Conference on Multi-Agent Sys-
tems, Menlo Park, California. AAAI Press, 2001, p. 181-188.

MAES, P. Artificial Life Meets Entertainment: Lifelike Autonomous Agents, Communications
of ACM, v. 38, n. 11, 1995, p. 108-114.

MAHADEVAN, S.; CONNELL, J. Automatic programming of behavior-based robots using
reinforcement learning. Artificial Intelligence, Elsevier Science Publishers Ltd., v. 55, 1992,
p. 311-365.

MAILLER, R.; LESSER, V. R. Solving Distributed Constraint Optimization Problems Using
Cooperative Mediation. Proceedings of the Third International Joint Conference on Autono-
mous Agents and Multiagent (AAMAS), EUA. Washington DC: IEEE Transactions, 2004, p.
438-445.

MANIEZZO, V.; CARBONARO, A. An ANTS heuristic for the frequency assignment prob-
lem. Future Generation Computer Systems, 2000, p. 927-935.

MATARIC, M. J. Using Communication to Reduce Locality in Distributed Multi-Agent
Learning, Journal of Experimental and Theoretical Artificial Intelligence, special issue on
Learning in DAI Systems, Gerhard Weiss, ed., 10(3), 1998, p. 357-369.

196

MAZZEO, S.; LOISEAU, I. An Ant Colony Algorithm for the Capacitated Vehicle Routing.
Electronic Notes in Discrete Mathematics, 2004, p. 181-186.

MRIDA-CAMPOS, C.; WILLMOTT, S. Modelling Coalition Formation over Time for It-
erative Coalition Games. Third International Joint Conference on Autonomous Agents and
Multiagent Systems (AAMAS04), v. 2, 2004, p. 572-579.

MICHEL, R.; MIDDENDORF, M. An island based ant system with lookahead for the short-
est common supersequence problem. In A. E. Eiben, T. Back, M. Schoenauer, and H.-P.
Schwefel, editors, Proceedings of the Fifth International Conference on Parallel Problem
Solving from Nature, volume 1498 of LNCS, Springer Verlag, 1998, p. 692-708.

MILGRAM, S. The small word problem. Psychology Today, v. 2, 1967, p. 60-67.

MITCHELL, J. C. The concept and use of social networks, in Mitchell, J.C. (Ed.), Social
Networks in Urban Situations: Analyses of Personal Relationships in Central African Towns,
Manchester University Press, Manchester, 1969, p. 1-50.

MITCHELL, T. Machine learning. New York: McGraw Hill, 1997.

MODI, P. J.; SHEN, W. Collaborative Multiagent Learning for Classification Tasks. In Pro-
ceedings of the Fifth International Conference on Autonomous Agents, ACM Press. Montreal
- Quebec, Canada, 2001, p. 37-38.

MODI, P. J.; SHEN, W.; TAMBE, M.; YOKOO, M. ADOPT: Asynchronous Distributed
Constraint Optimization with quality guarantees. Artificial Intelligence 161: 2005, p. 149-
180.

MONTEIRO, S. T.; RIBEIRO, C. H. C. Desempenho de algoritmos de aprendizagem por
reforo sob condies de ambiguidade sensorial em robtica mvel. Sba Controle &
Automao, v. 15, n. 3, 2004, p. 320-338.

MORENO, J. L. Who shall survive? Foundations of sociometry,group psychotherapy and
sociodrama. Inc. Beacon New York, 3rd edition 1978.
197


MOULIN, B.; CHAIB-DRAA, B. An Overview of Distributed Artificial Intelligence. In:
Ohare, Greg; Jennings, Nicholas R. (Eds.). Foundations of distributed artificial intelligence.
[S.I.]: John Wiley and Sons, N.Y, 1996.

NOH, S.; GMYRASIEWICZ, P. J. Multiagent coordination in antiair defense: A case study.
In M. Boman and W. V. de Velde, editors, Multi-Agent Rationality - MAAMAW97 Work-
shop, Lecture Notes in Artificial Intelligence, v. 1237, Springer, New York, 1997, p. 4-16.

NWANA, H. S.; LEE, L.; JENNINGS, N. R. Coordination in Software Agent Systems. BT
Technology Journal, v. 14 (4), 1996, p. 79-88.

OGDEN, B.; DAUTENHAHN, K. Embedding robotic agents in the social environment, Proc.
TIMR 2001, Towards Intelligent Mobile Robots. 2001.

OSSOWSKI, S. Co-ordination in Artificial Agent Societies, Social Structure and its Implica-
tions for Autonomous Problem-Solving Agents, LNCS, v. 1535, 1999.

PANZARASA, P.; JENNINGS, N. R., The organisation of sociality: a manifesto for a new
science of multi-agent systems, Proceedings of the 10th European Workshop on Multi-agent
Systems, (MAAMAW01), Annecy, France, 2001.

PEARL, J. Heuristics: Intelligent Search Strategies for Computer Problem Solving. Addison-
Wesley, 1984.

PENG, J.; WILLIAMS, R. J. Incremental multi-step Q-Learning. W. W. Cohen e H. Hirsh
(eds.), Proceedings of the Eleventh International Conference on Machine Learning, San Fran-
cisco: Morgan Kaufmann, 1996, p. 226-232.

PETCU, A.; FALTINGS, B A scalable method for multiagent constraint optimization. In
IJCAI 05, Edinburgh, Scotland, 2005, p. 266-271.

198

PORTA, J. M.; CELAYA, E. Reinforcement Learning for Agents with Many Sensors and Ac-
tuators Acting in Categorizable Environments. Journal of Artificial Intelligence Research, v.
23, 2005, p. 79-122.

RABUSKE, M. A. Introduo teoria dos grafos. Florianpolis: UFSC, 1992.

RADCLIFFE-BROWN, A. R. On Joking Relationships. Africa, Journal of the International
African Institute, vol. 13, no. 3, Jul. 1940, p. 195-210.

RAIFFA, H. The Art and Science of Negotiation. Belknap Press; New edition, Paperback,
1985.

REINELT, G. TSPLIB A traveling salesman problem library, ORSA Journal on Computing,
3, 376 - 384, 1991.

RIBEIRO, C. H. C. A Tutorial on reinforcement learning techniques. Supervised Learning
track tutorials of the 1999 International Joint Conference on Neuronal Networks. Washington:
INNS Press. 1999.

RIBEIRO, C. H. C. Reinforcement learning agents. Artificial Intelligence Review, v. 17,
2002, p. 223-250.

RIBEIRO, R.; ENEMBRECK, F.; KOERICH, A. L. A Hybrid Learning Strategy for Discov-
ery of Policies of Action. International Joint Conference X Ibero-American Artificial Intelli-
gence Conference (IBERAMIA 2006) and XVIII Brazilian Artificial Intelligence Symposium
(SBIA 2006), Ribeiro Preto, SP, Brazil. LNCS, v. 4140, 2006a, p. 268-277.

RIBEIRO, R.; ENEMBRECK, F.; KOERICH, A. L. Uma Nova Metodologia para Avaliao
da Performance de Algoritmos Baseados em Aprendizagem por Reforo. XXXIII SEMISH,
Campo Grande, MS, 2006b, p. 433-446.

RIBEIRO, R. Avaliao e Descoberta de Polticas de Ao para Agentes Autnomos Adapta-
tivos. Dissertao de Mestrado, Programa de Ps-Graduao em Informtica Aplicada, PP-
GIA, Pontifcia Universidade Catlica do Paran, Curitiba, 2006c.
199


RIBEIRO, R.; KOERICH, A. L.; ENEMBRECK F. Noise Tolerance in Reinforcement Lear-
ning Algorithms, IEEE/WIC/ACM International Conference on Intelligent Agent Technology
(IAT'07), Silicon Valley, California, USA, 2007a, p. 265-268.

RIBEIRO, R.; KOERICH, A. L.; ENEMBRECK, F. Reinforcement Learning: Adaptive
Agents for Discovery of Policies of Action, (Revista gora (Caador)), v. 14, 2007b, p. 9-24.

RIBEIRO, R.; BORGES, A. P.; ENEMBRECK, F. Interaction Models for Multiagent Rein-
forcement Learning. International Conference on Computational Intelligence for Modelling,
Control and Automation - CIMCA08, Vienna, Austria, 2008a, p. 464-469.

RIBEIRO, R.; BORGES, A. P.; ULBRICH, G.; KOERICH, A. L.; SCALABRIN, E. E.;
ENEMBRECK, F. Discovering of Action Policies in Dynamic Environments (Revista gora
(Caador)), v. 15, 2008b, p. 175-185.

RIBEIRO, R; BORGES, A. P.; RONSZCKA, A. F; VILA, B. C; SCALABRIN, E. E, E-
NEMBRECK, F. Cooperao Hbrida em Sistemas Multi-Agente (Revista de Informtica
Terica e Aplicada, 2009a), sobre reviso. 2009.

RIBEIRO. R.; BORGES, A. P.; KOERICH, A.; SCALABRIN, E. E.; ENEMBRECK, F. A
Strategy for Converging Dynamic Action Policies. In: IEEE Symposium Series on Computa-
tional Intelligence, 2009, Nashville. Proceedings of IEEE Symposium Series on Computa-
tional Intelligence, v. 10, 2009b, p. 136-143.

RIBEIRO, R.; RONSZCKA, A. F.; BORGES, A. P.; ENEMBRECK, F. Otimizao dos Pa-
rmetros de Aprendizagem para a Coordenao dos Agentes em Algoritmos de Enxames.
Simpsio de Computao Aplicada SCA09, Passo Fundo, 2009c.

RICHARDS, W. D.; SEARY, A. J. MultiNet. Version 4.24 for Windows. Burnaby: Simon
Fraser University, 2003.

ROBERTS, F. S. Applied combinatorics. Englewood Cliffs: Prentice Hall, 1984.

200

ROSENSCHEIN, J. S.; GENESERETH, M. R. Deals among Rational Agents. In Proceedings
of the Ninth International Joint Conference on Artificial Intelligence (IJCAI-85), 91-99.
Menlo Park, Calif.: International Joint Conferences on Artificial Intelligence, 1985.

ROSENSCHEIN, J. S.; ZLOTKIN, G. Designing conventions for automated negotiation. AI
Magazine, 1994, p. 29-46.

ROUX, O.; FONLUPT, C.; ROBILLIARD, D.; TALBI, E-G. ANTabu, Technical Report
LIL-98-04, Laboratoire d'Informatique du Littoral, Universit du Littoral, Calais, France,
1998.

ROUX, O.; FONLUPT, C.; ROBILLIARD, D.; TALBI, EG. ANTabu - Enhanced Version,
Technical Report LIL-99-1, Laboratoire d'Informatique du Littoral, Universit du Littoral,
Calais, France, 1999.

RUBINSTEIN, R. Y. Simulation and the Monte Carlo Method. John Wiley & Sons, Inc.,
New York, USA, 1st edition, 1981.

SANDHOLM, T.; LARSON, K.; ANDERSSON, M.; SHEHORY, O.; TOHME, F. Worst-
case-optimal anytime coalition structure generation. In Proceedings of AAAI-98, pages 43-
56, 1998, Menlo Park, CA. AAAI Press.

SANDHOLM, T, W.; LESSER, V, R. Coalition Formation among Bounded Rational Agents.
Computer Science Department, University of Massachusetts, Technical Report: UM-CS-
1995-071, 1995.

SCHERMERHORN, P.; SCHEUTZ, M. Social Coordination without Communication in
Multi-Agent Territory Exploration Tasks. In The Proc. of the Fifth Int. Joint Conference on
AAMAS-06, Hakodate, Japan, 2006, p. 654-661.

SCHWARTZ, A. A reinforcement Learning Method for Maximizing Undiscounted Rewards.
In Proceedings of the Tenth International Conference on Machine Learning, Amherst, Massa-
chusetts. Morgan Kaufmann, 1993, p. 298-305.

201

SHEHORY, O.; KRAUS, S. Task allocation via coalition formation among autonomous
agents. In Proceedings of the Fourteenth International Joint Conference on Artificial Intelli-
gence (IJCAI-95), Montreal, Quebec, Canada, 1995, p. 655-661.

SHYU, S. J.; LIN, B. M. T.; HSIAO, T-S. Ant colony optimization for the cell assignment
problem in PCS networks. Computers & Operations Research, v. 33, n. 6, 2006, p. 1713-
1740.

SICHMAN, J. S. Raciocnio Social e Organizacional em Sistemas Multiagentes: Avanos e
Perspectivas. Tese (Escola Politcnica da Universidade de So Paulo, para obteno do ttulo
de Professor Livre Docente) - USP, So Paulo, 2003.

SIEGEL, S. Estatstica no Paramtrica. So Paulo: McGraw Hill, 1975.

SIM, K. M.; SUN, W. H. Multiple Ant-Colony Optimization for Network Routing. In Proceed-
ings of the First International Symposium on Cyber Worlds, 2002, p. 277-281.

SINGH, S. P.; SUTTON, R. S. Reinforcement learning with replacing eligibility traces. Ma-
chine Learning, n. 22, 1996, p. 123-158.

SMITH, R. G. The contract net protocol: High-level communication and control in a distrib-
uted problem solver. IEEE Transactions on Computers, v. C-29, 1980, p. 1104-1113.

SNIJDERS, T. A. B. The statistical evaluation of social network dynamics. In Sobel, M.E.,
and Becker, M.P. (eds.), Sociological Methodology, London: Basil Blackwell. 2001, p. 361-
395.

SOH, L. K.; LUO, J. Combining Individual and Cooperative Learning for Multiagent Nego-
tiations. Proceedings of the 2nd Int. Joint Conference on Autonomous Agents and Multiagent
Systems (AAMAS03), Melbourne, Australia, 2003, p. 1122-1123.

STOKMAN, F. N.; SPRENGER, C. J. A. GRADAP: Graph definition and analysis package.
Version 2.0. Groningen: iec. ProGAMMA. 1989.

202

STONE, P.; VELOSO, M. Towards Collaborative and Adversarial Learning: a Case Study in
Robotic Soccer. International Journal of Human-Computer Studies, v. 48, issue 1. Evolution
and learning in multiagente systems. Academic Press, Inc. Duluth, MN, USA, 1996, p. 83-
104.

STUTZLE, T.; HOOS, H. MAX-MIN Ant System and Local Search for The Traveling Sales-
man Problem. In Proceedings of the IEEE International Conference on Evolutionary Compu-
tation, 1997, p. 309-314.

STUTZLE, T. Local search algorithms for combinatorial problems - analysis, improvements,
and new applications. PhD thesis, Department of Computer Science, Darmstadt University of
Technology, Darmstad, Germany, 1998.

SU, C. T.; CHANG, C-F.; CHIOU, J-P. Distribution network reconfiguration for loss reduc-
tion by ant colony search algorithm. Electric Power Systems Research, v. 75, 2005, p. 190-
199.

SUTTON, R. S.; BARTO, A. G. Reinforcement Learning: An Introduction. A Bradford book,
The MIT Press, London, England, 1998.

SYCARA, K. P. Resolving Goal Conflicts via Negotiation. In Proceedings of the Seventh
National Conference on Artificial Intelligence (AAAI-88). Menlo Park, Calif.: American As-
sociation for Artificial Intelligence, 1988.

SYCARA, K. P. Persuasive Argumentation in Negotiation. Theory and Decisions 28:203-
242, 1990.

TADEPALLI, P.; OK, D. A reinforcement learning method for optimizing undiscounted av-
erage reward. Technical Report, Department of Computer Science, Oregon State University,
1994.

TAILLARD, E. D.; GAMBARDELLA, L. M. Adaptive Memories for the Quadratic Assign-
ment Problem. Technical report, IDSIA, Lugano, Switzerland, 1997.

203

TAILLARD, E. D. FANT: Fast Ant System. Technical Report IDSIA-46-98, IDSIA, Lugano,
Switzerland, 1998.

TAMBE, M. Towards Flexible Teamwork. Journal of Artificial Intelligence Research, v. 7,
1997, p. 83-124.

TESAURO, G. Temporal difference learning and TD-Gammon, Communications of the
ACM, v. 38 (3), 1995, p. 58-68.

TSAI, C. F.; TSAI, C. W.; WU, H. C.; YANG, T. ACODF: A novel data clustering approach
for data mining in large databases. The Journal of Systems and Software, 2004, p. 133-145.

VIDAL, J. M. The effects of cooperation on multiagent search in task-oriented domains.
Journal of Experimental and Theoretical Artificial Intelligence, 16(1):5-18, 2004.

WASSERMAN, S.; FAUST, K. Social Network Analysis: methods and applications. Cam-
bridge: Cambridge University Press, 1994.

WATKINS, C. J. C. H.; DAYAN, P. Q-Learning, Machine Learning, v.8 (3), 1992, p. 279-
292.

WATTS, D. J.; STROGATZ, S. H. Collective dynamics of .small-world. networks, Nature, v.
393, n. 6684, 1998, p. 440-442.

WATTS, D. SMALL Worlds - The Dynamics of Networks between Order and Randoness,
New Jersey: Princeton University Press, 1999.

WATTS, D. Six Degrees. The Science of a Connected Age. New York: W. W. Norton &
Company, 2003.

WEISS, G.; SEN, S. Adaptation and Learning in Multiagent Systems, Lecture Notes in Artifi-
cial Intelligence. Berlin, Germany: Springer-Verlag, v. 1042, 1996, p. 1-21.

WEST, D. B. Introduction to graph theory. 2nd. ed. Upper Saddle River: John Wiley, 2001.
204


WILSON, R. J. Introduction to graph theory. 4th ed. Harlow: Prentice Hall, 1996.

WOOLDRIDGE, M.; JENNINGS, N. R. Intelligent Agents: Theory and Practice. In Knowl-
edge Engineering Review 10(2), pp. 115-152, 1995.

WOOLDRIDGE, M. Intelligent agents. InWeiss, G., ed., Multiagent Systems - A Modern
Approach to Distributed Artificial Intelligence. The MIT Press, 1999.

WOOLDRIDGE, M. J. An Introduction to MultiAgent Systems. John Wiley and Sons, 2002.

Você também pode gostar