Escolar Documentos
Profissional Documentos
Cultura Documentos
função emocional mais comum prende-se com a selecção de emoções em todos os níveis da sua arquitectura de controlo,
acção/comportamento [11], [13], [14], [16], [17]. Na maioria mas não é guiado somente por emoções. Mesmo na ausência
dos exemplos a base da arquitectura de controlo é puramente de influências emocionais, ele é em geral capaz de atingir os
reactiva e/ou baseada no comportamento [11], [14], [15], seus objectivos. Ao invés o nosso modelo implementa
[16], deste modo as interacções entre emoções e planeamento emoções como adaptações de segunda ordem a certas
deliberado têm merecido pouca atenção. situações e ambientes. Esta abordagem está mais próxima da
Contrastando com estas abordagens, utilizamos emoções fisiologia humana e animal do que os métodos puramente
para melhorar as capacidades adaptativas de um robot guiados por emoções. Também elimina a necessidade de
singular num contexto não social. Representamos emoções construir uma arquitectura sem emoções separada para
não como estados lógicos discretos, mas como modulações efeitos comparativos, simplificando assim a análise.
contínuas dos parâmetros do robot. O nosso modelo é As capacidades de percepção, aprendizagem, planeamento
introduzido numa arquitectura hierárquica que incorpora e controlo são fornecidas pela arquitectura híbrida reactiva-
controlo reactivo, planeamento deliberado e capacidades deliberada do robô. Esta arquitectura não representa guias
exploratórias. competitivas como comportamentos discretos. Antes,
múltiplos guias são integradas em cada nível de controlo,
possibilitando ao robô favorecer uma resposta sem ignorar
completamente uma outra.
III. DESCRIÇÃO DO MODELO Inspirado por Dörner [21 e Fellous [22], nós modulamos as
A. Estímulo emoções como modulações dos parâmetros de planeamento e
As emoções biológicas contêm componentes inatas e controlo. Estes parâmetros mudam suavemente o grau de
aprendidas [18], que interagem com processos cognitivos a influência relativamente a algumas guias sem implicitamente
diversos níveis arquitectónicos [19]. De modo a aproximar-se controlarem os comportamentos dos robôs. A guia associada
a algumas das ricas e variadas interacções de emoções reais, a cada emoção é uma reacção ao evento que estimulou a
o nosso modelo incorpora associações aprendidas e emoção:
previamente introduzidas, e recebe entradas de camadas Medo – Evitar o perigo, reduzindo a importância do
arquitectónicas reaccionais e deliberadas. objectivo actual do robô.
São modeladas cinco emoções básicas: medo, raiva, Raiva – Atingir o objectivo presente, mesmo à custa de
surpresa, felicidade e tristeza. Não se pretende que estas considerações secundárias.
emoções sejam representações exactas das emoções humanas Surpresa – Explorar o ambiente.
com os mesmos nomes, mas sim que sirvam de rótulo para Felicidade – Reforça positivamente comportamentos que
certas categorias de padrões estímulo/resposta. De certo que conduzem ao sucesso.
nesta categorização simples outras emoções humanas podem Tristeza – Reforça negativamente comportamento que
ser tidas em conta (por exemplo frustração = raiva, conduzem ao fracasso.
curiosidade = surpresa).
Cada emoção básica está ligada a uma diferente categoria
de acontecimentos que estimulam as emoções:
Medo – o robô danifica-se. IV. IMPLEMENTAÇÃO DO MODELO
Raiva – o caminho para o objectivo é obstruído. O modelo é implementado numa versão simulada do
Surpresa – percepção real difere da previamente instalada. MARVIN (Robô Móvel Autónomo para Navegação
Felicidade – o robot atinge o objectivo. Interior), um robô construído à medida destinado a
Tristeza – o robot é incapaz de atingir o objectivo. aplicações se segurança e relações públicas [23]. O robô está
Emoções reaccionais utilizam medições obtidas através de equipado com um sistema de transmissão de duas rodas
dados sensoriais imediatos (por exemplo proximidade de suportado por roletes tanto na parte posterior como na
obstáculos), para estimar as probabilidades de ocorrência de anterior. A percepção externa é conseguida a través de um
um acontecimento que estimule emoções. anel de sensores de distância com tecnologia infra-vermelho
Emoções deliberadas utilizam associações aprendidas e ultra sónica. A simulação do ambiente e arquitectura do
entre estados ambientais (por exemplo localizações robô são implementadas utilizando uma combinação de
geográficas) e acontecimento que estimulem emoções MATLAB e programação em linguagem C.
ocorridos no passado. A tarefa do robô é navegar até pontos especificados pelo
utilizador com um ambiente interno dinâmico, inicialmente
B. Resposta desconhecido. Neste contexto, o objectivo primário do robô é
Emoções e conhecimento estão intimamente ligados e navegar de um ponto para o outro. Para atingir tal objectivo,
mutuamente dependentes, mas poucos investigadores ele deve ter em conta um número de sub tarefas aprendidas,
argumentariam que todas as funções do conhecimento são relacionadas com sobrevivência, incluindo desvio de
influenciadas por emoções [20]. Também, embora muitas obstáculos e exploração do seu ambiente. No modelo
funções possam beneficiar das vantagens adaptativas que emocional implementado para esta tarefa, raiva e medo
advêm das emoções, não necessitam efectivamente de interagem com processos reactivos e deliberados, enquanto
emoções para funcionarem em níveis mais básicos. que a surpresa e felicidade estão apenas activas ao nível da
Consequentemente, o nosso robô móvel incorpora deliberação. Por uma questão de simplificação a tristeza é
15-07-2008 IEEE 3
θ d(θ )
modificado [27]. A nossa implementação difere de
∑
1 − π 1− d
eF = θ = − π m á x + β 1 s en ã c o o l(1)i d i r
algoritmos de planeamento de rota convencionais no facto do
custo c associado ao atravessamento de um alvéolo ser
probabilístico e sujeito a modulações emocionais:
k1 ⋅ v π c = p 0 + (W1 ⋅ E F + W 2 (1 − E S ) − W 3 ⋅ E H )(1 − E A )
θ
∑
(3)
1− O medo deliberado EF aumenta o custo dos alvéolos na
θ =−π π proximidade de uma colisão, reduzindo a probabilidade de
que o robô trace uma rota através deles. Surpresa ES reduz o
referido custo, compelindo o robô a explorar áreas que não se
K1 e β1 são constantes de normalização. encontram nos seus dados internos de mapeamento. Valores
O limite global da velocidade linear vL é modulado pela positivos de felicidade EH também reduzem custo, aumentado
resposta ao medo do robô, diminuindo linearmente á medida a probabilidade de o robô planear uma rota com a qual
de eF aumenta. outrora obteve sucesso, enquanto que valores negativos
Isto resulta em comportamentos lentos, mais cautelosos (representando tristeza) têm o efeito contrário. Tendências
quando o robô atravessa ambientes mais atravancados onde emocionais são suprimidas pela raiva deliberada EA
as colisões são mais prováveis. permitindo ao robô escapar de estados de obstrução
A raiva reactiva controlo a aversão do robô aos obstáculos. resultantes destas modulações. O pesos de planeamento W1,
O valor da raiva reactiva eA aumenta quando o progresso do W2 e W3 controlam o grau de influência que cada emoção tem
robô é obstruído (por exemplo por mínima local). A detecção sobre o planeamento da trajectória.
de um estado de obstrução envolve o somatório dos vectores O medo deliberado controla a aversão do robô a
de velocidade linear v(t) em relação ao tempo t : localizações “perigosas”. Se um sensor de colisão é activado,
a intensidade do medo deliberado EF nos alvéolos junto ao
ponto de colisão aumenta numa taxa dependente do factor de
crescimento G e da sua distância dc ao ponto de colisão, caso
contrário decresce ao uma taxa D:
15-07-2008 IEEE 4
( 1 − D) ⋅ E c a sc oo n t r á r i o
Para demonstrar a utilidade da raiva reactiva, foi
concebido um ambiente simulado no qual a resposta raivosa
F do robô é encorajada (Figuras 1 e 2). O robot começa a
experiência completamente cercado por obstáculos cuja
A raiva deliberada fecha a malha de realimentação,
posição inicial é representada pelas áreas cinzento claro no
modulando outras emoções de modo a prevenir estados de
mapa. De modo a atingir o seu objectivo, ele tem que
obstrução. Se uma trajectória planeada atravessa um alvéolo
empurrar os obstáculos para fora do caminho, e depois
cujo custo c excede um limiar TA, a intensidade da raiva
navegar por uma série de corredores. O planeamento de rotas
deliberada EA aumenta ao longo de todo o mapa. Quando
deliberativo foi desactivado para esta experiência, logo o
outra emoção deliberada E0 aumenta, o valor de EA
robô tem de confiar inteiramente no seu controlador reactivo.
correspondente decresce a uma taxa dependente de E0:
E A + G( 1− E A ) s ce > TA
Não foram implementados quaisquer códigos
comportamentais específicos para lidar com obstáculos
móveis. Em vez disso, o robô deve suprimir a sua resposta à
EA ← (5)
aversão aos obstáculos reduzindo r0. Os obstáculos móveis
G( ∆ p 0 − T S )
ES + ( 1 − ES ) c a s∆ op0 > TS
1 − T S
ES ← Figura 1 – Trajectória seguida pelo robô com raiva
1 − D(1 − ∆ p0 ) ⋅ E
reactiva desactivada.
c a s oc o n t r á r i o
T S
S
(6)
Felicidade e tristeza são análogas a recompensar positivas
e negativas no reforço da aprendizagem. Após ter
completado (ou ter acabado o tempo) de uma instrução de
navegação, a intensidade de felicidade EH de alvéolos perto
daqueles atravessados pelo robô crescem ou diminuem
conforme instruções do grau de sucesso s:
EH + G( s − EH ) s se > EH
Figura 2 – Trajectória seguida pelo robô com raiva
reactiva activada.
EH + D(s − EH ) c a sc o n t r á r i o
suficientemente pequeno para permitir ao robô escapar aos
obstáculos móveis, é frequente a obstrução do robô por
entradas, esquinas e consequentemente falha os objectivos
(Figura 1). Quando r0 é correctamente modulado pela raiva
reactiva (Figura 2), o robô evita inicialmente o contacto com
V. RESULTADOS os obstáculos, mas os movimentos repetitivos são
As emoções reactivas e deliberadas descritas na secção IV rapidamente reconhecidos como um estado de obstrução. Isto
foram testadas independentemente em ambientes simulados leva a que eA aumente rapidamente até ao ponto de saturação,
concebidos para revelar as suas contribuições para o então r0 reduz-se ao seu valor mínimo, permitindo que o robô
15-07-2008 IEEE 5
em que o robô pode ficar “encurralado” pelo medo. Por efeito, e daqui para a frente o seu desempenho sofre
exemplo se o robô colide com uma passagem que é a única crescentemente. Em W1>0.9 o robô fica permanentemente
saída de uma certa área, ele vai subsequentemente evitar essa obstruído, incapaz de completar a sua tarefa antes que o
saída como evitaria uma parede. Este problema é resolvido tempo termine. Quando a raiva deliberada se encontra
utilizando raiva deliberada de modo a suprimir emoções activada não existe grande interferência no desempenho até
como medo quando estas obstruem o progresso do robô para que W1 exceda o limiar de activação TA=0.6. Daqui para a
o seu objectivo. Para demonstrar a utilidade da raiva frente o desempenho melhora, aproximando-se do nível
deliberada, modificamos o ambiente da experiência anterior conseguido na ausência de armadilha de medo. Estes
de modo a simular uma colisão adicional assim que o robô resultados demonstram que o medo deliberativo pode
entra na passagem mais baixa (Figuras 7 e 8). Com a melhorar significativamente o desempenho do robô em certas
activação adequada do medo deliberativo (Figura 7), isto situações, e que a raiva deliberada pode compensar alguns
efectivamente encurrala o robô na secção este do mapa até dos seus efeitos adversos.
que o valor EF dos alvéolos na passagem diminui até ao
ponto em que permite a saída do robô. Este processo é
demorado e resulta muitas vezes em colisões adicionais à
medida que o robô tenta passar por outras áreas que são mais
perigosas do que a passagem. No entanto quando a raiva
deliberada é habilitada (Figura 8), o robô detecta um estado
de obstrução assim que tenta planear uma rota através de um
alvéolo com um alto custo (indicando que a melhor rota
disponível é inadequada). Isto leva a que o robô suprima as
suas outras emoções, confiando nas probabilidades de
ocupação parciais para a sua próxima rota planeada.
Figura 8 – Caminho seguido pelo robô com raiva Figura 10 – Gráfico do tempo médio de percurso para cada
deliberada activada. valor de W1