Escolar Documentos
Profissional Documentos
Cultura Documentos
Sumario
1 Introduca o
1.
Organizaca o do texto . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
8
1.
2.
3.
3.1.
Sensores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.
Atuadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
Comportamentos: Definica o . . . . . . . . . . . . . . . . . . . . . . . .
11
4.1.
Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
13
5.1.
13
5.2.
. . . . . . . . . . . . .
14
5.3.
15
Codificaca o de Comportamentos . . . . . . . . . . . . . . . . . . . . . .
16
6.1.
Parametrizaca o de Aco es . . . . . . . . . . . . . . . . . . . . . .
16
6.2.
Parametrizaca o de Estmulos . . . . . . . . . . . . . . . . . . . .
17
6.3.
17
6.4.
21
4.
5.
6.
3 Arquiteturas de Comportamentos
1.
2.
23
Arquiteturas Reativas . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
1.1.
Arquitetura Subsumption . . . . . . . . . . . . . . . . . . . . . .
23
1.2.
24
Arquiteturas Deliberativas . . . . . . . . . . . . . . . . . . . . . . . . .
26
3.
2.1.
27
2.2.
28
Arquiteturas Hbridas . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
3.1.
29
3.2.
30
33
1.
33
2.
34
3.
36
3.1.
36
3.2.
Arquitetura ALLIANCE . . . . . . . . . . . . . . . . . . . . . .
37
3.3.
Futebol de Robos . . . . . . . . . . . . . . . . . . . . . . . . . .
39
5 Comportamentos Adaptativos
1.
2.
41
Aprendizado supervisionado . . . . . . . . . . . . . . . . . . . . . . . .
42
1.1.
A Regra Delta . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
1.2.
45
1.3.
Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
46
2.1.
47
2.2.
Algoritmos de AR . . . . . . . . . . . . . . . . . . . . . . . . .
48
Lista de Figuras
1.1
12
2.2
14
2.3
15
2.4
16
2.5
19
2.6
22
3.1
25
3.2
26
3.3
27
3.4
28
3.5
29
3.6
30
3.7
31
3.8
31
3.9
O robo AMELIA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
4.1
38
Exemplo de competico es de futebol de robos: 1. Esquerda superior: FIRA MiRoSoT, 2. Direita superior: RoboCup - Liga Legged, com caes
robos, 3. Inferior: RoboCup - Liga Mid-sized. . . . . . . . . . . . . . . .
39
2.1
4.2
4.3
40
5.1
Aprendizado Supervisionado . . . . . . . . . . . . . . . . . . . . . . . .
43
5.2
43
5.3
45
5.4
47
5.5
Pioneer 1 Gripper. Este robo e montado sobre um eixo de duas rodas, sete
sonares, sendo cinco frontais e dois laterais . . . . . . . . . . . . . . . .
50
51
5.6
Captulo 1
Introduca o
Robos moveis inteligentes sao agentes artificiais ativos, com capacidade de locomoca o,
imersos no mundo fsico real. Agentes por atuarem de forma racional; artificiais por
serem maquinas e nao entidades criadas pela natureza; ativos por atuarem no ambiente de
forma propositada, nao passiva; com capacidade de locomoc a o por poderem se mover no
ambiente.
Um robo movel inteligente, ou simplesmente robo movel, pode extrair
informaco es do ambiente no qual esta imerso e usar seu conhecimento sobre um determinado domnio para realizar tarefas atraves da execuca o de ciclos de interaca o com o
ambiente, da seguinte maneira (Figura 1.1):
O fato de ser inteligente indica que o robo atua de forma racional, isto e , que
ele alcanca o sucesso esperado na execuca o da tarefa a ele designada, dado o que foi
por ele percebido a respeito do ambiente. O grau de sucesso de sua atuaca o pode ser
definido por uma medida de desempenho, que o robo visa maximizar. Assim, considere
que seja designada a um robo movel a tarefa de percorrer, sem colisoes, o trajeto de um
ponto a outro de uma fabrica. Se o robo conseguir executar esta tarefa com sucesso,
conduzindo-se ate o local desejado e desviando dos eventuais obstaculos, diz-se que ele
agiu racionalmente e que, portanto, e inteligente. Se o tempo de percurso for utilizado
como medida de desempenho, o grau de sucesso na execuca o da tarefa sera tanto maior
quanto menor for o tempo que ele levar para realizar o percurso, evitando colisoes.
O projeto de robos moveis que possam interagir com o mundo real, de maneira
robusta e versatil, e , na verdade, muito mais difcil do que inicialmente pensado [13], uma
vez que o mundo real apresenta uma natureza ruidosa, imprevisvel e dinamica. No entanto, alguns problemas considerados intrataveis tornaram-se consideravelmente simplificados pela participaca o ativa do robo no ambiente, atraves de seu ciclo de percepca o-aca o.
Devido a` combinaca o da natureza imprevisvel do mundo real com as restrico es
de tempo frequentemente impostas pela tarefa a ser executada, grande parte das pesquisas
realizadas em robos moveis tem sido restrita a desenvolvimentos de sistemas onde as
aco es sao completamente determinadas pelas situaco es imediatas do ambiente, detectadas
pelos sensores do robo.
Por outro lado, um robo movel que raciocina mais profundamente para decidir sobre suas aco es pode iniciar alguma atividade independentemente das situaco es imediatas
detectadas pelos seus sensores, e organizar a sequencia de aco es a ser executada considerando antecipadamente futuras configuraco es do ambiente. Esta habilidade reside no fato
de que, apesar do mundo real ser complicado e com um certo grau de imprevisibilidade,
ele tambem exibe uma estrutura que pode ser explorada pelo robo.
Um grande desafio no projeto de robos moveis consiste em definir compromissos
adequados, de tal modo que o robo exiba um comportamento apropriado sempre que
necessario, seja em nao continuar raciocinando sobre um evento futuro enquanto eventos
imprevistos ocorridos no ambiente exijem reaca o rapida e imediata, seja em evitar que a
percepca o interrompa constantemente seu raciocnio.
Diversas questoes devem ser analisadas no projeto e desenvolvimento de robos
moveis, tais como:
Algumas vezes, no entanto, a tarefa a ser executada e tao complexa que fica muito
difcil atribuir a um u nico robo a incumbencia de realiza-la; assim, neste caso, pode ser
apropriado o uso de times de robos. Tarefas adequadas para atribuir a times de robos sao
aquelas que possuem caractersticas inerentemente distribudas, tanto em espaco, quanto
em tempo ou funcionalidade, como, por exemplo, exploraca o (subaquatica, planetaria,
etc), busca e resgate (de pessoas, plantas, animais, objetos), remoca o de minas terrestres,
inspeca o de tubulaco es (ar condicionado, de a gua, esgoto, etc), combate a incendios em
campos e florestas, limpeza de grandes a reas (estacionamentos, praias), etc.
1. Organizaca o do texto
Este texto esta dividido em 5 captulos, onde o primeiro define robos moveis inteligentes
e os outros fornecem as noco es teoricas basicas e as praticas associadas ao projeto e
funcionamento de robos moveis.
No Captulo 2 sao descritos dois paradigmas da robotica movel: Reativo e Deliberativo. Este captulo tambem fornece os princpios basicos da interaca o do robo com
o ambiente e conclui apresentando uma formalizaca o para comportamentos dos robos
moveis e uma descrica o das funco es principais de coordenaca o de comportamentos.
No Captulo 3 sao apresentadas as arquiteturas de comportamentos, com exemplos
representativos de arquiteturas reativas, arquiteturas deliberativas e arquiteturas hbridas
reativa/deliberativa. O estudo de arquiteturas representativas e suas aplicaco es mostra
modos diferentes de se utilizar componentes e ferramentas associados a um paradigma,
na construca o de robos moveis inteligentes.
No Captulo 4 e discutido como times de robos moveis podem ser utilizados,
descrevendo-se aplicaco es tpicas para multiplos robos. Sao tambem definidas caractersticas dos times e descritas algumas arquiteturas representativas na a rea e suas
aplicaco es.
Finalmente, o Captulo 5 aborda adaptaca o do robo atraves do aprendizado, de
modo a capacita-lo a melhorar seu desempenho para executar uma determinada tarefa.
Sao descritas tecnicas de aprendizado supervisionado e de aprendizado por reforco, que
sao os tipos de aprendizado mais comumentemente usados em robotica movel.
Captulo 2
Comportamentos em Robos Moveis
A atuaca o de robos moveis e definida a partir de um entre dois paradigmas basicos: o
paradigma reativo e o paradigma deliberativo. Reatividade corresponde a mapeamentos
simples, ligando estmulos sensoriais a respostas (aco es), enquanto que deliberaca o implica um estagio intermediario de planejamento, baseado em um modelo do ambiente
no qual o robo atua. Neste captulo, estes paradigmas de atuaca o serao definidos e contrastados. A seguir, serao apresentados os elementos fsicos correspondentes a` interaca o
do robo com o ambiente externo: os sensores (em seus varios tipos) e os mecanismos
de atuaca o mais comuns. Na segunda parte do captulo, sera apresentado o conceito de
comportamento, uma funca o que relaciona de modo generico os estmulos sensoriais a
respostas produzidas. Um enfoque baseado em comportamentos sera entao proposto e
justificado como uma base adequada para o estudo de robos moveis inteligentes, e alguns
dos metodos mais comuns para a implementaca o de comportamentos serao discutidos.
Finalmente, serao apresentados alguns aspectos adicionais deste enfoque: codificaco es
matematicamente consistentes e mecanismos para a coordenaca o de multiplos comportamentos.
reativa seria:
SE (medida de sensor de temperatura `
a frente > 50 graus)
ENTAO (reverta o movimento das rodas)
que faz com que o robo se afaste da fonte de calor. Observe que a reaca o e implementada
de forma muito simples: corresponde a uma reaca o (reverter movimento das rodas) a um
estmulo observado pelo robo (calor sentidopelo sensor de temperatura).
4. Comportamentos: Definica o
Um comportamento relaciona estmulos sensoriais a aco es produzidas sobre os atuadores
do robo, de acordo com um plano realizado a partir de um modelo interno do ambiente:
a = c(s; p)
(2.1)
comportamento
deliberativo
complexo
com plano
(modelo
interno
complexo)
E interessante notar que a definica o dada pela Equaca o 2.1 nao faz referencia
explcita ao processamento da informaca o fornecida pelos sensores. Desde que esta informaca o nao seja usada para a criaca o de um modelo global (a partir do qual
seria gerado um plano), admite-se que comportamentos reativos possam processar a
informaca o sensorial usando algoritmos de razoavel grau de sofisticaca o. O processamento da informaca o sensorial neste caso e dito propositado, ou seja, e feito com o proposito
de satisfazer unicamente as exigencias relativas ao comportamento, para o estmulo em
questao. Uma caracterstica importante deste tipo de processamento de informaca o e ser
centrado no robo: como nao se produz um modelo global, todas as referencias de posica o,
velocidade, etc. sao relativas a um sistema de coordenadas local ao robo.
O processamento da informaca o sensorial a partir de varios sensores distintos (tais
como os apresentados na seca o 3.1.) de modo a se adquirir uma informaca o de melhor
qualidade que combine as melhores caractersticas dos sensores envolvidos e comumente
chamado de fusao sensorial.
4.1. Exemplos
Esta seca o apresenta dois exemplos simples de comportamentos, um reativo e um deliberativo.
Um Comportamento Reativo para Evitar Obstaculos
Considere um robo movel de base circular e duas rodas, acionadas por motores independentes e com controle de velocidade. Considere ainda que este robo tem um conjunto de
seis sensores de infra-vermelho, sendo tres destes posicionados no hemisferio direito do
robo e tres no hemisferio esquerdo. Como mencionado na seca o 3.1., sensores de infravermelho saturam quando existe um objeto (obstaculo, parede, etc.) posicionado a uma
distancia pequena do sensor. Seja portanto L o valor de saturaca o para estes sensores.
Caso os sensores do lado direito saturem, e natural desviar o robo para o lado esquerdo.
Analogamente, caso os sensores do lado esquerdo saturem, o robo deve girar para o lado
direito. Assim, o conjunto de regras:
SE (leitura(algum sensor do lado direito) > L)
ENTAO (aplique vel.< 0 na roda esquerda, vel.> 0 na roda direita)
SENAO
(SE (leitura(algum sensor do lado esquerdo) > L)
ENTAO (aplique vel.> 0 na roda esquerda, vel.< 0 na roda direita)
SENAO
(aplique vel.> 0 nas duas rodas))
faz com que o robo desvie de obstaculos na presenca destes e siga em frente no caso
contrario. Observe que o comportamento e completamente reativo: o mapeamento entre
sensores e atuadores e direto, implementado por regras de produca o e sem necessidade
de um estagio intermediario de deliberaca o. Comportamentos reativos como este e outros
mais complexos foram analisados por Braitenberg [11], em um livro classico da literatura
de Robotica Movel.
Um Comportamento Deliberativo para Aproximaca o de Alvo
Considere um robo em um ambiente formado por salas, corredores e portas, cuja tarefa e
aproximar-se de um objeto (alvo) posicionado em algum ponto de uma das salas. Segundo
o enfoque deliberativo, este problema e resolvido por meio de tecnicas de planejamento
de trajetorias, caracterizadas por:
Para cada um destes estagios, existem varias tecnicas descritas na literatura especializada.
O aspecto mais crtico, porem, e a obtenca o e atualizaca o do modelo interno.
de estudos nas Ciencias Biologicas tem sido traduzidos (apos grande simplificaca o) em
modelos aplicaveis a entidades artificiais (no nosso caso, robos moveis). As conclusoes
fundamentais que os estudos em Etologia tem demonstrado sao:
1. Comportamentos complexos podem ser obtidos a partir de comportamentos mais
simples (frequentemente puramente reativos).
2. Informaca o sensorial so e utilizada se for necessaria para a execuca o do comportamento em questao.
3. Existem mecanismos de coordenaca o atuantes quando varios comportamentos
estao ativos.
4. Os indivduos tem comportamentos que sao adequados para o ambiente (nicho)
em que vivem.
A adoca o da Etologia como uma base para a implementaca o de comportamentos nao exige
que se siga uma linha de projeto puramente reativa. A Figura 2.2 ilustra um metodo de
projeto baseado em Etologia para a implementaca o de comportamentos em robos moveis.
~
Obtenao
do Modelo
Etologico
^
Transferencia
do Modelo
para Robo^
Aperfeioamento
do Modelo
~
Execuao
de
Experimentos
Execuao de
Novos Experimentos
Etologicos
~
Avaliaao
de
Resultados
Resultados
Bons?
Projeto
Finalizado
situac o es. A seguir, sao criadas as respostas adequadas para cada situac a o, considerandose as limitac o es fsicas do robo e as caractersticas do ambiente. Os comportamentos
produtores de tais respostas sao entao projetados e implementados. Uma avaliac a o e
feita e realiza-se um processo de ajuste em que os comportamentos sao aperfeic oados
varias vezes. Diferentemente do enfoque baseado em Etologia, metodos baseados em
atividade situada nao procuram uma analogia entre os comportamentos desenvolvidos
para as situac o es e seus possveis similares biologicos. A Figura 2.3 ilustra os passos do
desenvolvimento de projeto para metodos baseados em atividade situada.
Analise
do Dominio
Definiao
~
das Situaoes
~
Criaao
de
Respostas
Situacionais
Projeto de
Comportamentos
Aperfeioamento
dos Comportamentos
Execuao de
Experimentos
no Robo^
N
~
Avaliaao de
Resultados
Resultados
Bons?
S
Projeto
Finalizado
Analise
do Dominio
Projeto
Minimo
~
Execuao
de
Experimentos
no Robo^
~
Adiao
de Novos
Comportamentos
Avaliaao de
Resultados
N
Resultados
Bons?
S
Projeto
Finalizado
6. Codificaca o de Comportamentos
No incio deste captulo, definiu-se um comportamento como uma func a o que mapeia
estmulos sensoriais em ac o es, possivelmente de acordo com um plano preparado a partir
de um modelo interno do domnio. Nesta sec a o, identificam-se de forma mais precisa os
parametros necessarios para definir as ac o es do robo e os estmulos sensoriais. A seguir,
sera apresentado um formalismo apropriado para a definic a o e analise de comportamentos
e sua coordenac a o em robos moveis. Finalmente, sera apresentada uma classificac a o para
as func o es mais comuns de coordenac a o de comportamentos.
6.1. Parametrizaca o de Aco es
Do ponto de vista cinematico, uma ac a o em Robotica Movel objetiva transladar ou rotacionar o robo. Do ponto de vista dinamico, uma ac a o corresponde a uma forc a ou momento
aplicado ao robo, de modo a produzir o movimento desejado. O estudo de robos moveis
segundo o enfoque de Inteligencia Artificial nao considera os aspectos de possibilidade
dos movimentos (tais como nao-holonomicidade 1), que sao normalmente estudados em
Teoria de Controle. Para todos os efeitos, consideramos aqui que uma dada ac a o corresponde a uma realizac a o de alto nvel, que pode corresponder a um ou mais controladores
de baixo nvel de projeto bastante complexo. Exemplos de ac o es de interesse sao:
Girar
1
Um robo e dito nao-holonomico quando existem restric o es de movimento impostas por limitac o es
fsicas, tais como maximo a ngulo de giro das rodas
20
Avanc ar cm.
Manter velocidade constante de 12 cm. / seg.
cada uma das quais sendo implementada por um controlador projetado de acordo com
tecnicas de Controle, considerando-se o sinal de controle disponvel (por exemplo, a
tensao aplicada em motores que controlam a velocidade de giro das rodas).
De modo geral, os parametros que definem uma ac a o a de movimento aplicada a
um robo movel sao a sua magnitude M e sua direc a o D . Assim,
a = a(M; D)
(2.2)
M = 90, D = Esquerda
M = 20, D = Para frente
M = 12, D = Para frente
Naturalmente, cada uma destas ac o es e projetada a partir de um ou mais controladores de baixo nvel.
6.2. Parametrizaca o de Estmulos
A parametrizac a o dos estmulos depende muito do tipo de sensor considerado. Por
exemplo, um sensor de infra-vermelho para detecc a o de obstaculos pode ter como u nico
parametro a intensidade instantanea da radiac a o de infra-vermelho captada, enquanto a
informac a o fornecida por uma camera CCD pode ser parametrizada pela intensidade de
brilho para cada pixel em uma matriz bidimensional.
Normalmente, existe um valor limiar L es a partir do qual um estmulo sensorial e
detectavel pelo sensor correspondente. Este limiar e uma caracterstica fsica do sensor.
Um outro valor limiar Lsr , a partir do qual o estmulo, tal como captado pelo sensor, pode
disparar (evocar) uma resposta por um dado comportamento. Este limiar e um parametro
de projeto.
O limiar Lsr introduz portanto uma segunda func a o para uma percepc a o sensorial:
alem de guiar, ou seja, servir como elemento do domnio para a func a o c s; p , existe
tambem uma func a o de disparo (releasing), que pode nao envolver os mesmo sensores
usados para a guiagem. Considere por exemplo o disparo de um alarme de incendio em
um cinema: a audic a o deste alarme (um estmulo auditivo) acima do seu limiar disparara
um comportamento de fuga, guiado basicamente por estmulos visuais (evitar obstaculos,
procurar a sada, etc.), olfativos (evitar regioes com cheiro de fumac a) e tateis (evitar
calor).
( )
a1
c1 ([s1 1 s1 2 : : : s1 k1 ]; p1 ; w1 )
(2.3)
a2
..
.
an
=
=
c2 ([s2 1 s2 2 : : : s2 k2 ]; p2 ; w2 )
..
.
cn ([sn 1 sn 2 : : : sn k ]; pn ; wn )
n
( = )
s =[
A = C(S P W)
onde
a=
K
d2
(2.5)
rejeicao
representado pelo pequeno quadrado. Ape representados, pois o campo e contnuo. O
nas alguns vetores estao
indicada pela magnitude e direcao
do
robo R devera produzir a acao
do seu centro.
vetor do campo cuja origem coincide com a posicao
= (C(S P W) S P) = (A S P)
(2.7)
Observe que nenhum dos comportamentos requer um plano para definir as respectivas
ac o es (comportamentos puramente reativos). O comportamento c 1 e determinstico (ac o es
bem definidas para situac o es de colisao iminente com obstaculos) e o comportamento c 2 e
nao-determinstico e independente de informac a o sensorial. Uma possvel implementac a o
de c2 seria:
8
> avanc ar
se w2
<
c2 w2 > girar a` direita se : w2 <
: girar a` esquerda se w < :
2
05
( )=
1
1
05
onde, de modo a manter uma maior probabilidade de avanc o para o robo, a distribuic a o
de w2 poderia ser definida como P w2
: , P : w2 <
: e P w2 <
:
: . Para uma func a o de coordenac a o Cc, tem-se:
0 5) = 0 25
1) = 0 5 (0 5
1) = 0 25
a = Cc(C(S; P; W); S; P)
= Cc([c1(s1 ) c2(w2)]T ; s1 )
(2.8)
E natural que, quando da iminencia de colisao com um obstaculo ou parede, o comportamento c1 seja definidor da ac a o a, de modo a preservar a integridade fsica do robo.
Nas demais situac o es, o comportamento c 2 deve ser o u nico responsavel pela definic a o da
ac a o a. Uma func a o Cc adequada deve portanto selecionar o comportamento c1 sempre
que uma colisao (indicada pelos valores das leituras dos sensores 1 ) for iminente, e deve
selecionar c2 nas demais situac o es:
T;
s1) =
onde Lsr e um valor limiar definido para os sensores de proximidade, para o disparo do
comportamento de desvio de obstaculos.
Observe que, no caso acima, a func a o de coordenac a o reutiliza a informac a o sensorial 1 usada pelo comportamento c1 . Uma alternativa seria considerar c1 ativo apenas
quando si1 Lsr , ou seja, o proprio comportamento se desativaria quando nao fosse
necessario. Nesse caso, teramos
)=
c1 (s1 ) se c1 (s1 ) 6=
c2 (w2 ) caso contrario
(C(S P W)
(C(S P W) S P)
s
1
Comportamento 1
s
2
Comportamento 2
a1
a2
~
Cc
.
.
.
s
N
Comportamento N
aao
resultante
aN
Captulo 3
Arquiteturas de Comportamentos
Neste captulo serao discutidas as tres arquiteturas de comportamento para robos moveis:
reativa, deliberativa e hbrida. Estas arquiteturas definem como o robo e projetado, a partir
de uma colec a o de blocos fundamentais, correspondentes a comportamentos, modulos
para inibic a o ou ativac a o destes, estruturas especializadas em planejamento de tarefas,
etc.
1. Arquiteturas Reativas
As arquiteturas reativas sao aquelas formadas pela coordenac a o de comportamentos reativos. Em geral, estas arquiteturas produzem robos adequados para operac a o em tempo
real, ja que a simplicidade dos comportamentos reativos favorece uma alta velocidade
de processamento computacional. Arquiteturas reativas tambem permitem prototipac a o
rapida: a implementac a o de alguns poucos comportamentos em um robo real e relativamente simples. Entretanto, implementar um projeto de interesse real, que implique definir
um conjunto grande de comportamentos e mecanismos de coordenac a o entre estes, e uma
tarefa difcil. A seguir, sao discutidas as duas arquiteturas reativas mais conhecidas.
1.1. Arquitetura Subsumption
A arquitetura subsumption [12] organiza os comportamentos reativos em camadas de
competencia: comportamentos em nveis mais altos correspondem a` queles direcionados
ao objetivo da tarefa especificada, enquanto que aqueles em nveis mais baixos correspondem a ac o es mais basicas, tais como aquelas necessarias para preservar a integridade
fsica do robo (por exemplo, quando da iminencia de colisao com obstaculos). Alem
das caractersticas intrnsecas do paradigma reativo, tais como simplicidade dos comportamentos (mapeamentos estmulo-ac a o) e processamento local da informac a o sensorial
por cada comportamento, a arquitetura subsumption estabelece um mecanismo de prioridade de comportamentos das camadas em nvel mais alto sobre aqueles em nvel mais
baixo, configurando uma coordenac a o competitiva de comportamentos com hierarquia
pre-definida. Este mecanismo pode assumir duas formas:
1. Supressao. Neste caso, a sada produzida pelo comportamento de nvel mais alto
substitui aquela produzida pelo comportamento de nvel mais baixo. Este u ltimo
permanece ativo, mas sua ac a o nao produz nenhum efeito, por ter sido suprimida
por aquela correspondente ao comportamento prioritario.
23
Explorar
sonar 1
sonar 8
.
.
.
Calcula Vetor
.
.
.
Afastar
motor 2
motor 1
Parar
uma ac a o (expressa como um vetor), produzida em qualquer situac a o (ou seja, todos os
comportamentos estao sempre ativos). O comportamento efetivamente produzido e o resultante da soma dos vetores correspondentes a` contribuic a o de cada comportamento. A
magnitude dos vetores em pontos diferentes do ambiente em que o robo atua pode variar,
o que equivale na pratica a um mecanismo de inibic a o: um vetor de magnitude grande
somado a um de pequena magnitude e direc a o oposta efetivamente inibe a ac a o deste
u ltimo.
Uma arquitetura baseada em campos potenciais requer que a ac a o correspondente
a cada comportamento seja expressa como um entre cinco possveis tipos de campo:
Uniforme , que corresponde a vetores de mesma intensidade e direc a o em qualquer ponto
do ambiente. Um comportamento Avanc ar, que faz o robo se mover para a frente
independentemente da informac a o sensorial, pode ser expresso como um campo
deste tipo.
Perpendicular , que orienta o robo na direc a o perpendicular a alguma fronteira (normalmente uma parede).
Atrativo , que corresponde a vetores de magnitude inversamente proporcional a` distancia
relativa a um ponto atrator e orientados em direc a o a este, em um efeito similar
ao da gravidade ou atrac a o eletrostatica. Este tipo de campo e u til para expressar o efeito de tropismo em sistemas biologicos (atrac a o por um objetivo, luz ou
comida).
para modelar comportamentos para
Repulsivo , que e o oposto do campo atrativo. Util
evitar obstaculos.
Tangencial , que corresponde a vetores perpendiculares a linhas radiais a partir do centro
de um objeto. Este tipo de campo e usado em comportamentos de desvio de
obstaculos ou investigac a o de objetos.
Uma vantagem de uma arquitetura baseada em campos potenciais e a facilidade de
visualizac a o do comportamento global do robo, ainda na fase de projeto: a observac a o do
campo resultante da combinac a o dos varios comportamentos permite prever com relativa
facilidade o que o robo fara em cada situac a o.
Como exemplo de arquitetura baseada em campos potenciais, reconsidere o exemplo de desvio de obstaculos descrito na u ltima sec a o. A Figura 3.2 ilustra esta arquitetura.
Diferentemente da versao baseada na arquitetura subsumption, neste caso o vetor
produzido pelo comportamento Explorar corresponde a` direc a o aleatoria de movimento,
Explorar
sonar 1
sonar 8
.
.
.
Calcula Vetor
.
.
.
Afastar
motor 2
motor 1
Parar
nao somada a` direc a o prevista pelo modulo Calcula Vetor. A ac a o correspondente e entao
diretamente somada a` sada produzida pelo comportamento Afastar, sem que ocorra uma
inibic a o deste u ltimo. O comportamento Parar, entretanto, nao tem um equivalente direto
em termos de campos potenciais: sua implementac a o natural seria um campo potencial de
magnitude zero, que somado a qualquer outro comportamento seria anulado. Neste caso,
interpreta-se o comportamento como um produtor de ac o es emergenciais, com prioridade
maxima. Este recurso, embora nao natural em arquiteturas baseadas em campos potenciais, e necessario sempre que existirem comportamentos cuja ac a o correspondente tenha
uma magnitude que nao corresponda a` sua importancia relativa a outros comportamentos,
no contexto considerado.
2. Arquiteturas Deliberativas
As arquiteturas deliberativas incorporam um estagio intermediario de planejamento, quebrando a ligac a o direta entre sensoreamento e atuac a o e forc ando a execuc a o de um plano
antes da selec a o de qualquer ac a o. Neste tipo de arquitetura, as informac o es sensoriais sao
fundidas numa estrutura de dados global, chamada modelo do mundo, a qual e acessada
pelo estagio de planejamento.
Geralmente, tem-se um controle hierarquico, onde o planejamento e subdividido
em modulos funcionais, tipicamente dependentes tanto de informac o es espaciais, quanto
de restric o es temporais. A Figura 3.3 ilustra este modelo, onde se tem quatro nveis
hierarquicos no planejador: nvel de planejamento global estrategico, de planejamento
intermadiario tatico, de planejamento local de curto prazo e de controle do atuador. Todos
acessam informac o es do modelo do mundo, cada um referente ao conhecimento de seu
interesse. Nota-se que, do nvel superior da hierarquia (referente ao planejamento global)
ao inferior (referente ao controle dos atuadores), cresce a restric a o de tempo na resposta
e diminui o espac o fsico de interesse.
Nesta sec a o, dois exemplos representativos de arquiteturas deliberativas sao descritos: o NHC (Nested Hierarchical Controller) [24] e o RCS (NIST Realtime Control
System) [2].
Figura 3.3: Planejamento hierarquico
usado em arquiteturas deliberativas.
Em NHC, os sensores sao lidos apos a execuc a o de cada ac a o, atualizando o modelo do mundo. Entretanto, o ciclo completo de planejamento nao e repetido, mas o
piloto controla o robo para que corrija eventuais divergencias percebidas (note que todos
os nveis tem acesso ao modelo atualizado do mundo). Terminado o segmento designado
para o piloto executar (e replanejar, se necessario), o navegador envia outro segmento, caso a meta ainda nao tenha sido atingida. Alcanc ada a meta, o navegador avisa o planejador
de missao, que verifica se ainda ha submetas a serem executadas e todo o procedimento
se repete.
Uma desvantagem da arquitetura NHC consiste em desmembrar o planejamento de forma hierarquica para outras tarefas, diferentes de navegac a o, uma vez que nem
sempre os diferentes nveis de representac a o e abstrac a o da tarefa sao tao intuitivos.
2.2. RCS - Realtime Control System
A arquitetura RCS [2], desenvolvida no NIST - National Institute of Standards and Technology, EUA, foi usada em diferentes aplicac o es reais: em robos comerciais de limpeza
de chao, num robo para minerac a o e num robo para explorac a o subaquatica. Esta arquitetura foi baseada na NHC, porem introduzindo muitos detalhes a mais, de modo a auxiliar
empresas de manufatura a colocar inteligencia em seus robos.
Na arquitetura RCS, alem da estratificac a o do modulo de planejamento existente na arquitetura NHC, o modelo do mundo tambem e organizado em uma hierarquia de
nveis de abstrac a o crescente (Figura 3.5). O modulo responsavel pelo sensoreamento efetua um pre-processamento da informac a o sensorial, extraindo diferentes representac o es
das informac o es para, entao, incorpora-las aos nveis correspondentes do modelo do mundo. O modulo de planejamento, em RCS, apresenta um diferencial: apos gerar um plano,
o sistema simula o plano e, caso satisfac a os requisitos, este plano e entao convertido em
ac o es a serem executadas pelo robo. Existe ainda na arquitetura uma interface com um
operador humano, que pode observar e interagir com todo o processo.
3. Arquiteturas Hbridas
As arquiteturas hbridas incorporam um elemento de planejamento sobre a definic a o e
selec a o de comportamentos reativos individuais. Assim, uma arquitetura hbrida corresponde a uma arquitetura reativa controlada por um plano de execuc a o e sequenciamento
Gerenciador de Recursos Responsavel pela alocac a o de recursos (sensores, processamento para fusao sensorial, tempo, etc.) para os comportamentos ativos. Em
arquiteturas puramente reativas, esses recursos sao alocados permanentemente,
quando da definic a o dos comportamentos em si.
Cartografo Mantem um mapa ou informac a o espacial do ambiente no qual o robo movel
se desloca, e o atualiza a` medida que novas informac o es sensoriais sao recebidas
e ac o es sao executadas pelo robo.
Planejador de Missao Codifica a descric a o do domnio em uma linguagem apropriada, e define um plano para a execuc a o da tarefa, possivelmente atraves de uma
decomposic a o em varios subplanos.
Monitorador de Desempenho Avalia o desempenho do robo na execuc a o da tarefa.
3.2. Exemplos de Arquiteturas Hbridas
Planejador da
Misso
Raciocinador
Espacial
Seqenciador
do Plano
REPRESENTAO
Controlador Schema
Motor Percepo
Atuao
Componente
Hierrquico
Componente
Reativo
Sensao
Atlantis. Esta arquitetura usa um planejador para aconselhamento e foi originalmente proposta em [16]. Atlantis e uma arquitetura hbrida de tres camadas, consistindo
de um modulo controlador, um modulo sequenciador e um modulo deliberativo (Figura 3.7).
24
um sensor laser,
sonares, uma camera colorida e um brac o manipulador. Amelia possui capacidade computacional embarcada, onde sao executados todos os procedimentos
de controle, percepc a o e planejamento. Os comportamentos reativos capacitam o robo a
lidar com navegac a o local em tempo real, evitar obstaculos e situac o es emergenciais. Os
comportamentos deliberativos, que operam de forma concorrente com os comportamentos reativos, mantem mapas do ambiente, planejam caminhos, interpretam informac a o
visual e realizam planejamento de nveis de tarefa. A informac a o visual e extrada das
imagens obtidas pela camera. Dependendo do gesto identificado, o planejador ativa diversos comportamentos reativos, tais como parar, seguir, ir em direc a o ao objeto
apontado e desviar de obstaculos. Todos os comportamentos sao integrados por um
modulo de controle de tarefas que permite escalonar e sincronizar tarefas, alocar recursos,
monitorar o ambiente e gerenciar situac o es emergenciais.
Captulo 4
Times de Robos Moveis
O aumento na complexidade da tarefa designada aos robos provoca um aumento na dificuldade de se atribuir a um u nico agente robotico a incumbencia de executa-la eficientemente. Assim, o uso de times de robos pode ser bastante vantajoso em uma serie de
aplicac o es compostas basicamente por tarefas muito complexas e/ou que sejam inerentemente distribudas, tanto em espac o, quanto em tempo ou funcionalidade.
Neste captulo serao discutidas as vantagens e desvantagens do uso de times de
robos, relacionando tarefas tipicamente apropriadas para realizac a o por multiplos robos.
Serao consideradas caractersticas basicas dos times, tais como homogeneidade, granularidade, estrutura de controle, entre outras. De acordo com as caractersticas atribudas aos
times, pode-se agrupa-los em dois tipos basicos: times com muitos robos identicos que
pouco interagem durante a execuc a o da tarefa e times compostos por poucos robos, cada
um com habilidades proprias, que necessitam de grande interac a o entre eles para executar
a tarefa de modo eficiente. Finalmente, sao descritos exemplos de cada um destes tipos de
times, assim como o domnio de futebol de robos, usado para incentivar pesquisas nesta
a rea, e suas abordagens mais frequentes.
Estas sao questoes que, embora extensivamente estudadas nos u ltimos anos, ainda
oferecem muitos desafios a serem superados.
a controle totalmente distribudo. Por exemplo, os robos podem interagir com um computador central para definirem suas metas e, depois, atuarem de modo distribudo para
cumpr-las.
A cooperac a o entre os membros de um time pode ser ativa ou nao-ativa.
Cooperac a o nao-ativa indica que os robos nao compartilham explicitamente uma meta comum, ou seja, cada membro tem sua propria (sub-)meta. O time demonstra uma
cooperac a o ativa quando pelo menos alguns de seus membros se reconhecem e trabalham
conjuntamente para atingir uma meta comum explcita, caracterizando intencionalidade
na cooperac a o. Normalmente torna-se necessario, na cooperac a o ativa, incorporar sensores aos robos de forma a permitir que estes fac am a distinc a o dos membros do time em
relac a o a outros aspectos do ambiente. Por exemplo, num jogo de futebol de robos, um
jogador de um time pode reconhecer o atacante de seu time e passar a bola para ele, para
que a meta do time, que e fazer gols e ganhar o jogo, seja atingida, demonstrando, desta
forma, uma cooperac a o ativa. No entanto, considere um time formado por dois robos
identicos, cujos sensores somente detectam paredes e que tem como metas (individuais)
derrubar paredes; caso estes robos se posicionem em lados opostos de uma mesma parede, ambos irao derruba-la, provavelmente finalizando a tarefa num tempo muito menor;
porem, como a ajuda mutua foi puramente acidental, os robos de fato atuam segundo
cooperac a o nao-ativa.
Quanto a` comunicac a o, existem dois tipos: explcita ou implcita. Na
comunicac a o explcita, informac o es sao intencionalmente trocadas entre dois ou mais
membros do time. Na comunicac a o implcita a informac a o e adquirida pela observac a o
das ac o es realizadas pelos outros membros ou por rastros nao intencionalmente deixados,
observados no ambiente.
Um time homogeneo que apresenta alta granularidade, controle descentralizado,
cooperac a o nao-ativa entre seus membros e sem comunicac a o explcita, frequentemente
refere-se a um time onde cada robo segue o paradigma reativo, agindo concorrente e independentemente, propiciando o surgimento de um comportamento social emergente. Este
tipo de time oferece o grande atrativo de ser formado por robos bastante simples, com poucas necessidades de sensoreamento e que executam poucos (e simples) comportamentos.
Esta abordagem pode ser interessante em aplicac o es que nao impoem restric o es drasticas
no tempo de execuc a o e que requerem numerosas repetic o es de uma mesma atividade
numa a rea relativamente grande, tais como em tarefas de limpeza (em praias, grandes
estacionamentos, etc), de coleta de material (em missoes espaciais, subaquaticas, etc), de
resgate (busca por pessoas, animais, objetos), entre outras. No entanto, comportamentos
sociais emergentes sao muito difceis de serem previstos e controlados.
Por outro lado, em times heterogeneos nem todos os robos possuem as mesmas
capacidades, habilidades ou estrutura de controle. Desta forma, nem todos os robos podem executar as mesmas tarefas e, mesmo que o fac am, estas serao realizadas de formas
diferentes, uma vez que alguma diferenc a existe entre os robos (em hardware ou software, pois sao heterogeneos). Assim, o mapeamento apropriado das subtarefas aos robos
e dependente das capacidades e desempenho de cada robo membro do time. Times heterogeneos geralmente apresentam baixa granularidade e a interac a o entre seus membros
deve ser enderec ada de forma clara e explcita. Normalmente, as tarefas designadas a
este tipo de time apresentam claras restric o es em relac a o a` eficiencia de sua execuc a o e,
passagem, parar movimento e esperar durante um tempo t; apos t, caso o robo continue
bloqueando a passagem, virar a` esquerda e reiniciar movimento em direc a o a` meta. O
resultado deste experimento foi a diminuic a o do congestionamento e um tempo muito
menor para a execuc a o da tarefa.
Num terceiro e u ltimo experimento, o time atuou sob coexist e ncia inteligente,
onde existia uma repulsao entre os robos mas, ao se afastar, cada robo deveria tentar se
mover na mesma direc a o que a maioria dos outros robos estavam indo. Para isso, os robos
transmitiam via radio, a todos os outros membros, sua direc a o de movimentac a o (por inabilidade de determinar isso por visao ou outro sensor). Como resultado, os robos tendiam
a formar uma u nica fila (apesar deste comando nao estar explcito no projeto), diminuindo
sensivelmente tanto o congestionamento quanto o tempo de execuc a o da tarefa.
Nos experimentos conduzidos por Mataric, a interfencia dos robos foi minimizada
pelo uso de regras sociais simples, sem comunicac a o explcita entre eles. No entanto,
caso algum robo falhe, nenhum outro membro poderia ajuda-lo e nem mesmo as tarefas
poderiam ser mudadas dinamicamente. Estes pontos foram enderec ados por Parker [27],
que propos a arquitetura ALLIANCE para cada robo de um time cooperativo, de tal forma
a permitir que o time considere e resolva falhas e incertezas, derivadas tanto da selec a o
quanto da execuc a o das ac o es.
3.2. Arquitetura ALLIANCE
ALLIANCE e uma arquitetura que facilita o controle cooperativo tolerante a falhas de
times heterogeneos de robos moveis, os quais executam tarefas compostas por subtarefas
que podem, eventualmente, apresentar uma relac a o de ordem entre si, isto e , a finalizac a o
de uma subtarefa pode ser condic a o para que outra subtarefa seja realizada. ALLIANCE permite que os robos, cada um com diferentes capacidades, possam individualmente
selecionar ac o es apropriadas durante a realizac a o da tarefa, baseados nao somente nas
exigencias da tarefa, mas tambem nas atividades dos outros robos, nas condic o es do ambiente e nos seus proprios estados internos. Trata-se de uma arquitetura distribuda baseada
em comportamentos, que incorpora o uso de motivac o es em cada robo (como impaciencia
e aquiescencia), de forma a adquirir selec a o adaptativa de ac o es.
Esta arquitetura requer que os robos membros do time sejam capazes de detectar o
efeito de sua propria ac a o, assim como o de outros robos que tenham capacidades iguais.
Alem disso, considera-se que os sensores e atuadores dos robos nao sao perfeitos e que
qualquer subsistema dos robos pode falhar.
ALLIANCE e uma extensao da arquitetura Subsumption (Figura 4.1), onde foram
definidos conjuntos de comportamentos que podem estar ativos ou nao, correspondendo
a` s capacidades dos robos. Os robos ativam estes conjuntos baseados nas subtarefas a ele
designadas e na sua motivac a o para a execuc a o de cada subtarefa.
Dois tipos de motivac a o interna sao modelados em ALLIANCE: impaci e ncia, que
permite com que o robo lide com falhas dos outros membros relativas a` execuc a o de uma
subtarefa, e aquiescencia, que permite com que o robo lide com suas proprias falhas na
execuc a o apropriada de uma subtarefa.
Inicialmente, e baixa a motivac a o de um robo para ativar qualquer conjunto de
comportamentos. Com o passar do tempo, a motivac a o para ativar um determinado con-
1. Esquerda superior:
Figura 4.2: Exemplo de competic oes
de futebol de robos:
vice-campeao
mundial da FIRA MiRoSoT de 1998. a)
Figura 4.3: Time Guarana,
fsica dos robos.
de troca de papeis
entre
Construc ao
b) Condic ao
Por outro lado, as competic o es das Ligas Mid-sized e Legged impoem um controle distribudo aos times. Cada robo e constitudo por sensores locais, que fornecem
informac o es parciais do ambiente, e por processadores embarcados que possibilitam raciocnio e tomadas de decisao individuais. Os robos podem se comunicar de forma explcita
ou nao. Geralmente, os times adotam uma arquitetura hbrida deliberativa/reativa em cada
membro. Num futuro proximo, um tecnico humano podera interagir com o time de robos
atraves de comandos verbais, possibilitando mudanc a dinamica de tatica de jogo por seu
comando.
Captulo 5
Comportamentos Adaptativos
Neste captulo, serao considerados os dois paradigmas principais de aprendizado usados
em Robotica Movel: supervisionado e por reforc o.
Existem varias definic o es sobre aprendizado que podem ser encontradas na literatura. No contexto deste curso, adotaremos a seguinte definic a o: Aprendizado provoca
mudanc as num robo ao longo do tempo, capacitando-o a melhorar seu desempenho para executar uma determinada tarefa[5]. Essa melhoria de desempenho pode ocorrer de
diversas formas:
Adaptac a o e uma forma de aprendizado, na qual o agente aprende atraves de ajustes, de modo a se tornar mais afinado com o ambiente no qual atua.
Mas, por que o aprendizado de robos se faz necessario?
A Robotica tem alcanc ado grandes desenvolvimentos nos u ltimos anos. Inicialmente, os robos foram utilizados para a automac a o de processos de produc a o industrial.
Com o desenvolvimento tecnologico, os robos comec aram tambem ser utilizados para outros propositos tais como: brinquedos e entretenimento, medicina e cirurgia, e realizac a o
de tarefas em ambientes perigosos (espaciais, subaquaticos).
Assim sendo, a nova gerac a o de robos deve trabalhar de forma robusta, interagindo em ambientes complexos e imprevisveis e realizando uma variedade de tarefas mais
complexas que seus antecessores, os robos industriais.
A principal limitac a o na utilizac a o de robos moveis esta em como controla-los,
ou seja, como criar programas capazes de operar estas maquinas complexas. Para tal, sao
necessarias tecnicas que lhes permitam interagir de forma efetiva com o ambiente. Isto
envolve o tratamento de alguns problemas, tais como a indiponibilidade de um modelo
41
completo do ambiente com o qual o robo devera interagir, a incerteza dos dados devido a erros de leitura dos sensores, a gerac a o do controle poder ser computacionalmente
complexa e a necessidade de respostas em tempo real.
Bem, mas o que torna aprendizado de robos especial?
O aprendizado em robos consiste essencialmente em fazer com que o robo execute tarefas sem a necessidade de programa-los explicitamente. A programac a o de robos e
uma tarefa desafiadora, por muitas razoes. Os sensores de um robo, como por exemplo,
os sonares, tem comportamentos imprevisveis, algumas vezes variando conforme o ambiente. Sendo assim, nao basta apenas conhecer o funcionamento dos sensores, tambem
devera ser fornecido um modelo do ambiente no qual o robo devera atuar. Para programar um robo, o problema deve ser decomposto em uma sucessao de tarefas ate chegar
em operac o es de baixo nvel, tais como, andar, virar a` esquerda, etc. Por estas razoes, ha
um interesse consideravel em que os robos possam aprender a realizar tarefas automaticamente.
Nos u ltimos anos, a pesquisa em IA tem procurado substituir a programac a o explcita pelo processo de ensinar uma tarefa. Pesquisas nesta a rea tem estudado varias
formas de implementac a o de aprendizado [25].
Tecnicas de aprendizado de robos integram percepc a o, tomada de decisao,
execuc a o em ambientes dinamicos e complexos. Elas tem sido usadas em diversas a reas,
tais como, em controle o timo, aquisic a o de mapas de ambientes, reconhecimento de objetos e navegac a o.
Existem varias tecnicas para realizar aprendizado. Neste captulo sao apresentadas aquelas pertencentes ao paradigma de aprendizado supervisionado e ao paradigma de
aprendizado por reforc o, por serem amplamente utilizadas. Um detalhamento sobre estas tecnicas de aprendizado e algumas aplicac o es em robos moveis sera apresentado nas
sec o es que se seguem.
1. Aprendizado supervisionado
No aprendizado supervisionado, o conhecimento a respeito da execuc a o adequada da tarefa no domnio e representado por um conjunto disponvel de exemplos de estmulos/ac o es
ou entradas/sadas desejaveis.
Um ingrediente essencial do aprendizado supervisionado e a disponibilidade de
um professor externo, como indicado na Figura 5.1. Em termos conceituais, pode-se
dizer que o professor e aquele que tem conhecimento de como uma determinada tarefa deve ser realizada. Este conhecimento e representado por um conjunto de exemplos
entrada/sada. A execuc a o da tarefa no domnio e , porem, desconhecida pelo robo.
Suponha agora que a entrada (estado) seja apresentada ao sistema de aprendizado
do robo e ao professor. Com base no seu conhecimento, o professor e capaz de fornecer a
resposta desejadada correspondente a` quela entrada. Esta resposta desejada normalmente
representa a ac a o o tima a ser aprendida pelo sistema de aprendizado. Uma adaptac a o no
sistema de aprendizado e realizada, com base na influencia da diferenc a (erro) entre a
resposta atual do sistema de aprendizado e a resposta desejada. Este ajuste e realizado
iterativamente, com o objetivo de fazer com que o sistema imite o professor.
Vetor
Estado
Sistema
Ambiente
Professor
Sistema
Aprendizado
Resposta
Desejada
Resposta
Atual
de um Neuronio
=(
=(
y (t) =
n
X
k=1
wk xk
(5.1)
Usualmente, os pesos sao todos inicializados com zero e, provavelmente, a resposta atual y deste neuronio sera diferente da resposta desejada d. O erro e dado por:
et
d t y t e uma medida de erro ou func a o de custo pode entao ser definida
como:
n
X
Ew
dt yt 2
dt
wk xk 2
(5.2)
() = ()
()
[ ] = 12 [ ( ) ( )] = 12 [ ( )
]
k=1
A func a o E [w ] e maior ou igual a zero e tende a zero quanto mais a resposta da
ET
X
p
E [w] =
1 X[dp(t)
2 p
y p(t)]2
(5.3)
[ ]
@E [w]
@wk
(5.4)
(d(t) y (t))xk
(5.5)
wk =
wk =
[ ]
que corresponde a` s modificac o es que devem ser realizadas nos pesos em relac a o
ao exemplo p, ou ainda,
wk
t xk
(5.6)
ou
()
wk (t + 1)
onde
wk (t) + (t)xk ; k
(t)
= (d(t)
= 1; 2; : : : ; p
y (t))
(5.7)
(5.8)
Este resultado dado pelas Equac o es 5.5, 5.6 e 5.8 e conhecido como Regra Delta,
regra de Widrow-Hoff ou regra LMS.
Camadas
Intermedirias
Conexes
Camada de
Entrada
Camada de
Sada
ET [w]
m
XX
= 21
(dpi(t)
p i=1
yip(t))2
(5.9)
onde netpj
p
k wjk xk .
yj = fj (netpj )
(5.10)
wi j (t + 1)
(5.11)
onde:
Quase todos metodos de AR em uso sao baseados na tecnica de Diferenc as Temporais (TD) [36]. A ideia fundamental em TD e o aprendizado por predic a o: quando o
agente recebe um reforc o deve propaga-lo retroativamente no tempo. Desta forma, os
estados que foram anteriormente visitados e que conduziram a esta condic a o, serao associados a uma predic a o de conseque ncias futuras.
A aquisic a o de informac o es de aprendizado por experiencia direta e uma pratica
que normalmente nao esta sob o total controle de um agente: ele pode escolher ac o es, mas
nao pode determinar as conseque ncias destas ac o es com antecedencia para todos estados,
pois normalmente nao tem um modelo suficientemente preciso de um estado no qual
sao baseados os julgamentos. Por isto, o agente deve estimar o valor associado atraves
de visitac a o direta; ele deve escolher uma ac a o, receber um resultado e propaga-lo aos
estados anteriores, seguindo o procedimento de TD 1 .
A correta determinac a o das conseque ncias das ac o es depende de um numero razoavel de atualizac o es para cada estado. A convergencia de algoritmos AR em geral esta
condicionada a um numero infinito de visitas para todos os estados do processo. A impossibilidade de cumprir esta condic a o cria o conflito entre explorac a o e exploitac a o. O
robo deve encontrar polticas de ac o es que permitam uma melhor explorac a o do conjunto
de estados e por conseguinte um melhor modelo. Mas ao mesmo tempo deve-se considerar que um bom desempenho so e atingido se uma melhor poltica de ac a o e executada
(exploitac a o)2 .
2.1. Modelo Padrao de Aprendizado com Reforc o
No modelo de aprendizado com reforc o, um robo e conectado a seu ambiente por
percepc a o e ac a o, como descrito no Captulo 1. Em cada passo de interac a o, o robo recebe
como entrada, uma percepc a o i, do estado atual s do ambiente; e escolhe entao uma ac a o
a. A ac a o muda o estado do ambiente e e comunicado o valor desta transic a o de estado ao
robo por um sinal de reforc o escalar r (ver Figura 5.4). O comportamento do robo deve
ser escolher ac o es que tendem a aumentar, ao longo do tempo, uma func a o da soma dos
valores do sinal de reforc o. Ele pode aprender a fazer isto com o passar do tempo atraves
da sistematica tentativa-e-erro, guiado por uma grande variedade de algoritmos.
Ambiente
a
s
I
apud [31]
apud [31]
I e a func a o identidade, ou
(s0js; a);
Existem boas referencias para MDPs, tais como [8], [29], [9]. Maiores detalhes
sobre AR podem ser encontrados em [31], [36] e [18].
2.2. Algoritmos de AR
Os metodos de aprendizado por reforc o estao divididos em metodos independentes de
modelo e metodos baseados em modelo. Um modelo consiste em se ter o conhecimento previo da func a o de probabilidade de transic a o P s0 js; a e da func a o de reforc o
R s0 js; a .
Os metodos independentes de modelo (model-free) aprendem a execuc a o adequada de uma tarefa sem um modelo explcito dos efeitos das ac o es. Os metodos baseados
em modelo (model-based) aprendem e usam um modelo do ambiente enquanto simultaneamente tentam aprender a executar a tarefa o tima [7]. Os algoritmos Q-learning [40] e
R-learning [37] sao exemplos de metodos independentes de modelo, enquanto H-learning
[38] e um exemplo de metodo baseado em modelo.
Algoritmos Q-learning e SARSA
O algoritmo Q-learning [40] e um metodo iterativo para o aprendizado de uma poltica de
ac o es. Este metodo e baseado na medida de valor de pares estado/ac a o, Q s; a , o qual
representa o valor esperado (soma das recompensas descontadas no tempo) ao se executar
( )
uma ac a o a no estado s, seguindo-se depois uma poltica o tima. Em cada interac a o com
o ambiente, Q s; a e atualizado pela regra:
( )
Q(s; a)
Q(s; a) + [r +
max
Q(s0 ; a0 ) Q(s; a)]
a
0
(5.12)
Apos executar uma ac a o a, o agente deixa o estado s e vai para s0 , recebendo por
0 0
esta transic a o uma recompensa imediata r .
a Q s ; a e uma previsao do valor do
proximo estado, quando se segue uma poltica o tima.
max (
Q(s; a)
(5.13)
0 0
Naturalmente, caso a ac a o escolhida a seja
a Q s ; a , este algoritmo sera
sobre as ac o es,
equivalente ao Q-learning padrao. Por eliminar o uso do operador
este metodo e mais rapido que o Q-learning para situac o es onde o conjunto de ac o es
tenham cardinalidade alta.
max (
0
max
34
Algoritmo R-learning
Esta tecnica, proposta em [37], maximiza a recompensa media a cada passo. Trata-se de
um metodo de controle independente de poltica para versoes de aprendizado por reforc o
nas quais nao se utilizam descontos e nem se dividem as experiencias em episodios distintos com retornos finitos.
Em contrate com o algoritmo Q-learning, R-learning maximiza um reforc o medio,
ou seja, a func a o de custo para uma poltica e definida em relac a o a` media das recompensas esperadas em cada passo de tempo, como:
= nlim
!1 E
N e o numero total de reforc os recebidos.
n
1X
r :
t=0
(5.14)
Figura 5.5: Pioneer 1 Gripper. Este robo e montado sobre um eixo de duas rodas,
sete sonares, sendo cinco frontais e dois laterais
Os valores de R
que difere da regra do Q-learning, simplesmente por subtrair a estimativa da recompensa media do reforc o imediato r e por nao ter desconto
para o proximo estado. A
estimativa e calculada como:
~
~
~
~ + [r + max
Rt (s0 ; a)
a
max
R(s; a) ~]
a
(5.16)
Uma aplicac a o de uma modificac a o deste algoritmo, denominada R-learning pode ser encontrada em [14] e [15]. Esta modificac a o foi realizada atraves da incorporac a o
de logica fuzzy ao algoritmo R-learning. Este algoritmo apresentou melhores resultados
que o R-learning, no domnio de navegac a o de robos moveis, por calibrar o reforc o imediato. Uma aplicac a o para o robo Pioneer 1 5.5 foi realizada com este algoritmo. Esta
aplicac a o consistiu em fazer com que o robo navegasse em um ambiente desconhecido,
evitando colisoes e procurando por pequenos objetos para serem colocados em uma lixeira. Para tanto, o mapeamento dos estados foi feito utilizando forc a de repulsao como
proposto por Borenstein et. al. [10], entre os objetos e o robo. Este mapeamento propiciou um numero menor de estados do ambiente, por fundir as leituras dos sonares em uma
u nica informac a o, permitindo que o robo aprendesse a navegar em menos tempo. Por outro lado, foi proposto um conjunto de ac o es que fez com que o robo tivesse movimentos
mais suaves.
As seguintes recompensas imediatas sao adotadas de acordo com o estado que
robo atinge, como e mostrado na tabela abaixo:
sendo que o conjunto de ac o es proposto foi:
A = f avanc ar, girar a` direita, girar a` esquerda, recuar g
Para verificar o desempenho do robo na tarefa proposta foram colocados 2 corpos
de prova em um ambiente como mostrado na Figura 2.2.. Apos o aprendizado mais dois
ambientes foram testados no simulador e o robo navegou neles normalmente sem precisar
de um novo treinamento (Figura 2.2.(b) e(c)).
estados
passagem livre
colisao
risco de colisao
levar para lixeira
obstaculo
recompensas
10
-100
-100
100
-50
objeto 1
objeto 2
(a)
lixeira
(b)
(c)
Figura 5.6: (a) Planta do ambiente real onde o robo recolheu objetos e aprendeu
a navegar (4m7m); (b) e (c) ambientes construdos no simulador,
com 8m8m e 10m15m respectivamente.
Agradecimentos
Carlos H. Costa Ribeiro agradece a` FAPESP (Proc. 99/05777-2) e ao CNPq (bolsa
301228/97-3) o apoio prestado. Anna H. Reali Costa agradece ao NSF/CNPq-ProTeM
CC pelo financiamento do projeto MAPPEL (Proc. 68003399-8). Roseli A. Francelin
Romero agradece a` FAPESP (Proj. 2000/02959-3) e ao CNPq (bolsa 300634/92-7).
Referencias
[1] P.E. Agre e S.J. Rosenschein (eds.). Computational Theories of Interaction and Agency.
MIT Press, 1996.
[2] J.S. Albus. The NIST Real-time Control System (RCS) An Approach to Intelligent Systems Research. Journal of Experimental and Theoretical Artificial Intelligence 9,
pp. 157-174, 1997.
[3] G. Andeen (ed.). Robot Design Handbook. SRI International, McGraw-Hill, 1988.
[4] R.C. Arkin. Path Planning for a Vision-Based Autonomous Robot. In Procs. of the SPIE
Conf. on Mobile Robots. Cambridge, MA (EUA), pp. 240-49, 1986.
[5] R.C. Arkin. Behavior-Based Robotics. MIT Press, 1999.
[6] J.A. Bagnell, K.L. Doty, e A.A. Arroyo. Comparison of Reinforcement Learning Techniques for Automatic Behavior Programming. In Proceedings of the CONALD.
CMUUSA, 1998.
[7] A.G. Barto, S.J. Bradtke, e S.P. Singh. Learning to act using realtime dynamic programming. Artificial Intelligence, 1993.
[27] L.E. Parker. ALLIANCE: an architecture for fault tolerant multi-robot cooperation. IEEE
Transactions on Robotics and Automation, 14(2), 2200-240.
[28] D.Pormeleau, Neural Network Perception for Mobile Robot Guidance. Kluwer Academic
Publishers, 1993.
[29] M.L. Puterman. Markov Decision Process - Discrete Stochastic Dynamic Programming.
John Wiley & Sons, New York, NY, 1994.
[30] A. H. Reali Costa e R. Pegoraro. Construindo Robos Autonomos para Partidas de Futebol:
O Time Guarana. Revista Controle & Automac a o, 11:141-149, 2000.
[31] C.H.C. Ribeiro. A Tutorial on Reinforcement Learning Techniques. In A.P. Braga (ed.),
CD-ROM, Supervised Learning track tutorials, International Joint Conference on
Neural Networks, INNS Press, Washington DC, 1999.
[32] C.H.C. Ribeiro. Autonomous learning based on cost assumptions: Theoretical studies and
experiments in robot control. International Journal of Neural Systems, 9: 243-250,
1999.
[33] C.H.C. Ribeiro e C. Szepesvari. Q-learning combined with spreading: Convergence and
results. In Procs. of the ISRF-IEE International Conf. on Intelligent and Cognitive
Systems (Neural Networks Symposium), pp. 32-36, 1996.
[34] D.E.Rumelhart, G.E. Hinton e R.J.Williams. Learning internal representations by error propagation. In Parallel Distributed Processing, Vol. I + II, D.E.Rumelhart e
J.L.McClelland (eds.), MIT Press, 1986.
[35] S. Russell e P. Norvig. Artificial Intelligence: A Modern Approach. Prentice-Hall, 1995.
[36] R.S. Sutton e A.G. Barto. Reinforcement Learning: An Introduction. MIT Press, 1998.
[37] A. Schwartz. A reinforcement learning method for maximizing undiscounted rewards, In
Machine Learning: Procs. of the 10th Int. Conf., Morgan Kaufmann, 1993.
[38] P. Tadepalli e D. Ok. A reinforcement learning method for optimizing undiscounted average reward, TR. 94-30-01, Dept. of Computer Science, Oregon State University
(EUA), 1994.
[39] S. Thrun e A. Buchen. Integrating grid-based and topological maps for mobile robot navigation. In Procs. of the 13th National Conference on Artificial Intelligence, Menlo
Park, Aug. AAAI Press/MIT Press, 1996.
[40] C.J.C.H. Watkins. Learning from Delayed Rewards. Tese de Doutorado, University of
Cambridge, 1989.
[41] B. Widrow e M.E. Hoff. Adaptive switching circuits. In 1960 IRE WESCON Convention
Record, pages 96-104, New York, 1960.
[42] S. Waldherr, R. Romero e S. Thrun, A Gesture Based Interface for Human-Robot Interaction. Autonomous Robots 9, pp. 151-173, 2000.