Escolar Documentos
Profissional Documentos
Cultura Documentos
=Pr{
+1
=s |
= s}
Fundamentao Matemtica
Em geral, a resposta em t+1 para uma ao
efetuada em t, depende de todo o histrico
de aes at o momento atual, a dinmica do
ambiente definida pela especificao
completa da distribuio de probabilidades
Consideraes
Processo de Deciso Markoviano
ambiente deve evolui probabilisticamente de acordo
com um conjunto finito e discreto de estados;
para cada estado do ambiente, existe um conjunto de
aes possveis;
cada passo que o sistema de aprendizado executa, ou
seja, uma ao, o agente recebe um retorno;
estados so observados, aes so executadas e
reforos so relacionados.
TCNICAS DE SOLUO PARA AR
Programao Dinmica (PD)
Monte Carlo (MC)
Diferena Temporal (DT)
Q-learning
TCNICAS DE SOLUO PARA AR
Programao Dinmica (PD)
TCNICAS DE SOLUO PARA AR
Programao Dinmica (PD)-tima
TCNICAS DE SOLUO PARA AR
Monte Carlo (MC)
TCNICAS DE SOLUO PARA AR
Diferena Temporal (DT)
TCNICAS DE SOLUO PARA AR
Q-learning
PROJETO DE ROB
estados dado por S = {alto, baixo},
A(alto) = {vasculhar, aguardar} e
A(baixo) = {vasculhar, aguardar, recarregar}.
PROJETO DE ROB
PROJETO DE ROB
Diagrama de transio
PROJETO DE ROB
Fonte: SUTTON e BARTO[22]-adaptada
PROJETO DE ROB
Para facilitar na implementao representamos o estado alto
por h e o estado baixo por l. As aes so definidas como
recarregar = r, vasculhar = s e aguardar = w. Adotamos os
valores abaixo no desenvolvimento do algoritmo, fazendo
uma avaliao iterativa da poltica.
Rw= 1 = 0, 8 (l, r) = 1/3 (h,w) = 1/2
Rs= 10 = 0, 2 (l,w) = 1/3 (h, s) = 1/2
Rr= 0 = 0, 9 (l, s) = 1/3
Rf,r= 3
PROJETO DE ROB
Programao Dinmica (PD)
PROJETO DE ROB
Programao Dinmica (PD)
0 10 20 30 40 50 60 70 80 90 100
0
5
10
15
20
25
30
35
40
45
50
Interaes
V
a
l
o
r
d
a
F
u
n
o
(
V
)
V(l)
V(h)
PROJETO DE ROB
Programao Dinmica (PD)
0 10 20 30 40 50 60 70 80 90 100
0
1
2
3
4
5
6
Interaes
E
r
r
o
d
a
F
u
n
o
(
V
)
delta1-V(l)
delta2-V(h)
PROJETO DE ROB
Programao Dinmica (PD)-tima
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
10
20
30
40
50
60
70
80
90
Interaes
V
a
l
o
r
d
a
F
u
n
o
(
V
)
V(l)
V(h)
PROJETO DE ROB
Programao Dinmica (PD)-tima
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
0
10
20
30
40
50
60
70
80
Interaes
V
a
l
o
r
d
a
F
u
n
o
(
Q
)
Q(l,r)
Q(l,w)
Q(l,s)
PROJETO DE ROB
Programao Dinmica (PD)-tima
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000
0
10
20
30
40
50
60
70
80
90
Interaes
V
a
l
o
r
d
a
F
u
n
o
(
Q
)
Q(h,w)
Q(h,s)
PROJETO DE ROB
Monte Carlo (MC)
0 100 200 300 400 500 600 700 800 900 1000
0
20
40
60
80
100
120
Episodio
V
a
l
o
r
d
a
F
u
n
o
(
V
)
V(l)
V(h)
PROJETO DE ROB
Diferena Temporal (DT)
0 100 200 300 400 500 600 700 800 900 1000
0
20
40
60
80
100
120
Episodio
V
a
l
o
r
d
a
F
u
n
o
(
V
)
V(l)
V(h)
PROJETO DE ROB
Q-learning
0 100 200 300 400 500 600 700 800 900 1000
0
10
20
30
40
50
60
70
80
90
Interaes
V
a
l
o
r
d
a
F
u
n
o
(
Q
)
Q(l,r)
Q(l,w)
Q(l,s)
PROJETO DE ROB
Q-learning
0 100 200 300 400 500 600 700 800 900 1000
10
20
30
40
50
60
70
80
90
100
Interaes
V
a
l
o
r
d
a
F
u
n
o
(
Q
)
Q(h,w)
Q(h,s)
Consideraes Finais
O ZigBee apresentou caractersticas que lhe
torna uma excelente alternativa para
comunicao de sistemas na automao;
A tcnica de Aprendizagem por Reforo
indicada para controle de sistemas simples em
que se deseja tornar autnomo o comportamento
agente, maximizando sua poltica de controle;
ZigBee e AR so facilmente implementadas para
acionamento e controle de sistemas.
Kits de desenvolvimento
JABUTINO
NI LabVIEW Robotics Starter Kit for Prototyping
Kits de desenvolvimento
Fonte: http://www.rogercom.com/
Agradecimento
FIM
Por isso no temas, pois estou com voc;
no tenha medo, pois sou o seu Deus.
Eu o fortalecerei e o ajudarei;
eu o segurarei com minha mo direita vitoriosa.
Is: 41.10
Combati o bom combati,
terminei a corrida, guarde a f
2 Tm 4.7