Você está na página 1de 8

Anais do XIX Congresso Brasileiro de Automtica, CBA 2012.

SEMFORO INTELIGENTE UMA APLICAO DE APRENDIZAGEM POR REFORO


GABRIEL M. COSTA, GUILHERME S. BASTOS
Centro de Referncia em Tecnologias da Informao, Instituto de Engenharia de Sistemas e Tecnologias da
Informao, Universidade Federal de Itajub
Av. BPS, 1303. Itajub-MG
E-mails: gabrielmelo12@yahoo.com, sousa@unifei.edu.br
Abstract- Considering the great development and growth of the country, a major problem that can be found in the cities of medium and
large is the chaotic traffic of vehicles inside. This problem is often intensified by the poor system of operation of existing traffic lights. This
work presents the development of intelligent traffic lights, which aims to control, with Reinforcement Learning techniques, the time to open
and close the traffic lights at intersections, as well as the relationship between the percentages of time involved in traffic lights, maximizing
the flow of vehicles. For this purpose, several simulations were performed in software SimEvents (a MatLab package), initially considering
an intersection with two interdependent traffic lights. We performed a modeling of the junction by Reinforcement Learning methods, seeking to adapt the time involved in the problem, maximizing the flow of vehicles.
Keywords: Reinforcement Learning, simulation, traffic flow, intersection.
Resumo- Com o grande desenvolvimento e crescimento do mundo em geral, pode-se notar que um dos principais problemas nas cidades de
mdio e grande porte a situao catica do trfego de veculos em seu interior. Problema este que muitas das vezes intensificado com o
sistema precrio de funcionamento dos atuais semforos. Este projeto tem como proposta o desenvolvimento de um Semforo Inteligente,
que visa controlar, com tcnicas de Aprendizagem por Reforo, o tempo de aberto e fechamento dos semforos em cruzamentos, bem como
a relao de porcentagem deste tempo entre os semforos envolvidos, de modo a maximizar o fluxo de veculos. Para isso, diversas simulaes foram realizadas no software SimEvents (um pacote do Matlab) considerando inicialmente um cruzamento com dois semforos interdependentes. Foi feita a modelagem do cruzamento, por mtodos de Aprendizagem por Reforo, buscando adequar o tempo envolvido no
problema, maximizando o fluxo de veculos.
Palavras-chave: Aprendizagem por Reforo, simulao, fluxo de veculos, cruzamento.

1 Introduo
Atualmente, com o enorme crescimento do pas e
o apelo comercial automobilstico, nota-se a imensa
frota de veculos existente nas ruas das grandes cidades de todo pas. Isto faz vivenciar-se com srio problema de mobilidade urbana, problema este que pode
ser notado principalmente nos horrios de pico, ou
seja, ida e volta do trabalho, em que quilmetros de
congestionamentos so formados, dado principalmente, por ineficincia no sistema de controle e distribuio do trfego de veculos.
Toma-se como exemplo o fato de ficar parado em um
semforo sendo que na outra via no passa nenhum
veculo. Esta ocorrncia faz com que o semforo deixe de atuar como um controlador de trfego e atue
como um intensificador de congestionamento. Foi
realizado neste trabalho um estudo para suprir essa
deficincia no controlador de trfego, com o intuito
de projetar um semforo capaz de tomar uma deciso
de acordo com a situao atual do trnsito, ou seja,
semforo que tome devida deciso em tempo real
durante todo o dia.
O problema da mobilidade urbana que as grandes
cidades vm enfrentando citado por Scaringella
(2001) em que enfatizado o uso de tecnologia para
controle do trfego. Para isto, estudos da tcnica de
Aprendizagem por Reforo (AR) e sistemas estocsticos Markovianos, foram realizados concomitantes
com estudos na rea de Processos de Deciso
Markov (MDP). O estudo para desenvolvimento de

ISBN: 978-85-8001-069-5

semforo inteligente tema de ordem cientfica como


demonstrado por Wiering et al (2003), Wiering
(2000) e Thorpe (1997), fazem uso do AR.
De acordo com Sutton e Barto (1998) a AR um
formalismo da Inteligncia Artificial que permite a
um indivduo aprender a partir da sua interao com
o ambiente no qual ele est inserido. A aprendizagem
se d atravs do conhecimento sobre o estado do indivduo no ambiente, das aes efetuadas e das mudanas de estado decorrentes das aes que so elementos essenciais na rea de AR, a qual vem sendo
muito utilizada com sucesso em problemas reais nos
ltimos anos (Kaelbling, Littman, e Moore, 1996).
Este trabalho apresenta um problema de aprendizado
dos tempos envolvidos em um cruzamento contendo
dois semforos, de modo que haja a maximizao do
somatrio de carros em ambas as vias. Foram utilizados o software matemtico MatLab e seu pacote de
simulao SimEvents, que produz resultados atravs de equaes matemticas e que tem como objetivo proporcionar melhores solues para o desenvolvimento do processo. O algoritmo de aprendizagem
por reforo utilizado neste problema foi o SARSA
(Singh, Jaakkola, Littman e Szepesvri, 2000), o qual
bem aplicado em sistemas com aprendizagem em
tempo real.
O artigo est organizado como se segue: primeiramente apresentada a teoria MDP, o qual a base
terica para AR, a qual logo em seguida apresentada; apresentasse-se ento a modelagem do problema
e os resultados; finalizando o artigo so apresentadas
concluses e as perspectivas de trabalhos futuros.

4909

Anais do XIX Congresso Brasileiro de Automtica, CBA 2012.

2 Processo Deciso de Markov


Um Processo Deciso de Markov (MDP) uma
forma de modelar processos onde as transies entre
estados so probabilsticas, os estados so observveis e possvel interferir com o sistema dinmico
atravs de aes que produzem mudanas de estado e
recompensas. Cada ao tem uma recompensa (ou
custo), que depende do estado em que o processo se
encontra.
Este processo dito de Markov (ou Markovianos) porque os processos modelados obedecem
propriedade de Markov: o efeito de uma ao em um
estado depende apenas da ao e do estado atual do
sistema (e no de como o processo chegou a tal estado); e so chamados de processos de deciso porque modelam a possibilidade de um agente (ou tomador de decises) interferir periodicamente no
sistema executando aes. MDPs podem ser aplicados em um grande nmero de reas diferentes, por
exemplo, finanas e investimentos, inspeo, manuteno e reparao, recursos hdricos, como mostra
White (1993).
2.1 Definio MDP
Um MDP uma tupla (S, A, T, R), onde:
S um conjunto de estados em que o processo pode
estar;
A um conjunto de aes que podem ser executadas em diferentes pocas de deciso;
T: S x A x S [0, 1] uma funo que d a probabilidade de o sistema passar para um estado s S,
dado que o processo estava em um estado s S e o
agente decidiu executar uma ao a A (denotada T(s|
s, a)); e
R: S x A R uma funo que d o custo (ou recompensa) por tomar uma deciso A quando o processo est em um estado S.

(1)
A recompensa esperada total, E :
(2)
A recompensa esperada descontada, E:
(3)
Sendo z o horizonte de um MDP.
Neste trabalho foi determinado que a recompensa
fosse a diferena de carros que passaram pelo semforo menos a quantidade que ficaram na fila. Para
isto foi utilizada a recompensa mdia por poca das
amostras coletadas em tempos pr-definidos. Portanto um estado timo para este modelo quando se tem
a mxima recompensa, ou seja, quantidade mxima
de carros que passaram pelo menos a quantidade de
carros que ficaram na fila.
O fator de desconto ]0,1[ usado com horizonte
finito para garantir a convergncia do valor da recompensa total esperada.
Uma poltica tima e denotada por * quando a
recompensa total esperada para todo estado maximizada. O valor do estado, para uma poltica qualquer, representado pela funo valor V(s). A funo
valor V*(s) d a recompensa total esperada para uma
poltica tima *:
(4)
Dado um estado s S, uma ao a A e uma poltica
para um MDP, pode-se definir o valor da ao a no
estado s, considerando a recompensa imediata de a e
a recompensa esperada aps a, nas outras pocas de
deciso, desde que as aes tomadas aps a sejam
determinadas pela poltica . Sendo V(s) o valor do
estado dada uma poltica . A funo que d este
valor denotada por Q. Para a esperana da recompensa total descontada, Q definida como:
(5)

Considerando que o sistema est em algum estado s e


em dada poca deciso k, necessrio selecionar
qual ao a deve ser executada. A ao selecionada
seguindo uma regra de deciso, sendo uma forma
simples de regra de deciso o mapeamento direto de
estados em aes. O conjunto de todas as regras de
deciso chamado de poltica .
Ao executar uma poltica, o tomador de decises
receber recompensas em cada poca de deciso.
Para comparar duas polticas, necessrio um critrio de desempenho que pode ser definido por diversos critrios de desempenho (ou de otimalidade)
para MDPs, e entre os mais conhecidos pode-se citar:
A recompensa mdia por poca de deciso:

ISBN: 978-85-8001-069-5

Para uma poltica tima *, tem-se:

(6)
3 Aprendizagem por Reforo
Aprendizado por Reforo (AR) uma tcnica de
aprendizado de mquina, bastante usada em controle
de processos industriais, em que um agente aprende

4910

Anais do XIX Congresso Brasileiro de Automtica, CBA 2012.

por sucessivas interaes com o seu ambiente e escolhe as aes que proporcionam os melhores resultados/ganhos. O ambiente apresenta, a cada interao,
ou seja, a cada nova ao at, sua respectiva recompensa rt ,atingido um novo estado st e um valor numrico, chamado recompensa ou reforo, rt+1 para
avaliar a ao (conforme Figura 1).

Retorno atrasado: um valor de reforo alto enviado


pelo ambiente ao agente no significa necessariamente que a ao tomada por este recomendada. Uma
ao produto de uma deciso local no ambiente,
sendo seu efeito imediato de natureza local, enquanto
que em um sistema de AR o intuito alcanar objetivos globais. Ou seja, a qualidade das aes vista
pelas solues em longo prazo.
Orientado pelo objetivo: em AR no necessrio
conhecer detalhes da modelagem do ambiente. Simplesmente existe um agente que age neste ambiente
desconhecido tentando alcanar um objetivo, que
geralmente aperfeioar a deciso/ao dentro do
ambiente.

Figura 1 - Interao entre agente e ambiente

O domnio deve ser modelado como um MDP, onde


o agente e o ambiente interagem em uma seqncia
discreta de passos no tempo, o estado e a ao em
dado instante determinam a distribuio de probabilidades para o estado seguinte e o reforo. O objetivo
do agente normalmente escolher aes de modo a
maximizar uma soma descontada dos reforos subseqentes.
A principal diferena entre o AR e outras tcnicas de
aprendizado de mquina a utilizao da avaliao
das aes tomadas (Sutton e Barto, 1998). Em outros
mtodos, so utilizados instrues ou exemplos, informando as situaes e as aes corretas que devem
ser tomadas. Na AR, o agente tenta descobrir, dentre
as possveis aes, quais delas promovem melhores
resultados, utilizando apenas sua prpria experincia.
A Funo de Recompensa define, para o estado atual,
qual a melhor ao imediata enquanto a Funo de
Valor permite a avaliao das possveis aes em
longo prazo. Estas funes no so alteradas durante
as interaes enquanto so utilizadas para atualizar a
Poltica, definindo os melhores mapeamentos estadoao.
3.1 Caractersticas da aprendizagem por reforo
Os elementos que caracterizam Aprendizagem
por Reforo so:
Aprendizado por interao: caracterstica principal
que define AR. O agente AR age no ambiente e
aguarda pelo valor do reforo/recompensa que o ambiente retorna em resposta perante a ao tomada,
assimilando atravs do aprendizado o valor obtido
para tomar decises posteriores.

ISBN: 978-85-8001-069-5

Investigao versus explorao: esta questo consiste em decidir quando se deve aprender e quando no
se deve aprender sobre o ambiente, mas usar a informao j obtida at o momento. Para que um sistema
seja realmente autnomo, esta deciso deve ser tomada por ele prprio. A deciso fundamentalmente
uma escolha entre agir baseado na melhor informao
que o agente dispe no momento ou agir para obter
novas informaes sobre o ambiente que possam
permitir nveis de desempenho ainda maiores no futuro. Em suma, o agente deve aprender quais aes
maximizam os ganhos obtidos, mas tambm deve
agir de forma a atingir esta maximizao explorando
aes ainda no executadas ou regies pouco visitadas no espao de estados. Uma boa estratgia ento
mesclar os modos de investigao e explorao.
No algoritmo SARSA (State-Action, Reward-State
Action) h possibilidade de se utilizar vrios tipos de
polticas de aprendizagem. A utilizada neste modelo
foi o GLIE (Greedy in the Limit with Infinite Exploration).
Estas polticas de aprendizado podem ser expressas a
partir de probabilidades e um exemplo da poltica
GLIE uma das formas de explorao de Boltzman.

(9)
Onde t o coeficiente de explorao do tempo t que
controla a taxa de explorao na poltica de aprendizado, isto , quanto mais t tende ao infinito, mais
vido o sistema se torna, convergindo mais rapidamente, explorando mais e investigando menos. Para
t com valores baixos o sistema permanece em maior
fase de investigao do que explorao, o que gera
uma convergncia mais prxima do ponto timo, mas
com tempo de convergncia maior.
4 Modelagem do Problema
O cruzamento que se deseja modelar pode ser
representado pela Figura 2, ou seja, um cruzamento e
dois semforos, semforo #1 e semforo #2.

4911

Anais do XIX Congresso Brasileiro de Automtica, CBA 2012.

Nota-se que o tempo que o semforo #1 fica aberto


maior que o tempo em que o semforo #2 fica aberto,
por ter usado uma largura de pulso de 80%.
O algoritmo de aprendizagem por reforo tem a funo de encontrar, a partir de iteraes, o estado timo, isto , o melhor perodo e a respectiva largura de
pulso.
A recompensa mdia, RM, foi determinada como
sendo a diferena da quantidade de carros que passaram pelo semforo e os que ficaram na fila, como
descrito na Equao (10).

Figura 2 Cruzamento com dois semforos.

Neste trabalho o estado foi definido como a tupla:


(Perodo, Largura do Pulso). Cada estado possui um
perodo T e uma porcentagem (largura de pulso) que
corresponde porcentagem do perodo em que um
semforo fica aberto e o outro fechado. As larguras
de pulso de 40% e 80% so exemplificadas respectivamente nas Figuras 3 e 4:

Figura 3 Largura de pulso 40%

Onde T = T1+T2;
Por exemplo, para T=10s e uma largura de pulso de
40% o tempo que o semforo #1 fica aberto pode ser
observado pelo tempo T1 e o tempo que o semforo #2 fica aberto representado por T2, como pode
ser observado na Figura 3.

RM= ((X(tamanho(X,1)-X(1)))/tamanho(X,1))(10)
(mdia(X1)+ mdia(X2))
Onde X a amostra, ou seja, a quantidade de carros
que passaram pelo cruzamento no tempo de simulao estipulado, X1 a quantidade de carros da fila1
que passaram pelo cruzamento, e X2 a quantidade
de carros da fila 2 que passaram pelo cruzamento.
Para isto foi utilizada a recompensa mdia por poca
das amostras coletadas em tempos pr-definidos.
Portanto um estado timo para este modelo quando
se tem a mxima recompensa, ou seja, quantidade
mxima de carros que passaram pelo cruzamento
menos a quantidade de carros que ficaram na fila.
Fazendo a anlise dos mtodos de convergncias,
conclumos que para o projeto em desenvolvimento,
o melhor mtodo a ser usado o SARSA. Pois se
trata da simulao de um cruzamento que pode apresentar diversos estados, isto , diferentes perodos e
largura de pulso. Com esta busca constante pela melhor ao a ser tomada para cada estado, este mtodo
permite encontrar um funcionamento timo dos semforos nos cruzamentos, evitando gerao de congestionamento muitas vezes desnecessrios.
A modelagem foi feita a partir do esquemtico feito
no SimEvents, pacote MatLab, o qual apresentado na Figura 5.
5 Resultados
Os resultados a seguir foram coletados a partir
da simulao do modelo desenvolvido. Foram feitas
varias simulaes que podero ser observadas nos
grficos abaixo.
Primeiramente, nas Figuras 6 e 7 pode ser observado
um exemplo de fila gerada por um bloco especfico,
Entity Generators, do software utilizado, que pode
representar um fila de trnsito real.

Figura 4 Largura de pulso 80%

ISBN: 978-85-8001-069-5

4912

Anais do XIX Congresso Brasileiro de Automtica, CBA 2012.

Figura 5 Modelo de um cruzamento SimEvents

Inicialmente foi simulado um Perodo de 50 segundos


e largura de pulso igual 20%, isto , o semforo #1
fica aberto por 10 segundos enquanto que o semforo #2 fica aberto por 40 segundos. Os grficos das
entidades nas filas podem ser observados nas Figuras
8 e 9, bem como o grfico que representa as entidades que passaram pelo bloco, para o estado especfico.

Figura 6 Nmero de entidades na Fila 1

Figura 8 Nmero entidades na Fila 1

Figura 7 Nmero de entidades na Fila 2

Nas Figuras 8 e 9 so apresentadas as filas para Perodos e Largura de pulso aleatrio, ou seja, tempo em
que um semforo fica aberto e o outro fechado, sem a
aplicao do algoritmo de Aprendizagem por Reforo.

ISBN: 978-85-8001-069-5

Figura 9 Nmero entidades na Fila 2

4913

Anais do XIX Congresso Brasileiro de Automtica, CBA 2012.

Figura 10 Nmero de entidades da fila 1 que j passaram o


cruzamento

um estado inicial qualquer e partir deste busca-se um


estado timo. O episdio evita tambm que o programa fique preso em 2 ou mais estados, e ainda
cada episdio contm vrios passos que o programa
executa para encontrar um estado timo para aquele
episdio.
Neste programa foram feitas simulaes usando 10
episdios e cada episdio contendo 200 passos.
Como explicado anteriormente, o valor de t utilizado inicialmente foi de 1, ou seja, um valor baixo considerado que a cada passo acrescido de um valor
pr-definido. Com este valor inicial de t o sistema
estava inicialmente em poca de maior investigao
do que explorao, medida que as iteraes foram
passando t foi aumentando e ento o sistema passou
para a fase de explorao.
Sero representados inicialmente alguns episdios e
seus respectivos estados timos. Posteriormente sero
mostrados todos os episdios em um s grfico. O
primeiro episdio, 200 passos, est representado na
Figura 12, o estado inicial foi sorteado aleatoriamente e a partir dele se encontrou o estado timo para
este episdio.

Figura 11 Nmero de entidades da fila 2 que passaram o cruzamento

Como descrito anteriormente, a recompensa mdia


ser calculada a partir da diferena da quantidade de
carro que passaram pelo semforo e a quantidade de
carros que ficaram na fila (Equao (10)).
Fazendo este clculo para este estado aleatrio, obteve-se RM= 1,9412.
Pode-se observar que o clculo do tempo timo envolvido na abertura e fechamento dos semforos e a
mxima recompensa no so triviais, pois devem ser
levados em considerao diversos estados possveis
de atuao. Para isso ser utilizado como princpio a
tcnica de Aprendizagem por Reforo, onde se espera que o agente encontre a melhor ao a ser tomada
em um estado qualquer. Esta integrao do AR com o
clculo dos tempos e porcentagem foi desenvolvido
utilizando a rea de programao, M-file, do MatLab e fazendo a conexo com o modelo desenvolvido no Simulink.
Para se ter como base de tempo o perodo T foi limitado para variar entre 30 e 90 segundos, j a largura
do pulso pode ser de 1% a 99% do perodo T.
A execuo de programas de AR requer certo nmero
de episdios, sendo que em cada episdio sorteado

ISBN: 978-85-8001-069-5

Figura 12 - Grfico de Recompensa Mdia - 1. Episdio

Este 1. episdio comeou suas iteraes a partir do


estado 50 segundos e 45% de largura de pulso. A
partir deste estado, teve-se 200 passos e conclui-se
que o estado timo para este episdio de 41 segundos e 39% de largura de pulso. Fazendo o clculo
para este estado, utilizando a Equao (10), obteve-se
RM = 8,0588.
Este estado timo representa uma passagem mxima
de entidades pelo semforo, tendo conseqentemente
fila mnima. Isto pode ser comprovado comparando
os grficos das Figuras 13 e 14 de entidades que passaram pelo cruzamento e o grfico das Figuras 6 e 7
que representam a quantidade de entidades geradas.

4914

Anais do XIX Congresso Brasileiro de Automtica, CBA 2012.

mento e o grfico das Figuras 6 e 7 que representam


a quantidade de entidades geradas.

Figura 13- Quantidade entidades da fila 1 que passaram o cruzamento.

Figura 14- Quantidade entidades da fila 2 que passaram o cruzamento.

No 7. episdio as iteraes comearam a partir do


estado 58 segundos e 33% de largura de pulso. A
partir deste estado, teve-se 200 passos e conclui-se
que o estado timo para este episdio 38 segundos
e 68% de largura de pulso. Fazendo o clculo para
este estado, utilizando a equao 10, obteve-se
RM = 7.

Figura 15 - Grfico de Recompensa Mdia- 7 Episdio

Figura 16- Quantidade entidades da fila 1 que passaram o cruzamento.

Figura 17- Quantidade entidades da fila 2 que passaram o cruzamento.

No 9. episdio, como pode ser observado na Figura


18, o sistema ficar preso entre os estados (53 segundos, 99%) e (30 segundos, 2%), no visitando outros
estados. Isto se d por ser um sistema de aprendizagem, quanto mais o agente aprende menos comum de
ocorrer este travamento.

Figura 18 - Grfico de Recompensa Mdia - 9 Episdio

Pode-se observar os grficos das Figuras 16 e 17 que


representam as entidades que passaram pelo cruza-

ISBN: 978-85-8001-069-5

4915

Anais do XIX Congresso Brasileiro de Automtica, CBA 2012.

6 Concluses e Trabalhos Futuros

Figura 19 - Grfico de Recompensa Mdia

Na Figura 19 esto representados todos os episdios


e passos desta simulao. Pode-se notar que a cada
novo episdio o sistema tende a encontrar um novo
estado timo at que a recompensa seja mxima. Para
este sistema o estado timo com um perodo de
30 segundos e largura de pulso 88%. Neste estado,
pode-se notar, como mostrado nas Figuras 20 e 21,
que todos os carros passaram pelo cruzamento, tendo
assim fila mnima.
Calculando a recompensa para este estado, utilizando
a equao 10, obteve-se RM= 8,4118.

Como pode ser visto nos grficos apresentados,


quando foi feita a simulao do sistema considerando
apenas um estado qualquer, sem aplicao da Aprendizagem por Reforo, obteve-se uma recompensa
mdia muito inferior ao estado obtido pela aplicao
da tcnica de Aprendizagem por Reforo.
Trabalhos como esse so vlidos para o desenvolvimento tecnolgico, uma vez que relacionam os conceitos presentes no meio acadmico com processos
reais presentes em indstrias, ou seja, essa uma
forma de se aplicar a teoria prtica obtendo resultados proveitosos.
Nesse projeto foi elaborada uma forma de integrar o
software SimEvents, com a tcnica de Aprendizagem por Reforo a fim de gerar um sistema que atinge o estado timo.
Este projeto servir como base de prximos trabalhos
que esto sendo desenvolvidos considerando quatro
cruzamentos e oito semforos interdependentes e
dependncia no tempo, isto , o fluxo de carros depende da instante atual e tem picos, como por exemplo na hora do rush.
Agradecimentos
Os autores agradecem Fundao de Amparo Pesquisa do Estado de Minas Gerais (FAPEMIG) pelo
apoio prestado neste projeto.
Referncias Bibliogrficas

Figura 20- Quantidade entidades da fila 1 que passaram o cruzamento.

Figura 21- Quantidade entidades da fila 2 que passaram o cruzamento.

ISBN: 978-85-8001-069-5

Scaringella, R.S.(2001) A crise da mobilidade urbana


em So Paulo. So Paulo Perpec. [online].
Wiering, M., Van Veenen , J., Vreeken, J. &
Koopman, A. (2003) Intelligent Trafic Light
Control. European Research Consortium for
Informatics and Mathematics, vol. 53, pp. 40-41.
Wiering, MA. (2000) Multi-agent reinforcement
learning for traffic light control. Proceedings of
the Seventeenth International Conference on
Machine Learning (ICML2000), pp. 1151-1158.
Thorpe, T.L. (1997) Vehicle Traffic Light Control
Using Sarsa. Tese de mestrado. Department of
Computer Science, Colorado State University.
Sutton, R. S. & Barto, A.G. (1998) Reinforcement
Learning: An Introduction. The MIT press.
Kaelbling, L. P., Littman, M. L. & Moore, A. W.
(1996) Reinforcement Learning: A survey. Arxiv
preprint
Singh, S.; Jaakkola, T.; Littman, M. L and
Szepesvri, C (2000). Convergence results for
single-step on-policy reinforcement learning
algorithms. Machine Learning, Vol. 38, No. 3.
White, D. J. (1993) A survey of applications of
Markov decision processes. The Journal of the
Operational Research Society, v. 44, n. 11, p.
10731096.

4916

Você também pode gostar