Escolar Documentos
Profissional Documentos
Cultura Documentos
1 Introduo
Atualmente, com o enorme crescimento do pas e
o apelo comercial automobilstico, nota-se a imensa
frota de veculos existente nas ruas das grandes cidades de todo pas. Isto faz vivenciar-se com srio problema de mobilidade urbana, problema este que pode
ser notado principalmente nos horrios de pico, ou
seja, ida e volta do trabalho, em que quilmetros de
congestionamentos so formados, dado principalmente, por ineficincia no sistema de controle e distribuio do trfego de veculos.
Toma-se como exemplo o fato de ficar parado em um
semforo sendo que na outra via no passa nenhum
veculo. Esta ocorrncia faz com que o semforo deixe de atuar como um controlador de trfego e atue
como um intensificador de congestionamento. Foi
realizado neste trabalho um estudo para suprir essa
deficincia no controlador de trfego, com o intuito
de projetar um semforo capaz de tomar uma deciso
de acordo com a situao atual do trnsito, ou seja,
semforo que tome devida deciso em tempo real
durante todo o dia.
O problema da mobilidade urbana que as grandes
cidades vm enfrentando citado por Scaringella
(2001) em que enfatizado o uso de tecnologia para
controle do trfego. Para isto, estudos da tcnica de
Aprendizagem por Reforo (AR) e sistemas estocsticos Markovianos, foram realizados concomitantes
com estudos na rea de Processos de Deciso
Markov (MDP). O estudo para desenvolvimento de
ISBN: 978-85-8001-069-5
4909
(1)
A recompensa esperada total, E :
(2)
A recompensa esperada descontada, E:
(3)
Sendo z o horizonte de um MDP.
Neste trabalho foi determinado que a recompensa
fosse a diferena de carros que passaram pelo semforo menos a quantidade que ficaram na fila. Para
isto foi utilizada a recompensa mdia por poca das
amostras coletadas em tempos pr-definidos. Portanto um estado timo para este modelo quando se tem
a mxima recompensa, ou seja, quantidade mxima
de carros que passaram pelo menos a quantidade de
carros que ficaram na fila.
O fator de desconto ]0,1[ usado com horizonte
finito para garantir a convergncia do valor da recompensa total esperada.
Uma poltica tima e denotada por * quando a
recompensa total esperada para todo estado maximizada. O valor do estado, para uma poltica qualquer, representado pela funo valor V(s). A funo
valor V*(s) d a recompensa total esperada para uma
poltica tima *:
(4)
Dado um estado s S, uma ao a A e uma poltica
para um MDP, pode-se definir o valor da ao a no
estado s, considerando a recompensa imediata de a e
a recompensa esperada aps a, nas outras pocas de
deciso, desde que as aes tomadas aps a sejam
determinadas pela poltica . Sendo V(s) o valor do
estado dada uma poltica . A funo que d este
valor denotada por Q. Para a esperana da recompensa total descontada, Q definida como:
(5)
ISBN: 978-85-8001-069-5
(6)
3 Aprendizagem por Reforo
Aprendizado por Reforo (AR) uma tcnica de
aprendizado de mquina, bastante usada em controle
de processos industriais, em que um agente aprende
4910
por sucessivas interaes com o seu ambiente e escolhe as aes que proporcionam os melhores resultados/ganhos. O ambiente apresenta, a cada interao,
ou seja, a cada nova ao at, sua respectiva recompensa rt ,atingido um novo estado st e um valor numrico, chamado recompensa ou reforo, rt+1 para
avaliar a ao (conforme Figura 1).
ISBN: 978-85-8001-069-5
Investigao versus explorao: esta questo consiste em decidir quando se deve aprender e quando no
se deve aprender sobre o ambiente, mas usar a informao j obtida at o momento. Para que um sistema
seja realmente autnomo, esta deciso deve ser tomada por ele prprio. A deciso fundamentalmente
uma escolha entre agir baseado na melhor informao
que o agente dispe no momento ou agir para obter
novas informaes sobre o ambiente que possam
permitir nveis de desempenho ainda maiores no futuro. Em suma, o agente deve aprender quais aes
maximizam os ganhos obtidos, mas tambm deve
agir de forma a atingir esta maximizao explorando
aes ainda no executadas ou regies pouco visitadas no espao de estados. Uma boa estratgia ento
mesclar os modos de investigao e explorao.
No algoritmo SARSA (State-Action, Reward-State
Action) h possibilidade de se utilizar vrios tipos de
polticas de aprendizagem. A utilizada neste modelo
foi o GLIE (Greedy in the Limit with Infinite Exploration).
Estas polticas de aprendizado podem ser expressas a
partir de probabilidades e um exemplo da poltica
GLIE uma das formas de explorao de Boltzman.
(9)
Onde t o coeficiente de explorao do tempo t que
controla a taxa de explorao na poltica de aprendizado, isto , quanto mais t tende ao infinito, mais
vido o sistema se torna, convergindo mais rapidamente, explorando mais e investigando menos. Para
t com valores baixos o sistema permanece em maior
fase de investigao do que explorao, o que gera
uma convergncia mais prxima do ponto timo, mas
com tempo de convergncia maior.
4 Modelagem do Problema
O cruzamento que se deseja modelar pode ser
representado pela Figura 2, ou seja, um cruzamento e
dois semforos, semforo #1 e semforo #2.
4911
Onde T = T1+T2;
Por exemplo, para T=10s e uma largura de pulso de
40% o tempo que o semforo #1 fica aberto pode ser
observado pelo tempo T1 e o tempo que o semforo #2 fica aberto representado por T2, como pode
ser observado na Figura 3.
RM= ((X(tamanho(X,1)-X(1)))/tamanho(X,1))(10)
(mdia(X1)+ mdia(X2))
Onde X a amostra, ou seja, a quantidade de carros
que passaram pelo cruzamento no tempo de simulao estipulado, X1 a quantidade de carros da fila1
que passaram pelo cruzamento, e X2 a quantidade
de carros da fila 2 que passaram pelo cruzamento.
Para isto foi utilizada a recompensa mdia por poca
das amostras coletadas em tempos pr-definidos.
Portanto um estado timo para este modelo quando
se tem a mxima recompensa, ou seja, quantidade
mxima de carros que passaram pelo cruzamento
menos a quantidade de carros que ficaram na fila.
Fazendo a anlise dos mtodos de convergncias,
conclumos que para o projeto em desenvolvimento,
o melhor mtodo a ser usado o SARSA. Pois se
trata da simulao de um cruzamento que pode apresentar diversos estados, isto , diferentes perodos e
largura de pulso. Com esta busca constante pela melhor ao a ser tomada para cada estado, este mtodo
permite encontrar um funcionamento timo dos semforos nos cruzamentos, evitando gerao de congestionamento muitas vezes desnecessrios.
A modelagem foi feita a partir do esquemtico feito
no SimEvents, pacote MatLab, o qual apresentado na Figura 5.
5 Resultados
Os resultados a seguir foram coletados a partir
da simulao do modelo desenvolvido. Foram feitas
varias simulaes que podero ser observadas nos
grficos abaixo.
Primeiramente, nas Figuras 6 e 7 pode ser observado
um exemplo de fila gerada por um bloco especfico,
Entity Generators, do software utilizado, que pode
representar um fila de trnsito real.
ISBN: 978-85-8001-069-5
4912
Nas Figuras 8 e 9 so apresentadas as filas para Perodos e Largura de pulso aleatrio, ou seja, tempo em
que um semforo fica aberto e o outro fechado, sem a
aplicao do algoritmo de Aprendizagem por Reforo.
ISBN: 978-85-8001-069-5
4913
ISBN: 978-85-8001-069-5
4914
ISBN: 978-85-8001-069-5
4915
ISBN: 978-85-8001-069-5
4916