Paper07 en PT

Traduzido do Inglês para o Português - www.onlinedoctranslator.
com
Workshop "Dos Objetos aos Agentes" (WOA 2019)
Uma Abordagem de Aprendizagem por Reforço Profundo para

Gerenciamento Adaptável de Semáforos
Andrea Vidali, Luca Crociani, Giuseppe Vizzari, Stefania Bandini CSAI -
Centro de Pesquisa em Sistemas Complexos e Inteligência Artificial,
análise de situações por meio de simulações baseadas em agentes, nas Uma das aceitações dos objetivos da IA é desenvolver
quais o comportamento de motoristas e outras entidades relevantes é máquinas que se assemelhem aointeligentecomportamento de um
modelado e computado em um ambiente sintético. Estes últimos, em ser humano. Para atingir esse objetivo, um sistema de IA deve ser
particular, atingiram um nível de complexidade e flexibilidade capaz de interagir com o ambiente e aprender a agir corretamente
suficientes e provaram sua capacidade de apoiar os tomadores de dentro dele. Uma área estabelecida da IA que provou ser capaz
decisão na exploração de formas alternativas de gerenciar o tráfego de aprendizado autônomo orientado pela experiência é o
em ambientes urbanos. Do lado da regulação dos padrões de tráfego, aprendizado por reforço [1]. Várias tarefas complexas foram
a disponibilização destes simuladores, aliada concluídas com sucesso usando aprendizado por reforço em vários
campos, como jogos [3], robótica [4] e controle de semáforos.
1https://population.un.org/wup/
42
Em um problema de Aprendizagem por Reforço (RL), um 1) Representação do Estado:O estado é a percepção do ambiente do
agente autônomo observa o ambiente e percebe um estadost, agente em uma etapa arbitrária. Na literatura, as representações do espaço
que é o estado do ambiente no instantet.Então o agente de estados diferem particularmente na densidade de informações.
escolhe uma açãoato que leva a uma transição do ambiente Embaixa densidade de informaçãorepresentações, geralmente as faixas
para o estadost+1. Após a transição do ambiente, o agente da interseção são discretizadas em células ao longo do comprimento da
obtém uma recompensart+1que diz ao agente o quão bom atfoi faixa. As células da pista são então mapeadas para células de um vetor, que
em relação a uma medida de desempenho. O objetivo do marca 1 se um veículo estiver dentro da célula da pista, 0 caso contrário [6].
agente é aprender a política π∗que maximiza a recompensa Algumas abordagens incluem informações adicionais, adotando tal vetor de
cumulativa esperada obtida como resultado de ações tomadas presença de carros com a adição de um vetor que codifica a velocidade
seguindo π∗. O ciclo padrão de aprendizado por reforço é relativa dos veículos [7]. A fase atual do semáforo também pode ser
mostrado na Figura 1. adicionada como um terceiro vetor [8].
Em relação às representações estaduais comalta densidade de
informações, geralmente o agente recebe umimagemda situação atual
de toda a interseção, ou seja, um instantâneo do simulador que está
sendo usado; vários instantâneos sucessivos serão empilhados juntos
para dar ao agente uma noção do movimento do veículo [9].
2) Representação de ações:No contexto do controle
semafórico, as ações do agente são implementadas com
diferentes graus de flexibilidade e são descritas a seguir.
Fig. 1. O ciclo de aprendizagem por reforço.
Entre a categoria de ação definida combaixa flexibilidade, o
agente pode escolher entre um conjunto definido de combinações
de luz. Quando uma ação é selecionada, umfiquantidade fixa de
tempovai durar antes que o agente possa selecionar uma nova
B. Aprendizagem no Controle de Sinais de Trânsito configuração [7]. Alguns trabalhos deram mais flexibilidade ao
O controle de semáforos é um contexto de aplicação adequado para
agente definindo a duração da fase com duração variável [10]. Um
técnicas de RL: neste framework, um ou mais agentes autônomos têm o
agente com ummaior flexibilidadeescolhe uma ação em cada
objetivo de maximizar a eficiência do fluxo de tráfego que passa por uma ou
etapa da simulação a partir de um conjunto fixo de combinações
mais interseções controladas por semáforos. O uso de RL para controle de
de luz. No entanto, a ação selecionada não é ativada se o tempo
semáforos é motivado por vários motivos [5]: (i) se treinados
mínimo necessário para liberar pelo menos um veículo não tiver
adequadamente, os agentes de RL podem se adaptar a diferentes situações
passado [8], [9]. Uma abordagem ligeiramente diferente seria ter
(por exemplo, acidentes rodoviários, más condições climáticas); (ii) os
um ciclo definido de combinações de luzes ativadas na interseção.
agentes de RL podem se auto-aprender sem supervisão ou conhecimento
A ação do agente é representada pela escolha dequando é hora de
prévio do ambiente; (iii) o agente precisa apenas de um modelo simplificado
trocarpara a próxima combinação de luz, e a decisão é tomada a
do ambiente (essencialmente relacionado à representação do estado), pois o
cada passo [11].
agente aprende usando a métrica de desempenho do sistema (ou seja, a 3) Representação de recompensa:A recompensa é usada pelo agente
recompensa). para entender os efeitos da última ação realizada no último estado;

geralmente é definido como uma função de algum indicador de
As técnicas de RL aplicadas ao controle de semáforos abordam
desempenho da interseção de forma eficiente, como atrasos de veículos,
os seguintes desafios: [5]
comprimentos de filas, tempos de espera ou rendimento geral.
• Sequência inapropriada de semáforos.Os semáforos geralmente
A maioria dos trabalhos inclui o cálculo da mudança entre o atraso
escolhem as fases em uma política estática e predefinida. Este método
cumulativo do veículo entre as ações, onde o atraso do veículo é
poderia provocar o acionamento de uma fase de semáforo
definido como o número de segundos em que os veículos estão
inapropriada em uma situação que poderia ocasionar um aumento
parados [8], [9]. Da mesma forma, pode-se utilizar o tempo cumulativo
nos tempos de viagem.
de permanência do veículo, que é o número de segundos que o veículo
• Durações inadequadas dos semáforos.Cada fase do semáforo
está parado desde sua entrada no ambiente [7]. Além disso, alguns
tem uma duração pré-definida que não depende das
trabalhos combinam múltiplos indicadores em uma soma ponderada
condições atuais do trânsito. Esse comportamento pode
[11].
causar esperas desnecessárias para a fase verde.
Embora as vantagens acima sejam potenciais da abordagem
C. Modelos adotados e algoritmos de aprendizagem
RL para controle de semáforos, nem todas elas já foram
alcançadas e (como mostraremos no restante do artigo) a A mais recente pesquisa de aprendizado por reforço propôs
presente abordagem representa apenas um passo inicial nessa várias soluções possíveis para resolver o problema de controle de
linha geral de trabalhar. semáforos, em que emerge que diferentes algoritmos e estrutura
Para aplicar um algoritmo RL, é necessário definir a de redes neurais podem ser usados, embora algumas técnicas
representação do estado, as ações disponíveis e as funções de comuns sejam necessárias, mas não suficientes para garantir um
recompensa; a seguir, descreveremos as abordagens mais bom desempenho .
amplamente adotadas para o projeto desses elementos no O algoritmo mais utilizado para resolver o problema é o Q-
contexto do Controle de Sinais de Trânsito. learning. O comportamento ótimo do agente é alcançado com
43
o uso de redes neurais para aproximar valores-Q dado um estado. a passagem do tempo é representada em etapas de simulação.
Frequentemente, esta abordagem inclui uma Rede Neural Convolucional Mas o agente só opera em determinadas etapas, depois que o
(CNN) para calcular o estado do ambiente e aprender características de uma ambiente já evoluiu o suficiente. Portanto, neste trabalho, cada
imagem [9] ou uma representação espacial [8], [7]. etapa dedicada ao fluxo de trabalho do agente é denominada
Gêneros e Ravi [8] e Gao et al. [7] fazem uso de uma Rede agentstep, enquanto as etapas dedicadas à simulação são
Neural Convolucional para aprender características de sua chamadas simplesmente de “steps”. Assim, após uma certa
representação espacial do ambiente. A saída desta rede com a fase quantidade de etapas de simulação, o agente inicia sua sequência
atual é passada para duas camadas totalmente conectadas que se de operações coletando o estado atual do ambiente. Além disso, o
conectam às saídas representadas por Qvalues. Este método agente calcula a recompensa da ação selecionada anteriormente,
mostrou bons resultados em [7] trabalhando contra diferentes usando alguma medida da situação atual do tráfego. A amostra de
políticas de semáforos, como long-queue-first e fixed-times, dados contendo todas as informações sobre as últimas etapas da
enquanto em [8] é comparado a uma rede neural rasa, na qual simulação é salva em uma memória e posteriormente extraída
(embora mostre uma boa desempenho) uma avaliação em relação para uma sessão de treinamento. Agora o agente está pronto para
aos semáforos do mundo real levaria a resultados mais selecionar uma nova ação com base no estado atual do ambiente,
significativos.
Mousavi et ai. [9] analisaram uma abordagem dupla para resolver o
problema de controle de semáforos. A primeira abordagem é baseada
em valores, enquanto a segunda é baseada em políticas. Na primeira
abordagem, os valores de ação são previstos minimizando o erro
quadrático médio dos valores Q com o método gradiente descendente
estocástico. Na abordagem alternativa, a política é aprendida
atualizando os parâmetros da política de tal forma que a probabilidade
de boas ações aumenta. Uma CNN é usada como um aproximador de
funções para extrair características da imagem da interseção, onde na
abordagem baseada em valor a saída é o valor das ações, e na
abordagem baseada em políticas é uma distribuição de probabilidade
sobre as ações. Os resultados mostram que ambas as abordagens
alcançam bom desempenho em relação a uma linha de base definida e
não sofrem de problemas de instabilidade.
Em [10], uma rede neural deep stacked autoencoders (SAE) é usada Fig. 2. Fluxo de trabalho do agente.
para aprender valores-Q. Essa abordagem usa codificadores

O ambiente onde o agente atua é representado na Figura 3. É uma
automáticos para minimizar o erro entre a previsão do valor Q da rede
interseção de 4 vias onde 4 faixas por braço se aproximam da
neural do codificador e o valor Q alvo usando uma função de perda
interseção a partir das direções da bússola, levando a 4 faixas por
específica. É mostrado que alcança melhor desempenho do que os
braço saindo da interseção. Cada braço tem 750 metros de
métodos tradicionais de RL.
comprimento. Em cada braço, cada faixa define as possíveis direções
que um veículo pode seguir: a faixa mais à direita permite que os
III. EXPERIMENTALSETTING veículos vire à direita ou sigam em frente, as duas faixas centrais
O microssimulador de tráfego utilizado para esta pesquisa é o obrigam o motorista a seguir em frente enquanto na faixa mais à
Simulation of Urban MObility (SUMO) [12]. O SUMO fornece um pacote esquerda a curva à esquerda é a única direção permitida. No centro da
de software que inclui um editor de infraestrutura, uma interface de interseção, um sistema de semáforos, controlado pelo agente, gerencia
simulador e uma interface de programação de aplicativos (API). Esses o tráfego que se aproxima. Em particular, em cada braço, a faixa mais à
elementos permitem que o usuário projete e implemente esquerda tem um semáforo exclusivo, enquanto as outras três faixas
configurações e funcionalidades personalizadas de uma infraestrutura compartilham um semáforo. Todos os semáforos do ambiente
rodoviária e troque dados durante a simulação de tráfego. funcionam de acordo com os regulamentos europeus comuns, com a
Nesta pesquisa, será investigada a chance de melhoria na única exceção sendo a ausência de tempo entre o final de uma fase
fluidez do trânsito que passa por um cruzamento controlado por amarela e o início da próxima fase verde. Neste ambiente não estão
semáforos, utilizando técnicas de inteligência artificial. O agente é incluídos pedestres, calçadas e travessias de pedestres.
representado pelo sistema de semáforos que interage com o
ambiente a fim de maximizar uma certa medida de eficiência do
tráfego. Dada essa premissa geral, o problema abordado neste A. Configuração de treinamento e geração de tráfego
trabalho é definido da seguinte forma: dado o estado da Todo o treinamento é dividido em vários episódios. O número total
interseção, qual é a fase do semáforo que o agente deve escolher, de episódios é 300. Por padrão, o SUMO fornece uma frequência de
selecionada a partir de um conjunto fixo de ações predefinidas, a tempo de 1 segundo por etapa e o período de cada episódio é definido
fim de maximizar a recompensa e, consequentemente, otimizar a em 1 hora e 30 minutos, portanto, o número total de passos por
eficiência do tráfego da interseção. episódio é igual a 5400. 300 episódios de 1,30 horas cada equivalem a
O fluxo de trabalho típico do agente é mostrado na quase 19 dias de tráfego contínuo, e todo o treinamento leva cerca de 6
Figura 2. É de salientar que nesta aplicação com SUMO, horas em um laptop de última geração.
44
de cada braço distribuído uniformemente. Então, 75% dos carros

gerados irão direto e 25% dos carros irão virar à esquerda ou à
direita no cruzamento.
• Cenário de baixo tráfego. 600 carros se aproximam da interseção
de cada braço distribuído uniformemente. Então, 75% dos carros
gerados irão direto e 25% dos carros irão virar à esquerda ou à
direita no cruzamento.
• Cenário de tráfego NS. 2.000 carros se aproximam do
cruzamento, sendo 90% deles vindos do braço Norte ou Sul.
Então, 75% dos carros gerados irão direto e 25% dos carros
irão virar à esquerda ou à direita no cruzamento.
• Cenário de tráfego EW. 2.000 carros se aproximam do
cruzamento, com 90% deles vindo do braço leste ou oeste.
Então, 75% dos carros gerados irão direto e 25% dos carros
irão virar à esquerda ou à direita no cruzamento.
Cada cenário corresponde a um único episódio e eles circulam
durante o treinamento sempre na mesma ordem.
Figura 3. O ambiente.
4. DESCRIÇÃO DARREFORÇOeuGANHO
AAPROXIMAÇÃO
Em uma interseção simulada, a geração de tráfego é uma parte Para projetar um sistema baseado na estrutura de aprendizado por
crucial que pode ter um grande impacto no desempenho dos agentes. reforço, é necessário definir a representação do estado, o conjunto de
Para manter um alto grau de realidade, a cada episódio o tráfego será ações, a função de recompensa e as técnicas de aprendizado do agente
gerado segundo uma distribuição Weibull com formato igual a 2. Um envolvidas. Deve-se notar que os elementos de tal agente neste
exemplo é mostrado na Figura 4. A distribuição é apresentada na trabalho são facilmente substituíveis por um sistema de
forma de um histograma, onde as etapas de um episódio de simulação monitoramento de tráfego em um dispositivo do mundo real, em
são definidas no eixo x e o número de veículos gerados nessa janela de comparação com outros estudos relevantes neste tópico que possuem
etapa é definido no eixo y. A distribuição Weibull aproxima situações requisitos mais elevados em termos de viabilidade técnica.
específicas de tráfego, onde durante o estágio inicial o número de
carros está aumentando, representando um horário de pico. Em
A. Representação do estado
seguida, o número de carros que chegam diminui lentamente,
descrevendo a mitigação gradual do congestionamento do tráfego. O estado do agente descreve uma representação da situação do
Além disso, todos os veículos gerados têm as mesmas dimensões ambiente em uma determinada etapa do agentete geralmente é
físicas e desempenho. denotado porst. Para permitir que o agente aprenda efetivamente
a otimizar o tráfego, o estado deve fornecer informações
suficientes sobre a distribuição de carros em cada estrada.
O objetivo da representação escolhida é permitir que o agente
saiba a posição dos veículos dentro do ambiente no agentstept.
Para tanto, a abordagem proposta neste trabalho é inspirada no
DTSE [8], com a diferença de que menos informação é codificada
neste estado. Em particular, este projeto de estado inclui apenas
informações espaciais sobre os veículos hospedados dentro do
ambiente, e as células usadas para discretizar o ambiente contínuo
não são regulares. O design escolhido para a representação do
estado é focado no realismo: trabalhos recentes sobre
controladores de semáforos propuseram estados ricos em
Fig. 4. Distribuição da geração de tráfego em um único episódio. informações, mas na realidade são difíceis de implementar, pois as
informações usadas nesse tipo de representação são difíceis de
A distribuição de tráfego descrita fornece a etapa exata do episódio coletar. Portanto, neste trabalho será investigada a chance de
em que um veículo será gerado. Para cada veículo programado, seu obter bons resultados com uma representação de estado simples e
braço de origem e braço de destino são determinados usando um de fácil aplicação.
gerador de números aleatórios que possuem uma semente diferente Tecnicamente, em cada braço da interseção, as faixas de entrada
em cada episódio, portanto, não é possível ter dois episódios são discretizadas em células que podem identificar a presença ou
equivalentes. Para obter um verdadeiro agente adaptativo, a simulação ausência de um veículo dentro delas. Na Figura 5 é mostrada a
deve incluir uma variedade significativa de fluxos e padrões de tráfego representação do estado para o braço oeste da interseção. Entre o
[13]. Portanto, quatro cenários diferentes são definidos e são os início da estrada e a linha de paragem do cruzamento, existem 20
seguintes. células. 10 deles estão localizados ao longo da faixa da esquerda,
• Cenário de alto tráfego. 4000 carros se aproximam do cruzamento enquanto os outros 10 cobrem as outras três faixas. Portanto, em
45
Fig. 5. Desenho da representação do estado no braço oeste da interseção, com o Fig. 6. Representação gráfica das quatro ações possíveis.
comprimento das células.
ação, uma fase amarela de 4 segundos é iniciada entre as duas

toda a interseção tem 80 células. Nem todas as células têm o mesmo tamanho: ações. Isso significa que o número de etapas de simulação entre
quanto mais longe a célula estiver da linha de parada, mais longa ela será, duas ações iguais é 10, pois 1 etapa de simulação é igual a 1
portanto, mais comprimento da pista será coberto. A escolha do comprimento de segundo no SUMO. Quando as duas ações consecutivas são
cada célula não é trivial: se as células forem muito longas, alguns carros que se diferentes, a fase amarela conta como 4 etapas de simulação
aproximam da linha de cruzamento podem não ser detectados; se as células extras e, portanto, o número total de etapas de simulação entre as
forem muito curtas, o número de estados necessários para cobrir o comprimento ações é 14. A Figura 7 mostra um breve esquema deste processo.
da pista aumenta, trazendo maior complexidade computacional. Neste trabalho, o
comprimento das células mais curtas, que também são as mais próximas da linha
de parada, é exatamente 2 metros maior que o comprimento de um carro.
Em resumo, sempre que o agente observar o estado do

ambiente, obterá o conjunto de células que descrevem a
presença ou ausência de veículos em todas as áreas das vias
de entrada.
B. Conjunto de ações
Figura 7. Possíveis diferenças de etapas de simulação entre ações.
O conjunto de ações identifica as possíveis ações que o agente pode
realizar. O agente é o sistema de semáforo, portanto, fazer uma ação
significa ativar uma fase verde para um conjunto de faixas por um
C. Função de recompensa
período fixo de tempo, escolhendo entre um conjunto predefinido de
No aprendizado por reforço, a recompensa representa o feedback
fases verdes. Neste artigo, o tempo verde é definido em 10 segundos e
do ambiente após o agente ter escolhido uma ação. O agente usa a
o tempo amarelo é definido em 4 segundos. Formalmente, o espaço de
recompensa para entender o resultado da ação realizada e melhorar o
ação é definido no conjunto (1). O conjunto inclui todas as ações
modelo para futuras escolhas de ação. Portanto, a recompensa é um
possíveis que o agente pode executar.
aspecto crucial do processo de aprendizagem. A recompensa
geralmente tem dois valores possíveis: positivo ou negativo. Uma
A = {NSA, NSLA, EWA, EWLA} (1)
recompensa positiva é gerada como consequência de boas ações, uma
Cada ação do conjunto (1) é descrita abaixo. recompensa negativa é gerada a partir de más ações. Nesta aplicação,
• Avanço Norte-Sul (NSA): a fase verde está ativa para os o objetivo é maximizar o fluxo de tráfego através da interseção ao
veículos que estão no braço norte e sul e querem longo do tempo. Para atingir esse objetivo, a recompensa deve ser
seguir reto ou virar à direita. derivada de alguma medida de desempenho da eficiência do tráfego,
• Avanço à Esquerda Norte-Sul (NSLA): a fase verde está para que o agente seja capaz de entender se a ação tomada reduz ou
ativa para os veículos que estão no braço norte e sul e aumenta a eficiência da interseção. Na análise de tráfego, várias
querem virar à esquerda. medidas são usadas [14], como throughput, atraso médio e tempo de
• Avanço Leste-Oeste (EWA): a fase verde está ativa para os viagem. Neste artigo, são apresentadas duas funções de recompensa
veículos que estão no braço leste e oeste e querem seguir que usam duas medidas de tráfego ligeiramente diferentes, e são as
reto ou virar à direita. seguintes.
• Avanço Esquerda Leste-Oeste (EWLA): a fase verde está ativa 1) Função de recompensa de literatura:A primeira função de recompensa
para veículos que estão no braço leste e oeste e querem virar é chamadaliteraturaporque é inspirado em estudos semelhantes neste
à esquerda. tópico. A função de recompensa da literatura usa como métrica otempo

total de espera, definido como na equação (2).
A Figura 6 mostra uma representação gráfica das quatro
ações possíveis. ∑n
Se a ação escolhida no agentstepté igual à ação twtt= peso(veh, t) (2)
veh =1
executada na última etapa do agentet-1 (ou seja, a
combinação de semáforos é a mesma), não há fase amarela Ondepeso(veh, t)é a quantidade de tempo em segundos que um
e, portanto, a fase verde atual persiste. Pelo contrário, se a veículoveh tem uma velocidade inferior a 0,1 m/s no agentstept. n
ação escolhida no agentsteptnão é igual ao anterior representa o número total de veículos no ambiente em agentstept.
46
Portanto,twtté o tempo total de espera no agentstept.A partir dessa os carros no cruzamento capturados respectivamente no
métrica, a função de recompensa da literatura pode ser definida como agentstep tet-1.
uma função detwtte é mostrado em (3)
D. Q-Learning Profundo
rt=0,9·twtt−1−twtt (3)
O mecanismo de aprendizagem envolvido neste trabalho é chamado
Ondertrepresenta a recompensa no agentstept. twtte twtt−1 de Deep Q-Learning, que é uma combinação de dois aspectos
representam o tempo total de espera de todos os carros na amplamente adotados no campo do aprendizado por reforço: redes
interseção capturados respectivamente no agentsteptet−1.O neurais profundas e Q-Learning. Q-Learning [15] é uma forma de
parâmetro0,9ajuda na estabilidade do processo de treinamento. aprendizado por reforço sem modelo [16]. Consiste em atribuir um
Em uma aplicação de aprendizado por reforço, a recompensa
valor, chamado devalor-Q, a uma ação tomada a partir de um estado
geralmente pode ser positiva ou negativa, e essa implementação
preciso do ambiente. Formalmente, na literatura, um valor Q é definido
não é exceção. A equação 3 é desenhada de forma que quando o
como na equação (6).
agente escolhe uma ação ruim retorna um valor negativo e
quando escolhe uma ação boa retorna um valor positivo. Uma má Q(s)t, at) =Q(s)t, at)+α(rt+1+γ·máximoAQ(s)t+1, at)-Q(s)t, at))
ação pode ser representada como uma ação que, na etapa atual (6)
do agentet,adiciona mais veículos em filas em comparação com a ondeQ(s)t, at)é o valor da açãoattirado do estado st. A
situação na etapa de agente anteriort-1,resultando em tempos de equação consiste em atualizar o valor Q atual com uma
espera mais altos em comparação com a etapa de agente anterior. quantidade descontada pela taxa de aprendizado α. Dentro
Este comportamento aumenta atwtpara a etapa atual do agentete dos parênteses, o termort+1representa a recompensa
conseqüentemente a equação 3 assume um valor negativo. associada à açãoatdo estadost. o subscritot +1é usado para
Quanto mais veículos foram adicionados em filas para o agentstep enfatizar a relação temporal entre tomar a ação ate receber
t,quanto mais negativortserá e, portanto, pior a ação será avaliada a consequente recompensa. O termoQ(s)t+1, at) representa
pelo agente. O mesmo conceito é aplicado para boas ações. o valor-Q do futuro imediato, ondest+1é o próximo estado
em que o ambiente evoluiu após a ação atno estadost. A
O problema com essa função de recompensa está na expressãomáximoAsignifica que, entre as ações possíveisat
escolha da métrica e ocorre quando surge a seguinte situação. no estadost+1, o mais valioso é selecionado. O termo γ é o
Durante o cenário de tráfego intenso, aparecem filas muito fator de desconto que assume um valor entre 0 e 1,
longas. Quando o agente ativa a fase verde para uma fila diminuindo a importância da recompensa futura em
longa, a saída dos carros cria uma onda de movimento que relação à recompensa imediata.
percorre toda a fila. A recompensa associada a esta ativação da Neste artigo, uma versão ligeiramente diferente da equação (6)
fase é recebida não só na próxima etapa do agente, como é usada e é apresentada na equação (7). Isso será chamado de
deveria, mas também nas etapas seguintes. Isso porque a função Q-learning a partir deste ponto.
onda de movimento persiste por mais tempo em relação ao Q(s)t, at) =rt+1+ γ·máximoAQ′(st+1, at+1) (7)
passo delta entre actionstep, e a onda aciona os tempos de
espera dos carros na fila, enganando o agente sobre a onde a recompensart+1é a recompensa recebida depois de agir
recompensa recebida. atno estadost. O termoQ′(st+1, at+1)é o valor Q associado à açãoa
2) Função de recompensa alternativa:A função de recompensa t+1no estadost+1, ou seja, o próximo estado após a açãoatno
alternativa usa uma métrica ligeiramente diferente da métrica estadost. Conforme visto na equação (6), o fator de desconto γ
anterior, que é atempo de espera total acumulado, definido na denota uma pequena penalização da recompensa futura em
equação (4). relação à recompensa imediata. Uma vez que o agente esteja
treinado, a melhor açãoattirado do estadostserá aquele que
∑n
atwtt= awt(veh, t) (4) maximiza a funçãoQ(s)t, at). Em outras palavras, maximizar a
veh =1 função Q-learning significa seguir a melhor estratégia que o
Ondeawt(veh, t)é a quantidade de tempo em segundos que um agente aprendeu.
Em uma aplicação de aprendizado por reforço, geralmente o espaço
veículo vehtem uma velocidade inferior a 0,1 m/s no agentstep
de estado é tão grande que é impraticável descobrir e salvar cada par
t,desde a desova no ambiente.nrepresenta o número total de
de ação de estado. Portanto, a função Q-learning é aproximada usando
veículos no ambiente em agentstept.Portanto,atwtt
uma rede neural. Neste trabalho, é utilizada uma rede neural profunda
é o tempo de espera total acumulado no agentstept.Com esta
totalmente conectada, que é composta por uma camada de entrada de
métrica, quando o veículo sai mas não consegue atravessar o
80 neurônios, 5 camadas ocultas de 400 neurônios cada uma com
cruzamento, o valor deatwttnão redefine (ao contrário do valor de
unidade linear retificada (ReLU) [17] e a camada de saída com 4
twtt), evitando a recompensa enganosa associada à função de
neurônios com função de ativação, cada uma representando o valor de
recompensa da literatura, quando uma longa fila se acumula no
uma ação dado um estado. Uma representação gráfica da rede neural
cruzamento. Depois que a métrica é definida, a função de
profunda é mostrada na Figura 8
recompensa alternativa é definida como na equação (5)
rt=atwtt−1−atwtt (5)E. O processo de treinamento

Ondertrepresenta a recompensa no agentstept. atwtte atwtt−1 Replay da experiência[18] é uma técnica adotada durante a fase
representam o tempo de espera total acumulado de todos de treinamento com o objetivo de melhorar o desempenho do
47
1) Predição dos valores-QQ(s)t), que é o conhecimento

atual que o agente tem sobre os valores da ação de st.
2) Previsão dos valores-QQ′(st+1). Estes representam o

conhecimento do agente sobre os valores de ação a
partir do estadost+1.
3) Atualização deQ(s)t, at)que representa o valor da ação
específicaatselecionado pelo agente durante a
simulação. Este valor é substituído usando a função Q-
learning descrita na equação (7). O elementort+1é a
Figura 8. Esquema da rede neural profunda.
recompensa associada à açãoat,máximoAQ′(st+1, at+1) é
obtido usando a previsão deQ′(st+1)e representa a
recompensa futura máxima esperada, ou seja, o maior
agente e a eficiência do aprendizado. Consiste em submeter ao agente valor de ação esperado pelo agente, a partir do estado
as informações necessárias para o aprendizado na forma de um grupo st+1. Será descontado por um fator γ que dê mais
aleatório de amostras chamadolote, ao invés de enviar imediatamente importância à recompensa imediata.
as informações que o agente coleta durante a simulação (comumente 4) Treinamento da rede neural. A entrada é o estadost, enquanto
chamadoAprendizagem online). O lote é retirado de uma estrutura de a saída desejada são os valores Q atualizadosQ(s)t, at) que
dados chamada intuitivamente de memória, que armazena todas as agora inclui a recompensa futura máxima esperada graças à
amostras coletadas durante a fase de treinamento. Uma amostramé atualização do valor Q.
formalmente definido como o quádruplo (8). Uma vez que a rede neural profunda tenha se aproximado
suficientemente da função Q-learning, a melhor eficiência de tráfego é
m = {st, at, rt+1, st+1} (8)
alcançada selecionando a ação com o valor mais alto dado o estado
Ondert+1é a recompensa recebida após realizar a açãoat atual. Um grande problema em qualquer tarefa de aprendizado por
do estadost, que evolui o ambiente para o próximo estado st+1. reforço é a política de seleção de ações durante o aprendizado; seja
Essa técnica é implementada para remover correlações na para tomar uma ação exploratória e potencialmente aprender mais, ou
sequência de observação, uma vez que o estado do ambiente st+1é para tomar uma ação exploratória e tentar otimizar o conhecimento
uma evolução direta do estadoste a correlação pode diminuir a atual sobre a evolução do ambiente. Neste papel o ǫ-ambiciosoa
capacidade de treinamento do agente. Na Figura 9 é mostrada política de exploração é escolhida, e é representada pela equação (9).
uma representação da tarefa de coleta de dados. define uma probabilidadeǫpara o episódio atualhescolher uma ação
exploratória e, consequentemente, uma probabilidade1-ǫpara escolher
uma ação de exploração.
h
ǫh=1- (9)
H
ondehé o episódio atual de treinamento eEé o número total de
episódios. Inicialmente,ǫ =1,significando que o agente explora
exclusivamente. No entanto, à medida que o treinamento avança,
o agente explora cada vez mais o que aprendeu, até explorar
exclusivamente.
V. SIMULAÇÃORESULTADOS
Figura 9. Esquema da recolha de dados.
O desempenho dos agentes é avaliado em duas partes: inicialmente,
Conforme afirmado anteriormente, a técnica de reprodução de experiência é analisada a tendência de recompensa durante o treinamento. Em
precisa de uma memória, que é caracterizada por um tamanho de memória e um seguida, é discutida uma comparação entre os agentes e um semáforo
tamanho de lote. O tamanho da memória representa quantas amostras a estático, no que diz respeito a métricas de tráfego comuns, como
memória pode armazenar e é definido como 50.000 amostras. O tamanho do lote tempo de espera acumulado e tempo médio de espera por veículo.
é definido como o número de amostras recuperadas da memória em uma Um agente é treinado usando a função de recompensa da literatura,
instância de treinamento e é definido como 100. Se em uma determinada etapa enquanto o outro adota a função de recompensa alternativa. A Figura
do agente a memória for preenchida, a amostra mais antiga será removida para 10 mostra a melhora do aprendizado durante o treinamento no cenário
liberar espaço para a nova amostra. Low-traffic de ambos os agentes, em termos de recompensa negativa
Uma instância de treinamento consiste em aprender a função Q- cumulativa, ou seja, a magnitude dos resultados negativos das ações
valor iterativamente usando as informações contidas no lote de durante cada episódio. Como pode ser visto, cada agente aprendeu
amostras extraídas. Cada amostra no lote é usada para uma política suficientemente correta no cenário de baixo tráfego. À
treinamento. Do ponto de vista de uma única amostra, que contém medida que o treinamento avança, ambos os agentes exploram
os elementos {st, at, rt+1, st+1}, as seguintes operações são eficientemente o ambiente e aprendem uma aproximação adequada
executadas: dos valores-Q; então, no final do treinamento, eles
48
tente otimizar os valores-Q explorando o conhecimento aprendido até em semáforos estáticos do mundo real [19]. Em particular, as
agora. O fato de o agente com a função alternativa de recompensa ter fases NSA e EWA duram 30 segundos, as fases NSLA e EWLA
uma melhor curva de recompensa em geral não é uma forte evidência duram 15 segundos e a fase amarela é a mesma do agente,
de um melhor desempenho, pois ter duas funções de recompensa que é de 4 segundos.
diferentes significa que diferentes valores de recompensa são
Na Tabela I são apresentados os desempenhos dos dois agentes,
produzidos. A diferença de desempenho será discutida posteriormente
comparados ao STL. A métrica usada para medir a diferença de
durante o benchmark de semáforo estático.
desempenho são ostempo de espera cumulativoe a tempo médio de
espera por veículo. O tempo de espera cumulativo é definido como a
soma de todos os tempos de espera de cada carro durante o episódio,
enquanto o tempo médio de espera por veículo é definido como a
quantidade média de segundos gastos por um veículo em uma posição
estável durante o episódio. Essas medidas são reunidas em 5 episódios
e, em seguida, calculadas a média.
recompensa de literatura Recompensa alternativa

agente agente
Cenário de baixo tráfego
cwt - 30 - 47
awt/v - 29 - 45
Fig. 10. Recompensa negativa cumulativa de ambos os agentes por episódio durante o Cenário de alto tráfego
treinamento no cenário Low-traffic. cwt +145 +26
A Figura 11 mostra os mesmos dados de treinamento da Figura 10, mas awt/v +136 +25
referentes ao cenário de alto tráfego. Neste cenário, o agente com a Cenário de tráfego NS
recompensa da literatura apresenta uma curva de recompensa cwt - 50 - 62
significativamente instável, enquanto a tendência do outro agente é estável.
awt/v - 47 - 56
Esse comportamento é causado pela escolha de usar o tempo de espera dos
Cenário de tráfego EW
veículos como métrica para a função recompensa, que em situações com
cwt - 65 - 65
longas filas ocasiona a aquisição de recompensas enganosas. De fato, ao
utilizar o tempo de espera acumulado como na função de recompensa awt/v - 59 - 58
alternativa, os veículos não zeram seus tempos de espera simplesmente TABELA I
AVISÃO GERAL DO DESEMPENHO DE HOMENS,VARIAÇÕES DE PORCENTAGEM
avançando na fila. Como mostra a Figura 11, a função de recompensa
COMPARADO COMSTL (MENOR É MELHOR).
alternativa produz uma política mais estável. Nos cenários de tráfego NS e
tráfego EW, ambos os agentes têm bom desempenho, pois é uma tarefa
mais simples de explorar.
Em geral, o agente de recompensa alternativo consegue
uma melhor eficiência de tráfego em comparação com o
agente de literatura: isso é consequência da adoção de
uma função de recompensa (tempo de espera acumulado)
que desconta de forma mais adequada os tempos de
espera excedendoum único ciclo de semáforo. Considerar
apenas o tempo de espera a partir da última paragem das
viaturas, leva a não enfatizar suficientemente a utilidade de
manter ciclos de luz mais longos, introduzindo demasiadas
situações de semáforos e mudanças, que são eficazes em
situações de tráfego baixo ou médio. O facto do agente ser
mais eficaz em situações de tráfego baixo a médio, leva a
pensar que uma oportunidade fácil e quase imediata seria
desenvolver separadamente agentes vocacionados para
Fig. 11. Recompensa negativa cumulativa de ambos os agentes por episódio durante o
treinamento no cenário de alto tráfego.
diferentes situações de tráfego, tendo uma espécie de
controlador que monitoriza o fluxo de tráfego e que
Para analisar verdadeiramente qual agente obtém selecciona a configuração de agente mais apropriada. Esta
melhor desempenho, é apresentada uma comparação experimentação também leva a considerar que, no entanto,
entre os agentes e um Semáforo Estático (STL). O STL tem o melhorias adicionais seriam possíveis (i) melhorando a
mesmo layout dos agentes e percorre as 4 fases sempre na abordagem de aprendizado para alcançar uma
seguinte ordem: [NSA − NSLA − EWA − EWLA]. Além disso, convergência mais estável e rápida,
cada fase tem uma duração fixa e são inspiradas naquelas
49
VI. CONCLUSÕES EFUTUREDEVOLUÇÕES the Real-Time Strategy Game StarCraft II,” https://deepmind.com/blog/
alphastar-mastering-real-time-strategy-game-starcraft-ii/, 2019.
Este trabalho apresentou uma exploração crível da plausibilidade de [4] D. Kalashnikov, A. Irpan, P. Pastor, J. Ibarz, A. Herzog, E. Jang,
uma abordagem RL para o problema de adaptação e gerenciamento de D. Quillen, E. Holly, M. Kalakrishnan, V. Vanhouckee outros, “Qt-opt: aprendizado
semáforos. O trabalho empregou um simulador de tráfego realista e de reforço profundo escalável para manipulação robótica baseada em visão,”arXiv
pré-impressão arXiv: 1806.10293, 2018.
validado para fornecer um ambiente no qual se treina e avalia um [5] K.-LA Yau, J. Qadir, HL Khoo, MH Ling e P. Komisarczuk, “Uma pesquisa sobre
agente de RL. Duas métricas para a recompensa das ações do agente modelos e algoritmos de aprendizado por reforço para controle de sinais de
foram investigadas, esclarecendo que uma descrição adequada do trânsito,”Levantamentos de Computação ACM (CSUR), vol. 50, não. 3, pág. 34 de
2017.
contexto da aplicação é tão importante quanto a competência na [6] W. Genders e S. Razavi, “Avaliando representações de estado de aprendizagem por
aplicação adequada de abordagens de aprendizado de máquina para reforço para controle adaptativo de sinais de trânsito,”Procedia ciência da
alcançar resultados adequados. computação, vol. 130, pp. 26–33, 2018.
[7] J. Gao, Y. Shen, J. Liu, M. Ito e N. Shiratori, “Controle de sinal de tráfego adaptativo:
Os trabalhos futuros visam melhorar ainda mais os resultados
Algoritmo de aprendizado de reforço profundo com repetição de experiência e
alcançados, mas também, a mais longo prazo, investigar quais rede de destino,”arXiv pré-impressão arXiv:1705.02755, 2017.
seriam as implicações da introdução de múltiplos agentes RL numa [8] W. Genders e S. Razavi, “Usando um agente de aprendizado por reforço profundo para
controle de sinal de trânsito,”arXiv pré-impressão arXiv:1611.01142, 2016.
rede rodoviária e qual seria a possibilidade de coordenar os seus
[9] SS Mousavi, M. Schukat e E. Howley, “Controle de semáforo usando aprendizado de
esforços para alcançar melhorias globais sobre as locais e também reforço baseado em gradiente de política profunda e função de valor,”
as implicações na população de veículos, que poderia perceber a Sistemas Inteligentes de Transporte IET, vol. 11, não. 7, pp. 417–423, 2017.
[10] L. Li, Y. Lv e F.-Y. Wang, “Tempo de sinal de trânsito por meio de aprendizado
mudança na infraestrutura e se adaptar para explorar
de reforço profundo,”IEEE/CAA Journal of Automatica Sinica, vol. 3, não. 3,
oportunidades adicionais e potencialmente anular as melhorias pp. 247–254, 2016.
alcançadas devido a uma demanda de tráfego adicional nas [11] H. Wei, G. Zheng, H. Yao e Z. Li, "Intellilight: uma abordagem de
aprendizado por reforço para controle inteligente de semáforos", em
interseções melhoradas. É importante realizar análises nesta linha
Proceedings of the 24th ACM SIGKDD International Conference on
de trabalho para entender a plausibilidade, potenciais vantagens Knowledge Discovery & Data Mining. ACM, 2018, pp. 2496–2505.
ou mesmo implicações negativas não intencionais da introdução [12] D. Krajzewicz, G. Hertkorn, C. Rössel e P. Wagner, "Sumo (simulação de
mobilidade urbana) - uma simulação de tráfego de código aberto", emAnais
no mundo real desta forma de sistema auto-adaptativo.
do 4º Simpósio do Oriente Médio sobre Simulação e Modelagem
(MESM20002), 2002, pp. 183–187.
[13] LA Rodegerdts, B. Nevers, B. Robinson, J. Ringert, P. Koonce,
J. Bansen, T. Nguyen, J. McGill, D. Stewart, J. Suggette outros,
REFERÊNCIAS “Interseções sinalizadas: guia informativo,” Tech. Rep., 2004.
[1] RS Sutton, AG Bartoe outros,Introdução ao aprendizado por reforço. [14] R. Dowling, “Traffic analysis toolbox volume vi: Definição, interpretação e
Imprensa MIT Cambridge, 1998, vol. 135. cálculo das medidas de eficácia das ferramentas de análise de tráfego,”
[2] M. Behrisch, L. Bieker, J. Erdmann e D. Krajzewicz, “Sumo – Tecnologia Rep., 2007.
simulação de mobilidade urbana: uma visão geral”, emSIMUL [15] CJ Watkins e P. Dayan, “Q-learning,”Aprendizado de máquina, vol. 8, não. 3-4,
2011, S. . U. de Oslo Aida Omerovic, RIRTPDA Simoni e RIRTPG pp. 279–292, 1992.
Bobashev, Eds. ThinkMind, outubro de 2011. [Online]. Disponível: [16] CJCH Watkins, “Aprendendo com recompensas atrasadas,” Ph.D. dissertação,
https://elib.dlr.de/71460/ King's College, Cambridge, 1989.
[3] O. Vinyals, I. Babuschkin, J. Chung, M. Mathieu, M. Jaderberg, WM [17] JN Tsitsiklis e B. Van Roy, “Análise de aprendizagem por diferenças temporais com
Czarnecki, A. Dudzik, A. Huang, P. Georgiev, R. Powell, T. Ewalds, aproximação de funções,” emAvanços em sistemas de processamento de
D. Horgan, M. Kroiss, I. Danihelka, J. Agapiou, J. Oh, V. Dalibard, informações neurais, 1997, pp. 1075–1081.
D. Choi, L. Sifre, Y. Sulsky, S. Vezhnevets, J. Molloy, T. Cai, D. Budden, [18] L.-J. LIN, “Aprendizado por reforço para robôs usando redes neurais,”
T. Paine, C. Gulcehre, Z. Wang, T. Pfaff, T. Pohlen, Y. Wu, D. Yogatama, doutorado Tese, Universidade Carnegie Mellon, 1993.
J. Cohen, K. McKinney, O. Smith, T. Schaul, T. Lillicrap, C. Apps, [19] P. Koonce e L. Rodegerdts, “Manual de temporização de semáforos.” Estados
K. Kavukcuoglu, D. Hassabis e D. Silver, “AlphaStar: Mastering Unidos. Administração Rodoviária Federal, Tech. Rep., 2008.
50

Paper07 en PT

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Paper07 en PT

Enviado por

Direitos autorais:

Formatos disponíveis

Traduzido do Inglês para o Português - www.onlinedoctranslator.

Workshop "Dos Objetos aos Agentes" (WOA 2019)

Uma Abordagem de Aprendizagem por Reforço Profundo para

recompensa). para entender os efeitos da última ação realizada no último estado;

para aprender valores-Q. Essa abordagem usa codificadores

de cada braço distribuído uniformemente. Então, 75% dos carros

ação, uma fase amarela de 4 segundos é iniciada entre as duas

Em resumo, sempre que o agente observar o estado do

reto ou virar à direita. seguintes.

à esquerda. tópico. A função de recompensa da literatura usa como métrica otempo

rt=atwtt−1−atwtt (5)E. O processo de treinamento

1) Predição dos valores-QQ(s)t), que é o conhecimento

2) Previsão dos valores-QQ′(st+1). Estes representam o

recompensa de literatura Recompensa alternativa

Cenário de baixo tráfego

Você também pode gostar