Projector e For Cos Ema For Os

Controlo dos Semforos Projeto sobre Aprendizagem por Reforo
Aprendizagem Automtica 2011/12
Objectivo: O objectivo deste trabalho aplicar alguns algoritmos de Aprendizagem por Reforo ao controlo de semforos, em particular o algoritmo de aprendizagem Q. Tero de modelizar o problema como um processo de deciso de Markov, definindo os estados, as aes, a funo de transio de estados e a funo recompensa. Tm a liberdade de escolher o tipo de cenrio: 1 ou mais semforos, um ou mais cruzamentos e vias com uma ou mais faixas, num sentido nico ou nos dois sentidos. Os automveis podem ser homogneos ou podem variar em termos da acelerao e velocidade. A aprendizagem vai ser episdica e em cada episdio temos um nmero fixo de carros que tm de partir do incio de uma das vias at a um destino particular (fim de uma das vias). O episdio termina quando todos os automveis chegarem ao destino. Requisitos mnimos: Ter um cenrio com um s semforo e duas vias: Norte-Sul e Leste-Oeste com apenas uma faixa cada uma. Ter pelo menos um cenrio em que se aplica o algoritmo de aprendizagem Q, podendo analisar a evoluo do processo de aprendizagem de episdio para episdio. Ter a possibilidade de variar o nmero de carros que vo participar no episdio. Software: Podem utilizar um dos modelos de trfego existente na livraria de modelos do Netlogo para no terem de programar os aspectos do mundo que no tenham estritamente a ver com o processo de aprendizagem, mas o uso do Netlogo no obrigatrio, sendo no entanto aconselhado. Exploraes: Podem experimentar variaes sobre o cenrio bsico. Como sugesto podem variar o n de semforos, n de automveis por episdios, diferentes distribuies de probabilidades dos destinos dos carros, tipo de vias e n de faixas, diferentes formas de definir as aes, estados, recompensas e funes de transio de estado, sendo aconselhvel que partam de modelos mais simples para os mais complexos. Podem variar alguns parmetros como a taxa de aprendizagem ou a forma de escolha das aes (e-greedy ou roleta ou Boltzmann ou outra). Podem utilizar outro algoritmo de aprendizagem como por exemplo o Sarsa e podem usar funes de aproximao dos estados para poderem dar a volta dimenso excessiva do espao de
Aprendizagem Baseada em Reforo
estados. O importante que sejamos capazes de visualizar e analisar a evoluo da performance dos agentes de episdio em episdio de treino. Podem utilizar o behavior-space do Netlogo para fazerem vrias experimentaes, podendo analisar o ficheiro resultante. Podem fazer estratgias mo e comparar com as que foram aprendidas em cenrios de testes mais complexos com mais semforos e cruzamentos. Interface: Ser conveniente (1) carregar os vrios cenrios, (2) ser capaz de visualizar a evoluo de um episdio de aprendizagem passo a passo (3) simular o sistema durante N episdios sem visualizar e a seguir poder mandar executar (4) guardar num ficheiro toda a informao dos agentes que esto a aprender de modo a que possam continuar a aprender mais tarde a partir do ponto em que ficaram. Relatrio: Cada grupo (no mximo 2 elementos) tem de apresentar um relatrio que descreva o trabalho que foi feito, em particular a modelizao do problema, bem como as concluses acerca do processo de aprendizagem nas diferentes situaes, comparando-as em termos de performance. Data de entrega: 22 de Outubro de 2012, (submisso via Mocho). Apresentao oral (15m) durante a aula numa hora a marcar. A apresentao oral tambm entra na avaliao.

Projector e For Cos Ema For Os

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Projector e For Cos Ema For Os

Enviado por

Direitos autorais:

Formatos disponíveis

Controlo dos Semforos Projeto sobre Aprendizagem por Reforo

Aprendizagem Automtica 2011/12

Aprendizagem Baseada em Reforo

Você também pode gostar