Você está na página 1de 2

Controlo dos Semforos Projeto sobre Aprendizagem por Reforo

Aprendizagem Automtica 2011/12

Objectivo: O objectivo deste trabalho aplicar alguns algoritmos de Aprendizagem por Reforo ao controlo de semforos, em particular o algoritmo de aprendizagem Q. Tero de modelizar o problema como um processo de deciso de Markov, definindo os estados, as aes, a funo de transio de estados e a funo recompensa. Tm a liberdade de escolher o tipo de cenrio: 1 ou mais semforos, um ou mais cruzamentos e vias com uma ou mais faixas, num sentido nico ou nos dois sentidos. Os automveis podem ser homogneos ou podem variar em termos da acelerao e velocidade. A aprendizagem vai ser episdica e em cada episdio temos um nmero fixo de carros que tm de partir do incio de uma das vias at a um destino particular (fim de uma das vias). O episdio termina quando todos os automveis chegarem ao destino. Requisitos mnimos: Ter um cenrio com um s semforo e duas vias: Norte-Sul e Leste-Oeste com apenas uma faixa cada uma. Ter pelo menos um cenrio em que se aplica o algoritmo de aprendizagem Q, podendo analisar a evoluo do processo de aprendizagem de episdio para episdio. Ter a possibilidade de variar o nmero de carros que vo participar no episdio. Software: Podem utilizar um dos modelos de trfego existente na livraria de modelos do Netlogo para no terem de programar os aspectos do mundo que no tenham estritamente a ver com o processo de aprendizagem, mas o uso do Netlogo no obrigatrio, sendo no entanto aconselhado. Exploraes: Podem experimentar variaes sobre o cenrio bsico. Como sugesto podem variar o n de semforos, n de automveis por episdios, diferentes distribuies de probabilidades dos destinos dos carros, tipo de vias e n de faixas, diferentes formas de definir as aes, estados, recompensas e funes de transio de estado, sendo aconselhvel que partam de modelos mais simples para os mais complexos. Podem variar alguns parmetros como a taxa de aprendizagem ou a forma de escolha das aes (e-greedy ou roleta ou Boltzmann ou outra). Podem utilizar outro algoritmo de aprendizagem como por exemplo o Sarsa e podem usar funes de aproximao dos estados para poderem dar a volta dimenso excessiva do espao de

Aprendizagem Baseada em Reforo

estados. O importante que sejamos capazes de visualizar e analisar a evoluo da performance dos agentes de episdio em episdio de treino. Podem utilizar o behavior-space do Netlogo para fazerem vrias experimentaes, podendo analisar o ficheiro resultante. Podem fazer estratgias mo e comparar com as que foram aprendidas em cenrios de testes mais complexos com mais semforos e cruzamentos. Interface: Ser conveniente (1) carregar os vrios cenrios, (2) ser capaz de visualizar a evoluo de um episdio de aprendizagem passo a passo (3) simular o sistema durante N episdios sem visualizar e a seguir poder mandar executar (4) guardar num ficheiro toda a informao dos agentes que esto a aprender de modo a que possam continuar a aprender mais tarde a partir do ponto em que ficaram. Relatrio: Cada grupo (no mximo 2 elementos) tem de apresentar um relatrio que descreva o trabalho que foi feito, em particular a modelizao do problema, bem como as concluses acerca do processo de aprendizagem nas diferentes situaes, comparando-as em termos de performance. Data de entrega: 22 de Outubro de 2012, (submisso via Mocho). Apresentao oral (15m) durante a aula numa hora a marcar. A apresentao oral tambm entra na avaliao.

Você também pode gostar