Como vimos nos módulos anteriores, a aprendizagem por reforço
consiste no enfrentamento de um problema complexo com base em um sistema de metas. Ao atingir uma meta específica, a inteligência artificial recebe uma recompensa. Caso a máquina realize uma ação indesejada, a mesma recebe uma punição. Embora as recompensas sejam definidas pelo usuário, a rede possui autonomia total para solucionar os problemas.
Este tipo de abordagem é comumente utilizada em problemas dinâmicos,
em que não se conhecem soluções ou parâmetros que levem ao resultado desejado. De fato, o caminho a ser percorrido neste problema será descoberto pela máquina em um processo de tentativa e erro. Um exemplo deste tipo de aprendizado pode ser ilustrado da seguinte forma: Imagine que você queira ensinar o seu cão uma determinada ação, como sentar ou latir ao seu comando. Ao realizar os comandos, espera-se que, ao menos na primeira vez, o cão não entenda o seu comando. Neste caso, o cão será repreendido por meio de uma punição. No momento em que o cachorro realizar a ação desejada, o mesmo será recompensado com petiscos ou algo semelhante. A repetição dessas ações faz com que o cão aprenda a obedecer o comando por meio de uma relação causa- efeito. De maneira análoga, a ciência de dados utiliza os mesmos subterfúgios para treinar máquinas em determinadas tarefas, como identificar determinados padrões em um banco de imagens, ou a correlação entre certas palavras e o gênero textual de um artigo, entre outras.
Abordagem Clássica e Moderna
Podemos separar o aprendizado por reforço em duas abordagens
(Haykin, 2001):
A abordagem clássica, na qual a aprendizagem acontece através de um
processo de punição e recompensa com o objetivo de alcançar um comportamento altamente qualificado.
A abordagem moderna, que se fundamenta em uma técnica matemática
conhecida como programação dinâmica para decidir sobre o curso de ação considerado estágio futuros possíveis sem realmente experimentá- los; a ênfase aqui está no planejamento.
Elementos da aprendizagem por reforço (abordagem moderna)
A seguir, são listados alguns elementos da aprendizagem por reforço:
• Agente: Entidade que realiza ações em busca de recompensas.
• Ambiente: O cenário em que se encontra o agente.
• Recompensa: Feedback enviado do ambiente ao agente.
• Estados e Ações: O modelo de aprendizagem por reforço possui um número discreto de estados que o sistema pode ocupar, assim como um número discreto de ações que um agente pode tomar.
• Política: Uma política (decisão), é definida como um comportamento de
um agente em um instante de tempo particular. Sua evolução ocorre de acordo com a maximização da função valor, o que resulta em uma política ótima (P. Helena, 2014). As iterações políticas se alternam entre dois passos: no primeiro, avalia-se o custo para avançar com a política corrente; no segundo, atualiza-se a política em relação à função custo.
• Função valor: Elemento preditivo da soma de recompensas em longo
prazo provocadas por uma política específica. A partir dessa predição, o agente toma as decisões com base na maximização da recompensa (P. Helena, 2014).
• Fator Q: De maneira resumida, podemos dizer que o fator Q é uma
medida de custo em relação a adoção de certas políticas pelo sistema. Este fator é empregado nos passos de avaliação política e de melhoria política.
Programação Neurodinâmica
A programação neurodinâmica tem por objetivo encontrar uma política
ótima, melhorando assim as ações tomadas pelo sistema em relação aos estados acessíveis. Este processo é, deveras, custoso do ponto de vista computacional. Os problemas mais simples costumam possuir um número muito elevado de estados, fazendo com que cada iteração ocorra de maneira lenta, em um intervalo de tempo nada prático. São problemas como este que nos levam a busca não por políticas ótimas, mas sim por políticas subótimas.
O processo de busca por políticas subótimas é feito por meio de
aproximações adequadas das funções de otimização, usando como base apenas um vetor de parâmetros e a estrutura geral da função escore.
Atividade Extra
Entenda as cadeias de Markov, por meio do xadrez, no vídeo abaixo