Você está na página 1de 5

Abordagem Neurodinâmica de

Aprendizagem por Reforço

R evisitando Aprendizagem por Reforço

Como vimos nos módulos anteriores, a aprendizagem por reforço


consiste no enfrentamento de um problema complexo com base
em um sistema de metas. Ao atingir uma meta específica, a inteligência
artificial recebe uma recompensa. Caso a máquina realize uma ação
indesejada, a mesma recebe uma punição. Embora as recompensas
sejam definidas pelo usuário, a rede possui autonomia total para
solucionar os problemas.

Este tipo de abordagem é comumente utilizada em problemas dinâmicos,


em que não se conhecem soluções ou parâmetros que levem ao
resultado desejado. De fato, o caminho a ser percorrido neste problema
será descoberto pela máquina em um processo de tentativa e erro. Um
exemplo deste tipo de aprendizado pode ser ilustrado da seguinte forma:
Imagine que você queira ensinar o seu cão uma determinada ação, como
sentar ou latir ao seu comando. Ao realizar os comandos, espera-se que,
ao menos na primeira vez, o cão não entenda o seu comando. Neste
caso, o cão será repreendido por meio de uma punição. No momento em
que o cachorro realizar a ação desejada, o mesmo será recompensado
com petiscos ou algo semelhante. A repetição dessas ações faz com que
o cão aprenda a obedecer o comando por meio de uma relação causa-
efeito.
De maneira análoga, a ciência de dados utiliza os mesmos subterfúgios
para treinar máquinas em determinadas tarefas, como identificar
determinados padrões em um banco de imagens, ou a correlação entre
certas palavras e o gênero textual de um artigo, entre outras.

Abordagem Clássica e Moderna

Podemos separar o aprendizado por reforço em duas abordagens


(Haykin, 2001):

A abordagem clássica, na qual a aprendizagem acontece através de um


processo de punição e recompensa com o objetivo de alcançar um
comportamento altamente qualificado.

A abordagem moderna, que se fundamenta em uma técnica matemática


conhecida como programação dinâmica para decidir sobre o curso de
ação considerado estágio futuros possíveis sem realmente experimentá-
los; a ênfase aqui está no planejamento.

Elementos da aprendizagem por reforço (abordagem moderna)

A seguir, são listados alguns elementos da aprendizagem por reforço:

• Agente: Entidade que realiza ações em busca de recompensas.

• Ambiente: O cenário em que se encontra o agente.

• Recompensa: Feedback enviado do ambiente ao agente.


• Estados e Ações: O modelo de aprendizagem por reforço possui um
número discreto de estados que o sistema pode ocupar, assim como
um número discreto de ações que um agente pode tomar.

• Política: Uma política (decisão), é definida como um comportamento de


um agente em um instante de tempo particular. Sua evolução ocorre de
acordo com a maximização da função valor, o que resulta em uma
política ótima (P. Helena, 2014). As iterações políticas se alternam entre
dois passos: no primeiro, avalia-se o custo para avançar com a política
corrente; no segundo, atualiza-se a política em relação à função custo.

• Função valor: Elemento preditivo da soma de recompensas em longo


prazo provocadas por uma política específica. A partir dessa predição, o
agente toma as decisões com base na maximização da recompensa (P.
Helena, 2014).

• Fator Q: De maneira resumida, podemos dizer que o fator Q é uma


medida de custo em relação a adoção de certas políticas pelo sistema.
Este fator é empregado nos passos de avaliação política e de melhoria
política.

Programação Neurodinâmica

A programação neurodinâmica tem por objetivo encontrar uma política


ótima, melhorando assim as ações tomadas pelo sistema em relação aos
estados acessíveis. Este processo é, deveras, custoso do ponto de vista
computacional. Os problemas mais simples costumam possuir um
número muito elevado de estados, fazendo com que cada iteração ocorra
de maneira lenta, em um intervalo de tempo nada prático. São problemas
como este que nos levam a busca não por políticas ótimas, mas sim por
políticas subótimas.

O processo de busca por políticas subótimas é feito por meio de


aproximações adequadas das funções de otimização, usando como base
apenas um vetor de parâmetros e a estrutura geral da função escore.

Atividade Extra

Entenda as cadeias de Markov, por meio do xadrez, no vídeo abaixo


(inglês-legendado)

https://www.youtube.com/watch?v=63HHmjlh794 (13:20)

Referência Bibliográfica

HAYKIN, S. "Neural Networks. A Comprehensive Foundation". 2 ed.


New Jersey: Prentice Hall, 2001.

LEK, S.; PARK, Y.P. “Artificial Neural Network”. Springer. 2008.

GOODFELLOW, I. “Deep Learning”. The Mit Press. 2016


Ir para questão

Você também pode gostar