04 - Abordagem Neurodinâmica de Aprendizagem Por Reforço

Abordagem Neurodinâmica de
Aprendizagem por Reforço
R evisitando Aprendizagem por Reforço
Como vimos nos módulos anteriores, a aprendizagem por reforço

consiste no enfrentamento de um problema complexo com base
em um sistema de metas. Ao atingir uma meta específica, a inteligência
artificial recebe uma recompensa. Caso a máquina realize uma ação
indesejada, a mesma recebe uma punição. Embora as recompensas
sejam definidas pelo usuário, a rede possui autonomia total para
solucionar os problemas.
Este tipo de abordagem é comumente utilizada em problemas dinâmicos,

em que não se conhecem soluções ou parâmetros que levem ao
resultado desejado. De fato, o caminho a ser percorrido neste problema
será descoberto pela máquina em um processo de tentativa e erro. Um
exemplo deste tipo de aprendizado pode ser ilustrado da seguinte forma:
Imagine que você queira ensinar o seu cão uma determinada ação, como
sentar ou latir ao seu comando. Ao realizar os comandos, espera-se que,
ao menos na primeira vez, o cão não entenda o seu comando. Neste
caso, o cão será repreendido por meio de uma punição. No momento em
que o cachorro realizar a ação desejada, o mesmo será recompensado
com petiscos ou algo semelhante. A repetição dessas ações faz com que
o cão aprenda a obedecer o comando por meio de uma relação causa-
efeito.
De maneira análoga, a ciência de dados utiliza os mesmos subterfúgios
para treinar máquinas em determinadas tarefas, como identificar
determinados padrões em um banco de imagens, ou a correlação entre
certas palavras e o gênero textual de um artigo, entre outras.
Abordagem Clássica e Moderna
Podemos separar o aprendizado por reforço em duas abordagens

(Haykin, 2001):
A abordagem clássica, na qual a aprendizagem acontece através de um

processo de punição e recompensa com o objetivo de alcançar um
comportamento altamente qualificado.
A abordagem moderna, que se fundamenta em uma técnica matemática

conhecida como programação dinâmica para decidir sobre o curso de
ação considerado estágio futuros possíveis sem realmente experimentá-
los; a ênfase aqui está no planejamento.
Elementos da aprendizagem por reforço (abordagem moderna)
A seguir, são listados alguns elementos da aprendizagem por reforço:
• Agente: Entidade que realiza ações em busca de recompensas.
• Ambiente: O cenário em que se encontra o agente.
• Recompensa: Feedback enviado do ambiente ao agente.

• Estados e Ações: O modelo de aprendizagem por reforço possui um
número discreto de estados que o sistema pode ocupar, assim como
um número discreto de ações que um agente pode tomar.
• Política: Uma política (decisão), é definida como um comportamento de

um agente em um instante de tempo particular. Sua evolução ocorre de
acordo com a maximização da função valor, o que resulta em uma
política ótima (P. Helena, 2014). As iterações políticas se alternam entre
dois passos: no primeiro, avalia-se o custo para avançar com a política
corrente; no segundo, atualiza-se a política em relação à função custo.
• Função valor: Elemento preditivo da soma de recompensas em longo

prazo provocadas por uma política específica. A partir dessa predição, o
agente toma as decisões com base na maximização da recompensa (P.
Helena, 2014).
• Fator Q: De maneira resumida, podemos dizer que o fator Q é uma

medida de custo em relação a adoção de certas políticas pelo sistema.
Este fator é empregado nos passos de avaliação política e de melhoria
política.
Programação Neurodinâmica
A programação neurodinâmica tem por objetivo encontrar uma política

ótima, melhorando assim as ações tomadas pelo sistema em relação aos
estados acessíveis. Este processo é, deveras, custoso do ponto de vista
computacional. Os problemas mais simples costumam possuir um
número muito elevado de estados, fazendo com que cada iteração ocorra
de maneira lenta, em um intervalo de tempo nada prático. São problemas
como este que nos levam a busca não por políticas ótimas, mas sim por
políticas subótimas.
O processo de busca por políticas subótimas é feito por meio de

aproximações adequadas das funções de otimização, usando como base
apenas um vetor de parâmetros e a estrutura geral da função escore.
Atividade Extra
Entenda as cadeias de Markov, por meio do xadrez, no vídeo abaixo

(inglês-legendado)
https://www.youtube.com/watch?v=63HHmjlh794 (13:20)
Referência Bibliográfica
HAYKIN, S. "Neural Networks. A Comprehensive Foundation". 2 ed.

New Jersey: Prentice Hall, 2001.
LEK, S.; PARK, Y.P. “Artificial Neural Network”. Springer. 2008.
GOODFELLOW, I. “Deep Learning”. The Mit Press. 2016

Ir para questão

04 - Abordagem Neurodinâmica de Aprendizagem Por Reforço

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

04 - Abordagem Neurodinâmica de Aprendizagem Por Reforço

Enviado por

Direitos autorais:

Formatos disponíveis

Abordagem Neurodinâmica de

Aprendizagem por Reforço

R evisitando Aprendizagem por Reforço

Como vimos nos módulos anteriores, a aprendizagem por reforço

Este tipo de abordagem é comumente utilizada em problemas dinâmicos,

Abordagem Clássica e Moderna

Podemos separar o aprendizado por reforço em duas abordagens

A abordagem clássica, na qual a aprendizagem acontece através de um

A abordagem moderna, que se fundamenta em uma técnica matemática

Elementos da aprendizagem por reforço (abordagem moderna)

A seguir, são listados alguns elementos da aprendizagem por reforço:

• Agente: Entidade que realiza ações em busca de recompensas.

• Ambiente: O cenário em que se encontra o agente.

• Recompensa: Feedback enviado do ambiente ao agente.

• Política: Uma política (decisão), é definida como um comportamento de

• Função valor: Elemento preditivo da soma de recompensas em longo

• Fator Q: De maneira resumida, podemos dizer que o fator Q é uma

A programação neurodinâmica tem por objetivo encontrar uma política

O processo de busca por políticas subótimas é feito por meio de

Entenda as cadeias de Markov, por meio do xadrez, no vídeo abaixo

HAYKIN, S. "Neural Networks. A Comprehensive Foundation". 2 ed.

LEK, S.; PARK, Y.P. “Artificial Neural Network”. Springer. 2008.

GOODFELLOW, I. “Deep Learning”. The Mit Press. 2016

Você também pode gostar