Você está na página 1de 4

Aprendizado por Reforço e o sistema AlphaGo da DeepMind

Gilberto José Guimarães de Sousa Mourão1


Resumo
A aplicação de técnicas de aprendizado de máquina tem se tornado cada vez mais
eficientes com o desenvolvimento de algoritmos sofisticados. No campo do aprendizado
profundo ou Deep Learning, destaca-se a técnica de aprendizagem por reforço, que é uma
técnica que consiste em atingir uma meta em um ambiente incerto e potencialmente
complexo. O AlphaGo é um programa desenvolvido pela DeepMind cujo objetivo é jogar
e vencer partidas do jogo Go. Ele é baseado em uma árvore de decisão de Monte Carlo
que aprende com o conhecimento adquirido anteriormente. Trata-se de um sistema
extremamente poderoso e o seu sucesso demonstra o poder do aprendizado por reforço.
Palavras chave: Deep Learning, Aprendizado por Reforço, AlphaGo

1. Introdução reorganizando esses elementos,


podemos ter muitos algoritmos. Este é
No campo de estudo do Deep
um efeito que pode ser visto ao longo da
Learning, o Aprendizado por Reforço ou
cronologia da RL.
Reinforcement Learning (RL) é uma
importante área de estudo porque pode O Deep Learning permite que o RL
permitir que a sociedade automatize seja escalonado para problemas de
tarefas que, no passado, nunca pensamos tomada de decisão que antes eram
que poderiam ser automatizadas. intratáveis, ou seja, configurações com
Veículos de direção autônoma é um dos estado de alta dimensão e espaços de
usos para RL. Outros usos podem incluir ação. Entre os trabalhos recentes na área
robôs que podem realizar tarefas como de Deep RL (DRL), houve duas histórias
preparar ingredientes e cozinhar de sucesso notáveis. O primeiro, dando
alimentos, com o mesmo robô início à revolução no DRL, foi o
preparando vários pratos diferentes sem desenvolvimento de um algoritmo que
qualquer intervenção humana ou pudesse aprender a jogar uma variedade
qualquer programação específica para as de videogames Atari 2600 em um nível
tarefas executadas. A negociação no sobre-humano, diretamente dos pixels da
mercado de ações também pode ser uma imagem [2]. Fornecendo soluções para a
tarefa executada por um agente da RL, instabilidade das técnicas de
que ao invés de ser programado com aproximação de função em RL, este
regras específicas, pode aprender as trabalho foi o primeiro a demonstrar de
regras da melhor negociação por si forma convincente que os agentes RL
mesmo. podem ser treinados em observações
brutas de alta dimensão, exclusivamente
Como afirmado em [1, p.151], quase
com base em um sinal de recompensa. O
todos os algoritmos RL consistem em
segundo sucesso de destaque foi o
receitas simples que combinam uma
desenvolvimento de um sistema DRL
especificação de conjunto de dados, um
híbrido, AlphaGo, que derrotou um
procedimento para realizar a otimização,
campeão mundial humano em Go [3],
uma função de custo, etc., portanto,
paralelamente à conquista histórica do

1
Estudante de Engenharia Elétrica da Universidade Federal do Maranhão, Maranhão (MA) Brasil.
Deep Blue da IBM no xadrez duas ações são frequentemente denotados por
décadas antes [4] e do sistema Watson 𝑥𝑡 e𝑢𝑡 , respectivamente.
DeepQA da IBM que venceu o melhor
A melhor sequência de ações é
Jeopardy humano! jogadores [5]. Ao
determinada pelas recompensas
contrário das regras artesanais que
fornecidas pelo ambiente. Cada vez que
dominaram os sistemas de xadrez,
o ambiente muda para um novo estado,
AlphaGo era composto de redes neurais
ele também fornece uma recompensa
que foram treinadas usando aprendizado
escalar 𝑟𝑡 + 1 para o agente como
supervisionado e de reforço, em
feedback. O objetivo do agente é
combinação com um algoritmo de busca
aprender uma política (estratégia de
heurística tradicional.
controle) 𝜋 que maximize o retorno
2. O Aprendizado por Reforço esperado (recompensa cumulativa,
desconto). Dado um estado, uma política
A essência da RL é aprender por
retorna uma ação a ser executada; uma
meio da interação. Um agente RL
política ótima é qualquer política que
interage com seu ambiente e, ao observar
maximize o retorno esperado no meio
as consequências de suas ações, pode
ambiente. Nesse sentido, o RL visa
aprender a alterar seu próprio
resolver o mesmo problema do controle
comportamento em resposta às
ótimo. No entanto, o desafio em RL é
recompensas recebidas. Este paradigma
que o agente precisa aprender sobre as
de aprendizagem por tentativa e erro tem
consequências das ações no ambiente
suas raízes na psicologia behaviorista e é
por tentativa e erro, pois, ao contrário do
um dos principais fundamentos da RL
controle ótimo, um modelo da dinâmica
[6]. A outra influência chave na RL é o
de transição de estado não está
controle ótimo, que emprestou os
disponível para o agente. Toda interação
formalismos matemáticos (mais
com o ambiente rende informações, que
notavelmente a programação dinâmica
o agente utiliza para atualizar seus
[7]) que sustentam o campo.
conhecimentos.
No algoritmo de RL, um agente
autônomo, controlado por um algoritmo
de aprendizado de máquina, observa um 3. Aplicações do Aprendizado por
estado 𝑠𝑡 de seu ambiente no passo de Reforço
tempo 𝑡. O agente interage com o meio
As técnicas de DRL têm se mostrado
ambiente realizando uma ação no estado
eficazes em campos como jogos e
𝑠𝑡 . Quando o agente executa uma ação, o
robótica. Os jogos Backgammon e Go
ambiente e o agente passam para um
são jogos de tabuleiro muito bons para o
novo estado 𝑠𝑡 + 1 com base no estado
algoritmo em questão.
atual e na ação escolhida. O estado é uma
estatística suficiente do ambiente e, O desafio de resolver o jogo Go vem
portanto, compreende todas as não só do gigantesco espaço de busca de
informações necessárias para que o tamanho 250150 , um número
agente tome a melhor ação, que pode astronômico, mas também da dureza da
incluir partes do agente, como a posição avaliação da posição [8], que foi usado
de seus atuadores e sensores. Na com sucesso na resolução de muitos
literatura de controle ótimo, estados e outros jogos, como Backgammon e
xadrez.
A robótica é uma área clássica para por jogo próprio, com um modelo
aprendizagem por reforço. [9] destaca perfeito ou regra de jogo precisa.
uma pesquisa de RL em robótica, [10]
No documentário AlphaGo – The
mostra uma pesquisa sobre políticas para
Movie, o 18 vezes campeão mundial Lee
robótica, e [11] trata sobre a
Sedol foi desafiado pela DeepMind para
aprendizagem de robôs por meio de
enfrentar o AlphaGo. O coreano
demonstração. A revista Science
esperava ganhar por 5x0, no entanto
Robotics destaca outras pesquisas.
acabou sendo derrotado por 4x1. Na
4. O sistema AlphaGo única vitória que Sedol conseguiu, ele
fez um movimento com probabilidade de
AlphaGo é um algoritmo de
1 em 10000 de ser feito, segundo os
aprendizagem por reforço. Não é nem
dados do AlphaGo, e por isso acabou
um aprendizado supervisionado, nem um
sendo “inesperado” para o algoritmo. Tal
aprendizado não supervisionado. A
movimento ficou conhecido como God’s
pontuação do jogo é um sinal de
Move.
recompensa, não um rótulo de
supervisão. Otimizando a função de 5. Conclusão
perda é aprendizagem supervisionada.
O sucesso em jogos complicados
No entanto, ele realiza avaliação e
como Go mostra o poder do RL. Mas
melhoria de política, como uma iteração
mais do que isso, destaca-se a
na iteração de política.
importância dessa técnica em
AlphaGo atingiu um nível sobre- tratamentos e diagnóstico de câncer, por
humano. Isso pode confirmar que os exemplo, uma vez que o algoritmo pode
profissionais desenvolveram estratégias ser utilizado em técnicas de
eficazes. No entanto, não precisa imitar processamento de imagens. Vale
jogadas profissionais. Assim, não é destacar que ele também pode ser
necessário prever seus movimentos utilizado em técnicas comerciais,
corretamente. As entradas para AlphaGo prevendo o perfil dos clientes e aumento
incluem a representação bruta da consideravelmente a chance de uma
posição, seu histórico e a cor para jogar venda ser bem sucedida. Portanto, ainda
como imagens 19 × 19; regras do jogo; que o destaque tenha sido dado para os
uma função de pontuação do jogo; jogos, vale dizer que o aprendizado por
invariância das regras do jogo sob reforço vai muito além disso.
rotação e reflexão, e invariância à
Referências
transposição de cor, exceto para komi2.
Uma contribuição adicional e crítica são [1] Goodfellow et. al, Deep Learning,
experiências sólidas de pesquisa e MIT Press, 2016
desenvolvimento.
[2] Volodymyr Mnih, Koray
AlphaGo requer uma grande Kavukcuoglu, David Silver, Andrei A
quantidade de dados para treinamento, Rusu, Joel Veness, Marc G Bellemare,
então ainda é um problema de big data. Alex Graves, Martin Riedmiller,
No entanto, os dados podem ser gerados Andreas K Fidjeland, Georg Ostrovski,
et al. Human-Level Control through

2
Komi (コ ミ) no jogo Go são pontos adicionados ao placar do jogador com as pedras brancas como
compensação por jogar em segundo lugar.
Deep Reinforcement Learning. Nature,
518(7540):529–533, 2015.
[3] David Silver, Aja Huang, Chris J
Maddison, Arthur Guez, Lau rent Sifre,
George van den Driessche, Julian
Schrittwieser, Ioannis Antonoglou, Veda
Panneershelvam, Marc Lanctot, et al.
Mastering the Game of Go with Deep
Neural Networks and Tree Search.
Nature, 529(7587):484–489, 2016.
[4] Murray Campbell, A Joseph Hoane,
and Feng-hsiung Hsu. Deep Blue.
Artificial Intelligence, 134(1-2):57–83,
2002.
[5] David Ferrucci, Eric Brown, Jennifer
Chu-Carroll, James Fan, David Gondek,
Aditya A Kalyanpur, Adam Lally, J
William Murdock, Eric Nyberg, John
Prager, et al. Building Watson: An
Overview of the DeepQA Project. AI
Magazine, 31(3):59–79, 2010.
[6] Richard S Sutton and Andrew G
Barto. Reinforcement Learning: An
Introduction. MIT Press, 1998.
[7] Richard Bellman. On the Theory of
Dynamic Programming. PNAS,
38(8):716–719, 1952.
[8] Muller, M. Computer go. “Artificial
Intelligence”, 2012, 134(1-2):145–179.
[9] Kober, J., Bagnell, J. A., and Peters,
J. Reinforcement learning in robotics: A
survey. International Journal of Robotics
Research, 2013, 32(11):1238–1278.
[10] Deisenroth, M. P., Neumann, G.,
and Peters, J. A survey on policy search
for robotics. Foundations and Trend in
Robotics, 2013, 2:1–142.
[11] Argall, B. D., Chernova, S., Veloso,
M., and Browning, B. A survey of robot
learning from demonstration. Robotics
and Autonomous Systems, 2009,
57(5):469–483.

Você também pode gostar