Escolar Documentos
Profissional Documentos
Cultura Documentos
https://www.youtube.com/watch?v=gn4nRCC9TwQ
Aprendizado por Reforço em 2019
https://www.technologyreview.com/search/?s=Reinforcement+Learning
Agenda
Objetivos
Agente
Um agente …
Ambiente
CartPole-v1 Breakout-v0
• Objetivo: manter o mastro na vertical por 200 passos • Objetivo: maximizar o score do jogo
• Estado: posição e velocidade (angular) do mastro e do carro • Estado: image RGB de shape=(210, 160, 3)
• Ação: mover o carrinho para esquerda ou direita • Ação: número {0, 1, 2, 3}; mover ou não a barra
• Recompensa: +1 para cada passo que o mastro não cai • Recompensa: score do jogo (e.g., tijolos quebrados)
• Término: o mastro cai (> 12 graus) ou o carro sai da tela • Término: jogador perde todas as “vidas”
• Solução: retorno acima 195 por 100 episódios consecutivos • Solução: maximizar o score médio por 100 episódios
• Crowdfunding Dynamics Tracking: A Reinforcement Learning Approach (Wang, Zhang, Liu et al, 2019)
• Developing Multi-Task Recommendations with Long-Term Rewards via Policy Distilled Reinforcement Learning (Liu, Li,
Xie et al, 2019)
• An Efficient Deep Reinforcement Learning Model for Urban Traffic Control (Lin, Dai, Li et al, 2018)
• Universal quantum control through deep reinforcement learning (Niu, Boixo, Smelyanskiy et a, 2019)
• Practical Deep Reinforcement Learning Approach for Stock Trading (Xiong, Lil, Zhong et al, 2018)
• A REVIEW ON DEEP REINFORCEMENT LEARNING FOR FLUID MECHANICS (Garnier, Viquerat, Rabault et al, 2019)
• SquirRL: Automating Attack Discovery on Blockchain Incentive Mechanisms with Deep Reinforcement Learning
(Hou, Zhou, Ji et al, 2019)
• Which Channel to Ask My Question?: Personalized Customer Service Request Stream Routing using Deep
Reinforcement Learning (Liu, Long, Lu et al, 2019)
S, A, ρ, P, R
Função recompensa
conjunto de estados rt+1 = R(st , at )
st ∈ S
conjunto de ações função de transição
at ∈ A st+1 ∼ P (st+1|st, at)
distribuição inicial
s0 ∼ ρ(s0)
Propriedade de Markov
• “O futuro é independente do passado dado o presente”
P (st+1 | (s0, a0), (s1, a1), . . . , (st, at)) = P (st+1 | st, at)
!
T −1
Retorno R(τ0:T ) = r1 + r2 + · · · + rT = rt+1
t=0
Política at ∼ π(at|st)
(estocástica)
!T −1 #
Função
"
Objetivo
J(π) = Eτ ∼π [R(τ )] = Eτ ∼π rt+1
t=0
!T −1 #
"
Encontrar uma política ótima π ∗ = arg max J(π) = arg max Eτ ∼π rt+1
t=0
s0 ∼ ρ(s0)
Tendo acesso
somente a
st+1 ∼ P (st+1|st, at)
amostras at ∼ π(at|st)
rt+1 = R(st , at )
https://www.asimovinstitute.org/neural-network-zoo/
https://www.tesla.com/autopilotAI
https://spinningup.openai.com/en/latest/spinningup/rl_intro2.html#id20
• Não há “oráculos” :
• Sem acesso explícito às respostas certas (i.e., nenhum target ou label é fornecido)
• Feedback esparso e/ou atrasado:
• Maior parte do tempo o agente recebe pouca informação para melhorar seu desempenho
• Geração de dados:
• Não há noção clara de “datasets”
• Se a política do agente se altera, a distribuição das experiências do agente também muda
(1) Reinforcement Learning: An Introduction (Sutton & Barto 2018, 2nd Edition)
• Capítulo 1 (http://incompleteideas.net/book/RLbook2018.pdf)
• https://spinningup.openai.com/en/latest/spinningup/rl_intro.html
(3) Challenges of Real-World Reinforcement Learning (Dulac-Arnold, Mankowitz, and Hester, 2019)
• https://arxiv.org/abs/1904.12901
• https://arxiv.org/abs/1908.06973