Aula 4 - Actor-Critic

XLIX Programa de Verão (2020) - Introdução ao Aprendizado por Reforço
Actor-Critic
Ângelo Gregório Lovatto
aglovatto@ime.usp.br
IME - USP, 14/02/2019

LIAMF: Grupo PAR (Planejamento e Aprendizado por Reforço)
Aula 4 - Actor-Critic
Agenda
1. Revisão e Funções vantagem

2. Regularização por retornos descontados
3. Retornos truncados
4. Arquitetura A2C
5. Generalized Advantage Estimation (GAE)
Objetivos
• Familiarizar-se com a família de algoritmos Actor-Critic

• Entender o papel da função valor como critic
• Entender o compromisso entre viés e variância
• Implementar um algoritmo Actor-Critic (A2C)
Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 2

Policy Gradient + Reward-to-go + baseline (1/2)
! T
#T −1 $%
" "
∇J(θ) = Eτ ∼πθ ∇θ log πθ (at |st ) rt! +1 − V πθ (st )
t=0 t! =t
Reward-to-Go baseline
• Na aula passada derivamos o estimador REINFORCE com reward-to-go e baseline

• Uma escolha natural para o baseline é a função valor

π
Função Ação-Valor Q (s, a)
!T −1 # $
" #
V πθ (s) = Eτ ∼πθ rt+1 #s0 = s
#
#
t=0

π
!T −1 # $
" #
#
#
t=0
!T −1 # $
" #
Qπθ (s, a) = Eτ ∼πθ rt+1 #s0 = s, a0 = a
#
#
t=0

π
!T −1 # $
" #
#
#
t=0
!T −1 # $
" #
#
#
t=0
Reward-to-Go

Policy Gradient + Reward-to-go + baseline (2/2)
!T −1 # $
" #
#
#
t=0
!T −1 #T −1 $%
" "
Eτ ∼πθ ∇θ log πθ (at |st ) rt! +1 − V πθ (st )
t=0 t! =t
!T −1 %
"
= Eτ ∼πθ ∇θ log πθ (at |st ) (Qπθ (st , at ) − V πθ (st ))
t=0
• Note que o reward-to-go é o retorno observado dado um estado e ação iniciais
• A esperança desse valor é dada pela função ação-valor Q π(s, a)
• Se tivéssemos essa função, poderíamos substituir o reward-to-go por Q π(s, a)

Função Vantagem (Advantage)
Aπθ (s, a) = Qπθ (s, a) − V πθ (s)
!T −1 #
"
Eτ ∼πθ ∇θ log πθ (at |st ) (Qπθ (st , at ) − V πθ (st ))
t=0
!T −1 #
"
= Eτ ∼πθ ∇θ log πθ (at |st )Aπθ (st , at )
t=0

Função Vantagem (Advantage)
!T −1 #
"
Eτ ∼πθ ∇θ log πθ (at |st ) (Qπθ (st , at ) − V πθ (st ))
t=0
!T −1 #
"
= Eτ ∼πθ ∇θ log πθ (at |st )Aπθ (st , at )
t=0
A πθ(st, at) > 0 ↑ πθ(at | st) Reforço positivo
A πθ(st, at) < 0 ↓ πθ(at | st) Reforço negativo
• A diferença entre a função ação-valor e a função valor é conhecida como função vantagem
• Intuitivamente, ela nos diz o valor da ação em relação à média naquele estado
• Ações acima da média são reforçadas. O contrário acontece com as abaixo da média

Limitações de REINFORCE
!T −1 #
"
πθ
∇J(θ) = Eτ ∼πθ ∇θ log πθ (at |st )A (st , at )
t=0
!"
≈ # ≈
T −1
Ât = t" =t rt" +1 − Vφ(st)
• Precisamos esperar que a trajetória termine para estimar o gradiente

• O estimador da vantagem leva em conta todas as recompensas futuras, levando a alta variância

Reduzindo a variância: temporal discounting (1/3)
γ = 0.9
!" # $
πθ ,γ T −1 t
V (s) = Eτ ∼πθ t=0 γ rt+1 #s0 = s
#
γ = 0.8
!" # $
T
Qπθ ,γ (s, a) = Eτ ∼πθ −1
γ t
rt+1#s0 = s, a0 = a
#
t=0
γ = 0.7
Aπθ ,γ (s, a) = Qπθ ,γ (s, a) − V πθ ,γ (s)
• Consideramos versões descontadas das funções valor vistas até agora

• Discounting funciona ao reduzir o peso de recompensas futuras
• Reflete a noção de que dinheiro hoje vale mais que dinheiro amanhã
• Ignora o efeito de dependências de longo prazo entre ações e recompensas

!T −1 T −1
#
" "
∇J(θ) = Eτ ∼πθ ∇θ log πθ (at | st ) rt! +1
t=0 t! =0
! T −1 $ t−1 T −1
)#
" " "
= Eτ ∼πθ ∇θ log πθ (at | st ) rt! +1 + rt! +1
t=0 t! =0 t! =t
% &' ( % &' (
passado futuro
!T −1 T −1
#
" "
= Eτ ∼πθ ∇θ log πθ (at | st ) rt! +1
t=0 t! =t
!T −1 T −1
#
" "
t! −t
≈ Eτ ∼πθ ∇θ log πθ (at | st ) γ rt! +1
t=0 t! =t
Anteriormente cortarmos as recompensas passadas. Agora também

damos menos peso para recompensas futuras.

Consideramos uma versão enviesada do policy gradient original

!" #
T −1
∇J(θ) ≈ Eτ ∼πθ ∇θ log πθ (at |st )Aπθ ,γ (st , at )
t=0

!" ≈ # ≈
T −1 t" −t
Ât = t" =t γ rt"+1 − Vφ(st)
• Recompensas recebidas muito depois da escolha de uma ação tem peso menor para sua
vantagem
• γ controla essa dependência temporal, ao custo de maior viés do estimador

• Cada vez mais veremos esse compromisso entre viés e variância

Estimando a vantagem: retornos de n passos (1/5)
!" # $ !" # $
T −1 # T −1 #
V πθ ,γ (s) = Eτ ∼πθ γ t rt+1 ##s0 = s Qπθ ,γ (s, a) = Eτ ∼πθ γ t rt+1 ##s0 = s, a0 = a
t=0 t=0

!T −1 # $
" #
= Eτ ∼πθ γ t rt+1 − V πθ ,γ (s0 )#s0 = s, a0 = a
#
#
! t=0 T −1 # $
" #
= Eτ ∼πθ r1 + γ t rt+1 − V πθ ,γ (s0 )#s0 = s, a0 = a
#
#
t=1
= Eτ0:1 ∼πθ [r1 + γV πθ ,γ (s1 ) − V πθ ,γ (s0 )|s0 = s, a0 = a]
• O valor de uma ação pode ser quebrado em recompensa imediata e valor do próximo estado
• A recompensa somada ao valor do próximo estado é conhecida como o retorno de 1 passo
• Por um passo observamos a recompensa obtida
• Sumarizamos o retorno esperado a partir do próximo passo com a função valor

!" # $ !" # $
T −1 # T −1 #
t=0 t=0

!T −1 # $
" #
#
#
! t=0 T −1 # $
" #
#
#
t=1

!" # $ !" # $
T −1 # T −1 #
t=0 t=0

!T −1 # $
" #
#
#
! t=0 T −1 # $
" #
#
#
t=1

!" # $ !" # $
T −1 # T −1 #
t=0 t=0

!T −1 # $
" #
#
#
! t=0 T −1 # $
" #
#
#
t=1

Aπθ ,γ (s, a) = Eτ0:1 ∼πθ [r1 + γV πθ ,γ (s1 ) − V πθ ,γ (s0 )|s0 = s, a0 = a]
rt+1 V πθ,γ(st+1)
A πθ,γ(st, at)

Aπθ ,γ (s, a) = Eτ0:1 ∼πθ [r1 + γV πθ ,γ (s1 ) − V πθ ,γ (s0 )|s0 = s, a0 = a]

2 πθ ,γ
! " #
= Eτ0:2 ∼πθ r1 + γr2 + γ V (s2 ) − V πθ ,γ
(s0 ) s0 = s, a0 = a
"
2 3 πθ ,γ
! " #
= Eτ0:3 ∼πθ r1 + γr2 + γ r3 + γ V (s3 ) − V πθ ,γ
(s0 )"s0 = s, a0 = a
..
.
! " #
= Eτ ∼π r1 + · · · + γ
0:n θ
n−1
rn + γ Vn πθ ,γ
(sn ) − V πθ ,γ
(s0 ) s0 = s, a0 = a
"
• Qualquer quantidade de passos antes de truncar a trajetória é válida

• O truncamento do retorno total com a função valor é conhecido como bootstrapping
• Note que quanto menos passos consideramos, menor o número de variáveis aleatórias
• Isso contribui para a diminuição da variância do estimador

(1)
Ât = rt+1 + γVφ(st+1) − Vφ(st)
(2)
Ât = rt+1 + γrt+2 + γ 2Vφ(st+2) − Vφ(st)
(3)
Ât = rt+1 + γrt+2 + γ 2rt+3 + γ 3Vφ(st+3) − Vφ(st)
...
(n)
Ât = rt+1 + · · · + γ n−t−1rn + γ n−tVφ(sn) − Vφ(st)
• Para amostrar esses retornos precisamos de uma estimativa da função valor

• Podemos usar o mesmo aproximador aprendido para o baseline
• Isso nos permite estimar a vantagem para um passo de tempo sem ter a trajetória completa!

(1)
Ât = rt+1 + γVφ(st+1) − Vφ(st)
(2)
Ât = rt+1 + γrt+2 + γ 2Vφ(st+2) − Vφ(st)
(3)
Ât = rt+1 + γrt+2 + γ 2rt+3 + γ 3Vφ(st+3) − Vφ(st)
...
(n)
Ât = rt+1 + · · · + γ n−t−1rn + γ n−tVφ(sn) − Vφ(st)
Vantagens Desvantagens
• Permitem trabalhar com trajetórias parciais • Necessitam o aprendizado de uma função-valor

• Menor variância das estimativas • Maior dependência na qualidade do aproximador

Advantage Actor-Critic (A2C)
Estimação de Atualização do
vantagens actor/critic
Interação com o
ambiente
• O algoritmo conhecido como A2C incorpora os conceitos vistos até agora

• Actor-Critic vem da interpretação intuitiva dos dois principais componentes do agente
• A política πθ( ⋅ | s) recomenda ações para cada estado, portanto é vista como “actor”
• A função Vϕ(s) avalia o retorno esperado sob a política, portanto é vista como “critic”

A arquitetura do modelo compartilha parâmetros entre actor e critic
Extrator de features
O modelo é atualizado end-to-end: definimos um objetivo conjunto entre actor e critic
“Joint Loss”
[θ, φ] ← [θ, φ] + α∇θ,φ (Lactor(θ) + Lcritic(φ))

O objetivo do actor é a função de custo do Policy Gradient, com as vantagens calculadas

por bootstrapping
!K (n)
Lactor(θ) = − K1 t=1 log πθ (at |st )Ât
(n)
Ât = rt+1+· · ·+γ n−t−1rn+γ n−t Vφ(st+n) − Vφ(st)
! "# $
stop gradient
O objetivo do critic é mesmo de antes: prever os retornos sob a política (com bootstrapping)
1
!K 2
Lcritic(φ) = K t=1 (Vφ (st ) − R̂t)
R̂t = rt+1 + · · · + γ n−t−1rn + γ n−t Vφ(st+n)

! "# $
stop gradient
∇Lactor(θ) ≈ − ∇J(θ)


Generalized Advantage Estimation (GAE) (1/4)
Como escolher o número de passos antes de realizer o bootstrapping?
• Quanto mais cedo truncarmos a trajetória, mais dependente da função valor seremos
• Quanto mais tarde, mais estaremos sujeitos à variância das recompensas
GAE sugere usar uma média exponencial de todos eles
GAE(γ,λ) (1) (2) 2 (3)

Ât = (1 − λ)(Ât + λÂt +λ Ât +...)
Onde λ ∈ (0,1) controla o grau de bootstrapping desejado:
• Com λ → 0, o estimador se aproxima do estimador de um passo

• Com λ → 1, o estimador se aproxima do reward-to-go menos baseline

Como calcular o estimador GAE de maneira eficiente?
Note que a vantagem de n passos pode ser quebrada em n vantagens de 1 passo
δt = rt+1 + γVφ(st+1) − Vφ(st)
(1)
Ât = δt
(2)
Ât = δt + γδt+1
= (rt+1 + γVφ (st+1 ) − Vφ (st )) + γ(rt+2 + γVφ (st+2 ) − Vφ (st+1 ))
= rt+1 + γrt+2 + γ 2 Vφ (st+2 ) − Vφ (st )
Exercício: mostrar essa equivalência para n passos
(n)
Ât = δt + γδt+1 + · · · + γ n−t−1δt+n

GAE(γ,λ) (1) (2) 2 (3)
Ât = (1 − λ)(Ât + λÂt +λ Ât +...)
(1)
Ât = δt
(2)
Ât = δt + γδt+1
(3) 2
Ât = δt + γδt+1 + γ δt+2
(4) 2 3
Ât = δt + γδt+1 + γ δt+2 + γ δt+3

GAE(γ,λ) (1) (2) 2 (3)
Ât = (1 − λ)(Ât + λÂt +λ Ât +...)

GAE(γ,λ) (1) (2) 2 (3)
Ât = (1 − λ)(Ât + λÂt +λ Ât +...)

!∞ 1
k
λ = , λ ∈ (0, 1)
k=0 1−λ
..
.
1
δt
1−λ

!∞ 1
k
λ = , λ ∈ (0, 1)
k=0 1−λ
..
.
λ
γδt+1
1−λ

!∞ 1
k
λ = , λ ∈ (0, 1)
k=0 1−λ
..
.
λ2 2
γ δt+2
1−λ

2
! "
1 λ λ
(1 − λ) δt + γδt+1 + γ 2 δt+2 + . . .
1−λ 1−λ 1−λ

2
! "
1 λ λ
(1 − λ) δt + γδt+1 + γ 2 δt+2 + . . .
1−λ 1−λ 1−λ
δt + γλδt+1 + γ 2 λ2 δt+2 + . . .
GAE(γ,λ)
!
∞
Ât = (γλ)t δt
t=0

GAE(γ,λ)
!
∞
Ât = (γλ)t δt
Casos especias do estimador GAE(γ, λ):
t=0
GAE nos permite interpolar entre retornos de N passos e Monte Carlo
*GAE(γ, λ) é análogo ao estimador de temporal difference, TD(λ), em programação dinâmica.

Referências
(1) Generalized Advantage Estimation
• http://arxiv.org/abs/1506.02438
(2) Intuitive RL (Reinforcement Learning): Introduction to Advantage-Actor-Critic (A2C)
• https://sudonull.com/post/32170-Intuitive-RL-Reinforcement-Learning-Introduction-to-Advantage-Actor-Critic-A2C
(3) CS 285 - Deep Reinforcement Learning (UC Berkeley)
• http://rail.eecs.berkeley.edu/deeprlcourse/static/slides/lec-6.pdf

Aula 4 - Actor-Critic

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula 4 - Actor-Critic

Enviado por

Direitos autorais:

Formatos disponíveis

XLIX Programa de Verão (2020) - Introdução ao Aprendizado por Reforço

IME - USP, 14/02/2019

1. Revisão e Funções vantagem

• Familiarizar-se com a família de algoritmos Actor-Critic

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 2

• Na aula passada derivamos o estimador REINFORCE com reward-to-go e baseline

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 3

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 4

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 4

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 4

• Note que o reward-to-go é o retorno observado dado um estado e ação iniciais

• A esperança desse valor é dada pela função ação-valor Q π(s, a)

• Se tivéssemos essa função, poderíamos substituir o reward-to-go por Q π(s, a)

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 5

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 6

A πθ(st, at) > 0 ↑ πθ(at | st) Reforço positivo

A πθ(st, at) < 0 ↓ πθ(at | st) Reforço negativo

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 6

Aπθ (s, a) = Qπθ (s, a) − V πθ (s)

• Precisamos esperar que a trajetória termine para estimar o gradiente

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 7

• Consideramos versões descontadas das funções valor vistas até agora

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 8

Anteriormente cortarmos as recompensas passadas. Agora também

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 9

Consideramos uma versão enviesada do policy gradient original

Aπθ ,γ (s, a) = Qπθ ,γ (s, a) − V πθ ,γ (s)

• γ controla essa dependência temporal, ao custo de maior viés do estimador

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 10

Aπθ ,γ (s, a) = Qπθ ,γ (s, a) − V πθ ,γ (s)

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 11

Aπθ ,γ (s, a) = Qπθ ,γ (s, a) − V πθ ,γ (s)

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 11

Aπθ ,γ (s, a) = Qπθ ,γ (s, a) − V πθ ,γ (s)

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 11

Aπθ ,γ (s, a) = Qπθ ,γ (s, a) − V πθ ,γ (s)

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 11

Aπθ ,γ (s, a) = Eτ0:1 ∼πθ [r1 + γV πθ ,γ (s1 ) − V πθ ,γ (s0 )|s0 = s, a0 = a]

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 12

Aπθ ,γ (s, a) = Eτ0:1 ∼πθ [r1 + γV πθ ,γ (s1 ) − V πθ ,γ (s0 )|s0 = s, a0 = a]

• Qualquer quantidade de passos antes de truncar a trajetória é válida

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 13

• Para amostrar esses retornos precisamos de uma estimativa da função valor

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 14

• Permitem trabalhar com trajetórias parciais • Necessitam o aprendizado de uma função-valor

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 15

• O algoritmo conhecido como A2C incorpora os conceitos vistos até agora

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 16

A arquitetura do modelo compartilha parâmetros entre actor e critic

O modelo é atualizado end-to-end: definimos um objetivo conjunto entre actor e critic

[θ, φ] ← [θ, φ] + α∇θ,φ (Lactor(θ) + Lcritic(φ))

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 17

O objetivo do actor é a função de custo do Policy Gradient, com as vantagens calculadas

R̂t = rt+1 + · · · + γ n−t−1rn + γ n−t Vφ(st+n)

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 18

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 19

Como escolher o número de passos antes de realizer o bootstrapping?

GAE(γ,λ) (1) (2) 2 (3)

Onde λ ∈ (0,1) controla o grau de bootstrapping desejado:

• Com λ → 0, o estimador se aproxima do estimador de um passo

Curso de Verão IME 2020 - Introdução ao Aprendizado por Reforço 20

Como calcular o estimador GAE de maneira eficiente?

Note que a vantagem de n passos pode ser quebrada em n vantagens de 1 passo