BartoSutton 1 150

Machine Translated by Google
Reforço
Aprendizado
Uma introdução
segunda edição
Richard S. Sutton e Andrew G. Barto

Computação Adaptativa e Aprendizado de Máquina
Francisco Bach
Uma lista completa de livros publicados na Adaptive Computation and Machine Learning
série aparece no final deste livro.
O desenho da capa é baseado nas trajetórias de uma bicicleta simulada controlada por um
sistema de aprendizagem por reforço desenvolvido por Jette Randløv.

Aprendizagem por Reforço:
Uma introdução
segunda edição
Richard S. Sutton e Andrew G. Barto
A imprensa do MIT
Cambridge, Massachusetts
Londres, Inglaterra
c2018 Richard S. Sutton e Andrew G. Barto
Este trabalho está licenciado sob Creative Commons Attribution-NonCommercial-NoDerivs
2.0 Licença Genérica. Para visualizar uma cópia desta licença, visite http://creativecommons.
org/licenses/by-nc-nd/2.0/ ou envie uma carta para Creative Commons, PO Box 1866,
Mountain View, CA 94042, EUA.
Este livro foi ambientado em —— por ——. Impresso e encadernado nos Estados Unidos da América.
Comp: Preencha a fonte, o compositor e a localização
Os dados de catalogação na publicação da Biblioteca do Congresso estão disponíveis.
ISBN: 978-0-262-19398-6
10 9 8 7 6 5 4 3 2 1
Em memória de A. Harry Klopf

Conteúdo
Prefácio à segunda edição xiii
Prefácio à Primeira Edição xvii
Resumo da notação XIX
1. Introdução 1
1.1 Aprendizagem por Reforço. . . . . . . . . . . . . . ... . ... . ... . .. 1
1.2 Exemplos. . . . . . . . . . . . . . . . . . . . . . ... . ... . ... . ..4
1.3 Elementos de Aprendizagem por Reforço. . . . . . . . . . . ... . ... . ..6
1.4 Limitações e Escopo . . . . . . . . . . . . . . . . . . . ... . ... . ..7
1.5 Um exemplo estendido: jogo da velha. . . . . . . . . . . ... . ... . ..8
1.6 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 13
1.7 História Inicial da Aprendizagem por Reforço. . . . . ... . ... . ... . . . 13
Métodos de solução tabular 23
2 bandidos multi-armados 25
2.1 Um problema de bandido armado com k. . . . . . . . . . . . . . . . . . . . ... . . . 25
2.2 Métodos de Ação-Valor . . . . . . . . . . . . . . . ... . ... . ... . . . 27
2.3 O Testbed de 10 braços . . . . . . . . . . . . . . . . . . . ... . ... . . . 28
2.4 Implementação Incremental . . . . . . . . . . . . ... . ... . ... . . . 30
2.5 Rastreando um Problema Não Estacionário . . . . . . . . . . . . ... . ... . . . 32
2.6 Valores Iniciais Otimistas . . . . . . . . . . . . . . ... . ... . ... . . . 34
2.7 Seleção de Ações com Limite Superior de Confiança . . . . . . . . ... . ... . . . 35
2.8 Algoritmos Gradiente Bandido . . . . . . . . . . . . . . . . ... . ... . . . 37
2.9 Pesquisa Associativa (Bandidos Contextuais) . . . . . ... . ... . ... . . . 41
2.10 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 42
vii
viii Conteúdo
3 processos de decisão finitos de Markov 47

3.1 A Interface Agente-Ambiente . . . . . . . . . . . . ... . ... . . . 47
3.2 Metas e Recompensas . . . . . . . . . . . . . . . . . ... . ... . ... . . . 53
3.3 Retornos e Episódios . . . . . . . . . . . . . . . . . . . ... . ... . . . 54
3.4 Notação Unificada para Tarefas Episódicas e Continuadas. . ... . ... . . . 57
3.5 Políticas e Funções de Valor . . . . . . . . . . . ... . ... . ... . . . 58
3.6 Políticas Ótimas e Funções de Valor Ótimo. ... . ... . ... . . . 62
3.7 Otimalidade e Aproximação. . . . . . . . . . . . . . ... . ... . . . 67
3.8 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 68
4 Programação Dinâmica 4.1 73

Avaliação de Políticas (Previsão) . . . . . . . . . . ... . ... . ... . . . 74
4.2 Melhoria da Política . . . . . . . . . . . . . . . . ... . ... . ... . . . 76
4.3 Iteração de Políticas . . . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 80
4.4 Iteração de Valor . . . . . . . . . . . . . . . . . . . ... . ... . ... . . . 82
4.5 Programação Dinâmica Assíncrona . . . . . . . . . . ... . ... . . . 85
4.6 Iteração Generalizada de Políticas . . . . . . . . . . . . ... . ... . ... . . . 86
4.7 Eciência da Programação Dinâmica . . . . . . . ... . ... . ... . . . 87
4.8 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 88
5 métodos de Monte Carlo 91

5.1 Previsão de Monte Carlo. . . . . . . . . . . . . . ... . ... . ... . . . 92
5.2 Estimativa Monte Carlo de Valores de Ação . . . . ... . ... . ... . . . 96
5.3 Controle de Monte Carlo. . . . . . . . . . . . . . . . ... . ... . ... . . . 97
5.4 Controle Monte Carlo sem Exploração de Partidas . . . . . ... . ... . . . 100
5.5 Previsão da política Oÿ via amostragem de importância. . . . . ... . ... . . . 103
5.6 Implementação Incremental . . . . . . . . . . . . . . . . ... . ... . . . 109
5.7 Política Oÿ Controle de Monte Carlo . . . . . . . . . . ... . ... . ... . . . 110
5.8 *Amostragem de Importância com Consciência de Desconto . . . . . . . . . . . . ... . . . 112
5.9 *Amostragem de importância por decisão . . . . . . . . . . . . . . . . ... . . . 114
5.10 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 115
6 Aprendizagem por Diferença Temporal 119

6.1 Predição de TD . . . . . . . . . . . . . . . . . . . ... . ... . ... . . . 119
6.2 Vantagens dos Métodos de Predição de TD. . . . . . . . . . ... . ... . . . 124
6.3 Otimalidade de TD(0) . . . . . . . . . . . . . . . . . . . . ... . ... . . . 126
6.4 Sarsa: Controle de TD dentro da política. . . . . . . . . . . . . . . ... . ... . . . 129
6.5 Q-learning: Controle de TD da política Oÿ . . . . . . . . ... . ... . ... . . . 131
6.6 Sarsa esperado. . . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 133
6.7 Viés de Maximização e Dupla Aprendizagem . . . . . ... . ... . ... . . . 134
6.8 Jogos, Pós-Estados e Outros Casos Especiais . . ... . ... . ... . . . 136
6.9 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 138
Conteúdo ix
7 Bootstrapping em n etapas 141

7.1 Predição de TD em n etapas. . . . . . . . . . . . . . . . . . . ... . ... . . . 142
7.2 n-passo Sarsa. 7.3 . . . . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 145
Aprendizagem de políticas Oÿ em n etapas. . . . . . . . . . . . . . . . . ... . ... . . . 148
7.4 *Métodos por decisão com variáveis de controle . . ... . ... . ... . . . 150
7.5 Aprendizagem de políticas Oÿ sem amostragem de importância:
O algoritmo de backup de árvore em n etapas. .. ..152
. . . . . ... . ... . ... .
7.6 *Um Algoritmo Unificador: n-passo Q()..................... 154
7.7 Resumo . . . 157 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... .
8 Planejando e aprendendo com métodos tabulares 159

8.1 Modelos e Planejamento . . . . . . . . . . . . . . . . . . . . ... . ... . . . 159
8.2 Dyna: Planejamento, Ação e Aprendizagem Integrados . . . . ... . ... . . . 161
8.3 Quando o modelo está errado . . . . . . . . . . . . . . . . . ... . ... . . . 166
8.4 Varredura Priorizada . . . . . . . . . . . . . . . . ... . ... . ... . . . 168
8.5 Atualizações esperadas vs. amostras . . . . . . . . . . . ... . ... . ... . . . 172
8.6 Amostragem de Trajetória . . . . . . . . . . . . . . . . ... . ... . ... . . . 174
8.7 Programação Dinâmica em Tempo Real . . . . . . . . . . . . . ... . ... . . . 177
8.8 Planejando no Momento da Decisão . . . . . . . . . . . . . . . . . ... . ... . . . 180
8.9 Pesquisa Heurística . . . . . . . . . . . . . . . . . . ... . ... . ... . . . 181
8.10 Algoritmos de Implementação . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 183
8.11 Pesquisa de árvores de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . ... . . . 185
8.12 Resumo do Capítulo . . . . . . . . . . . . . . ... . ... . ... . . . 188
8.13 Resumo da Parte I: Dimensões . . . . . . . . . . ... . ... . ... . . . 189
II Métodos de solução aproximada 195
9 Predição dentro da política com aproximação 9.1 197

Aproximação de função de valor . . . . . . . . . . . ... . ... . ... . . . 198
9.2 O Objetivo de Predição (VE) . . . . . . . . . . . . . . ... . ... . . . 199
9.3 Métodos de Gradiente Estocástico e Semigradiente . ... . ... . ... . . . 200
9.4 Métodos Lineares . . . . . . . . . . . . . . . . . . . ... . ... . ... . . . 204
9.5 Construção de recursos para métodos lineares. . . . ... . ... . ... . . . 210
9.5.1 Polinômios . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 210
9.5.2 Base de Fourier. . . . . . . . . . . . . . . . . . . . ... . ... . . . 211
9.5.3 Codificação Grosseira . . . . . . . . . . . . . . . . . . . . . . . ... . . . 215
9.5.4 Codificação de blocos . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . 217
9.5.5 Funções de Base Radial . . . . . . . . . . . . . . . ... . ... . . . 221
9.6 Selecionando manualmente os parâmetros de tamanho do passo . . . . . . . . . . . . . ... . . . 222
9.7 Aproximação de Função Não Linear: Redes Neurais Artificiais . . . . . . 223
9.8 Mínimos Quadrados TD . . . . . . . . . . . . . . . . . ... . ... . ... . . . 228
x Conteúdo
9.9 Aproximação de Função Baseada em Memória . . . . . . . . . . . . . ... . . . 230

9.10 Aproximação de Função Baseada em Kernel . . . . . . . . . . . . . . ... . . . 232
9.11 Aprofundando a Aprendizagem sobre Políticas: Interesse e Ênfase . . . . . . 234
9.12 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 236
10 Controle de acordo com a política com aproximação 243

10.1 Controle semigradiente episódico . . . . . . . . . . . . . . ... . ... . . . 243
10.2 Sarsa semi-gradiente n-passo . . . . . . . . . . . . . . . . ... . ... . . . 247
10.3 Recompensa Média: Um Novo Problema para Tarefas Continuadas . . . . . . 249
10.4 Descontinuando a configuração com desconto . . . . . . . . . . . . . . . . . . . . . . 253
10.5 Diferencial Semi-gradiente n-passo Sarsa . . . . . . ... . ... . ... . . . 255
10.6 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 256
11 Métodos de política *Oÿ com aproximação 11.1 257

Métodos de semigradiente . . . . . . . . . . . . . . . . . . . ... . ... . . . 258
11.2 Exemplos de divergência de políticas Oÿ . . . . . . . . ... . ... . ... . . . 260
11.3 A Tríade Mortal. . . . . . . . . . . . . . . . . . ... . ... . ... . . . 264
11.4 Geometria de Função de Valor Linear . . . . . . . . . ... . ... . ... . . . 266
11.5 Gradiente descendente no erro Bellman. . . . . . . . . . ... . ... . . . 269
11.6 O erro Bellman não pode ser aprendido. . . . . . . ... . ... . ... . . . 274
11.7 Métodos Gradiente-TD . . . . . . . . . . . . . . . . . . . ... . ... . . . 278
11.8 Métodos Enfático-TD . . . . . . . . . . . . . . . ... . ... . ... . . . 281
11.9 Redução da Variância . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 283
11.10 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 284
12 traços de elegibilidade 287

12.1 O retorno. . 288 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12.2 TD().................................... 292
. . . . . . . . . . . . . . . . . . .
12.3 Métodos de retorno truncado em n etapas . . 295
12.4 Refazendo atualizações: algoritmo de retorno on-line . . .. 297
... . ... . ... .
12.5 TD On-line Verdadeiro()......................... 299
12.6 *Traços holandeses na aprendizagem de Monte Carlo.. . .. 301
. . ... . ... . ... .
12.7 Sarsa().................................. 303
12.8 Variável e ................................ 307
12.9 *Oÿ-rastreamentos de política com variáveis de controle . . . . . . . . . . . . . ... . . . 309
12.10 Q() de Watkins para Tree-Backup()................... 312
12.11 Métodos de política Oÿ estável com rastreamentos . .. ..314
. . ... . ... . ... .
12.12 Questões de Implementação . . . . . . . . . . . . . . . . . . . ... . ... . . . 316
12.13 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . 317
Conteúdo XI
13 Métodos de Gradiente de Políticas 321

13.1 Aproximação de Políticas e suas Vantagens . . . . . . . . ... . ... . . . 322
13.2 O Teorema do Gradiente de Política. . . . . . . . . . . . . . . . . . . ... . . . 324
13.3 REFORÇAR: Gradiente da Política de Monte Carlo . . . . . . . . . . . ... . . . 326
13.4 REFORÇAR com Linha de Base . . . . . . . . . . . . ... . ... . ... . . . 329
13.5 Métodos Ator-Crítico . . . . . . . . . . . . . . . ... . ... . ... . . . 331
13.6 Gradiente de Política para Problemas Continuados . . . . . . . . . . . . ... . . . 333
13.7 Parametrização de Políticas para Ações Contínuas . . . . . ... . ... . . . 335
13.8 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 337
III Olhando mais profundamente 339
14 Psicologia 14.1 341

Previsão e Controle . . . . . . . . . . . . . . . ... . ... . ... . . . 342
14.2 Condicionamento Clássico . . . . . . . . . . . . . . . . . . . ... . ... . . . 343
14.2.1 Bloqueio e Condicionamento de Ordem Superior . . . . . . . . . ... . . . 345
14.2.2 O Modelo Rescorla–Wagner . . . . . . . ... . ... . ... . . . 346
14.2.3 O Modelo TD . . . . . . . . . . . . . . . . . . . ... . ... . . . 349
14.2.4 Simulações do Modelo TD . . . . . . . . . . . ... . ... . ... . . . 350
14.3 Condicionamento Instrumental . . . . . . . . . . . . . . . . . . . . . ... . . . 357
14.4 Reforço Atrasado . . . . . . . . . . . . . . . ... . ... . ... . . . 361
14.5 Mapas Cognitivos . . . . . . . . . . . . . . . . . . . ... . ... . ... . . . 363
14.6 Comportamento Habitual e Orientado a Objetivos . . . . . . . . . . . ... . ... . . . 364
14.7 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 368
15 Neurociência 377
15.1 Noções básicas de neurociência . . . . . . . . . . . . . . . . ... . ... . ... . . . 378
15.2 Sinais de recompensa, sinais de reforço, valores e erros de previsão. . 380
15.3 A Hipótese do Erro de Previsão de Recompensa. . . 381. . . . . . . ... . ... .
15.4 Dopamina. . . . . . . . . . . . . . . . . . . . . . ... . ... . ... . . . 383
15.5 Suporte experimental para a hipótese de erro de previsão de recompensa. . . . 387
15.6 Correspondência de erro TD/dopamina . . . . . . . . . . . ... . ... . . . 390
15.7 Ator-Crítico Neural . . . . . . . . . . . . . . . . ... . ... . ... . . . 395
15.8 Regras de Aprendizagem do Ator e do Crítico . . . . . . . . . . . . . . . . . ... . . . 398
15.9 Neurônios Hedonistas . . . . . . . . . . . . . . . . . ... . ... . ... . . . 402
15.10 Aprendizagem por Reforço Coletivo . . . . . . . . ... . ... . ... . . . 404
15.11 Métodos Baseados em Modelos no Cérebro . . . . . . . . . . . . ... . ... . . . 407
15.12 Dependência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . 409
15.13 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 410
xii Conteúdo
16 Aplicações e Estudos de Caso 16.1 TD- 421

Gammon . . . . . . . . . . . . . . . . . . . . ... . ... . ... . . . 421
16.2 Jogador de Damas de Samuel. . . . . . . . . . . . . ... . ... . ... . . . 426
16.3 Apostas Duplas Diárias de Watson . . . . . . . . . ... . ... . ... . . . 429
16.4 Otimizando o Controle de Memória . . . . . . . . . . . . . . . . ... . ... . . . 432
16.5 Jogo de videogame em nível humano . . . . . . . . . . ... . ... . ... . . . 436
16.6 Dominando o Jogo do Go . . . . . . . . . . . . . ... . ... . ... . . . 441
16.6.1 AlfaGo . . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 444
16.6.2 AlphaGo Zero . . . . . . . . . . . . . . . . . . . . ... . ... . . . 447
16.7 Serviços Web Personalizados . . . . . . . . . . . . . ... . ... . ... . . . 450
16.8 Elevação Térmica . . . . . . . . . . . . . . . . . . ... . ... . ... . . . 453
17 Fronteiras 459
17.1 Funções de Valores Gerais e Tarefas Auxiliares . . ... . ... . ... . . . 459
17.2 Abstração Temporal via Opções . . . . . . . . ... . ... . ... . . . 461
17.3 Observações e Estado . . . . . . . . . . . . . . . . . . ... . ... . . . 464
17.4 Projetando Sinais de Recompensa . . . . . . . . . . . . . ... . ... . ... . . . 469
17.5 Questões Restantes . . . . . . . . . . . . . . . . . . ... . ... . ... . . . 472
17.6 O Futuro da Inteligência Artificial . . . . . . . . ... . ... . ... . . . 475
Referências 481
Índice 519
Prefácio à segunda edição
Os vinte anos desde a publicação da primeira edição deste livro testemunharam um tremendo
progresso na inteligência artificial, impulsionado em grande parte pelos avanços na aprendizagem
automática, incluindo avanços na aprendizagem por reforço. Embora o impressionante poder
computacional disponibilizado seja responsável por alguns desses avanços, novos
desenvolvimentos na teoria e nos algoritmos também têm sido forças motrizes. Diante desse
progresso, uma segunda edição do nosso livro de 1998 estava muito atrasada e finalmente
iniciamos o projeto em 2012. Nosso objetivo para a segunda edição foi o mesmo que o objetivo
para a primeira: fornecer um relato claro e simples das principais ideias e algoritmos de
aprendizagem por reforço que são acessíveis aos leitores em todas as disciplinas relacionadas.
A edição continua sendo uma introdução e mantemos o foco nos principais algoritmos de
aprendizagem on-line. Esta edição inclui alguns tópicos novos que ganharam importância ao
longo dos anos seguintes, e ampliamos a cobertura de tópicos que agora entendemos melhor.
Mas não fizemos nenhuma tentativa de fornecer uma cobertura abrangente da área, que explodiu
em muitas direções diferentes. Pedimos desculpas por ter deixado de fora todas essas contribuições, exceto algu
Tal como na primeira edição, optámos por não produzir um tratamento formal rigoroso da aprendizagem por
reforço, ou formulá-lo nos termos mais gerais. No entanto, a nossa compreensão mais profunda de alguns tópicos
desde a primeira edição exigiu um pouco mais de matemática para explicar; colocamos em caixas sombreadas as
partes mais matemáticas que os não inclinados à matemática podem optar por ignorar. Também usamos uma
notação ligeiramente diferente da usada na primeira edição. No ensino, descobrimos que a nova notação ajuda a
resolver alguns pontos comuns de confusão. Enfatiza a diferença entre variáveis aleatórias, denotadas com letras
maiúsculas, e suas instanciações, denotadas em minúsculas . Por exemplo, o estado, a ação e a recompensa na
etapa de tempo t são denotados por St, At e Rt, enquanto seus valores possíveis podem ser denotados por s, a e r.
Junto com isso, é natural usar letras minúsculas para funções de valor (por exemplo, vÿ) e restringir maiúsculas às
suas estimativas tabulares (por exemplo, Qt(s, a)). Funções de valor aproximado são funções determinísticas de
parâmetros aleatórios e, portanto, também estão em letras minúsculas (por exemplo, vˆ(s,wt) ÿ vÿ(s)). Vetores, como
o vetor de peso wt (anteriormente ÿt) e o vetor de características xt (anteriormente t), estão em negrito e escritos em
letras minúsculas, mesmo que sejam variáveis aleatórias. Negrito maiúsculo é reservado para matrizes. Na primeira
edição utilizamos notações especiais, Pa e Ra para a transição ss0 , probabilidades e recompensas esperadas. Um
ponto fraco dessa notação é que ela ainda não caracterizou completamente a dinâmica das recompensas, fornecendo
apenas as suas expectativas, o que é suficiente para a programação dinâmica,
ss0 mas não para a aprendizagem por
reforço. Outra fraqueza
xiii
XIV Prefácio à segunda edição
é o excesso de subscritos e sobrescritos. Nesta edição usamos a notação explícita de p(s0 , r|

s, a) para a probabilidade conjunta do próximo estado e recompensa dado o estado e ação
atuais. Todas as mudanças na notação estão resumidas em uma tabela na página xix.
A segunda edição foi significativamente ampliada e sua organização de nível superior foi alterada.
Após o primeiro capítulo introdutório, a segunda edição é dividida em três novas partes. A primeira
parte (Capítulos 2 a 8) trata o máximo possível do aprendizado por reforço, sem ir além do caso
tabular para o qual soluções exatas podem ser encontradas. Cobrimos métodos de aprendizagem e
planejamento para o caso tabular, bem como sua unificação em métodos de n etapas e em Dyna.
Muitos algoritmos apresentados nesta parte são novos na segunda edição, incluindo UCB, Expected
Sarsa, Double learning, tree-backup, Q(), RTDP e MCTS. Fazer o caso tabular primeiro e de forma
completa permite que as ideias centrais sejam desenvolvidas no ambiente mais simples possível. A
segunda parte do livro (Capítulos 9–13) é então dedicada a estender as ideias para a aproximação
de funções. Ele tem novas seções sobre redes neurais artificiais, base de Fourier, LSTD, métodos
baseados em kernel, métodos Gradient-TD e Emphatic-TD, métodos de recompensa média, TD()
online verdadeiro e métodos de gradiente de política. A segunda edição expande significativamente
o tratamento da aprendizagem oÿ-política, primeiro para o caso tabular nos Capítulos 5–7, depois
com aproximação de função nos Capítulos 11 e 12. Outra mudança é que a segunda edição separa
a ideia de visão futura de n bootstrapping em etapas (agora tratado mais detalhadamente no Capítulo
7) a partir da ideia de visão retroativa dos traços de elegibilidade (agora tratado de forma
independente no Capítulo 12). A terceira parte do livro tem grandes capítulos novos sobre as relações
da aprendizagem por reforço com a psicologia (Capítulo 14) e a neurociência (Capítulo 15), bem
como um capítulo de estudos de caso atualizado, incluindo jogos de Atari, estratégia de apostas de
Watson e programas de jogo Go. AlphaGo e AlphaGo Zero (Capítulo 16). Ainda assim, por
necessidade incluímos apenas um pequeno subconjunto de tudo o que foi feito no terreno. Nossas
escolhas refletem nossos interesses de longa data em métodos baratos e livres de modelos que
devem ser bem dimensionados para grandes aplicações.
O capítulo final inclui agora uma discussão sobre os futuros impactos sociais da aprendizagem por
reforço. Para o bem ou para o mal, a segunda edição é cerca de duas vezes maior que a primeira.
Este livro foi elaborado para ser usado como texto principal em um curso de um ou dois
semestres sobre aprendizagem por reforço. Para um curso de um semestre, os primeiros
dez capítulos devem ser abordados em ordem e formar um bom núcleo, ao qual pode ser
acrescentado material dos demais capítulos, de outros livros como Bertsekas e Tsitsiklis
(1996), Wiering e van Otterlo ( 2012) e Szepesvári (2010), ou da literatura, conforme o gosto.
Dependendo da formação dos alunos, algum material adicional sobre aprendizagem
supervisionada online pode ser útil. As ideias de opções e modelos de opções são uma
adição natural (Sutton, Precup e Singh, 1999). Um curso de dois semestres pode abranger
todos os capítulos, bem como material complementar. O livro também pode ser usado como
parte de cursos mais amplos sobre aprendizado de máquina, inteligência artificial ou redes
neurais. Neste caso, pode ser desejável cobrir apenas um subconjunto do material.
Recomendamos cobrir o Capítulo 1 para uma breve visão geral, do Capítulo 2 até a Seção
2.4, Capítulo 3, e depois selecionar seções dos capítulos restantes de acordo com o tempo
e os interesses. O Capítulo 6 é o mais importante para o assunto e para o restante do livro.
Um curso com foco em aprendizado de máquina ou redes neurais deve abranger os Capítulos
9 e 10, e um curso com foco em inteligência artificial ou planejamento deve abranger o
Capítulo 8. Ao longo do livro, seções e capítulos que são mais difíceis e não essenciais para o restante do liv
Prefácio à segunda edição xv
com um ÿ. Estas podem ser omitidas na primeira leitura sem criar problemas posteriores. Alguns
exercícios também são marcados com um ÿ para indicar que são mais avançados e não
essenciais para a compreensão do material básico do capítulo.
A maioria dos capítulos termina com uma seção intitulada “Observações bibliográficas e
históricas”, na qual creditamos as fontes das ideias apresentadas naquele capítulo, fornecemos
dicas para leituras adicionais e pesquisas em andamento e descrevemos o contexto histórico
relevante. Apesar de nossas tentativas de tornar estas seções oficiais e completas, sem dúvida
deixamos de fora alguns trabalhos anteriores importantes. Por isso pedimos novamente
desculpas e agradecemos correções e extensões para incorporação na versão eletrônica do livro.
Tal como a primeira edição, esta edição do livro é dedicada à memória de A. Harry Klopf. Foi
Harry quem nos apresentou um ao outro, e foram suas ideias sobre o cérebro e a inteligência
artificial que lançaram nossa longa excursão pelo aprendizado por reforço.
Treinado em neurofisiologia e há muito interessado em inteligência de máquina, Harry era
um cientista sênior aliado da Diretoria de Aviônica do Departamento de Pesquisa Científica
da Força Aérea (AFOSR) na Base Aérea de Wright-Patterson, Ohio. Ele estava insatisfeito
com a grande importância atribuída aos processos de busca de equilíbrio, incluindo a
homeostase e métodos de classificação de padrões de correção de erros, na explicação da
inteligência natural e no fornecimento de uma base para a inteligência da máquina. Ele
observou que os sistemas que tentam maximizar algo (seja lá o que for) são qualitativamente
diferentes dos sistemas que buscam o equilíbrio, e argumentou que os sistemas de
maximização são a chave para a compreensão de aspectos importantes da inteligência
natural e para a construção de inteligências artificiais. Harry foi fundamental na obtenção de
financiamento da AFOSR para um projeto para avaliar o mérito científico destas e de ideias
relacionadas. Este projeto foi conduzido no final da década de 1970 na Universidade de
Massachusetts Amherst (UMass Amherst), inicialmente sob a direção de Michael Arbib,
William Kilmer e Nico Spinelli, professores do Departamento de Ciência da Computação e
Informação da UMass Amherst, e membros fundadores. do Centro Cibernético para
Neurociências de Sistemas da Universidade, um grupo clarividente com foco na intersecção
da neurociência e da inteligência artificial. Barto, um recente Ph.D. da Universidade de
Michigan, foi contratado como pesquisador de pós-doutorado no projeto. Enquanto isso,
Sutton, um estudante de graduação em ciência da computação e psicologia em Stanford,
correspondia-se com Harry a respeito de seu interesse mútuo no papel do tempo de estímulo
no condicionamento clássico. Harry sugeriu ao grupo UMass que Sutton seria um ótimo
complemento para o projeto. Assim, Sutton tornou-se um estudante de pós-graduação da
UMass, cujo Ph.D. foi dirigido por Barto, que se tornou professor associado. O estudo da
aprendizagem por reforço apresentado neste livro é justamente o resultado daquele projeto
instigado por Harry e inspirado por suas ideias. Além disso, Harry foi responsável por reunir nós, os autores
Ao dedicar este livro a Harry, honramos as suas contribuições essenciais, não apenas no campo
da aprendizagem por reforço, mas também na nossa colaboração. Agradecemos também aos
professores Arbib, Kilmer e Spinelli pela oportunidade que nos proporcionaram de começar a
explorar essas ideias. Finalmente, agradecemos à AFOSR pelo generoso apoio durante os
primeiros anos da nossa investigação, e à NSF pelo seu generoso apoio durante muitos dos anos seguintes.
Temos muitas pessoas a quem agradecer pela inspiração e ajuda nesta segunda edição.
Todos que reconhecemos por sua inspiração e ajuda na primeira edição
xvi Prefácio à segunda edição
merecem também a nossa mais profunda gratidão por esta edição, que não existiria se não fosse pelas
suas contribuições para a edição número um. A essa longa lista devemos acrescentar muitos outros
que contribuíram especificamente para a segunda edição. Nossos alunos, ao longo dos muitos anos
em que ensinamos este material, contribuíram de inúmeras maneiras: expondo erros, oferecendo
soluções e, não menos importante, ficando confusos em lugares onde poderíamos ter explicado melhor as coisas.
Agradecemos especialmente a Martha Steenstrup pela leitura e pelos comentários detalhados . Os capítulos
sobre psicologia e neurociência não poderiam ter sido escritos sem a ajuda de muitos especialistas nessas
áreas. Agradecemos a John Moore por sua orientação paciente durante muitos anos em experimentos de
aprendizagem animal, teoria e neurociência, e por sua leitura cuidadosa de vários rascunhos dos Capítulos
14 e 15. Agradecemos também a Matt Botvinick, Nathaniel Daw, Peter Dayan e Yael Niv por seus comentários
penetrantes sobre os rascunhos deste capítulo, sua orientação essencial através da enorme literatura e sua
interceptação de muitos de nossos erros nos primeiros rascunhos. É claro que os erros remanescentes
nestes capítulos – e ainda deve haver alguns – são totalmente nossos. Agradecemos a Phil Thomas por nos
ajudar a tornar estes capítulos acessíveis a não-psicólogos e não-neurocientistas, e agradecemos a Peter
Sterling por nos ajudar a melhorar a exposição. Somos gratos a Jim Houk por nos apresentar o tema do
processamento de informação nos gânglios da base e por nos alertar para outros aspectos relevantes da
neurociência. José Mart´ÿnez, Terry Sejnowski, David Silver, Gerry Tesauro, Georgios Theocharous e Phil
Thomas generosamente nos ajudaram a entender os detalhes de suas aplicações de aprendizagem por
reforço para inclusão no capítulo de estudos de caso, e forneceram comentários úteis sobre os rascunhos
destes Seções.
Agradecimentos especiais são devidos a David Silver por nos ajudar a entender melhor o
Monte Carlo Tree Search e os programas DeepMind Go-playing. Agradecemos a George
Konidaris por sua ajuda com a seção na base de Fourier. Emilio Cartoni, Thomas Cederborg,
Stefan Dernbach, Clemens Rosenbaum, Patrick Taylor, Thomas Colin e Pierre-Luc Bacon
ajudaram-nos de diversas maneiras importantes pelas quais estamos muito gratos.
Sutton também gostaria de agradecer aos membros do laboratório de Aprendizagem por Reforço e
Inteligência Artificial da Universidade de Alberta pelas contribuições para a segunda edição. Ele tem uma
dívida especial com Rupam Mahmood pelas contribuições essenciais para o tratamento dos métodos de
Monte Carlo fora da política no Capítulo 5, com Hamid Maei por ajudar a desenvolver a perspectiva sobre a
aprendizagem fora da política apresentada no Capítulo 11, com Eric Graves por conduzir os experimentos
no Capítulo 13, a Shangtong Zhang por replicar e assim verificar quase todos os resultados experimentais, a
Kris De Asis por melhorar o novo conteúdo técnico dos Capítulos 7 e 12, e a Harm van Seijen pelos insights
que levaram à separação de n -step métodos de rastreios de elegibilidade e (juntamente com Hado van
Hasselt) para as ideias que envolvem a equivalência exata de visões progressivas e retrógradas de rastreios
de elegibilidade apresentadas no Capítulo 12. Sutton também reconhece com gratidão o apoio e a liberdade
que lhe foram concedidos pelo governo de Alberta e o Conselho Nacional de Pesquisa em Ciência e
Engenharia do Canadá durante todo o período durante o qual a segunda edição foi concebida e escrita. Em
particular, ele gostaria de agradecer a Randy Goebel por criar um ambiente de apoio e clarividência para a
pesquisa em Alberta. Ele também gostaria de agradecer à DeepMind pelo apoio nos últimos seis meses de
escrita do livro.
Por fim, agradecemos aos muitos leitores atentos dos rascunhos da segunda edição que publicamos na
internet. Eles encontraram muitos erros que havíamos perdido e nos alertaram sobre possíveis pontos de
confusão.
Prefácio à Primeira Edição
Começamos a nos concentrar no que hoje é conhecido como aprendizagem por reforço no
final de 1979. Estávamos ambos na Universidade de Massachusetts, trabalhando em um dos
primeiros projetos para reviver a ideia de que redes de elementos adaptativos semelhantes a
neurônios poderiam provar ser uma abordagem promissora. à inteligência adaptativa artificial.
O projeto explorou a “teoria heterostática de sistemas adaptativos” desenvolvida por A. Harry
Klopf. O trabalho de Harry foi uma rica fonte de ideias, e pudemos explorá-las criticamente e
compará-las com a longa história de trabalhos anteriores em sistemas adaptativos. Nossa
tarefa passou a ser separar as ideias e compreender suas relações e importância relativa. Isto
continua até hoje, mas em 1979 percebemos que talvez a mais simples das ideias, que há
muito era tida como certa, tinha recebido surpreendentemente pouca atenção do ponto de
vista computacional. Esta foi simplesmente a ideia de um sistema de aprendizagem que quer
alguma coisa, que adapta o seu comportamento para maximizar um sinal especial do seu
ambiente. Esta era a ideia de um sistema de aprendizagem “hedonista” ou, como diríamos
agora, a ideia de aprendizagem por reforço.
Tal como outros, tínhamos a sensação de que a aprendizagem por reforço tinha sido
exaustivamente explorada nos primórdios da cibernética e da inteligência artificial. Porém, examinando
mais de perto, descobrimos que ele havia sido explorado apenas ligeiramente. Embora a
aprendizagem por reforço tenha claramente motivado alguns dos primeiros estudos computacionais
de aprendizagem, a maioria destes investigadores passou para outras coisas, tais como classificação
de padrões, aprendizagem supervisionada e controlo adaptativo, ou abandonaram completamente o
estudo da aprendizagem. Como resultado, as questões especiais envolvidas na aprendizagem de
como obter algo do ambiente receberam relativamente pouca atenção. Em retrospectiva, concentrar-
se nesta ideia foi o passo crítico que deu início a este ramo de investigação. Pouco progresso poderia
ser feito no estudo computacional da aprendizagem por reforço até que se reconhecesse que tal
ideia fundamental ainda não havia sido completamente explorada.
O campo percorreu um longo caminho desde então, evoluindo e amadurecendo em diversas direções.
O aprendizado por reforço tornou-se gradualmente uma das áreas de pesquisa mais ativas em
aprendizado de máquina, inteligência artificial e pesquisa de redes neurais. O campo desenvolveu
bases matemáticas sólidas e aplicações impressionantes. O estudo computacional da aprendizagem
por reforço é hoje um campo amplo, com centenas de pesquisadores ativos em todo o mundo em
diversas disciplinas, como psicologia, teoria de controle, inteligência artificial e neurociência.
Particularmente importantes foram as contribuições que estabelecem e desenvolvem as relações
com a teoria do controle ótimo e da programação dinâmica.
xvii
XVIII Prefácio à Primeira Edição
O problema geral de aprender através da interacção para atingir objectivos ainda está longe de
ser resolvido, mas a nossa compreensão do mesmo melhorou significativamente. Podemos agora
colocar ideias componentes, como aprendizagem por diferença temporal, programação dinâmica
e aproximação de funções, dentro de uma perspectiva coerente em relação ao problema geral.
Nosso objetivo ao escrever este livro foi fornecer um relato claro e simples das principais ideias
e algoritmos da aprendizagem por reforço. Queríamos que nosso tratamento fosse acessível aos
leitores de todas as disciplinas relacionadas, mas não pudemos cobrir detalhadamente todas essas
perspectivas. Na maior parte, nosso tratamento adota o ponto de vista da inteligência artificial e da
engenharia. A cobertura das conexões com outros campos deixamos para outros ou para outro
momento. Também optamos por não produzir um tratamento formal rigoroso da aprendizagem por reforço.
Não alcançamos o nível mais alto possível de abstração matemática e não confiamos em um
formato de prova de teoremas. Tentamos escolher um nível de detalhe matemático que apontasse
os inclinados à matemática na direção certa, sem desviar a atenção da simplicidade e da
generalidade potencial das ideias subjacentes.
...
De certa forma, temos trabalhado neste livro há trinta anos e temos muitas pessoas a
quem agradecer. Em primeiro lugar, agradecemos àqueles que nos ajudaram pessoalmente
a desenvolver a visão global apresentada neste livro: Harry Klopf, por nos ajudar a
reconhecer que a aprendizagem por reforço precisava de ser reavivada; Chris Watkins,
Dimitri Bertsekas, John Tsitsiklis e Paul Werbos, por nos ajudar a ver o valor das relações
com a programação dinâmica; John Moore e Jim Kehoe, pelos insights e inspirações da
teoria da aprendizagem animal; Oliver Selfridge, por enfatizar a amplitude e a importância
da adaptação; e, de forma mais geral, nossos colegas e estudantes que contribuíram de
inúmeras maneiras: Ron Williams, Charles Anderson, Satinder Singh, Sridhar Mahadevan,
Steve Bradtke, Bob Crites, Peter Dayan e Leemon Baird. Nossa visão da aprendizagem
por reforço foi significativamente enriquecida por discussões com Paul Cohen, Paul Utgoÿ,
Martha Steenstrup, Gerry Tesauro, Mike Jordan, Leslie Kaelbling, Andrew Moore, Chris
Atkeson, Tom Mitchell, Nils Nilsson, Stuart Russell, Tom Dietterich, Tom Dean e Bob Narendra.
Agradecemos a Michael Littman, Gerry Tesauro, Bob Crites, Satinder Singh e Wei Zhang por
fornecerem detalhes das Seções 4.7, 15.1, 15.4, 15.4 e 15.6, respectivamente. Agradecemos ao
Departamento de Pesquisa Científica da Força Aérea, à National Science Foundation e aos
Laboratórios GTE por seu apoio duradouro e clarividente.
Gostaríamos também de agradecer às muitas pessoas que leram os rascunhos deste
livro e forneceram comentários valiosos, incluindo Tom Kalt, John Tsitsiklis, Pawel
Cichosz, Olle Gällmo, Chuck Anderson, Stuart Russell, Ben Van Roy, Paul Steenstrup,
Paul Cohen. , Sridhar Mahadevan, Jette Randlov, Brian Sheppard, Thomas O'Connell,
Richard Coggins, Cristina Versino, John H. Hiett, Andreas Badelt, Jay Ponte, Joe Beck,
Justus Piater, Martha Steenstrup, Satinder Singh, Tommi Jaakkola, Dimitri Bertsekas,
Torbjörn Ekman, Christina Björkman, Jakob Carlström e Olle Palmgren. Por fim,
agradecemos a Gwyn Mitchell por ajudar de várias maneiras, e a Harry Stanton e Bob
Prior por serem nossos defensores na MIT Press.
Resumo da notação
Letras maiúsculas são usadas para variáveis aleatórias, enquanto letras minúsculas são usadas para
os valores de variáveis aleatórias e para funções escalares. Quantidades necessárias para
vetores com valor real são escritos em negrito e em letras minúsculas (mesmo se forem variáveis aleatórias).
Matrizes são maiúsculas em negrito.
.
= relação de igualdade que é verdadeira por definição
ÿ
Aproximadamente igual
/ proporcional a
Pr{X =x} probabilidade de que uma variável aleatória X assuma o valor x
Xÿp variável aleatória X selecionada da distribuição p(x) . =Pr{X =x}
E[X] expectativa de uma variável aleatória X, ou seja, E[X] . =P x p(x)x
argmaxa f(a) um valor de a no qual f(a) assume seu valor máximo
ln x logaritmo natural de x
a base do logaritmo natural, e ÿ 2,71828, elevada à potência x; eln x ex R f : X ! S =x
conjunto de números reais
função f de elementos do conjunto X para elementos do conjunto Y
atribuição
(a,b] o intervalo real entre a e b incluindo b, mas não incluindo a
" probabilidade de tomar uma ação aleatória em uma "política gananciosa

ÿ, parâmetros de tamanho de passo
parâmetro de taxa de desconto

parâmetro de taxa de decaimento para rastreamentos de elegibilidade
.
predicado função indicadora ( predicado = 1 se o predicado for verdadeiro, caso contrário 0)
Em um problema de bandido com vários braços:

k número de ações (braços)
t passo de tempo discreto ou número de reprodução
qÿ(a) valor verdadeiro (recompensa esperada) da ação a
Qt(a) estimativa no tempo t de qÿ(a)
Nt(a) número de vezes que a ação a foi selecionada antes do tempo t
Ht(uma) preferência aprendida para selecionar a ação a no momento t
ÿt(uma) probabilidade de selecionar a ação a no tempo t
R¯t estimativa no momento t da recompensa esperada dada ÿt
XIX
xx Resumo da notação
Em um processo de decisão de Markov:

s, s0 estados
a uma ação
R uma recompensa
S conjunto de todos os estados não terminais
S+ conjunto de todos os estados, incluindo o estado terminal

Como) conjunto de todas as ações disponíveis no estado
R conjunto de todas as recompensas possíveis, um subconjunto finito de R
ÿ subconjunto de; por exemplo, R ÿ R
2 é um elemento de; por exemplo, s 2 S, r 2 R
|S| número de elementos no conjunto S
t passo de tempo discreto

T,T(t) intervalo de tempo final de um episódio, ou do episódio incluindo o intervalo de tempo t
No ação no momento t
Santo estado no tempo t, normalmente devido, estocasticamente, a St1 e At1

Rota recompensa no momento t, normalmente devido, estocasticamente, a St1 e At1
ÿ política (regra de tomada de decisão)
ÿ(s) ações tomadas em estados sob política determinística ÿ
ÿ(uma|s) probabilidade de tomar medidas a em estados sob política estocástica ÿ
Gt retorna após o tempo t

horizonte h, o intervalo de tempo que se observa em uma visão futura
Gt:t+n, Gt:h retorno em n etapas de t + 1 para t + n, ou para h (descontado e corrigido)
G¯t:h retorno fixo (não descontado e não corrigido) de t + 1 a h (Seção 5.8)
Gt -retorno (Seção 12.1)
G retorno truncado e corrigido (Seção 12.3)
º
Gst , Gát -retorno, corrigido por valores estimados de estado ou ação (Seção 12.8)
p(s0 , r|s, a) probabilidade de transição para o estado s0 com recompensa r, do estado s e ação a
p(s0 |s, a) probabilidade de transição para o estado s0 , do estado tomando medidas
r(s, a) recompensa imediata esperada do estado s após a ação a
r(s, a, s0 ) recompensa imediata esperada na transição de s para s0 sob ação a
vÿ(s) valor dos estados sob a política ÿ (retorno esperado)

vÿ(s) valor dos estados sob a política ótima
qÿ(s, a) valor de agir em um estado sob política ÿ
qÿ(s, a) valor de tomar medidas nos estados sob a política ideal
V,Vt estimativas de array da função de valor de estado vÿ ou vÿ

Q, Qt estimativas de matriz da função de valor de ação qÿ ou qÿ
V¯t(s) valor aproximado esperado da ação, por exemplo, V¯t(s) . =P a ÿ(a|s)Qt(s, a)
Ut alvo para estimativa no momento t
Resumo da notação xxi
t erro de diferença temporal (TD) em t (uma variável aleatória) (Seção 6.1)

é a
t, t formas específicas de estado e ação do erro TD (Seção 12.9)
n em métodos de n etapas, n é o número de etapas de inicialização
d dimensionalidade - o número de componentes de w

d0 dimensionalidade alternativa – o número de componentes de ÿ
o que, o que vetor d de pesos subjacentes a uma função de valor aproximado
wi, wt,i iº componente do vetor de peso que pode ser aprendido
vˆ(s,w) valor aproximado do estado s dado o vetor de peso w

vw(s) notação alternativa para ˆv(s,w)
qˆ(s, a, w) valor aproximado do par estado-ação s, um determinado vetor de peso w
rvˆ(s,w) vetor coluna de derivadas parciais de ˆv(s,w) em relação a w
rqˆ(s, a, w) vetor coluna de derivadas parciais de ˆq(s, a, w) em relação a w
x(s) vetor de recursos visíveis quando no estado s

x(s, a) vetor de recursos visíveis quando no estado s agindo a
xi(s), xi(s, a) i-ésima componente do vetor x(s) ou x(s, a)
xt abreviação de x(St) ou x(St, At)
w>x produto interno de vetores, w>x . =P eu wixi; por exemplo, ˆv(s,w)=. w>x(s)
v, vt vetor d secundário de pesos, usado para aprender w (Capítulo 11)
zt vetor d de traços de elegibilidade no tempo t (Capítulo 12)
ÿ, ÿt vetor de parâmetros da política alvo (Capítulo 13)

ÿ(a|s, ÿ) probabilidade de tomar uma ação a no vetor de parâmetros determinado no estado ÿ
ÿÿ política correspondente ao parâmetro ÿ
rÿ(a|s, ÿ) vetor coluna de derivadas parciais de ÿ(a|s, ÿ) em relação a ÿ
J(ÿ) medida de desempenho da política ÿÿ
rJ(ÿ) vetor coluna de derivadas parciais de J(ÿ) em relação a ÿ
h(s, a, ÿ) preferência por selecionar a ação a nos estados com base em ÿ
b(uma| política de comportamento usada para selecionar ações enquanto aprende sobre a política alvo ÿ
s) uma função de linha de base b : S 7! R para métodos de gradiente de política
b(s) b fator de ramificação para um MDP ou árvore de pesquisa
ÿt:h razão de amostragem de importância para o tempo t até o tempo h (Seção 5.5)
.
ÿt taxa de amostragem de importância apenas para o tempo t, ÿt = ÿt:t
r(ÿ) recompensa média (taxa de recompensa) para a política ÿ (Seção 10.3)
R¯t estimativa de r(ÿ) no tempo t
ÿ(s) distribuição de acordo com a política entre os estados (Seção 9.2)

ÿ |S|-vetor do µ(s) para todo s 2 S
2 2 .
kvk norma quadrada ponderada µ da função de valor v, ou seja, kvk =P s2S µ(s)v(s)2
ÿ ÿ
ÿ(s) número esperado de visitas aos estados por episódio (página 199)
ÿ operador de projeção para funções de valor (página 268)
Bÿ Operador Bellman para funções de valor (Seção 11.4)
XXII Resumo da notação
A d ÿ d matriz A .
= E h xt xt xt+1>i
b vetor d-dimensional b .
. = E[Rt+1xt]
wTD TD ponto fixo wTD = A1b (um vetor d, Seção 9.4)
EU
matriz de identidade
P |S| ÿ |S| matriz de probabilidades de transição de estado sob ÿ
D |S| ÿ |S| matriz diagonal com µ em sua diagonal
X |S| ÿ d matriz com x(s) como suas linhas
¯w(s) Erro Bellman (erro TD esperado) para vw no estado s (Seção 11.4)

¯w, BE Vetor de erro Bellman, com componentes ¯w(s)
2
VE(w) erro de valor quadrático médio VE(w) .=kvw vÿk ÿ
(Seção 9.2)
2
SER(w) erro quadrado médio de Bellman BE(w) . = ¯w
ÿ
2
PBE(w) erro médio quadrado projetado de Bellman PBE(w) . = ÿ¯w
ÿ
TDE(w) erro médio quadrático de diferença temporal TDE(w) . = Eb ÿ ÿt2t ÿ (Seção 11.5)
RE(w) erro quadrático médio de retorno (Seção 11.6)
Capítulo 1
Introdução
A ideia de que aprendemos interagindo com o nosso ambiente é provavelmente a primeira que nos
ocorre quando pensamos sobre a natureza da aprendizagem. Quando uma criança brinca, agita os
braços ou olha em volta, não tem um professor explícito, mas tem uma ligação sensório-motora direta
com o seu ambiente. O exercício desta ligação produz uma riqueza de informações sobre causa e
efeito, sobre as consequências das ações e sobre o que fazer para atingir os objetivos. Ao longo de
nossas vidas, essas interações são, sem dúvida, uma importante fonte de conhecimento sobre nosso
meio ambiente e sobre nós mesmos. Quer estejamos aprendendo a dirigir um carro ou a manter uma
conversa, estamos perfeitamente conscientes de como o nosso ambiente responde ao que fazemos e
procuramos influenciar o que acontece através do nosso comportamento. Aprender a partir da interação
é uma ideia fundamental subjacente a quase todas as teorias de aprendizagem e inteligência.
Neste livro, exploramos uma abordagem computacional para aprender a partir da interação. Em vez
de teorizar diretamente sobre como as pessoas ou os animais aprendem, exploramos principalmente
situações de aprendizagem idealizadas e avaliamos a eficácia de vários métodos de aprendizagem.1
Ou seja, adotamos a perspectiva de um pesquisador ou engenheiro de inteligência artificial. Exploramos
projetos de máquinas que sejam eficazes na resolução de problemas de aprendizagem de interesse
científico ou econômico, avaliando os projetos por meio de análises matemáticas ou experimentos
computacionais. A abordagem que exploramos, chamada aprendizagem por reforço, é muito mais
focada na aprendizagem direcionada a objetivos a partir da interação do que outras abordagens de
aprendizagem de máquina.
1.1 Aprendizado por Reforço

A aprendizagem por reforço é aprender o que fazer – como mapear situações em ações – de modo a
maximizar um sinal numérico de recompensa. O aluno não é informado sobre quais ações tomar , mas,
em vez disso, deve descobrir quais ações geram mais recompensas ao experimentá-las. Nos casos
mais interessantes e desafiadores, as ações podem afetar não apenas o imediato
1As relações com a psicologia e a neurociência estão resumidas nos Capítulos 14 e 15.
1
2 Capítulo 1 Introdução
recompensa, mas também a próxima situação e, através dela, todas as recompensas subsequentes.
Essas duas características – busca por tentativa e erro e recompensa atrasada – são as duas
características distintivas mais importantes da aprendizagem por reforço.
O aprendizado por reforço, como muitos tópicos cujos nomes terminam com “ing”, como aprendizado de
máquina e montanhismo, é simultaneamente um problema, uma classe de métodos de solução que funcionam
bem no problema e o campo que estuda esse problema e seus métodos de solução. É conveniente usar um único
nome para todas as três coisas, mas ao mesmo tempo é essencial mantê-las conceitualmente separadas. Em
particular, a distinção entre problemas e métodos de solução é muito importante na aprendizagem por reforço;
deixar de fazer essa distinção é fonte de muitas confusões.
Formalizamos o problema da aprendizagem por reforço usando ideias da teoria de sistemas

dinâmicos , especificamente, como o controle ótimo de processos de decisão de Markov incompletamente
conhecidos . Os detalhes desta formalização devem esperar até o Capítulo 3, mas a idéia básica é
simplesmente capturar os aspectos mais importantes do problema real enfrentado por um agente de
aprendizagem interagindo ao longo do tempo com seu ambiente para atingir um objetivo. Um agente de
aprendizagem deve ser capaz de sentir o estado do seu ambiente até certo ponto e deve ser capaz de
realizar ações que afetem o estado. O agente também deve ter uma meta ou metas relacionadas ao
estado do meio ambiente. Os processos de decisão de Markov pretendem incluir apenas esses três
aspectos – sensação, ação e objetivo – em suas formas mais simples possíveis, sem banalizar nenhum
deles. Qualquer método que seja adequado para resolver tais problemas consideramos um método de
aprendizagem por reforço.
A aprendizagem por reforço é diferente da aprendizagem supervisionada, o tipo de aprendizagem estudado na
maioria das pesquisas atuais na área de aprendizado de máquina. A aprendizagem supervisionada é a
aprendizagem a partir de um conjunto de treinamento de exemplos rotulados fornecidos por um supervisor externo qualificado.
Cada exemplo é uma descrição de uma situação juntamente com uma especificação – o rótulo –
da acção correcta que o sistema deve tomar para essa situação, que muitas vezes consiste em
identificar uma categoria à qual a situação pertence. O objetivo desse tipo de aprendizagem é que
o sistema extrapole, ou generalize, suas respostas para que atue corretamente em situações não
presentes no conjunto de treinamento. Este é um tipo importante de aprendizagem, mas por si só
não é adequado para aprender a partir da interação. Em problemas interactivos é muitas vezes
impraticável obter exemplos de comportamento desejado que sejam correctos e representativos de
todas as situações em que o agente tem de agir. Em território desconhecido – onde se esperaria
que a aprendizagem fosse mais benéfica – um agente deve ser capaz de aprender com a sua própria experiência.
O aprendizado por reforço também é diferente do que os pesquisadores de aprendizado de máquina
chamam de aprendizado não supervisionado, que normalmente consiste em encontrar estruturas ocultas
em coleções de dados não rotulados. Os termos aprendizagem supervisionada e aprendizagem não
supervisionada parecem classificar exaustivamente os paradigmas de aprendizagem de máquina, mas
não o fazem. Embora alguém possa ficar tentado a pensar na aprendizagem por reforço como um tipo de
aprendizagem não supervisionada porque não se baseia em exemplos de comportamento correto, a
aprendizagem por reforço tenta maximizar um sinal de recompensa em vez de tentar encontrar uma
estrutura oculta. Descobrir a estrutura na experiência de um agente pode certamente ser útil na
aprendizagem por reforço, mas por si só não resolve o problema da aprendizagem por reforço de maximizar um sinal de re
Portanto, consideramos a aprendizagem por reforço um terceiro paradigma de aprendizagem de máquina, ao lado
da aprendizagem supervisionada e da aprendizagem não supervisionada e talvez de outros paradigmas.
1.1. Aprendizagem por Reforço 3
Um dos desafios que surgem na aprendizagem por reforço, e não em outros tipos de aprendizagem,
é a trocaÿ entre exploração e aproveitamento. Para obter muita recompensa, um agente de
aprendizagem por reforço deve preferir ações que ele tentou no passado e considerou eficazes na
produção de recompensa. Mas para descobrir tais ações, tem que tentar ações que não tenha
selecionado antes. O agente tem que explorar o que já experimentou para obter recompensa, mas
também tem que explorar para fazer melhores seleções de ações no futuro. O dilema é que nem a
exploração nem a exploração podem ser prosseguidas exclusivamente sem falhar na tarefa. O agente
deve tentar uma variedade de ações e favorecer progressivamente aquelas que parecerem melhores.
Numa tarefa estocástica, cada ação deve ser tentada muitas vezes para obter uma estimativa
confiável da recompensa esperada. O dilema exploração-exploração tem sido intensamente estudado
por matemáticos há muitas décadas, mas permanece sem solução. Por enquanto, apenas notamos
que toda a questão do equilíbrio entre exploração e exploração nem sequer surge na aprendizagem
supervisionada e não supervisionada, pelo menos nas formas mais puras destes paradigmas.
Outra característica fundamental da aprendizagem por reforço é que ela considera explicitamente
todo o problema de um agente direcionado a um objetivo interagindo com um ambiente incerto. Isto
contrasta com muitas abordagens que consideram subproblemas sem abordar como eles podem se
encaixar em um quadro mais amplo. Por exemplo, mencionámos que grande parte da investigação
sobre aprendizagem automática se preocupa com a aprendizagem supervisionada, sem especificar
explicitamente como tal capacidade seria finalmente útil. Outros investigadores desenvolveram teorias
de planeamento com objectivos gerais, mas sem considerar o papel do planeamento na tomada de
decisões em tempo real , ou a questão de onde viriam os modelos preditivos necessários para o
planeamento . Embora estas abordagens tenham produzido muitos resultados úteis, o seu foco em
subproblemas isolados é uma limitação significativa.
A aprendizagem por reforço segue o caminho oposto, começando com um agente completo,
interativo e que busca objetivos. Todos os agentes de aprendizagem por reforço têm objetivos
explícitos, podem sentir aspectos dos seus ambientes e podem escolher ações para influenciar os seus ambientes.
Além disso, é geralmente assumido desde o início que o agente tem de operar apesar de uma
incerteza significativa sobre o ambiente que enfrenta. Quando a aprendizagem por reforço envolve
planeamento, tem de abordar a interação entre o planeamento e a seleção de ações em tempo real,
bem como a questão de como os modelos ambientais são adquiridos e melhorados.
Quando a aprendizagem por reforço envolve aprendizagem supervisionada, fá-lo por razões específicas
que determinam quais capacidades são críticas e quais não são. Para que a investigação em aprendizagem
progrida, subproblemas importantes têm de ser isolados e estudados, mas devem ser subproblemas que
desempenhem papéis claros em agentes completos, interactivos e que procuram objectivos, mesmo que
todos os detalhes do agente completo ainda não possam ser preenchidos.
Por agente completo, interativo e que busca objetivos nem sempre queremos dizer algo como um
organismo ou robô completo. Estes são claramente exemplos, mas um agente completo, interativo e
que busca objetivos também pode ser um componente de um sistema comportamental mais amplo.
Neste caso, o agente interage diretamente com o resto do sistema maior e interage indiretamente
com o ambiente do sistema maior. Um exemplo simples é um agente que monitora o nível de carga
da bateria do robô e envia comandos para a arquitetura de controle do robô.
O ambiente deste agente é o resto do robô junto com o ambiente do robô.
É preciso olhar além dos exemplos mais óbvios de agentes e seus ambientes para
apreciar a generalidade da estrutura de aprendizagem por reforço.

Um dos aspectos mais interessantes da aprendizagem por reforço moderna são suas interações
substanciais e frutíferas com outras disciplinas científicas e de engenharia. O aprendizado por
reforço faz parte de uma tendência de décadas dentro da inteligência artificial e do aprendizado de
máquina em direção a uma maior integração com estatística, otimização e outros assuntos matemáticos.
Por exemplo, a capacidade de alguns métodos de aprendizagem por reforço aprenderem com
aproximadores parametrizados aborda a clássica “maldição da dimensionalidade” na pesquisa
operacional e na teoria de controle. Mais distintamente, a aprendizagem por reforço também interagiu
fortemente com a psicologia e a neurociência, com benefícios substanciais em ambos os sentidos.
De todas as formas de aprendizagem de máquina, a aprendizagem por reforço é a que mais se
aproxima do tipo de aprendizagem que os humanos e outros animais fazem, e muitos dos algoritmos
centrais da aprendizagem por reforço foram originalmente inspirados em sistemas de aprendizagem
biológica. A aprendizagem por reforço também deu retorno, tanto através de um modelo psicológico
de aprendizagem animal que melhor corresponde a alguns dos dados empíricos, como através de
um modelo influente de partes do sistema de recompensa do cérebro. O corpo deste livro desenvolve
as ideias de aprendizagem por reforço que pertencem à engenharia e à inteligência artificial, com
conexões com a psicologia e a neurociência resumidas nos Capítulos 14 e 15.
Finalmente, a aprendizagem por reforço também faz parte de uma tendência mais ampla da inteligência
artificial de volta a princípios gerais simples. Desde o final da década de 1960, muitos pesquisadores de
inteligência artificial presumiram que não existem princípios gerais a serem descobertos, mas que a
inteligência se deve, em vez disso, à posse de um grande número de truques, procedimentos e heurísticas
para fins especiais. Às vezes dizia-se que se conseguíssemos introduzir factos relevantes suficientes numa
máquina, digamos um milhão, ou um bilião, então ela tornar-se-ia inteligente. Métodos baseados em princípios
gerais, como busca ou aprendizagem, foram caracterizados como “métodos fracos”, enquanto aqueles
baseados em conhecimentos específicos foram chamados de “métodos fortes”. Esta visão ainda é comum
hoje, mas não dominante. Do nosso ponto de vista, foi simplesmente prematuro: muito pouco esforço foi feito
na busca de princípios gerais para concluir que não existiam. A inteligência artificial moderna agora inclui
muitas pesquisas em busca de princípios gerais de aprendizagem, pesquisa e tomada de decisão. Não está
claro até que ponto o pêndulo irá oscilar, mas a pesquisa sobre aprendizagem por reforço é certamente parte
do retorno em direção a princípios mais simples e menos gerais de inteligência artificial.
1.2 Exemplos
Uma boa maneira de compreender a aprendizagem por reforço é considerar alguns dos exemplos
e possíveis aplicações que orientaram o seu desenvolvimento.
• Um mestre enxadrista faz um movimento. A escolha é informada tanto pelo planeamento –

antecipando possíveis respostas e contra-respostas – como por julgamentos imediatos e
intuitivos sobre a conveniência de posições e movimentos específicos.
• Um controlador adaptativo ajusta parâmetros de operação de uma refinaria de petróleo em

tempo real. O controlador otimiza a relação rendimento/custo/qualidade com base em
custos marginais especificados, sem se ater estritamente aos pontos de ajuste originalmente
sugeridos pelos engenheiros.
1.3. Elementos de aprendizagem por reforço 5
• Um filhote de gazela consegue se levantar minutos depois de nascer. Meia hora depois é
correndo a 20 milhas por hora.
• Um robô móvel decide se deve entrar em uma nova sala em busca de mais lixo para coletar
ou começar a tentar encontrar o caminho de volta para a estação de recarga de bateria. Ele
toma sua decisão com base no nível de carga atual de sua bateria e na rapidez e facilidade
com que conseguiu encontrar o carregador no passado.
• Phil prepara seu café da manhã. Examinada de perto, mesmo esta actividade aparentemente
mundana revela uma teia complexa de comportamento condicional e relações entrelaçadas
entre objectivos e subobjectivos: caminhar até ao armário, abri-lo, seleccionar uma caixa
de cereais, depois estender a mão, agarrar e recuperar a caixa. Outras sequências de
comportamento complexas, sintonizadas e interativas são necessárias para obter uma
tigela, uma colher e uma caixa de leite. Cada etapa envolve uma série de movimentos
oculares para obter informações e orientar o alcance e a locomoção. Julgamentos rápidos
são continuamente feitos sobre como transportar os objetos ou se é melhor transportar
alguns deles para a mesa de jantar antes de obter outros. Cada passo é guiado por
objetivos, como pegar uma colher ou chegar à geladeira, e está a serviço de outros
objetivos, como ter a colher para comer depois de preparado o cereal e, em última análise,
obter o alimento. Esteja ele ciente disso ou não, Phil está acessando informações sobre o
estado de seu corpo que determinam suas necessidades nutricionais, nível de fome e preferências aliment
Esses exemplos compartilham recursos que são tão básicos que são fáceis de ignorar. Todos
envolvem a interação entre um agente ativo na tomada de decisões e o seu ambiente, dentro da
qual o agente procura atingir um objetivo apesar da incerteza sobre o seu ambiente. As ações do
agente podem afetar o estado futuro do ambiente (por exemplo, a próxima posição do xadrez, o
nível dos reservatórios da refinaria, a próxima localização do robô e o futuro nível de carga de
sua bateria), afetando assim o ações e oportunidades disponíveis para o agente em momentos
posteriores. A escolha correcta exige ter em conta as consequências indirectas e retardadas das
acções e, portanto, pode exigir previsão ou planeamento.
Ao mesmo tempo, em todos estes exemplos os efeitos das ações não podem ser totalmente previstos;
portanto, o agente deve monitorar seu ambiente com frequência e reagir de forma adequada. Por
exemplo, Phil deve tomar cuidado com o leite que coloca em sua tigela de cereal para evitar que transborde.
Todos estes exemplos envolvem objectivos que são explícitos no sentido de que o agente pode
avaliar o progresso em direcção ao seu objectivo com base naquilo que pode sentir directamente.
O jogador de xadrez sabe se ganha ou não, o controlador da refinaria sabe quanto petróleo está
sendo produzido, o filhote de gazela sabe quando cai, o robô móvel sabe quando suas baterias
acabam e Phil sabe se está ou não aproveitando seu café da manhã. .
Em todos estes exemplos o agente pode usar a sua experiência para melhorar o seu
desempenho ao longo do tempo. O enxadrista refina a intuição que utiliza para avaliar posições,
melhorando assim seu jogo; o bezerro gazela melhora a eficiência com que pode correr; Phil
aprende a simplificar a preparação do café da manhã. O conhecimento que o agente traz para a
tarefa no início – seja da experiência anterior com tarefas relacionadas ou incorporado a ela pelo
design ou pela evolução – influencia o que é útil ou fácil de aprender, mas a interação com o
ambiente é essencial para ajustar o comportamento para explorar especificidades . características da tarefa.
1.3 Elementos de Aprendizagem por Reforço
Além do agente e do ambiente, podem-se identificar quatro subelementos principais de um sistema

de aprendizagem por reforço: uma política, um sinal de recompensa, uma função de valor e,
opcionalmente, um modelo do ambiente.
Uma política define a forma de comportamento do agente de aprendizagem em um determinado momento. Grosso modo,
uma política é um mapeamento dos estados percebidos do meio ambiente até as ações a serem tomadas nesses estados.
Corresponde ao que em psicologia seria chamado de conjunto de regras ou associações estímulo-resposta. Em alguns casos,
a política pode ser uma simples função ou tabela de consulta, enquanto em outros pode envolver computação extensa, como
um processo de pesquisa. A política é o núcleo de um agente de aprendizagem por reforço, no sentido de que por si só é
suficiente para determinar o comportamento. Em geral, as políticas podem ser estocásticas, especificando probabilidades para
cada acção.
Um sinal de recompensa define o objetivo de um problema de aprendizagem por reforço. A cada

passo de tempo, o ambiente envia ao agente de aprendizagem por reforço um único número
denominado recompensa. O único objetivo do agente é maximizar a recompensa total que recebe no
longo prazo. O sinal de recompensa define assim quais são os eventos bons e ruins para o agente.
Num sistema biológico, poderíamos pensar nas recompensas como análogas às experiências de
prazer ou dor. São as características imediatas e definidoras do problema enfrentado pelo agente. O
sinal de recompensa é a principal base para alterar a política; se uma ação selecionada pela política
for seguida por uma recompensa baixa, então a política poderá ser alterada para selecionar alguma
outra ação nessa situação no futuro. Em geral, os sinais de recompensa podem ser funções
estocásticas do estado do ambiente e das ações tomadas.
Enquanto o sinal de recompensa indica o que é bom no sentido imediato, uma função de valor
especifica o que é bom no longo prazo. Grosso modo, o valor de um estado é a quantidade total de
recompensa que um agente pode esperar acumular no futuro, a partir desse estado. Enquanto as
recompensas determinam a desejabilidade imediata e intrínseca dos estados ambientais, os valores
indicam a desejabilidade a longo prazo dos estados, depois de ter em conta os estados que
provavelmente se seguirão e as recompensas disponíveis nesses estados. Por exemplo, um estado
pode sempre produzir uma recompensa imediata baixa, mas ainda assim ter um valor elevado porque
é regularmente seguido por outros estados que produzem recompensas elevadas. Ou o inverso pode
ser verdade. Fazendo uma analogia humana, as recompensas são algo como o prazer (se elevado)
e a dor (se baixo), enquanto os valores correspondem a um julgamento mais refinado e clarividente
de quão satisfeitos ou descontentes estamos com o facto de o nosso ambiente estar num determinado estado.
As recompensas são, em certo sentido, primárias, enquanto os valores, como previsões de recompensas, são secundários.
Sem recompensas não poderia haver valores, e o único propósito de estimar valores é obter mais recompensas. No entanto,
são com os valores que mais nos preocupamos quando tomamos e avaliamos decisões. As escolhas de ação são feitas com
base em julgamentos de valor. Buscamos ações que tragam estados de maior valor, e não de maior recompensa, porque
essas ações obtêm a maior recompensa para nós no longo prazo. Infelizmente, é muito mais difícil determinar valores do que
determinar recompensas. As recompensas são basicamente dadas diretamente pelo ambiente, mas os valores devem ser
estimados e reestimados a partir das sequências de observações que um agente faz durante toda a sua vida. Na verdade, o
componente mais importante de quase todos os algoritmos de aprendizagem por reforço que consideramos é um
1.4. Limitações e Escopo 7
método para estimar valores de forma eficiente. O papel central da estimativa de valor é sem
dúvida a coisa mais importante que foi aprendida sobre a aprendizagem por reforço nas
últimas seis décadas.
O quarto e último elemento de alguns sistemas de aprendizagem por reforço é um modelo do
ambiente. Isto é algo que imita o comportamento do ambiente, ou mais genericamente, que permite
fazer inferências sobre como o ambiente se comportará.
Por exemplo, dado um estado e uma ação, o modelo pode prever o próximo estado e a próxima
recompensa resultantes. Modelos são usados para planejamento, o que significa qualquer forma de
decidir sobre um curso de ação considerando possíveis situações futuras antes que elas sejam realmente
vivenciadas. Os métodos para resolver problemas de aprendizagem por reforço que usam modelos e
planejamento são chamados de métodos baseados em modelos, em oposição aos métodos mais
simples, sem modelos, que são alunos explicitamente por tentativa e erro - vistos quase como o oposto
do planejamento. No Capítulo 8 exploramos sistemas de aprendizagem por reforço que aprendem
simultaneamente por tentativa e erro, aprendem um modelo do ambiente e usam o modelo para
planejamento. A aprendizagem por reforço moderna abrange o espectro desde a aprendizagem de baixo
nível, por tentativa e erro, até o planejamento deliberativo de alto nível.
1.4 Limitações e Escopo

A aprendizagem por reforço depende fortemente do conceito de Estado – como contributo para a política
e função de valor, e como contributo e resultado do modelo. Informalmente, podemos pensar no estado
como um sinal que transmite ao agente alguma noção de “como é o ambiente” num determinado
momento. A definição formal de estado tal como a utilizamos aqui é dada pela estrutura dos processos
de decisão de Markov apresentados no Capítulo 3. De forma mais geral, porém, encorajamos o leitor a
seguir o significado informal e pensar no estado como qualquer informação que esteja disponível para o
agente sobre seu ambiente. Na verdade, assumimos que o sinal de estado é produzido por algum
sistema de pré-processamento que nominalmente faz parte do ambiente do agente. Não abordamos as
questões de construção, alteração ou aprendizagem do sinal de estado neste livro (exceto brevemente
na Seção 17.3). Adotamos esta abordagem não porque consideremos a representação estatal sem
importância, mas para nos concentrarmos totalmente nas questões de tomada de decisão. Em outras
palavras, nossa preocupação neste livro não é projetar o sinal de estado, mas decidir que ação tomar
em função de qualquer sinal de estado disponível.
A maioria dos métodos de aprendizagem por reforço que consideramos neste livro são estruturados
em torno da estimativa de funções de valor, mas não é estritamente necessário fazer isso para resolver
problemas de aprendizagem por reforço. Por exemplo, métodos de solução como algoritmos genéticos ,
programação genética, recozimento simulado e outros métodos de otimização nunca estimam funções
de valor. Esses métodos aplicam diversas políticas estáticas, cada uma interagindo por um longo período
de tempo com uma instância separada do ambiente. As políticas que obtêm a maior recompensa, e as
suas variações aleatórias, são transferidas para a próxima geração de políticas e o processo repete-se.
Chamamos estes métodos evolutivos porque o seu funcionamento é análogo ao modo como a evolução
biológica produz organismos com comportamento qualificado, mesmo que não aprendam durante as
suas vidas individuais. Se o espaço das políticas for suficientemente pequeno ou puder ser estruturado
para que boas políticas sejam
comum ou fácil de encontrar – ou se houver muito tempo disponível para a busca – então os métodos
evolutivos podem ser eficazes. Além disso, os métodos evolutivos apresentam vantagens em problemas
nos quais o agente de aprendizagem não consegue sentir o estado completo do seu ambiente.
Nosso foco está em métodos de aprendizagem por reforço que aprendem enquanto interagem
com o meio ambiente, o que os métodos evolutivos não fazem. Os métodos capazes de tirar
vantagem dos detalhes das interações comportamentais individuais podem ser muito mais
eficientes do que os métodos evolutivos em muitos casos. Os métodos evolutivos ignoram grande
parte da estrutura útil do problema da aprendizagem por reforço: não utilizam o facto de que a
política que procuram é uma função dos estados para as ações; eles não percebem quais estados
um indivíduo passa durante sua vida, ou quais ações ele seleciona. Em alguns casos, esta
informação pode ser enganosa (por exemplo, quando os estados são mal interpretados), mas
mais frequentemente deverá permitir uma pesquisa mais eficiente. Embora evolução e
aprendizagem compartilhem muitas características e trabalhem naturalmente juntas, não
consideramos que os métodos evolutivos por si só sejam especialmente adequados para
problemas de aprendizagem por reforço e, portanto, não os abordamos neste livro.
1.5 Um exemplo estendido: jogo da velha

Para ilustrar a ideia geral da aprendizagem por reforço e compará-la com outras abordagens ,
consideraremos a seguir um único exemplo com mais detalhes.
Considere o conhecido jogo da velha infantil. Dois jogadores se
revezam jogando em um tabuleiro de três por três. Um jogador joga Xs
e o outro Os até que um jogador ganhe colocando três marcas X OO
seguidas, horizontalmente, verticalmente ou diagonalmente, como o
jogador X fez no jogo mostrado à direita. Se o tabuleiro ficar cheio e Ó X X
nenhum dos jogadores acertar três seguidas, o jogo termina empatado.
Como um jogador habilidoso pode jogar para nunca perder, vamos
X
supor que estamos jogando contra um jogador imperfeito, cujo jogo às
vezes é incorreto e nos permite vencer. De momento, de facto,
consideremos que empates e derrotas são igualmente maus para nós. Como poderíamos construir
um jogador que encontre as imperfeições no jogo do seu oponente e aprenda a maximizar suas
chances de vitória?
Embora este seja um problema simples, não pode ser facilmente resolvido de forma satisfatória
através de técnicas clássicas. Por exemplo, a solução clássica “minimax” da teoria dos jogos não
é correta aqui porque pressupõe uma forma particular de jogar do adversário.
Por exemplo, um jogador minimax nunca alcançaria um estado de jogo no qual pudesse perder,
mesmo que de fato sempre ganhasse nesse estado devido a um jogo incorreto do oponente.
Métodos clássicos de otimização para problemas de decisão sequencial, como programação
dinâmica, podem calcular uma solução ótima para qualquer oponente, mas requerem como
entrada uma especificação completa desse oponente, incluindo as probabilidades com que o
oponente realiza cada movimento em cada estado do tabuleiro. Suponhamos que esta informação
não esteja disponível a priori para este problema, assim como não está para a grande maioria dos
problemas de interesse prático. Por outro lado, tais informações podem ser estimadas a partir da
experiência, neste caso jogando muitas partidas contra o adversário. Sobre o melhor que se pode fazer
1.5. Um exemplo estendido: Tic-Tac-Toe 9
neste problema é primeiro aprender um modelo do comportamento do oponente, até certo nível de
confiança, e então aplicar a programação dinâmica para calcular uma solução ótima dado o modelo
aproximado do oponente. No final das contas, isso não é muito diferente de alguns dos métodos de
aprendizagem por reforço que examinaremos mais adiante neste livro.
Um método evolutivo aplicado a este problema procuraria diretamente no espaço de
políticas possíveis aquela com alta probabilidade de vitória contra o oponente.
Aqui, uma política é uma regra que informa ao jogador qual movimento fazer para cada
estado do jogo – cada configuração possível de Xs e Os no tabuleiro três por três. Para
cada política considerada, uma estimativa da sua probabilidade de vitória seria obtida
jogando um certo número de jogos contra o adversário. Esta avaliação orientaria então
qual política ou políticas seriam consideradas a seguir. Um método evolutivo típico seria
subir colinas no espaço político, gerando e avaliando sucessivamente políticas numa
tentativa de obter melhorias incrementais. Ou, talvez, um algoritmo de estilo genético
pudesse ser usado para manter e avaliar uma população de políticas. Literalmente
centenas de métodos de otimização diferentes poderiam ser aplicados.
Aqui está como o problema do jogo da velha seria abordado com um método que faz uso de
uma função de valor. Primeiro montaríamos uma tabela de números, uma para cada estado
possível do jogo. Cada número será a última estimativa da probabilidade de vencermos nesse
estado. Tratamos esta estimativa como o valor do estado, e toda a tabela é a função de valor
aprendida. O estado A tem um valor mais alto que o estado B, ou é considerado “melhor” que o
estado B, se a estimativa atual da probabilidade de ganharmos de A for maior do que de B.
Supondo que sempre jogamos Xs, então para todos os estados com três X seguidos a
probabilidade de ganhar é 1, porque já ganhamos. Da mesma forma, para todos os estados com
três Os seguidos, ou que estão preenchidos, a probabilidade correta é 0, pois não podemos
ganhar com eles. Definimos os valores iniciais de todos os outros estados como 0,5, representando
uma estimativa de que temos 50% de chance de ganhar.
Depois jogamos muitos jogos contra o adversário. Para selecionar nossos movimentos,
examinamos os estados que resultariam de cada um dos nossos movimentos possíveis (um para
cada espaço em branco no tabuleiro) e procuramos seus valores atuais na tabela. Na maioria das
vezes movemo-nos avidamente, selecionando a jogada que leva ao estado de maior valor, ou
seja, com maior probabilidade estimada de vitória. Ocasionalmente, porém, selecionamos
aleatoriamente entre outros movimentos. Estes são chamados movimentos exploratórios porque
nos fazem experimentar estados que de outra forma nunca veríamos. Uma sequência de
movimentos realizados e considerados durante um jogo pode ser diagramada como na Figura 1.1.
Enquanto jogamos, mudamos os valores dos estados em que nos encontramos durante
o jogo. Tentamos fazer estimativas mais precisas das probabilidades de vitória. Para fazer
isso, “fazemos backup” do valor do estado após cada movimento ganancioso para o estado
anterior ao movimento, conforme sugerido pelas setas na Figura 1.1. Mais precisamente, o
valor atual do estado anterior é atualizado para ficar mais próximo do valor do estado posterior.
Isso pode ser feito movendo o valor do estado anterior uma fração do caminho em direção ao
valor do estado posterior. Se deixarmos St denotar o estado antes do movimento ganancioso, e
St+1 o estado após o movimento, então a atualização para o valor estimado de St, denotado V
(St), pode ser escrita como
V (St) V (St) + ÿ h V (St+1) V (St) eu ,

posiçãoinicial
posição inicial
• um um
movimento do oponente b
b•
{ nosso movimento
•
cc c* c*
{ movimento do oponente d
d•
{ nosso movimento
e*e* • e
{ movimento do oponente f
…
•f
{ nosso movimento {
g •
g*
g* g
..
.
Figura 1.1: Uma sequência de movimentos do jogo da velha. As linhas pretas sólidas representam os movimentos realizados
durante um jogo; as linhas tracejadas representam movimentos que nós (nosso jogador de aprendizagem por reforço)
consideramos, mas não fizemos. Nosso segundo movimento foi um movimento exploratório, o que significa que foi realizado
mesmo que outro movimento irmão, aquele que leva a eÿ, tivesse uma classificação superior. Os movimentos exploratórios
não resultam em qualquer aprendizagem, mas cada um dos nossos outros movimentos sim, causando atualizações
conforme sugerido pelas setas vermelhas nas quais os valores estimados são movidos para cima na árvore dos nós
posteriores para os nós anteriores, conforme detalhado no texto.
onde ÿ é uma pequena fração positiva chamada parâmetro de tamanho do passo, que influencia a taxa
de aprendizagem. Esta regra de atualização é um exemplo de método de aprendizagem por diferença
temporal, assim chamado porque suas mudanças são baseadas em uma diferença, V (St+1)V (St), entre
estimativas em dois momentos sucessivos.
O método descrito acima funciona muito bem nesta tarefa. Por exemplo, se o parâmetro do
tamanho do passo for reduzido adequadamente ao longo do tempo, então este método converge,
para qualquer oponente fixo, para as verdadeiras probabilidades de vitória em cada estado, dado o
jogo ideal do nosso jogador. Além disso, os movimentos então executados (excepto os movimentos
exploratórios) são de facto os movimentos óptimos contra este adversário (imperfeito). Em outras
palavras, o método converge para uma política ótima de jogo contra esse adversário. Se o
parâmetro de tamanho do passo não for reduzido a zero ao longo do tempo, então este jogador
também joga bem contra adversários que mudam lentamente a sua forma de jogar.
Este exemplo ilustra as diferenças entre métodos evolutivos e métodos que aprendem funções de
valor. Para avaliar uma política, um método evolutivo mantém a política fixa e joga muitos jogos contra
o oponente, ou simula muitos jogos usando um modelo do oponente. A frequência de vitórias fornece
uma estimativa imparcial da probabilidade
1.5. Um exemplo estendido: Tic-Tac-Toe 11
de vencer com essa política e pode ser usado para orientar a próxima seleção de política. Mas cada mudança
de política só é feita depois de muitos jogos, e apenas o resultado final de cada jogo é utilizado: o que
acontece durante os jogos é ignorado. Por exemplo, se o jogador vencer, todo o seu comportamento no jogo
receberá crédito, independentemente de como movimentos específicos possam ter sido críticos para a vitória.
O crédito é dado até mesmo a movimentos que nunca ocorreram!
Os métodos de função de valor, por outro lado, permitem que estados individuais sejam avaliados.
No final das contas, os métodos evolucionários e de função de valor buscam o espaço das
políticas, mas aprender uma função de valor aproveita as informações disponíveis durante o jogo.
Este exemplo simples ilustra algumas das principais características dos métodos de aprendizagem por
reforço. Primeiro, há a ênfase no aprendizado interagindo com um ambiente, neste caso com um jogador
adversário. Em segundo lugar, existe um objectivo claro e o comportamento correcto requer planeamento ou
previsão que tenha em conta os efeitos retardados das escolhas de alguém. Por exemplo, o jogador de
aprendizagem por reforço simples aprenderia a montar armadilhas de múltiplos movimentos para um
oponente míope. É uma característica marcante da solução de aprendizagem por reforço que ela pode
alcançar os efeitos de planejamento e antecipação sem usar um modelo do oponente e sem conduzir uma
busca explícita sobre possíveis sequências de estados e ações futuras.
Embora este exemplo ilustre algumas das principais características da aprendizagem por reforço, é tão
simples que pode dar a impressão de que a aprendizagem por reforço é mais limitada do que realmente é.
Embora o jogo da velha seja um jogo para duas pessoas, a aprendizagem por reforço também se aplica no
caso em que não há adversário externo, ou seja, no caso de um “jogo contra a natureza” . A aprendizagem
por reforço também não se restringe a problemas em que o comportamento se divide em episódios separados,
como os jogos separados do jogo da velha, com recompensa apenas no final de cada episódio. É igualmente
aplicável quando o comportamento continua indefinidamente e quando recompensas de diversas magnitudes
podem ser recebidas a qualquer momento. A aprendizagem por reforço também é aplicável a problemas que
nem sequer se dividem em etapas de tempo discretas, como os jogos do jogo da velha. Os princípios gerais
também se aplicam a problemas de tempo contínuo, embora a teoria fique mais complicada e a omitamos
deste tratamento introdutório.
O jogo da velha tem um conjunto de estados relativamente pequeno e finito, enquanto o aprendizado por
reforço pode ser usado quando o conjunto de estados é muito grande, ou mesmo infinito. Por exemplo, Gerry
Tesauro (1992, 1995) combinou o algoritmo descrito acima com uma rede neural artificial para aprender a
jogar gamão, que possui aproximadamente 1.020 estados. Com tantos estados, é impossível experimentar
mais do que uma pequena fração deles. O programa de Tesauro aprendeu a jogar muito melhor do que
qualquer programa anterior e, eventualmente, melhor do que os melhores jogadores humanos do mundo
(Secção 16.1). A rede neural artificial fornece ao programa a capacidade de generalizar a partir de sua
experiência, de modo que em novos estados ele selecione movimentos com base em informações salvas de
estados semelhantes enfrentados no passado, conforme determinado por sua rede. O quão bem um sistema
de aprendizagem por reforço pode funcionar em problemas com conjuntos de estados tão grandes está
intimamente ligado ao quão apropriadamente ele pode generalizar a partir de experiências anteriores. É
nesta função que temos maior necessidade de métodos de aprendizagem supervisionada com aprendizagem
por reforço. As redes neurais artificiais e a aprendizagem profunda (Secção 9.6) não são a única, nem
necessariamente a melhor, forma de o fazer.
Neste exemplo do jogo da velha, a aprendizagem começou sem nenhum conhecimento prévio além do
regras do jogo, mas a aprendizagem por reforço não implica de forma alguma uma visão tabula rasa da aprendizagem e
da inteligência. Pelo contrário, informações prévias podem ser incorporadas na aprendizagem por reforço de diversas
maneiras que podem ser críticas para uma aprendizagem eficiente (por exemplo, ver Seções 9.5, 17.4 e 13.1). Também
temos acesso ao estado verdadeiro no exemplo do jogo da velha, enquanto a aprendizagem por reforço também pode ser
aplicada quando parte do estado está oculta ou quando estados diferentes parecem iguais ao aluno.
Por fim, o jogador do jogo da velha conseguiu olhar para frente e conhecer os estados que resultariam de cada um de
seus movimentos possíveis. Para fazer isso, precisava ter um modelo de jogo que lhe permitisse prever como o ambiente
mudaria em resposta a movimentos que talvez nunca fizesse. Muitos problemas são assim, mas noutros falta mesmo um
modelo de curto prazo dos efeitos das acções. A aprendizagem por reforço pode ser aplicada em ambos os casos.
Não é necessário um modelo, mas os modelos podem ser facilmente usados se estiverem disponíveis ou puderem ser
aprendidos (Capítulo 8).
Por outro lado, existem métodos de aprendizagem por reforço que não necessitam de nenhum tipo de modelo de
ambiente. Os sistemas livres de modelos não conseguem sequer pensar em como os seus ambientes irão mudar em
resposta a uma única acção. O jogador do jogo da velha é livre de modelos neste sentido em relação ao seu oponente:
ele não tem nenhum modelo de seu oponente de qualquer tipo. Como os modelos precisam ser razoavelmente precisos
para serem úteis, os métodos livres de modelos podem ter vantagens sobre métodos mais complexos quando o verdadeiro
gargalo na resolução de um problema é a dificuldade de construir um modelo ambiental suficientemente preciso . Os
métodos livres de modelo também são blocos de construção importantes para métodos baseados em modelo.
Neste livro dedicamos vários capítulos aos métodos livres de modelos antes de discutir como eles podem ser usados
como componentes de métodos baseados em modelos mais complexos.
O aprendizado por reforço pode ser usado em níveis altos e baixos em um sistema. Embora o jogador do jogo da velha
tenha aprendido apenas sobre os movimentos básicos do jogo, nada impede que a aprendizagem por reforço funcione em
níveis mais elevados, onde cada uma das “ações” pode ser ela própria a aplicação de um método possivelmente elaborado
de resolução de problemas. Em sistemas de aprendizagem hierárquicos, a aprendizagem por reforço pode funcionar
simultaneamente em vários níveis.
Exercício 1.1: Autojogo Suponha que, em vez de jogar contra um adversário aleatório, o algoritmo de aprendizagem por
reforço descrito acima jogasse contra si mesmo, com ambos os lados aprendendo. O que você acha que aconteceria
neste caso? Aprenderia uma política diferente para selecionar movimentos? ÿ
Exercício 1.2: Simetrias Muitas posições do jogo da velha parecem diferentes, mas são realmente iguais por causa das
simetrias. Como podemos alterar o processo de aprendizagem descrito acima para tirar vantagem disso? De que forma
essa mudança melhoraria o processo de aprendizagem? Agora pense novamente. Suponha que o oponente não tenha
aproveitado as simetrias.
Nesse caso, deveríamos? É verdade, então, que posições simetricamente equivalentes deveriam
necessariamente ter o mesmo valor? ÿ
Exercício 1.3: Jogo Ganancioso Suponha que o jogador que está aprendendo por reforço fosse ganancioso,
ou seja, sempre executasse o movimento que o levasse à posição que ele classificou como melhor.
Poderia aprender a jogar melhor ou pior do que um jogador não ganancioso? Que problemas podem ocorrer? ÿ
Exercício 1.4: Aprendendo com a Exploração Suponha que as atualizações de aprendizagem tenham ocorrido após todos
os movimentos, inclusive os movimentos exploratórios. Se o parâmetro de tamanho do passo for reduzido adequadamente
1.7. História Antiga da Aprendizagem por Reforço 13
com o tempo (mas não a tendência de explorar), então os valores do estado convergiriam para um
conjunto diferente de probabilidades. Quais são (conceitualmente) os dois conjuntos de
probabilidades calculados quando aprendemos e quando não aprendemos com os movimentos
exploratórios? Supondo que continuamos a fazer movimentos exploratórios, que conjunto de
probabilidades seria melhor aprender? O que resultaria em mais vitórias? ÿ
Exercício 1.5: Outras melhorias Você consegue pensar em outras maneiras de melhorar o jogador que aprende
por reforço? Você consegue pensar em alguma maneira melhor de resolver o problema do jogo da velha conforme
apresentado? ÿ
1.6 Resumo
A aprendizagem por reforço é uma abordagem computacional para compreender e automatizar a
aprendizagem direcionada a objetivos e a tomada de decisões. Distingue-se de outras abordagens
computacionais pela sua ênfase na aprendizagem de um agente a partir da interação direta com
seu ambiente, sem exigir supervisão exemplar ou modelos completos do ambiente . Em nossa
opinião, a aprendizagem por reforço é o primeiro campo a abordar seriamente as questões
computacionais que surgem quando se aprende a partir da interação com um ambiente, a fim de
atingir objetivos de longo prazo.
A aprendizagem por reforço usa a estrutura formal dos processos de decisão de Markov para
definir a interação entre um agente de aprendizagem e seu ambiente em termos de estados, ações
e recompensas. Esta estrutura pretende ser uma forma simples de representar características
essenciais do problema de inteligência artificial. Essas características incluem um senso de causa e
efeito, um senso de incerteza e não determinismo e a existência de objetivos explícitos.
Os conceitos de valor e função de valor são fundamentais para a maioria dos métodos de
aprendizagem por reforço que consideramos neste livro. Assumimos a posição de que as funções
de valor são importantes para a busca eficiente no espaço das políticas. O uso de funções de valor
distingue os métodos de aprendizagem por reforço dos métodos evolutivos que pesquisam
diretamente no espaço político, guiados por avaliações de políticas inteiras.
1.7 História Inicial da Aprendizagem por Reforço

A história inicial da aprendizagem por reforço tem dois fios principais, longos e ricos, que foram perseguidos de
forma independente antes de se entrelaçarem na moderna aprendizagem por reforço. Um tópico diz respeito à
aprendizagem por tentativa e erro e teve origem na psicologia da aprendizagem animal. Este tópico percorre
alguns dos primeiros trabalhos em inteligência artificial e levou ao renascimento da aprendizagem por reforço no
início da década de 1980. O segundo tópico diz respeito ao problema de controle ótimo e sua solução utilizando
funções de valor e programação dinâmica. Na maior parte, esse tópico não envolvia aprendizado. Os dois tópicos
eram em sua maioria independentes, mas tornaram-se inter-relacionados até certo ponto em torno de um terceiro
tópico, menos distinto, relativo a métodos de diferença temporal, como aquele usado no exemplo do jogo da velha
neste capítulo. Todos os três segmentos se uniram no final da década de 1980 para produzir o campo moderno
da aprendizagem por reforço tal como o apresentamos neste livro.
O segmento centrado na aprendizagem por tentativa e erro é aquele com o qual estamos mais
familiarizados e sobre o qual temos mais a dizer nesta breve história. Antes de fazer isso, entretanto,
discutiremos brevemente o thread de controle ideal.
O termo “controle ótimo” entrou em uso no final da década de 1950 para descrever o problema
de projetar um controlador para minimizar ou maximizar uma medida do comportamento de um
sistema dinâmico ao longo do tempo. Uma das abordagens para este problema foi desenvolvida em
meados da década de 1950 por Richard Bellman e outros através da extensão de uma teoria de
Hamilton e Jacobi do século XIX . Esta abordagem utiliza os conceitos de estado de um sistema
dinâmico e de função de valor, ou “função de retorno ideal”, para definir uma equação funcional,
agora frequentemente chamada de equação de Bellman. A classe de métodos para resolver
problemas de controle ótimo resolvendo esta equação passou a ser conhecida como programação dinâmica (Bellman
Bellman (1957b) também introduziu a versão estocástica discreta do problema de controle ótimo
conhecida como processos de decisão de Markov (MDPs). Ronald Howard (1960) desenvolveu o
método de iteração de políticas para MDPs. Todos esses são elementos essenciais subjacentes à
teoria e aos algoritmos da moderna aprendizagem por reforço.
A programação dinâmica é amplamente considerada a única maneira viável de resolver
problemas gerais de controle ótimo estocástico. Ele sofre do que Bellman chamou de “a maldição
da dimensionalidade”, o que significa que seus requisitos computacionais crescem exponencialmente
com o número de variáveis de estado, mas ainda é muito mais eficiente e mais amplamente
aplicável do que qualquer outro método geral. A programação dinâmica tem sido extensivamente
desenvolvida desde o final da década de 1950, incluindo extensões para MDPs parcialmente
observáveis (pesquisados por Lovejoy, 1991), muitas aplicações (pesquisados por White, 1985,
1988, 1993), métodos de aproximação (pesquisados por Rust, 1996), e métodos assíncronos
(Bertsekas, 1982, 1983). Muitos excelentes tratamentos modernos de programação dinâmica
estão disponíveis (por exemplo, Bertsekas, 2005, 2012; Puterman, 1994; Ross, 1983; e Whittle,
1982, 1983). Bryson (1996) fornece uma história oficial de controle ideal.
As conexões entre controle ideal e programação dinâmica, por um lado, e aprendizagem, por
outro, demoraram a ser reconhecidas. Não podemos ter a certeza sobre o que explica esta
separação, mas a sua principal causa foi provavelmente a separação entre as disciplinas envolvidas
e os seus diferentes objectivos. Também contribuiu pode ter sido a visão predominante da
programação dinâmica como uma computação off-line, dependendo essencialmente de modelos de
sistema precisos e soluções analíticas para a equação de Bellman. Além disso, a forma mais simples
de programação dinâmica é uma computação que retrocede no tempo, tornando difícil ver como ela
poderia estar envolvida em um processo de aprendizagem que deve prosseguir no sentido
progressivo. Alguns dos primeiros trabalhos em programação dinâmica, como o de Bellman e
Dreyfus (1959), podem agora ser classificados como seguindo uma abordagem de aprendizagem.
O trabalho de Witten (1977) (discutido abaixo) certamente se qualifica como uma combinação de
ideias de aprendizagem e programação dinâmica. Werbos (1987) defendeu explicitamente uma
maior inter-relação entre programação dinâmica e métodos de aprendizagem e a relevância da
programação dinâmica para a compreensão dos mecanismos neurais e cognitivos. Para nós, a
integração total dos métodos de programação dinâmica com a aprendizagem online não ocorreu até
o trabalho de Chris Watkins em 1989, cujo tratamento da aprendizagem por reforço utilizando o
formalismo MDP foi amplamente adotado. Desde então, estas relações foram extensivamente
desenvolvidas por muitos investigadores, mais particularmente por Dimitri Bertsekas
e John Tsitsiklis (1996), que cunhou o termo “programação neurodinâmica” para se

referir à combinação de programação dinâmica e redes neurais artificiais. Outro termo
atualmente em uso é “programação dinâmica aproximada”. Essas várias abordagens
enfatizam diferentes aspectos do assunto, mas todas compartilham com a aprendizagem
por reforço o interesse em contornar as deficiências clássicas da programação dinâmica.
Consideramos que todo o trabalho no controlo óptimo é também, num certo sentido, trabalho na
aprendizagem por reforço. Definimos um método de aprendizagem por reforço como qualquer forma
eficaz de resolver problemas de aprendizagem por reforço, e agora está claro que esses problemas
estão intimamente relacionados com problemas de controle ótimo, particularmente problemas de
controle ótimo estocásticos, como aqueles formulados como MDPs. Conseqüentemente, devemos
considerar os métodos de solução de controle ótimo, como a programação dinâmica, também como
métodos de aprendizagem por reforço. Como quase todos os métodos convencionais requerem
conhecimento completo do sistema a ser controlado, parece um pouco antinatural dizer que eles
fazem parte do aprendizado por reforço. Por outro lado, muitos algoritmos de programação dinâmica
são incrementais e iterativos. Assim como os métodos de aprendizagem, eles alcançam
gradativamente a resposta correta por meio de aproximações sucessivas. Como mostraremos no
restante deste livro, essas semelhanças são muito mais do que superficiais. As teorias e métodos de
solução para os casos de conhecimento completo e incompleto estão tão intimamente relacionados
que sentimos que devem ser considerados em conjunto como parte do mesmo assunto.
Voltemos agora ao outro segmento importante que conduz ao campo moderno da aprendizagem
por reforço, o segmento centrado na ideia de aprendizagem por tentativa e erro. Aqui abordamos
apenas os principais pontos de contato, abordando este tópico com mais detalhes na Seção 14.3.
De acordo com o psicólogo americano RS Woodworth (1938), a ideia de aprendizagem por tentativa
e erro remonta à década de 1850, à discussão de Alexander Bain sobre a aprendizagem por “tatear
e experimentar” e, mais explicitamente, ao etólogo e psicólogo britânico Conway Lloyd Morgan, em
1894. uso do termo para descrever suas observações do comportamento animal. Talvez o primeiro a
expressar sucintamente a essência da aprendizagem por tentativa e erro como princípio de
aprendizagem tenha sido Edward Thorndike:
Das várias respostas dadas à mesma situação, aquelas que são acompanhadas ou
seguidas de perto pela satisfação do animal estarão, em igualdade de condições, mais
firmemente ligadas à situação, de modo que, quando esta se repetir, será mais provável
que se repitam. ; aquelas que são acompanhadas ou seguidas de perto por desconforto
para o animal terão, em igualdade de circunstâncias, as suas ligações com essa
situação enfraquecidas, de modo que, quando esta se repetir, será menos provável que
ocorram. Quanto maior a satisfação ou desconforto, maior será o fortalecimento ou
enfraquecimento do vínculo. (Thorndike, 1911, p. 244)
Thorndike chamou isso de “Lei do Efeito” porque descreve o efeito de eventos reforçadores sobre a
tendência de selecionar ações. Mais tarde, Thorndike modificou a lei para melhor explicar os dados
subsequentes sobre a aprendizagem animal (como as diferenças entre os efeitos da recompensa e
da punição), e a lei em suas diversas formas gerou considerável controvérsia entre os teóricos da
aprendizagem (por exemplo, ver Gallistel). , 2005; Herrnstein, 1970; Kimble, 1961, 1967; Mazur,
1994). Apesar disso, a Lei do Efeito – de uma forma ou de outra – é amplamente considerada como
um princípio básico subjacente a muitos comportamentos (por exemplo, Hilgard e Bower, 1975;
Dennett, 1978; Campbell, 1960; Cziko, 1995). É a base do influente
teorias de aprendizagem de Clark Hull (1943, 1952) e os influentes métodos experimentais de

BF Skinner (1938).
O termo “reforço” no contexto da aprendizagem animal entrou em uso bem depois da
expressão da Lei do Efeito de Thorndike, aparecendo pela primeira vez neste contexto (até
onde sabemos) na tradução inglesa de 1927 da monografia de Pavlov sobre reflexos
condicionados. . Pavlov descreveu o reforço como o fortalecimento de um padrão de
comportamento devido ao fato de um animal receber um estímulo – um reforçador – em uma
relação temporal apropriada com outro estímulo ou com uma resposta. Alguns psicólogos
ampliaram a ideia de reforço para incluir tanto o enfraquecimento quanto o fortalecimento do
comportamento, e estenderam a ideia de reforçador para incluir possivelmente a omissão ou
o término do estímulo. Para ser considerado reforçador, o fortalecimento ou enfraquecimento
deve persistir após a retirada do reforçador; um estímulo que apenas atraia a atenção de um
animal ou que energize seu comportamento sem produzir mudanças duradouras não seria considerado um re
A ideia de implementar a aprendizagem por tentativa e erro num computador apareceu entre
os primeiros pensamentos sobre a possibilidade da inteligência artificial. Num relatório de 1948,
Alan Turing descreveu um projeto para um “sistema prazer-dor” que funcionava nos moldes da
Lei do Efeito:
Quando é alcançada uma configuração para a qual a ação é indeterminada, uma

escolha aleatória para os dados faltantes é feita e a entrada apropriada é feita na
descrição, provisoriamente, e é aplicada. Quando ocorre um estímulo de dor, todas
as tentativas de entrada são canceladas e, quando ocorre um estímulo de prazer,
todas elas se tornam permanentes. (Turing, 1948)
Foram construídas muitas máquinas eletromecânicas engenhosas que demonstravam aprendizagem por
tentativa e erro. A mais antiga pode ter sido uma máquina construída por Thomas Ross (1933) que era
capaz de encontrar o caminho através de um labirinto simples e lembrar o caminho através das
configurações dos interruptores. Em 1951, W. Gray Walter construiu uma versão de sua “ tartaruga
mecânica” (Walter, 1950) capaz de uma forma simples de aprendizagem. Em 1952, Claude Shannon
demonstrou um rato correndo em um labirinto chamado Teseu, que usava tentativa e erro para encontrar
seu caminho através de um labirinto, com o próprio labirinto lembrando as direções bem-sucedidas por
meio de ímãs e relés sob seu piso (ver também Shannon, 1951). JA Deutsch (1954) descreveu uma
máquina de resolução de labirintos baseada em sua teoria do comportamento (Deutsch, 1953) que tem
algumas propriedades em comum com a aprendizagem por reforço baseada em modelo (Capítulo 8).
Em seu doutorado. Em sua dissertação, Marvin Minsky (1954) discutiu modelos computacionais
de aprendizagem por reforço e descreveu sua construção de uma máquina analógica composta
de componentes que ele chamou de SNARCs (Calculadoras Estocásticas de Reforço Neural-
Analógico), destinadas a se assemelhar a conexões sinápticas modificáveis no cérebro
(Capítulo 15). O site cyberneticzoo.com contém muitas informações sobre essas e muitas
outras máquinas de aprendizagem eletromecânicas.
A construção de máquinas de aprendizagem eletromecânicas deu lugar à programação de
computadores digitais para realizar vários tipos de aprendizagem, alguns dos quais implementaram
aprendizagem por tentativa e erro. Farley e Clark (1954) descreveram uma simulação digital de uma
máquina de aprendizagem de rede neural que aprendia por tentativa e erro. Mas os seus interesses
rapidamente passaram da aprendizagem por tentativa e erro para a generalização e o reconhecimento
de padrões, isto é, da aprendizagem por reforço para a aprendizagem supervisionada (Clark e Farley, 1955). Isso deu início
confusão sobre a relação entre esses tipos de aprendizagem. Muitos pesquisadores pareciam acreditar
que estavam estudando a aprendizagem por reforço, quando na verdade estavam estudando a
aprendizagem supervisionada. Por exemplo, pioneiros de redes neurais artificiais como Rosenblatt
(1962) e Widrow e Hoÿ (1960) foram claramente motivados pela aprendizagem por reforço - eles
usaram a linguagem de recompensas e punições - mas os sistemas que estudaram eram sistemas de
aprendizagem supervisionada adequados para reconhecimento de padrões. e aprendizagem
perceptiva. Ainda hoje, alguns investigadores e livros didáticos minimizam ou confundem a distinção
entre estes tipos de aprendizagem. Por exemplo, alguns livros didáticos sobre redes neurais artificiais
usaram o termo “tentativa e erro” para descrever redes que aprendem com exemplos de treinamento .
Esta é uma confusão compreensível porque estas redes usam informações de erro para atualizar os
pesos das conexões, mas isso ignora o caráter essencial da aprendizagem por tentativa e erro, como
a seleção de ações com base em feedback avaliativo que não depende do conhecimento de qual
deveria ser a ação correta. ser.
Em parte como resultado destas confusões, a investigação sobre a aprendizagem genuína por
tentativa e erro tornou-se rara nas décadas de 1960 e 1970, embora tenha havido excepções notáveis.
Na década de 1960, os termos “reforço” e “aprendizado por reforço” foram usados pela primeira vez
na literatura de engenharia para descrever usos de engenharia de aprendizagem por tentativa e erro
(por exemplo, Waltz e Fu, 1965; Mendel, 1966; Fu, 1970). ; Mendel e McClaren, 1970). Particularmente
influente foi o artigo de Minsky “Steps Toward Artificial Intelligence” (Minsky, 1961), que discutiu
diversas questões relevantes para a aprendizagem por tentativa e erro, incluindo previsão, expectativa
e o que ele chamou de problema básico de atribuição de créditos para reforço complexo . sistemas de
aprendizagem: como distribuir o crédito pelo sucesso entre as muitas decisões que podem ter estado
envolvidas na sua produção? Todos os métodos que discutimos neste livro são, de certa forma,
direcionados à solução desse problema. Vale a pena ler o artigo de Minsky hoje.
Nos próximos parágrafos discutiremos algumas das outras exceções e exceções parciais à relativa
negligência do estudo computacional e teórico da aprendizagem genuína por tentativa e erro nas
décadas de 1960 e 1970.
Uma exceção foi o trabalho do pesquisador neozelandês John Andreae, que desenvolveu um
sistema chamado STeLLA que aprendia por tentativa e erro na interação com seu ambiente. Este
sistema incluía um modelo interno do mundo e, mais tarde, um “monólogo interno” para lidar com
problemas de estado oculto (Andreae, 1963, 1969a,b).
O trabalho posterior de Andreae (1977) colocou mais ênfase na aprendizagem de um professor, mas
ainda incluía a aprendizagem por tentativa e erro, sendo a geração de novos eventos um dos objetivos
do sistema. Uma característica deste trabalho foi um “processo de vazamento”, elaborado mais
detalhadamente em Andreae (1998), que implementou um mecanismo de atribuição de crédito
semelhante às operações de atualização de backup que descrevemos. Infelizmente, sua pesquisa
pioneira não era bem conhecida e não teve grande impacto nas pesquisas subsequentes sobre aprendizagem por refor
Estão disponíveis resumos recentes (Andreae, 2017a,b).
Mais influente foi o trabalho de Donald Michie. Em 1961 e 1963, ele descreveu um sistema simples
de aprendizagem por tentativa e erro para aprender a jogar jogo da velha (ou jogo da velha) chamado
MENACE (para Matchbox Educable Naughts and Crosses Engine). Consistia em uma caixa de fósforos
para cada posição de jogo possível, cada caixa de fósforos contendo um número de contas coloridas,
uma cor diferente para cada movimento possível daquela posição. Por
tirando aleatoriamente uma conta da caixa de fósforos correspondente à posição atual do jogo, pode-se
determinar o movimento de MENACE. Quando o jogo terminava, contas eram adicionadas ou removidas das
caixas usadas durante o jogo para recompensar ou punir as decisões da MENACE.
Michie e Chambers (1968) descreveram outro aluno por reforço do jogo da velha chamado GLEE (Game
Learning Expectimaxing Engine) e um controlador de aprendizagem por reforço chamado BOXES. Eles
aplicaram CAIXAS à tarefa de aprender a equilibrar um poste articulado a um carrinho móvel com base
em um sinal de falha que ocorria apenas quando o poste caía ou o carrinho chegava ao fim de um trilho.
Esta tarefa foi adaptada do trabalho anterior de Widrow e Smith (1964), que utilizou métodos de
aprendizagem supervisionada, assumindo a instrução de um professor já capaz de equilibrar o mastro. A
versão de equilíbrio de pólos de Michie e Chambers é um dos melhores exemplos iniciais de uma tarefa
de aprendizagem por reforço sob condições de conhecimento incompleto. Influenciou trabalhos muito
posteriores em aprendizagem por reforço, começando com alguns de nossos próprios estudos (Barto,
Sutton e Anderson, 1983; Sutton, 1984). Michie enfatizou consistentemente o papel da tentativa e erro e
da aprendizagem como aspectos essenciais da inteligência artificial (Michie, 1974).
Widrow, Gupta e Maitra (1973) modificaram o algoritmo Least-Mean-Square (LMS) de Widrow e Hoÿ
(1960) para produzir uma regra de aprendizagem por reforço que pudesse aprender com sinais de
sucesso e falha em vez de exemplos de treinamento. Eles chamaram esta forma de aprendizagem de
“adaptação bootstrap seletiva” e a descreveram como “aprender com um crítico” em vez de “aprender
com um professor”. Eles analisaram esta regra e mostraram como poderia aprender a jogar blackjack.
Esta foi uma incursão isolada na aprendizagem por reforço de Widrow, cujas contribuições para a
aprendizagem supervisionada foram muito mais influentes. Nosso uso do termo “crítico” deriva do artigo
de Widrow, Gupta e Maitra. Buchanan, Mitchell, Smith e Johnson (1978) usaram independentemente o
termo crítico no contexto da aprendizagem automática (ver também Dietterich e Buchanan, 1984), mas
para eles um crítico é um sistema especialista capaz de fazer mais do que avaliar o desempenho.
A pesquisa sobre autômatos de aprendizagem teve uma influência mais direta no segmento de
tentativa e erro que levou à pesquisa moderna de aprendizagem por reforço. Esses são métodos para
resolver um problema de aprendizagem não associativo e puramente seletivo, conhecido como bandido
armado k, por analogia a uma máquina caça-níqueis, ou “bandido armado”, exceto com alavancas k (ver Capítulo 2).
Os autômatos de aprendizagem são máquinas simples e com pouca memória para melhorar a
probabilidade de recompensa nesses problemas. Os autômatos de aprendizagem originaram-se do
trabalho na década de 1960 do matemático e físico russo ML Tsetlin e colegas (publicado postumamente
em Tsetlin, 1973) e foram extensivamente desenvolvidos desde então na engenharia (ver Narendra e
Thathachar, 1974, 1989). Esses desenvolvimentos incluíram o estudo de autômatos de aprendizagem
estocásticos, que são métodos para atualizar probabilidades de ação com base em sinais de recompensa.
Embora não tenha sido desenvolvido na tradição dos autômatos de aprendizagem estocásticos, o
algoritmo Alopex de Harth e Tzanakou (1974) (para algoritmo de extração de padrões) é um método
estocástico para detectar correlações entre ações e reforço que influenciaram algumas de nossas
primeiras pesquisas (Barto, Sutton e Brower, 1981). Os autômatos de aprendizagem estocásticos foram
prenunciados por trabalhos anteriores em psicologia, começando com o esforço de William Estes (1950)
em direção a uma teoria estatística de aprendizagem e posteriormente desenvolvidos por outros (por
exemplo, Bush e Mosteller, 1955; Sternberg, 1963).
As teorias de aprendizagem estatística desenvolvidas em psicologia foram adotadas por pesquisadores em
economia, levando a uma linha de pesquisa nesse campo dedicada à aprendizagem por reforço.
Este trabalho começou em 1973 com a aplicação da teoria da aprendizagem de Bush e Mosteller a uma
colecção de modelos económicos clássicos (Cross, 1973). Um dos objetivos desta pesquisa foi estudar
agentes artificiais que agem mais como pessoas reais do que agentes econômicos tradicionais
idealizados (Arthur, 1991). Essa abordagem se expandiu para o estudo da aprendizagem por reforço no
contexto da teoria dos jogos. A aprendizagem por reforço em economia desenvolveu-se em grande parte
independentemente dos primeiros trabalhos sobre aprendizagem por reforço em inteligência artificial,
embora a teoria dos jogos continue a ser um tópico de interesse em ambos os campos (além do escopo deste livro).
Camerer (2011) discute a tradição de aprendizagem por reforço em economia, e Nowé, Vrancx e De
Hauwere (2012) fornecem uma visão geral do assunto do ponto de vista de extensões multiagentes para
a abordagem que apresentamos neste livro. . O reforço no contexto da teoria dos jogos é um assunto
muito diferente do aprendizado por reforço usado em programas para jogar jogo da velha, damas e
outros jogos recreativos. Ver, por exemplo, Szita (2012) para uma visão geral deste aspecto da
aprendizagem por reforço e dos jogos.
John Holland (1975) delineou uma teoria geral de sistemas adaptativos baseada em princípios
seletivos. Seus primeiros trabalhos tratavam de tentativa e erro principalmente em sua forma não
associativa, como nos métodos evolutivos e no bandido armado com k. Em 1976 e de forma mais
completa em 1986, ele introduziu sistemas classificadores, verdadeiros sistemas de aprendizagem por
reforço, incluindo funções de associação e valor. Um componente-chave dos sistemas classificadores
da Holanda foi o “algoritmo de brigada de balde” para atribuição de crédito, que está intimamente
relacionado ao algoritmo de diferença temporal usado em nosso exemplo do jogo da velha e discutido no Capítulo 6.
Outro componente chave foi um algoritmo genético, um método evolutivo cujo papel era desenvolver
representações úteis. Os sistemas classificadores foram extensivamente desenvolvidos por muitos
pesquisadores para formar um ramo importante da pesquisa de aprendizagem por reforço (revisado por
Urbanowicz e Moore, 2009), mas os algoritmos genéticos - que não consideramos sistemas de
aprendizagem por reforço por si só - receberam muito mais atenção. , assim como outras abordagens
da computação evolutiva (por exemplo, Fogel, Owens e Walsh, 1966, e Koza, 1992).
O indivíduo mais responsável por reviver o fio de tentativa e erro da aprendizagem por
reforço na inteligência artificial foi Harry Klopf (1972, 1975, 1982). Klopf reconheceu que
aspectos essenciais do comportamento adaptativo estavam sendo perdidos à medida que os
pesquisadores da aprendizagem passaram a se concentrar quase exclusivamente na
aprendizagem supervisionada. O que faltava, segundo Klopf, eram os aspectos hedónicos do
comportamento, o impulso para obter algum resultado do ambiente, para controlar o ambiente
em direcção a fins desejados e para longe de fins indesejáveis (ver Secção 15.9). Esta é a ideia
essencial da aprendizagem por tentativa e erro. As ideias de Klopf foram especialmente
influentes sobre os autores porque a nossa avaliação delas (Barto e Sutton, 1981a) levou à
nossa apreciação da distinção entre aprendizagem supervisionada e por reforço, e ao nosso
eventual foco na aprendizagem por reforço. Grande parte do trabalho inicial que nós e colegas
realizamos foi direcionado para mostrar que a aprendizagem por reforço e a aprendizagem
supervisionada eram de fato diferentes (Barto, Sutton e Brouwer, 1981; Barto e Sutton, 1981b;
Barto e Anandan, 1985). Outros estudos mostraram como a aprendizagem por reforço poderia
resolver problemas importantes na aprendizagem de redes neurais artificiais, em particular,
como poderia produzir algoritmos de aprendizagem para redes multicamadas (Barto, Anderson
e Sutton, 1982; Barto e Anderson, 1985; Barto, 1985, 1986; Barto e Jordan, 1987; ver Seção 15.10).
Voltamo-nos agora para o terceiro fio da história da aprendizagem por reforço, aquele que diz
respeito à aprendizagem por diferença temporal. Os métodos de aprendizagem por diferença
temporal distinguem-se por serem motivados pela diferença entre estimativas temporalmente
sucessivas da mesma quantidade – por exemplo, da probabilidade de ganhar no exemplo do jogo
da velha. Este segmento é menor e menos distinto que os outros dois, mas tem desempenhado um
papel particularmente importante no campo, em parte porque os métodos de diferença temporal
parecem ser novos e únicos para a aprendizagem por reforço.
As origens da aprendizagem por diferença temporal estão, em parte, na psicologia da
aprendizagem animal, em particular, na noção de reforçadores secundários. Um reforçador
secundário é um estímulo que foi associado a um reforçador primário, como comida ou dor, e,
como resultado, passou a assumir propriedades de reforço semelhantes. Minsky (1954) pode ter
sido o primeiro a perceber que este princípio psicológico poderia ser importante para sistemas de aprendizagem ar
Arthur Samuel (1959) foi o primeiro a propor e implementar um método de aprendizagem que incluía
ideias de diferença temporal, como parte de seu célebre programa de jogo de damas (Seção 16.2).
Samuel não fez nenhuma referência ao trabalho de Minsky ou a possíveis conexões com a
aprendizagem animal. Sua inspiração aparentemente veio da sugestão de Claude Shannon (1950)
de que um computador poderia ser programado para usar uma função de avaliação para jogar
xadrez e que poderia melhorar seu jogo modificando essa função online. (É possível que estas
ideias de Shannon também tenham influenciado Bellman, mas não conhecemos nenhuma evidência disso.)
Minsky (1961) discutiu extensivamente o trabalho de Samuel em seu artigo “Steps”,
sugerindo a conexão com teorias de reforço secundário, tanto naturais quanto artificiais.
Como discutimos, na década seguinte ao trabalho de Minsky e Samuel, pouco trabalho
computacional foi feito na aprendizagem por tentativa e erro, e aparentemente nenhum trabalho
computacional foi feito na aprendizagem por diferença temporal. Em 1972, Klopf reuniu a
aprendizagem por tentativa e erro com um componente importante da aprendizagem por diferença temporal.
Klopf estava interessado em princípios que se adaptassem à aprendizagem em grandes sistemas e,
portanto, ficou intrigado com as noções de reforço local, por meio das quais os subcomponentes de
um sistema de aprendizagem global poderiam reforçar-se uns aos outros. Ele desenvolveu a ideia
de “reforço generalizado”, segundo o qual cada componente (nominalmente, cada neurônio) vê todas
as suas entradas em termos de reforço: entradas excitatórias como recompensas e entradas
inibitórias como punições. Esta não é a mesma ideia que hoje conhecemos como aprendizagem por
diferença temporal e, em retrospecto, está mais distante disso do que o trabalho de Samuel. Por
outro lado, Klopf relacionou a ideia com a aprendizagem por tentativa e erro e relacionou-a com a
enorme base de dados empírica da psicologia da aprendizagem animal.
Sutton (1978a,b,c) desenvolveu ainda mais as ideias de Klopf, particularmente as ligações às
teorias de aprendizagem animal, descrevendo regras de aprendizagem impulsionadas por mudanças
em previsões temporalmente sucessivas. Ele e Barto refinaram essas ideias e desenvolveram um
modelo psicológico de condicionamento clássico baseado na aprendizagem da diferença temporal
(Sutton e Barto, 1981a; Barto e Sutton, 1982). Seguiram-se vários outros modelos psicológicos
influentes de condicionamento clássico baseados na aprendizagem da diferença temporal (por
exemplo, Klopf, 1988; Moore et al., 1986; Sutton e Barto, 1987, 1990). Alguns modelos de
neurociência desenvolvidos nesta época são bem interpretados em termos de aprendizagem por
diferença temporal (Hawkins e Kandel, 1984; Byrne, Gingrich e Baxter, 1990; Gelperin, Hopfield e Tank, 1985; Tesaur
Observações Bibliográficas 21
1986; Friston et al., 1994), embora na maioria dos casos não houvesse conexão histórica.
Nosso trabalho inicial sobre aprendizagem por diferença temporal foi fortemente influenciado pelas
teorias de aprendizagem animal e pelo trabalho de Klopf. As relações com o jornal “Steps” de Minsky e
com os jogadores de damas de Samuel só foram reconhecidas posteriormente. Em 1981, entretanto,
estávamos plenamente conscientes de todo o trabalho anterior mencionado acima como parte das linhas
de diferença temporal e tentativa e erro. Neste momento, desenvolvemos um método para usar a
aprendizagem por diferença temporal combinada com a aprendizagem por tentativa e erro, conhecida
como arquitetura ator-crítica, e aplicamos esse método ao problema de equilíbrio de pólos de Michie e
Chambers (Barto, Sutton e Anderson, 1983). Este método foi extensivamente estudado no Ph.D. de
Sutton (1984). dissertação e estendida para usar redes neurais de retropropagação em Anderson (1986)
Ph.D. dissertação. Nessa época, Holland (1986) incorporou explicitamente ideias de diferença temporal
em seus sistemas classificadores na forma de seu algoritmo de brigada de balde.
Um passo fundamental foi dado por Sutton (1988) ao separar a aprendizagem por diferença temporal do controle,
tratando-a como um método geral de previsão. Esse artigo também introduziu o algoritmo TD() e provou algumas
de suas propriedades de convergência.
Quando estávamos finalizando nosso trabalho sobre a arquitetura ator-crítico em 1981, descobrimos
um artigo de Ian Witten (1977, 1976a) que parece ser a primeira publicação de uma regra de
aprendizagem por diferença temporal. Ele propôs o método que agora chamamos de TD(0) tabular para
uso como parte de um controlador adaptativo para resolver MDPs. Este trabalho foi submetido pela
primeira vez para publicação em periódico em 1974 e também apareceu na dissertação de doutorado de Witten em 1976.
O trabalho de Witten foi descendente dos primeiros experimentos de Andreae com STeLLA e outros sistemas
de aprendizagem por tentativa e erro. Assim, o artigo de Witten de 1977 abrangeu os dois principais tópicos da
pesquisa sobre aprendizagem por reforço – aprendizagem por tentativa e erro e controle ideal – ao mesmo
tempo em que fez uma contribuição inicial distinta para a aprendizagem por diferença temporal.
A diferença temporal e os threads de controle ideal foram totalmente reunidos em 1989 com
o desenvolvimento do Q-learning por Chris Watkins. Este trabalho ampliou e integrou trabalhos
anteriores em todos os três segmentos de pesquisa de aprendizagem por reforço. Paul Werbos
(1987) contribuiu para esta integração defendendo a convergência da aprendizagem por
tentativa e erro e da programação dinâmica desde 1977. Na época do trabalho de Watkins,
houve um tremendo crescimento na pesquisa de aprendizagem por reforço, principalmente no
subcampo de aprendizagem de máquina de inteligência artificial, mas também em redes
neurais artificiais e inteligência artificial de forma mais ampla. Em 1992, o notável sucesso do
programa de gamão de Gerry Tesauro, TD-Gammon, trouxe atenção adicional para o campo.
Desde a publicação da primeira edição deste livro, desenvolveu-se um florescente subcampo
da neurociência que se concentra na relação entre algoritmos de aprendizagem por reforço e
aprendizagem por reforço no sistema nervoso. O maior responsável por isso é uma estranha
semelhança entre o comportamento dos algoritmos de diferença temporal e a atividade dos
neurônios produtores de dopamina no cérebro, como apontado por vários pesquisadores
(Friston et al., 1994; Barto, 1995a; Houk , Adams e Barto, 1995; Montague, Dayan e Sejnowski,
1996; e Schultz, Dayan e Montague, 1997). O Capítulo 15 fornece uma introdução a esse
aspecto interessante da aprendizagem por reforço. Outras contribuições importantes feitas na
história recente da aprendizagem por reforço são numerosas demais para serem mencionadas
neste breve relato; citamos muitos deles no final dos capítulos individuais em que surgem.
Observações Bibliográficas
Para uma cobertura geral adicional da aprendizagem por reforço, remetemos o leitor aos
livros de Szepesvári (2010), Bertsekas e Tsitsiklis (1996), Kaelbling (1993a) e Sugiyama,
Hachiya e Morimura (2013) . Os livros que adotam uma perspectiva de controle ou
pesquisa operacional incluem os de Si, Barto, Powell e Wunsch (2004), Powell (2011),
Lewis e Liu (2012) e Bertsekas (2012). A revisão de Cao (2009) coloca a aprendizagem
por reforço no contexto de outras abordagens para aprendizagem e otimização de
sistemas dinâmicos estocásticos. Três edições especiais da revista Machine Learning
enfocam a aprendizagem por reforço: Sutton (1992a), Kaelbling (1996) e Singh (2002).
Pesquisas úteis são fornecidas por Barto (1995b); Kaelbling, Littman e Moore (1996); e
Keerthi e Ravindran (1997). O volume editado por Weiring e van Otterlo (2012) oferece
uma excelente visão geral dos desenvolvimentos recentes.
1.2 O exemplo do café da manhã de Phil neste capítulo foi inspirado em Agre (1988).
1.5 O método de diferença temporal usado no exemplo do jogo da velha é desenvolvido em

Capítulo 6.
Parte I: Métodos de solução tabular
Nesta parte do livro descrevemos quase todas as ideias centrais dos algoritmos de aprendizagem
por reforço em suas formas mais simples: aquela em que os espaços de estado e ação são pequenos
o suficiente para que as funções de valor aproximado sejam representadas como matrizes ou tabelas.
Nesse caso, os métodos muitas vezes conseguem encontrar soluções exatas, ou seja, muitas vezes
conseguem encontrar exatamente a função de valor ótima e a política ótima. Isto contrasta com os
métodos aproximados descritos na próxima parte do livro, que apenas encontram soluções
aproximadas, mas que em troca podem ser aplicados eficazmente a problemas muito maiores.
O primeiro capítulo desta parte do livro descreve métodos de solução para o caso especial do
problema de aprendizagem por reforço no qual existe apenas um único estado, denominado problemas
bandidos. O segundo capítulo descreve a formulação geral do problema que tratamos ao longo do
restante do livro – processos de decisão finitos de Markov – e suas ideias principais, incluindo equações
de Bellman e funções de valor.
Os próximos três capítulos descrevem três classes fundamentais de métodos para resolver problemas
de decisão finita de Markov: programação dinâmica, métodos de Monte Carlo e aprendizagem por
diferença temporal. Cada classe de métodos tem seus pontos fortes e fracos. Os métodos de
programação dinâmica são bem desenvolvidos matematicamente, mas requerem um modelo completo
e preciso do ambiente. Os métodos de Monte Carlo não requerem um modelo e são conceitualmente
simples, mas não são adequados para computação incremental passo a passo.
Finalmente, os métodos de diferença temporal não requerem modelo e são totalmente incrementais, mas
são mais complexos de analisar. Os métodos também diferem em vários aspectos no que diz respeito à
sua eficiência e velocidade de convergência.
Os dois capítulos restantes descrevem como essas três classes de métodos podem ser combinadas
para obter as melhores características de cada uma delas. Num capítulo descrevemos como os pontos
fortes dos métodos de Monte Carlo podem ser combinados com os pontos fortes dos métodos de
diferença temporal através de métodos de bootstrapping em múltiplos passos. No capítulo final desta
parte do livro, mostramos como os métodos de aprendizagem por diferença temporal podem ser
combinados com métodos de aprendizagem e planejamento de modelos (como programação dinâmica)
para uma solução completa e unificada para o problema de aprendizagem por reforço tabular.
23
Capítulo 2
Bandidos Multi-armados
A característica mais importante que distingue a aprendizagem por reforço de outros tipos de aprendizagem
é que ela utiliza informações de treinamento que avaliam as ações tomadas, em vez de instruir dando ações
corretas. É isso que cria a necessidade de uma exploração ativa, de uma busca explícita de bom
comportamento. O feedback puramente avaliativo indica quão boa foi a ação tomada, mas não se foi a
melhor ou a pior ação possível. O feedback puramente instrutivo, por outro lado, indica a ação correta a ser
tomada, independentemente da ação efetivamente realizada. Esse tipo de feedback é a base do aprendizado
supervisionado, que inclui grandes partes de classificação de padrões, redes neurais artificiais e identificação
de sistemas. Nas suas formas puras, estes dois tipos de feedback são bastante distintos: o feedback
avaliativo depende inteiramente da acção tomada, enquanto o feedback instrutivo é independente da acção
tomada.
Neste capítulo estudamos o aspecto avaliativo da aprendizagem por reforço em um

ambiente simplificado, que não envolve aprender a agir em mais de uma situação. Este
cenário não associativo é aquele em que a maior parte do trabalho anterior envolvendo
feedback avaliativo foi realizado e evita grande parte da complexidade do problema de
aprendizagem por reforço total. O estudo deste caso permite-nos ver mais claramente como
o feedback avaliativo difere e ainda pode ser combinado com o feedback instrutivo.
O problema específico de feedback avaliativo não associativo que exploramos é uma versão simples do
problema do bandido armado com k. Utilizamos este problema para introduzir uma série de métodos básicos
de aprendizagem que estendemos em capítulos posteriores para serem aplicados ao problema completo de
aprendizagem por reforço. No final deste capítulo, damos um passo mais perto do problema da aprendizagem
por reforço total, discutindo o que acontece quando o problema do bandido se torna associativo, ou seja,
quando ações são tomadas em mais de uma situação.
2.1 Um problema de bandido armado com k
Considere o seguinte problema de aprendizagem. Você se depara repetidamente com uma escolha
entre k diferentes opções ou ações. Após cada escolha, você recebe uma recompensa numérica
escolhida em uma distribuição de probabilidade estacionária que depende da ação selecionada. Seu
25
26 Capítulo 2: Bandidos Multiarmados
O objetivo é maximizar a recompensa total esperada durante algum período de tempo, por exemplo, mais
de 1.000 seleções de ação ou intervalos de tempo.
Esta é a forma original do problema do bandido armado k, assim chamado por analogia com
uma máquina caça-níqueis, ou “bandido armado”, exceto que possui k alavancas em vez de uma.
Cada seleção de ação é como jogar uma das alavancas da máquina caça-níqueis, e as
recompensas são os pagamentos por ganhar o jackpot. Através de seleções de ações repetidas,
você maximizará seus ganhos, concentrando suas ações nas melhores alavancas. Outra analogia
é a de um médico escolhendo entre tratamentos experimentais para uma série de pacientes gravemente enfermos.
Cada ação é a seleção de um tratamento e cada recompensa é a sobrevivência ou o bem-estar do
paciente. Hoje, o termo “problema do bandido” às vezes é usado para uma generalização do
problema descrito acima, mas neste livro nós o usamos para nos referirmos apenas a este problema simples.
caso.
Em nosso problema do bandido armado com k, cada uma das k ações tem uma recompensa
esperada ou média, dado que essa ação é selecionada; chamemos isso de valor daquela ação.
Denotamos a ação selecionada no intervalo de tempo t como At, e a recompensa correspondente
como Rt. O valor então de uma ação arbitrária a, denotada qÿ(a), é a recompensa esperada dado que a é selecionado:
qÿ(uma)=. E[Rt | Em =a] .
Se você soubesse o valor de cada ação, seria trivial resolver o problema do bandido
armado com k: você sempre selecionaria a ação com maior valor. Presumimos que você
não conhece os valores da ação com certeza, embora possa ter estimativas. Denotamos
o valor estimado da ação a na etapa de tempo t como Qt(a). Gostaríamos que Qt(a) fosse
próximo de qÿ(a).
Se você mantiver estimativas dos valores de ação, então, em qualquer intervalo de tempo, haverá
pelo menos uma ação cujo valor estimado é maior. Chamamos isso de ações gananciosas. Quando
você seleciona uma dessas ações, dizemos que você está explorando seu conhecimento atual dos
valores das ações. Se, em vez disso, você selecionar uma das ações não gananciosas, então dizemos
que você está explorando, porque isso lhe permite melhorar sua estimativa do valor da ação não
gananciosa. A exploração é a coisa certa a fazer para maximizar a recompensa esperada numa etapa,
mas a exploração pode produzir a maior recompensa total no longo prazo. Por exemplo, suponhamos
que o valor de uma acção gananciosa seja conhecido com certeza, enquanto várias outras acções são
estimadas como sendo quase tão boas, mas com incerteza substancial. A incerteza é tanta que pelo
menos uma dessas outras ações provavelmente é melhor que a ação gananciosa, mas você não sabe
qual. Se você tiver muitos passos de tempo à frente para fazer seleções de ação, então talvez seja
melhor explorar as ações não gananciosas e descobrir quais delas são melhores do que a ação
gananciosa. A recompensa é menor no curto prazo, durante a exploração, mas maior no longo prazo,
porque depois de descobrir as melhores ações, você poderá explorá-las muitas vezes. Como não é
possível explorar e explorar com uma única selecção de acção, refere-se frequentemente ao “conflito”
entre exploração e exploração.
Em qualquer caso específico, se é melhor explorar ou explorar depende de uma forma complexa
dos valores precisos das estimativas, das incertezas e do número de etapas restantes. Existem
muitos métodos sofisticados para equilibrar a exploração e a exploração para formulações
matemáticas específicas do bandido armado com k e problemas relacionados.
2.2. Métodos de valor de ação 27
No entanto, a maioria desses métodos faz suposições fortes sobre a estacionariedade e o

conhecimento prévio que são violados ou impossíveis de verificar nas aplicações e no problema
de aprendizagem por reforço total que consideraremos nos capítulos subsequentes. As garantias
de otimalidade ou perda limitada para estes métodos são de pouco conforto quando os
pressupostos da sua teoria não se aplicam.
Neste livro não nos preocupamos em equilibrar a exploração e a exploração de uma forma
sofisticada; nos preocupamos apenas em equilibrá-los. Neste capítulo apresentamos vários métodos
simples de balanceamento para o problema do bandido armado com k e mostramos que eles
funcionam muito melhor do que métodos que sempre exploram. A necessidade de equilibrar
exploração e exploração é um desafio distinto que surge na aprendizagem por reforço; a simplicidade
da nossa versão do problema do bandido armado com k permite-nos mostrar isto de uma forma
particularmente clara.
2.2 Métodos de valor de ação
Começamos examinando mais de perto os métodos para estimar os valores das ações e para usar
as estimativas para tomar decisões de seleção de ações, que chamamos coletivamente de métodos
de valor da ação. Lembre-se de que o verdadeiro valor de uma ação é a recompensa média quando
essa ação é selecionada. Uma maneira natural de estimar isso é calculando a média das recompensas
realmente recebidas:
Qt(a) . =
soma das recompensas quando a foi obtida antes = Pt1
eu=1 Ri · Ai=a
, (2.1)
de t número de vezes que foi obtida antes de t
Pt1 i=1 Ai=a
onde denota a variável aleatória que é 1 se o predicado for verdadeiro e 0 se não for. predicado Se o
denominador for zero, então definimos Qt(a) como algum valor padrão, como 0. À medida que o
denominador vai para o infinito, pela lei dos grandes números, Qt(a) converge para qÿ(a). Chamamos
isso de método da média amostral para estimar valores de ação porque cada estimativa é uma média
da amostra de recompensas relevantes. É claro que esta é apenas uma forma de estimar os valores
das ações, e não necessariamente a melhor. No entanto, por enquanto, continuemos com este
método de estimativa simples e passemos à questão de como as estimativas podem ser utilizadas
para seleccionar acções.
A regra de seleção de ações mais simples é selecionar uma das ações com maior valor estimado,
ou seja, uma das ações gananciosas definidas na seção anterior.
Se houver mais de uma ação gananciosa, então é feita uma seleção entre elas de forma arbitrária,
talvez aleatoriamente. Escrevemos este método ganancioso de seleção de ações como
Em =. argmax Qt(a), (2.2)

a
onde argmaxa denota a ação a para a qual a expressão a seguir é maximizada (novamente, com empates
quebrados arbitrariamente). A seleção gananciosa de ações sempre explora o conhecimento atual para
maximizar a recompensa imediata; não perde tempo algum experimentando ações aparentemente inferiores
para ver se elas poderiam realmente ser melhores. Uma alternativa simples é comportar-se de forma
gananciosa na maior parte do tempo, mas de vez em quando, digamos com pequena probabilidade ", em vez disso
selecionar aleatoriamente entre todas as ações com igual probabilidade, independentemente de

as estimativas do valor da ação. Chamamos métodos usando esta regra de seleção de ação quase gananciosa
"métodos gananciosos. Uma vantagem desses métodos é que, no limite conforme o número de
passos aumenta, cada ação será amostrada um número infinito de vezes, garantindo assim
que todos os Qt(a) convergem para qÿ(a). Isto obviamente implica que a probabilidade de selecionar
a ação ótima converge para maior que 1 ", ou seja, para quase certeza. Estes são
apenas garantias assintóticas, no entanto, e dizem pouco sobre a eficácia prática da
os métodos.
Exercício 2.1 Em "-seleção de ações gananciosas, para o caso de duas ações e " = 0,5, qual é
a probabilidade de que a ação gananciosa seja selecionada? ÿ
2.3 O banco de testes de 10 braços
Para avaliar aproximadamente a eficácia relativa do valor de ação ganancioso e "ganancioso

métodos, nós os comparamos numericamente em um conjunto de problemas de teste. Este foi um conjunto
de 2.000 problemas de bandidos armados k gerados aleatoriamente com k = 10. Para cada bandido
problema, como o mostrado na Figura 2.1, os valores de ação, qÿ(a), a = 1,..., 10,
2
qÿ(3)
qÿ(5)
1
qÿ(9)
qÿ(4)
Recompensa qÿ(1)
0 qÿ(7)
distribuição
qÿ(10)
qÿ(2)
-1 qÿ(8)
qÿ(6)
-2
-3
1 2 3 4 5 6 7 8 9 10
Ação
Figura 2.1: Um exemplo de problema de bandido do ambiente de teste de 10 braços. O verdadeiro valor qÿ(a) de
cada uma das dez ações foi selecionada de acordo com uma distribuição normal com média zero e unidade
variância e, em seguida, as recompensas reais foram selecionadas de acordo com uma média qÿ(a) variância unitária
distribuição normal, conforme sugerido por essas distribuições cinza.
2.3. O Testbed de 10 braços 29
foram selecionados de acordo com uma distribuição normal (Gaussiana) com média 0 e variância 1.
Então, quando um método de aprendizagem aplicado a esse problema selecionou a ação At na etapa de
tempo t, a recompensa real, Rt, foi selecionada a partir de uma distribuição normal com média qÿ(At) e
variância 1. Essas distribuições são mostradas em cinza na Figura 2.1 . Chamamos esse conjunto de tarefas
de teste de teste de 10 braços. Para qualquer método de aprendizagem, podemos medir seu desempenho e
comportamento à medida que melhora com a experiência em mais de 1.000 intervalos de tempo quando
aplicado a um dos problemas do bandido. Isso constitui uma corrida. Repetindo isso para 2.000 execuções
independentes, cada uma com um problema de bandido diferente, obtivemos medidas do comportamento
médio do algoritmo de aprendizagem.
A Figura 2.2 compara um método ganancioso com dois métodos "-gananciosos ("= 0,01 e "= 0,1),
conforme descrito acima, no ambiente de teste de 10 braços. Todos os métodos formaram suas
estimativas de valor de ação usando a técnica de média amostral. O O gráfico superior mostra o
aumento na recompensa esperada com a experiência. O método ganancioso melhorou um pouco
mais rápido do que os outros métodos no início, mas depois nivelou ÿ em um nível mais baixo. Ele
alcançou uma recompensa por etapa de apenas cerca de 1, em comparação com o melhor possível
de cerca de 1,55 neste teste. O método ganancioso teve um desempenho significativamente pior no longo prazo porqu
1,5
"= 0,1
"= 0,01
1
(ganancioso) "= 0
Recompensa
média
0,5
0
10 250 500 750 1000
Passos
100%
80%
"= 0,1
% 60%
"= 0,01
Ação ideal
40%
"= 0 (ganancioso)
20%
0%
01 250 500 750 1000
Passos
Figura 2.2: Desempenho médio de métodos de valor de ação "gananciosos" no ambiente de teste de 10 braços.
Esses dados são médias de mais de 2.000 execuções com diferentes problemas de bandidos. Todos os métodos usaram médias
amostrais como estimativas de valor de ação.
muitas vezes ficava preso executando ações abaixo do ideal. O gráfico inferior mostra que o
método ganancioso encontrou a ação ideal em apenas aproximadamente um terço das tarefas.
Nos outros dois terços, as suas amostras iniciais da acção óptima foram decepcionantes e nunca
mais voltaram a fazê-lo. Os métodos "-gananciosos eventualmente tiveram melhor desempenho
porque continuaram a explorar e a melhorar suas chances de reconhecer a ação ideal. O método
" = 0,1 explorou mais e geralmente encontrou a ação ideal mais cedo, mas nunca selecionou
essa ação mais de 91% do tempo. O método " = 0,01 melhorou mais lentamente, mas
eventualmente teria um desempenho melhor do que o método " = 0,1 em ambas as medidas de
desempenho mostradas na figura. Também é possível reduzir " ao longo do tempo para tentar
obter o melhor dos valores altos e baixos.
A vantagem dos métodos "-gananciosos sobre os métodos gananciosos depende da tarefa. Por
exemplo, suponha que a variação da recompensa tenha sido maior, digamos 10 em vez de 1. Com
recompensas mais barulhentas, é necessária mais exploração para encontrar a ação ideal, e os
métodos "-gananciosos devem se sai ainda melhor em relação ao método ganancioso. Por outro lado,
se as variações da recompensa fossem zero, então o método ganancioso saberia o verdadeiro valor
de cada ação depois de tentar uma vez. Neste caso, o método ganancioso pode realmente ter o
melhor desempenho porque logo encontraria a ação ideal e nunca mais exploraria. Mas mesmo no
caso determinista há uma grande vantagem em explorar se enfraquecermos alguns dos outros
pressupostos. Por exemplo, suponha que a tarefa do bandido fosse não estacionária, ou seja, os
verdadeiros valores das ações mudassem ao longo do tempo. Neste caso, a exploração é necessária
mesmo no caso determinístico para garantir que uma das ações não gananciosas não mudou para se
tornar melhor do que a gananciosa. Como veremos nos próximos capítulos, a não estacionariedade é
o caso mais comumente encontrado na aprendizagem por reforço. Mesmo que a tarefa subjacente
seja estacionária e determinística, o aluno enfrenta um conjunto de tarefas de decisão semelhantes a
bandidos, cada uma das quais muda ao longo do tempo à medida que a aprendizagem prossegue e
a política de tomada de decisão do agente muda. A aprendizagem por reforço requer um equilíbrio entre exploração e
Exercício 2.2: Exemplo de bandido Considere um problema de bandido armado com k com k = 4
ações, denotadas 1, 2, 3 e 4. Considere aplicar a este problema um algoritmo de bandido usando
"seleção de ação gananciosa, estimativas de valor de ação média amostral , e estimativas iniciais
de Q1(a) = 0, para todo a. Suponha que a sequência inicial de ações e recompensas seja A1 = 1,
R1 = 1, A2 = 2, R2 = 1, A3 = 2, R3 = 2, A4 = 2, R4 = 2, A5 = 3, R5 = 0. Em alguns desses
intervalos de tempo o caso " pode ter ocorrido, fazendo com que uma ação fosse selecionada
aleatoriamente . Em quais intervalos de tempo isso definitivamente ocorreu? Em quais intervalos
de tempo isso poderia ter ocorrido? ÿ
Exercício 2.3 Na comparação mostrada na Figura 2.2, qual método terá melhor desempenho no
longo prazo em termos de recompensa cumulativa e probabilidade de selecionar a melhor ação?
Quão melhor será? Expresse sua resposta quantitativamente. ÿ
2.4 Implementação Incremental

Todos os métodos de valor de ação que discutimos até agora estimam valores de ação como médias
amostrais de recompensas observadas. Passamos agora à questão de como essas médias podem
ser calculadas de maneira computacionalmente eficiente, em particular, com memória constante
2.4. Implementação Incremental 31
e cálculo constante por passo de tempo.

Para simplificar a notação, nos concentramos em uma única ação. Deixe Ri agora denotar a
recompensa recebida após a i-ésima seleção desta ação, e deixe Qn denotar a estimativa do valor de
sua ação depois de ter sido selecionada n 1 vezes, o que agora podemos escrever simplesmente como
R1 + R2 + ··· + Rn1 n 1
Qn .= .
A implementação óbvia seria manter um registo de todas as recompensas e depois realizar

este cálculo sempre que o valor estimado fosse necessário. No entanto, se isso for feito, os
requisitos de memória e computacionais aumentarão com o tempo, à medida que mais
recompensas forem obtidas. Cada recompensa adicional exigiria memória adicional para
armazená-la e computação adicional para calcular a soma no numerador.
Como você pode suspeitar, isso não é realmente necessário. É fácil conceber fórmulas incrementais
para atualizar médias com cálculos pequenos e constantes necessários para processar cada nova
recompensa. Dado Qn e a enésima recompensa, Rn, a nova média de todas as n recompensas pode ser
calculada por
1
Qn+1 = Xn Ri
n eu=1
1
= Rn + n
n X1 Ri !
eu=1
1 1
= Rn + (n 1) n 1
n nX1
eu=1_Ri !
1
=
nº ÿ Rn + (n 1)Qn ÿ
1
=
n ÿ Rn + nQn Qn ÿ
1
= Qn + (2.3)
n h Rn Qn eu ,
o que vale mesmo para n = 1, obtendo Q2 = R1 para Q1 arbitrário. Esta implementação requer
memória apenas para Qn e n, e apenas o pequeno cálculo (2.3) para cada nova recompensa.
Esta regra de atualização (2.3) tem um formato que ocorre frequentemente ao longo deste
livro. A forma geral é
NewEstimate OldEstimate + StepSize h Target OldEstimatei . (2.4)
A expressão ÿ TargetOldEstimateÿ é um erro na estimativa. É reduzido dando um passo em

direção ao “Alvo”. Presume-se que o alvo indique uma direção desejável para se mover,
embora possa ser barulhento. No caso acima, por exemplo, a meta é a enésima recompensa.
Observe que o parâmetro de tamanho do passo (StepSize) usado no método incremental (2.3)
muda de intervalo de tempo para intervalo de tempo. Ao processar a enésima recompensa pela ação a, o
1
O método usa o parâmetro step-size n . Neste livro denotamos o parâmetro step-size
por ÿ ou, mais geralmente, por ÿt(a).
O pseudocódigo para um algoritmo de bandido completo usando médias de amostra calculadas
incrementalmente e seleção de ação "-ganancioso é mostrado na caixa abaixo. Presume-se que a
função bandit(a) execute uma ação e retorne uma recompensa correspondente.
Um algoritmo simples de bandido
Inicialize, para a = 1 a k:
Q(a) 0
N(a) 0
Loop para sempre:
com probabilidade 1 "(desempate aleatoriamente)
uma Q(a)
A ÿ argmaxa ação aleatória com probabilidade"
Bandido R(A)
N(A) N(A)+1
1
Q(A) Q(A) + N / D) ÿ QR(A) ÿ
2.5 Rastreando um Problema Não Estacionário

Os métodos de cálculo da média discutidos até agora são apropriados para problemas de bandidos
estacionários, isto é, para problemas de bandidos nos quais as probabilidades de recompensa não mudam com o tempo.
Conforme observado anteriormente, frequentemente encontramos problemas de aprendizagem por reforço
que são efetivamente não estacionários. Nesses casos, faz sentido dar mais peso às recompensas
recentes do que às recompensas passadas. Uma das maneiras mais populares de fazer isso é usar um
parâmetro de tamanho de passo constante. Por exemplo, a regra de atualização incremental (2.3) para
atualizar um Qn médio das n 1 recompensas anteriores é modificada para ser
Qn+1 .= Qn + ÿ h Rn Qn eu , (2.5)
onde o parâmetro de tamanho do passo ÿ 2 (0, 1] é constante. Isso resulta em Qn+1 sendo uma média
ponderada de recompensas passadas e a estimativa inicial Q1:
Qn+1 = Qn + ÿ h Rn Qn i
= ÿRn + (1 ÿ)Qn =
ÿRn + (1 ÿ) [ÿRn1 + (1 ÿ)Qn1] = ÿRn + (1
ÿ)ÿRn1 + (1 ÿ) 2Qn1 = ÿRn + (1 ÿ )ÿRn1 +
(1 ÿ) 2ÿRn2 + ··· + (1 ÿ) n1ÿR1 + (1 ÿ) nQ1
não
= (1 ÿ) nQ1 +Xn ÿ(1 ÿ) Ri. (2.6)
eu=1
2.5. Rastreando um problema não estacionário 33
Chamamos isso de média ponderada porque a soma dos pesos é (1 ÿ)n + Pn ÿ)ni = 1, como eu=1 ÿ(1
você mesmo pode verificar. Observe que o peso, ÿ(1 ÿ)ni , dado à recompensa Ri depende de quantas
recompensas atrás, n i, ela foi observada. A quantidade 1 ÿ é menor que 1 e, portanto, o peso dado a Ri
diminui à medida que o número de recompensas intermediárias aumenta. Na verdade, o peso decai
exponencialmente de acordo com o expoente em 1 ÿ. (Se 1 ÿ = 0, então todo o peso vai para a última
recompensa, Rn, devido à convenção de que 00 = 1.) Conseqüentemente, isso às vezes é chamado de
média exponencial ponderada pela atualidade.
Às vezes é conveniente variar o parâmetro de tamanho do passo de passo para passo. Seja ÿn(a) o
parâmetro de tamanho do passo usado para processar a recompensa recebida após a enésima seleção
1
da ação a. Como observamos, a escolha ÿn(a) = resulta no nmétodo da média amostral, que garante
convergência para os verdadeiros valores da ação pela lei dos grandes números.
Mas é claro que a convergência não é garantida para todas as escolhas da sequência {ÿn(a)}. Um
resultado bem conhecido na teoria da aproximação estocástica nos dá as condições necessárias
para garantir a convergência com probabilidade 1:
X1 ÿn(a) = 1 e X1 ÿ2 n(a) < 1. (2.7)

n=1 n=1
A primeira condição é necessária para garantir que os passos sejam suficientemente grandes para
eventualmente superar quaisquer condições iniciais ou flutuações aleatórias. A segunda condição garante
que eventualmente os passos se tornem pequenos o suficiente para assegurar a convergência.
1
Observe que ambas as condições de convergência são atendidas para o caso da média amostral, n ,
ÿn(a) = mas não para o caso do parâmetro de tamanho de passo constante, ÿn(a) = ÿ. Neste último caso,
a segunda condição não é satisfeita, indicando que as estimativas nunca convergem completamente, mas
continuam a variar em resposta às recompensas recebidas mais recentemente. Como mencionamos
acima, isso é realmente desejável em um ambiente não estacionário, e problemas que são efetivamente
não estacionários são os mais comuns na aprendizagem por reforço. Além disso, sequências de
parâmetros de tamanho de passo que satisfazem as condições (2.7) muitas vezes convergem muito
lentamente ou necessitam de ajuste considerável para obter uma taxa de convergência satisfatória.
Embora sequências de parâmetros de tamanho de passo que atendam a essas condições de convergência
sejam frequentemente utilizadas em trabalhos teóricos, elas raramente são utilizadas em aplicações e pesquisas empíricas.
Exercício 2.4 Se os parâmetros do tamanho do passo, ÿn, não forem constantes, então a estimativa
Qn é uma média ponderada das recompensas recebidas anteriormente com uma ponderação diferente
daquela dada por (2.6). Qual é o peso de cada recompensa anterior para o caso geral, análogo a
(2.6), em termos da sequência de parâmetros de tamanho do passo? ÿ Exercício 2.5 (programação)
Projete e conduza um experimento para demonstrar as dificuldades que os métodos de média
amostral apresentam para problemas não estacionários. Use uma versão modificada do ambiente de
teste de 10 braços em que todos os qÿ(a) começam iguais e depois fazem passeios aleatórios
independentes (digamos, adicionando um incremento normalmente distribuído com média zero e
desvio padrão 0,01 a todos os qÿ(a ) em cada etapa). Prepare gráficos como a Figura 2.2 para um
método de valor de ação usando médias amostrais, computadas de forma incremental, e outro método
de valor de ação usando um parâmetro de tamanho de passo constante, ÿ = 0,1. Use "= 0,1 e
execuções mais longas, digamos de 10.000 passos. ÿ
2.6 Valores Iniciais Otimistas

Todos os métodos que discutimos até agora dependem, até certo ponto, das estimativas iniciais do
valor da ação, Q1(a). Na linguagem das estatísticas, estes métodos são influenciados pelas suas
estimativas iniciais. Para os métodos de média amostral, o viés desaparece quando todas as ações
foram selecionadas pelo menos uma vez, mas para métodos com ÿ constante, o viés é permanente,
embora diminua ao longo do tempo, conforme dado por (2.6). Na prática, este tipo de preconceito
geralmente não é um problema e às vezes pode ser muito útil. A desvantagem é que as estimativas
iniciais tornam-se, na verdade, um conjunto de parâmetros que devem ser escolhidos pelo usuário,
nem que seja para defini-los todos como zero. A vantagem é que eles fornecem uma maneira fácil de
fornecer algum conhecimento prévio sobre o nível de recompensas que pode ser esperado.
Os valores de ação inicial também podem ser usados como uma forma simples de incentivar a exploração.
Suponha que, em vez de definir os valores iniciais da ação como zero, como fizemos no ambiente de teste
com 10 braços, definimos todos eles como +5. Lembre-se de que qÿ(a) neste problema são selecionados de
uma distribuição normal com média 0 e variância 1. Uma estimativa inicial de +5 é, portanto, extremamente otimista.
Mas esse otimismo incentiva a exploração de métodos de valor de ação. Quaisquer que sejam as
ações selecionadas inicialmente, a recompensa será menor do que as estimativas iniciais; o aluno
muda para outras ações, ficando “decepcionado” com as recompensas que está recebendo. O resultado
é que todas as ações são tentadas diversas vezes antes que as estimativas de valor convirjam. O
sistema faz uma boa exploração, mesmo que ações gananciosas sejam selecionadas o tempo todo.
A Figura 2.3 mostra o desempenho no banco de testes do bandido de 10 braços de um método
ganancioso usando Q1(a) = +5, para todo a. Para comparação, também é mostrado um método "-
ganancioso com Q1(a) = 0. Inicialmente, o método otimista tem pior desempenho porque explora mais,
mas eventualmente tem melhor desempenho porque sua exploração diminui com o tempo. Chamamos
essa técnica de incentivo à exploração valores iniciais otimistas. Consideramos isso um truque simples
que pode ser bastante eficaz em problemas estacionários, mas está longe de ser uma abordagem
geralmente útil para encorajar a exploração. Por exemplo, não é adequado para problemas não
estacionários porque seu impulso para exploração é inerentemente
100%
Otimista, ganancioso
otimista, ganancioso
Q1 = 5, "= 0
80% Q01 = 5, !!= 0
% 60% Realista, -ganancioso

" realista, !-ganancioso
Q1 = 0, "= 0,1
Ação ideal Q01 = 0, !!= 0,1
40%
20%
0%
10 200 400 600 800 1000
Tocam
Passos
Figura 2.3: O efeito das estimativas iniciais otimistas do valor da ação no banco de testes de 10 braços.
Ambos os métodos usaram um parâmetro de tamanho de passo constante, ÿ = 0,1.
2.7. Seleção de ações com limite de confiança superior 35
temporário. Se a tarefa mudar, criando uma necessidade renovada de exploração, este método
não poderá ajudar. Na verdade, é improvável que qualquer método que se concentre nas condições
iniciais de alguma forma especial ajude no caso geral não estacionário. O início dos tempos ocorre
apenas uma vez e, portanto, não devemos nos concentrar muito nele. Esta crítica aplica-se
também aos métodos de média amostral, que também tratam o início do tempo como um evento
especial, calculando a média de todas as recompensas subsequentes com pesos iguais. No
entanto, todos estes métodos são muito simples e um deles – ou alguma combinação simples
deles – é muitas vezes adequado na prática. No restante deste livro faremos uso frequente de
diversas dessas técnicas simples de exploração.
Exercício 2.6: Picos Misteriosos Os resultados mostrados na Figura 2.3 devem ser bastante confiáveis
porque são médias superiores a 2.000 tarefas individuais, escolhidas aleatoriamente, de 10 bandidos armados.
Por que, então, existem oscilações e picos na parte inicial da curva do método otimista? Por outras
palavras, o que poderá fazer com que este método tenha um desempenho particularmente melhor ou pior,
em média, em determinados passos iniciais? ÿ Exercício 2.7: Truque imparcial de tamanho de passo
constante Na maior parte deste capítulo usamos médias amostrais para estimar valores de ação porque
as médias amostrais não produzem o viés inicial que os tamanhos de passo constantes produzem (veja a
análise que leva a (2.6)). No entanto, as médias amostrais não são uma solução completamente satisfatória
porque podem ter um desempenho insatisfatório em problemas não estacionários. É possível evitar o viés
de tamanhos de passo constantes, mantendo suas vantagens em problemas não estacionários? Uma
maneira é usar um tamanho de passo de
.
n = ÿ/o¯n, (2.8)
para processar a enésima recompensa para uma ação específica, onde ÿ > 0 é um tamanho de passo
constante convencional e ¯on é um traço de um que começa em 0:
. .
= ¯on1 + ÿ(1 o¯n1), para n 0, com ¯o0 = 0. o¯n (2.9)
Faça uma análise como a de (2.6) para mostrar que Qn é uma média exponencial ponderada pela
atualidade sem viés inicial. ÿ
2.7 Seleção de Ações com Limite Superior de Confiança

A exploração é necessária porque há sempre incerteza sobre a precisão das estimativas do valor
da ação. As ações gananciosas são aquelas que parecem melhores no momento, mas algumas
das outras ações podem na verdade ser melhores. "a seleção de ações gananciosas força as
ações não gananciosas a serem tentadas, mas indiscriminadamente, sem preferência por aquelas
que são quase gananciosas ou particularmente incertas. Seria melhor selecionar entre as ações
não gananciosas de acordo com seu potencial para realmente serem ótimo, levando em
consideração o quão próximas suas estimativas estão do máximo e as incertezas nessas estimativas.
Uma maneira eficaz de fazer isso é selecionar ações de acordo com
Em=. argmax , (2.10)

a
" Qt(a) + cs ln
Nt(a)#
t
onde ln t denota o logaritmo natural de t (o número ao qual e ÿ 2,71828 teria que ser elevado para ser
igual a t), Nt(a) denota o número de vezes que a ação a foi selecionada antes do tempo t (o denominador
em (2.1)), e o número c > 0 controla o grau de exploração. Se Nt(a) = 0, então a é considerado uma ação
maximizadora.
A ideia desta seleção de ação do limite de confiança superior (UCB) é que o termo da raiz quadrada é uma
medida da incerteza ou variância na estimativa do valor de a. A quantidade máxima é, portanto, uma espécie
de limite superior do possível valor verdadeiro da ação a, com c determinando o nível de confiança. Cada vez
que a é selecionado, a incerteza é presumivelmente reduzida: Nt(a) aumenta e, conforme aparece no
denominador, o termo de incerteza diminui. Por outro lado, cada vez que uma ação diferente de a é
selecionada, t aumenta, mas Nt(a) não; porque t aparece no numerador, a estimativa da incerteza aumenta.
A utilização do logaritmo natural significa que os aumentos diminuem com o tempo, mas são ilimitados;
todas as ações serão eventualmente selecionadas, mas as ações com estimativas de valor mais baixas,
ou que já tenham sido selecionadas com frequência, serão selecionadas com frequência decrescente ao
longo do tempo.
Os resultados com UCB na bancada de teste de 10 braços são mostrados na Figura 2.4. O UCB muitas
vezes tem um bom desempenho, como mostrado aqui, mas é mais difícil do que "-ávido" estender-se além
dos bandidos para as configurações mais gerais de aprendizagem por reforço consideradas no restante deste livro.
Uma dificuldade está em lidar com problemas não estacionários; seriam necessários métodos mais
complexos do que os apresentados na Seção 2.5. Outra dificuldade é lidar com grandes espaços de
estados, particularmente quando se utiliza a aproximação de funções desenvolvida na Parte II deste livro.
Nestes contextos mais avançados, a ideia de selecção de acções de SCU geralmente não é prática.
1,5 UCBc = 2
-ganancioso = 0,1
1
Recompensa
média
0,5
1 250 500 750 1000

Passos
Figura 2.4: Desempenho médio da seleção de ações do UCB no banco de testes de 10 braços. Como mostrado, o UCB
geralmente tem um desempenho melhor do que a seleção de ações gananciosas, exceto nas primeiras k etapas, quando
seleciona aleatoriamente entre as ações ainda não experimentadas.
Exercício 2.8: Picos de UCB Na Figura 2.4 o algoritmo UCB mostra um aumento distinto no desempenho
no 11º passo. Por que é isso? Observe que, para que sua resposta seja totalmente satisfatória, ela deverá
explicar por que a recompensa aumenta no 11º passo e por que diminui nas etapas subsequentes. Dica:
se c = 1, então o pico é menos proeminente. ÿ
2.8. Algoritmos Gradiente Bandido 37
2.8 Algoritmos Gradiente Bandido

Até agora neste capítulo consideramos métodos que estimam valores de ação e utilizam essas
estimativas para selecionar ações. Muitas vezes esta é uma boa abordagem, mas não é a única
possível. Nesta seção consideramos aprender uma preferência numérica para cada ação a, que
denotamos Ht(a). Quanto maior a preferência, mais frequentemente essa ação é realizada, mas a
preferência não tem interpretação em termos de recompensa. Apenas a preferência relativa de
uma ação em detrimento de outra é importante; se adicionarmos 1000 a todas as preferências de
ação, não haverá efeito nas probabilidades de ação, que são determinadas de acordo com uma
distribuição soft-max (isto é, distribuição de Gibbs ou Boltzmann) como segue:
eHt(a) .
Pr{At =a} . = = ÿt(a), (2.11)
Pkb=1 eHt(b)
onde aqui também introduzimos uma nova notação útil, ÿt(a), para a probabilidade de realizar uma
ação a no tempo t. Inicialmente todas as preferências de ação são iguais (por exemplo, H1(a) = 0,
para todo a) de modo que todas as ações têm igual probabilidade de serem selecionadas.
Exercício 2.9 Mostre que, no caso de duas ações, a distribuição soft-max é a mesma dada
pela função logística, ou sigmóide, frequentemente usada em estatísticas e redes neurais
artificiais. ÿ
Existe um algoritmo de aprendizagem natural para esta configuração baseado na ideia de subida
gradiente estocástica. Em cada etapa, após selecionar a ação At e receber a recompensa Rt, as
preferências de ação são atualizadas por:
= Ht(At) + ÿ Rt R¯t 1 ÿt(At) , Ht+1(At) . e

(2.12)
Ht+1(a) .= Ht(a) ÿ Rt R¯t ÿt(a), para todo um 6 = Em,
onde ÿ > 0 é um parâmetro de tamanho de passo, e R¯t 2 R é a média de todas as

recompensas até e incluindo o tempo t, que pode ser calculado de forma incremental conforme
descrito na Seção 2.4 (ou na Seção 2.5 se o problema for não estacionário ). O termo R¯t
serve como linha de base com a qual a recompensa é comparada. Se a recompensa for
superior à linha de base, então a probabilidade de receber At no futuro aumenta, e se a
recompensa estiver abaixo da linha de base, a probabilidade diminui. As ações não
selecionadas movem-se na direção oposta.
A Figura 2.5 mostra resultados com o algoritmo gradiente bandido em uma variante do banco de
testes de 10 braços, no qual as verdadeiras recompensas esperadas foram selecionadas de acordo com
uma distribuição normal com uma média de +4 em vez de zero (e com variância unitária como antes).
Essa mudança de todas as recompensas não tem absolutamente nenhum efeito no algoritmo do bandido
gradiente por causa do termo da linha de base da recompensa, que se adapta instantaneamente ao
novo nível. Mas se a linha de base fosse omitida (isto é, se R¯t fosse considerado como constante zero
em (2.12)), então o desempenho seria significativamente degradado, como mostra a figura.
100%
ÿ = 0,1
80% com linha de base
ÿ = 0,4
% 60%
Ação ideal ÿ = 0,1
40%
sem linha de base
ÿ = 0,4
20%
0%
1 250 500 750 1000
Passos
Figura 2.5: Desempenho médio do algoritmo gradiente bandido com e sem uma linha de base de recompensa no
ambiente de teste de 10 braços quando qÿ(a) são escolhidos como próximos de +4 em vez de próximos de zero.
O Algoritmo do Gradiente do Bandido como Ascensão do Gradiente Estocástico
Pode-se obter uma visão mais profunda do algoritmo gradiente bandido, entendendo- o
como uma aproximação estocástica da subida gradiente. Na subida gradiente exata,
cada preferência de ação Ht(a) seria incrementada proporcionalmente ao efeito do
incremento no desempenho:
@E[Rt]
Ht+1(a) . = Ht(a) + ÿ , (2.13)
@Ht(a)
onde a medida de desempenho aqui é a recompensa esperada:
E[Rt] = X ÿt(x)qÿ(x),
x
e a medida do efeito do incremento é a derivada parcial desta medida de desempenho

em relação à preferência de ação. Claro, não é possível implementar exatamente a subida
gradiente em nosso caso porque, por suposição, não conhecemos qÿ (x), mas na verdade
as atualizações de nosso algoritmo (2.12) são iguais a (2.13) no valor esperado, tornando
o algoritmo uma instância de subida gradiente estocástica.
Os cálculos que mostram isso requerem apenas cálculos iniciais, mas levam vários
2.8. Algoritmos Gradiente Bandido 39
passos. Primeiro, damos uma olhada mais de perto no gradiente exato de desempenho:
@E[Rt] = @
@Ht(a) @Ht(a) " X ÿt(x)qÿ(x)

x #
@ ÿt(x)
=Xqÿ (x)
x
@Ht(a)
@ ÿt(x)
= Xqÿ (x) Bt ,
x
@Ht(a)
, pode ser qualquer escalar que não dependa de x.

onde Bt, chamada de linha de base,
Podemos incluir uma linha de base aqui sem alterar a igualdade porque a soma do
@ ÿt(x)
gradiente é zero em todas as ações,x P = 0 - à medida que Ht(a) é alterado, as probabilidades
@Ht(a)
de algumas ações aumentam e outras diminuem, mas a soma das mudanças deve ser
zero porque a soma das probabilidades é sempre um.
Em seguida, multiplicamos cada termo da soma por ÿt(x)/ÿt(x):
@E[Rt] @ ÿt(x)
= X ÿt(x) qÿ(x) Bt /ÿt(x).
@Ht(a) x
@Ht(a)
A equação está agora na forma de uma expectativa, somando todos os valores

possíveis x da variável aleatória At e multiplicando pela probabilidade de obter esses
valores. Por isso:
@
ÿt(Em) /ÿt(Em)
= E ÿ qÿ(Em) Bt @Ht(a)
@ ÿt(At) /
ÿt(At) ,
= E ÿ Rt R¯t @Ht(a)
onde aqui escolhemos a linha de base Bt = R¯t e substituímos Rt por qÿ(At), o que é
permitido porque E[Rt|At] = qÿ(At). Em breve estabeleceremos que @ ÿt(x) = ÿt(x) a=x
ÿt(a) , onde
@Ht(a) é definido como 1 se a = x, caso contrário, 0.
uma=x
Supondo que por enquanto, temos
= E ÿRt R¯t ÿt(At) a=At ÿt(a) /ÿt(At) ÿ = E ÿRt R¯t

a=At ÿt(a) ÿ .
Lembre-se de que nosso plano foi escrever o gradiente de desempenho como uma expectativa
de algo que podemos amostrar em cada etapa, como acabamos de fazer, e depois atualizar
em cada etapa proporcional à amostra. Substituindo uma amostra da expectativa acima pelo
gradiente de desempenho em (2.13) resulta:
Ht+1(a) = Ht(a) + ÿ Rt R¯t a=At ÿt(a) , para todos,
que você pode reconhecer como equivalente ao nosso algoritmo original (2.12).
@
Portanto, resta apenas mostrar isso @Ht(a)
como
ÿt(x)assumimos.
= ÿt(x) a=x ÿt(a) ,
Lembre-se da regra padrão do quociente para derivadas:
@f(x) @g(x) g(x) f(x) @x

@ @x g(x)2
= .
g(x)
@x ÿf(x)
Usando isso, podemos escrever
@ ÿt(x) = @
ÿt(x)
@Ht(a) @Ht(a)
@
=
Pk y =eHt(y)
@Ht(a) " eHt(x) 1#
@eHt(x) @Pk eHt(y)

eHt (y) eHt(x) y=1
= @Ht(a) Pk y = 1 @Ht(a)
(pela regra do quociente)
ÿPk eHt(y) ÿ2
y=1 a=xeHt(x) yPk
=1
eHt(y) eHt(x) eHt(a) @ex
= (porque @x = ex)
ÿPk y=1 eHt(y) ÿ2
a=xeHt(x) eHt(x) eHt(a)
=
Pk y=1 eHt(y)
ÿPk y=1 eHt(y) ÿ2
= a=xÿt(x) ÿt(x)ÿt(a) = ÿt(x)
a=x ÿt(a) . QED
Acabamos de mostrar que a atualização esperada do algoritmo gradiente bandido é igual ao

gradiente da recompensa esperada e, portanto, que o algoritmo é uma instância de subida
gradiente estocástica. Isso nos garante que o algoritmo possui propriedades de convergência
robustas.
Observe que não exigimos nenhuma propriedade da linha de base da recompensa, exceto
que ela não depende da ação selecionada. Por exemplo, poderíamos ter definido como zero ou
1000, e o algoritmo ainda seria uma instância de subida gradiente estocástica. A escolha da
linha de base não afeta a atualização esperada do algoritmo, mas afeta a variância da
atualização e, portanto, a taxa de convergência (como mostrado, por exemplo, na Figura 2.5).
Escolhê-lo como a média das recompensas pode não ser o melhor, mas é simples e funciona
bem na prática.
2.9. Pesquisa Associativa (Bandidos Contextuais) 41
2.9 Pesquisa Associativa (Bandidos Contextuais)

Até agora neste capítulo consideramos apenas tarefas não associativas, ou seja, tarefas nas quais não há
necessidade de associar ações diferentes a situações diferentes. Nessas tarefas, o aluno tenta encontrar
uma única melhor ação quando a tarefa é estacionária, ou tenta rastrear a melhor ação à medida que ela
muda ao longo do tempo quando a tarefa é não estacionária. No entanto, numa tarefa geral de
aprendizagem por reforço há mais de uma situação, e o objetivo é aprender uma política: um mapeamento
das situações para as ações que são melhores nessas situações. Para preparar o cenário para o problema
completo, discutiremos brevemente a maneira mais simples pela qual as tarefas não associativas se
estendem ao cenário associativo.
Como exemplo, suponha que existam diversas tarefas diferentes de bandidos armados com k, e que
em cada etapa você enfrente uma delas escolhida aleatoriamente. Assim, a tarefa do bandido muda
aleatoriamente de passo para passo. Isso pareceria para você uma tarefa de bandido armado com k, única
e não estacionária, cujos verdadeiros valores de ação mudam aleatoriamente de passo para passo. Você
poderia tentar usar um dos métodos descritos neste capítulo que pode lidar com a não estacionariedade,
mas a menos que os verdadeiros valores da ação mudem lentamente, esses métodos não funcionarão muito bem.
Agora suponha, entretanto, que quando uma tarefa de bandido for selecionada para você, você receba
alguma pista distinta sobre sua identidade (mas não sobre seus valores de ação). Talvez você esteja
diante de uma máquina caça-níqueis real que muda a cor de sua tela à medida que muda seus valores de ação.
Agora você pode aprender uma política que associa cada tarefa, sinalizada pela cor que você vê, com a
melhor ação a ser tomada ao enfrentar essa tarefa – por exemplo, se for vermelho, selecione o braço 1;
se estiver verde, selecione o braço 2. Com a política certa, você geralmente pode fazer muito melhor do
que faria na ausência de qualquer informação que distinga uma tarefa de bandido de outra.
Este é um exemplo de tarefa de busca associativa, assim chamada porque envolve tanto o aprendizado
por tentativa e erro para buscar as melhores ações, quanto a associação dessas ações com as situações
em que são melhores. Tarefas de busca associativa são frequentemente chamadas de bandidos
contextuais na literatura. As tarefas de busca associativa são intermediárias entre o problema do bandido
armado com k e o problema de aprendizagem por reforço completo. Eles são como o problema de
aprendizagem por reforço total, pois envolvem o aprendizado de uma política, mas como nossa versão do
problema do bandido armado com k, em que cada ação afeta apenas a recompensa imediata. Se for
permitido que as ações afetem a próxima situação, bem como a recompensa, então temos o problema de
aprendizagem por reforço total. Apresentamos esse problema no próximo capítulo e consideramos suas
ramificações ao longo do restante do livro.
Exercício 2.10 Suponha que você enfrente uma tarefa de bandido de 2 braços cujos valores reais de ação
mudam aleatoriamente de intervalo de tempo para intervalo de tempo. Especificamente, suponha que,
para qualquer intervalo de tempo, os valores verdadeiros das ações 1 e 2 sejam respectivamente 0,1 e
0,2 com probabilidade 0,5 (caso A) e 0,9 e 0,8 com probabilidade 0,5 (caso B). Se você não consegue
dizer qual caso você enfrenta em qualquer etapa, qual é a melhor expectativa de sucesso que você pode
alcançar e como você deve se comportar para alcançá-lo? Agora suponha que em cada etapa você seja
informado se está enfrentando o caso A ou o caso B (embora ainda não saiba os verdadeiros valores da
ação). Esta é uma tarefa de pesquisa associativa. Qual a melhor expectativa de sucesso que você pode
alcançar nesta tarefa e como você deve se comportar para alcançá-la? ÿ
2.10 Resumo
Apresentamos neste capítulo várias maneiras simples de equilibrar exploração e aproveitamento. Os
métodos "-gananciosos escolhem aleatoriamente uma pequena fração do tempo, enquanto os métodos
UCB escolhem deterministicamente, mas conseguem a exploração favorecendo sutilmente em cada etapa
as ações que até agora receberam menos amostras. Algoritmos de gradiente bandido estimam não valores
de ação, mas preferências de ação, e favorecer as ações mais preferidas de maneira graduada e
probabilística, usando uma distribuição soft-max. O simples expediente de inicializar estimativas de maneira
otimista faz com que até mesmo métodos gananciosos sejam explorados significativamente.
É natural perguntar qual destes métodos é o melhor. Embora esta seja uma pergunta difícil de responder
em geral, certamente podemos executá-las todas no banco de testes de 10 braços que usamos ao longo
deste capítulo e comparar seus desempenhos. Uma complicação é que todos eles possuem um parâmetro;
para obter uma comparação significativa, temos que considerar o seu desempenho como uma função do
seu parâmetro. Nossos gráficos até agora mostraram o curso do aprendizado ao longo do tempo para cada
algoritmo e configuração de parâmetro, para produzir uma curva de aprendizado para esse algoritmo e
configuração de parâmetro. Se plotássemos curvas de aprendizado para todos os algoritmos e todas as
configurações de parâmetros, o gráfico seria muito complexo e lotado para fazer comparações claras. Em
vez disso, resumimos uma curva de aprendizagem completa pelo seu valor médio ao longo dos 1000
passos; este valor é proporcional à área sob a curva de aprendizado. A Figura 2.6 mostra essa medida para
os vários algoritmos bandidos deste capítulo, cada um como uma função de seu próprio parâmetro mostrado
em uma única escala no eixo x. Esse tipo de gráfico é chamado de estudo de parâmetros. Observe que os
valores dos parâmetros variam por fatores de dois e são apresentados em uma escala logarítmica. Observe
também as formas características de U invertido do desempenho de cada algoritmo; todos os algoritmos
apresentam melhor desempenho com um valor intermediário de seu parâmetro, nem muito grande nem
muito pequeno. Na avaliação
1,5
UCB ganancioso com
inicialização
1.4 otimista ÿ = 0,1
Recompensa
1.3 -ambicioso
média
bandido
nas
1.2 gradiente
primeiras 1.000 etapas
1.1
1
1/128 1/64 1/32 1/16 1/8 1/4 1/2 1 2 4
" ÿc Q0 _
Figura 2.6: Um estudo de parâmetros dos vários algoritmos bandidos apresentados neste capítulo.
Cada ponto é a recompensa média obtida em 1.000 etapas com um algoritmo específico em uma
configuração específica de seu parâmetro.
2.10. Resumo 43
um método, devemos prestar atenção não apenas ao quão bem ele se sai em sua melhor configuração de
parâmetro, mas também ao quão sensível ele é ao seu valor de parâmetro. Todos esses algoritmos são bastante
insensíveis, apresentando bom desempenho em uma faixa de valores de parâmetros que variam em cerca de
uma ordem de magnitude. No geral, neste problema, o UCB parece ter o melhor desempenho.
Apesar da sua simplicidade, em nossa opinião, os métodos apresentados neste capítulo podem ser
considerados o estado da arte. Existem métodos mais sofisticados, mas a sua complexidade e pressupostos
tornam-nos impraticáveis para o problema de aprendizagem por reforço total que é o nosso verdadeiro foco. A
partir do Capítulo 5 apresentamos métodos de aprendizagem para resolver o problema de aprendizagem por
reforço completo que utilizam em parte os métodos simples explorados neste capítulo.
Embora os métodos simples explorados neste capítulo possam ser os melhores que podemos fazer
actualmente, estão longe de ser uma solução totalmente satisfatória para o problema do equilíbrio entre a
exploração e a exploração.
Uma abordagem bem estudada para equilibrar exploração e exploração em problemas de bandidos armados
com k é calcular um tipo especial de valor de ação chamado índice de Gittins. Em certos casos especiais
importantes, este cálculo é tratável e leva diretamente a soluções ótimas, embora exija conhecimento completo
da distribuição anterior de possíveis problemas, que geralmente assumimos não estar disponível. Além disso,
nem a teoria nem a tratabilidade computacional desta abordagem parecem generalizar para o problema de
aprendizagem por reforço completo que consideramos no resto do livro.
A abordagem do índice de Gittins é um exemplo de métodos Bayesianos, que assumem uma distribuição
inicial conhecida sobre os valores da ação e então atualizam a distribuição exatamente após cada etapa
(assumindo que os verdadeiros valores da ação são estacionários). Em geral, os cálculos de atualização podem
ser muito complexos, mas para certas distribuições especiais (chamadas anteriores conjugadas) eles são fáceis.
Uma possibilidade é então selecionar ações em cada etapa de acordo com sua probabilidade posterior de ser a
melhor ação. Esse método, às vezes chamado de amostragem posterior ou amostragem de Thompson,
geralmente tem desempenho semelhante ao melhor dos métodos sem distribuição que apresentamos neste
capítulo.
No cenário bayesiano é até concebível calcular o equilíbrio ideal entre exploração e exploração.
Pode-se calcular para qualquer ação possível a probabilidade de cada recompensa imediata
possível e as distribuições posteriores resultantes sobre os valores da ação. Essa distribuição
em evolução torna-se o estado de informação do problema. Dado um horizonte, digamos de
1.000 passos, pode-se considerar todas as ações possíveis, todas as possíveis recompensas
resultantes, todas as próximas ações possíveis, todas as próximas recompensas e assim por
diante para todos os 1.000 passos. Dadas as suposições, as recompensas e probabilidades de
cada possível cadeia de eventos podem ser determinadas, e basta escolher a melhor. Mas a
árvore de possibilidades cresce com extrema rapidez; mesmo que houvesse apenas duas ações
e duas recompensas, a árvore teria 22.000 folhas. Geralmente não é viável realizar com exatidão
esse imenso cálculo, mas talvez ele possa ser aproximado de maneira eficiente. Essa abordagem
transformaria efetivamente o problema do bandido em uma instância do problema de
aprendizagem por reforço total. No final, poderemos usar métodos aproximados de aprendizagem
por reforço, como os apresentados na Parte II deste livro, para abordar esta solução ótima. Mas
esse é um tema para pesquisa e está além do escopo deste livro introdutório.
Exercício 2.11 (programação) Faça uma figura análoga à Figura 2.6 para o caso não estacionário
descrito no Exercício 2.5. Inclua o algoritmo "-greedy de tamanho de passo constante com ÿ = 0,1. Use
execuções de 200.000 etapas e, como medida de desempenho para cada algoritmo e configuração de
parâmetro, use a recompensa média nas últimas 100.000 etapas. ÿ
Observações bibliográficas e históricas

2.1 Os problemas dos bandidos foram estudados em estatística, engenharia e psicologia. Em
estatística, os problemas dos bandidos enquadram-se no título “projeto sequencial de
experimentos ”, introduzido por Thompson (1933, 1934) e Robbins (1952), e estudado por
Bellman (1956). Berry e Fristedt (1985) fornecem um tratamento extensivo dos problemas dos
bandidos do ponto de vista estatístico. Narendra e Thathachar (1989) tratam problemas de
bandidos da perspectiva da engenharia, proporcionando uma boa discussão das diversas
tradições teóricas que se concentraram neles. Na psicologia, os problemas dos bandidos
desempenharam um papel na teoria da aprendizagem estatística (por exemplo, Bush e
Mosteller, 1955; Estes, 1950).
O termo ganancioso é frequentemente usado na literatura de busca heurística (por exemplo, Pearl, 1984).
O conflito entre exploração e aproveitamento é conhecido na engenharia de controle como o conflito
entre identificação (ou estimativa) e controle (por exemplo, Witten, 1976b). Feldbaum (1965) chamou-o
de problema de controle duplo, referindo-se à necessidade de resolver os dois problemas de identificação
e controle simultaneamente ao tentar controlar um sistema sob incerteza. Ao discutir aspectos dos
algoritmos genéticos, Holland (1975) enfatizou a importância deste conflito, referindo-se a ele como o
conflito entre a necessidade de explorar e a necessidade de novas informações.
2.2 Métodos de valor de ação para nosso problema do bandido armado com k foram propostos pela primeira
vez por Thathachar e Sastry (1985). Estes são frequentemente chamados de algoritmos estimadores na
literatura sobre autômatos de aprendizagem. O termo valor de ação se deve a Watkins (1989).
O primeiro a usar métodos "gananciosos" também pode ter sido Watkins (1989, p. 187), mas
a ideia é tão simples que algum uso anterior parece provável.
2.4–5 Este material se enquadra no título geral de algoritmos iterativos estocásticos, que é
bem abordado por Bertsekas e Tsitsiklis (1996).
2.6 A inicialização otimista foi usada na aprendizagem por reforço por Sutton (1996).
2.7 Os primeiros trabalhos sobre a utilização de estimativas do limite superior de confiança para
selecionar ações foram realizados por Lai e Robbins (1985), Kaelbling (1993b) e Agrawal (1995).
O algoritmo UCB que apresentamos aqui é denominado UCB1 na literatura e foi desenvolvido
pela primeira vez por Auer, Cesa-Bianchi e Fischer (2002).
2.8 Os algoritmos gradiente bandido são um caso especial dos algoritmos de aprendizagem por reforço
baseados em gradiente introduzidos por Williams (1992) e que mais tarde se desenvolveram nos
algoritmos ator-crítico e gradiente político que trataremos mais adiante neste livro.
Nosso desenvolvimento aqui foi influenciado por Balaraman Ravindran (pessoa
Observações bibliográficas e históricas 45
comunicação). Uma discussão mais aprofundada sobre a escolha da linha de base é

fornecida por Greensmith, Bartlett e Baxter (2002, 2004) e Dick (2015). Os primeiros
estudos sistemáticos de algoritmos como este foram feitos por Sutton (1984).
O termo soft-max para a regra de seleção de ação (2.11) é devido a Bridle (1990).
Esta regra parece ter sido proposta pela primeira vez por Luce (1959).
2.9 O termo pesquisa associativa e o problema correspondente foram introduzidos por

Barto, Sutton e Brouwer (1981). O termo aprendizagem por reforço associativo também
tem sido usado para pesquisa associativa (Barto e Anandan, 1985), mas preferimos
reservar esse termo como sinônimo para o problema de aprendizagem por reforço total
(como em Sutton, 1984). (E, como observamos, a literatura moderna também usa o
termo “bandidos contextuais” para este problema.) Notamos que a Lei do Efeito de
Thorndike (citada no Capítulo 1) descreve a pesquisa associativa referindo-se à
formação de ligações associativas entre situações (estados) e ações.
De acordo com a terminologia do condicionamento operante ou instrumental (por exemplo,
Skinner, 1938), um estímulo discriminativo é um estímulo que sinaliza a presença de uma
contingência de reforço específica. Em nossos termos, diferentes estímulos discriminativos
correspondem a diferentes estados.
2.10 Bellman (1956) foi o primeiro a mostrar como a programação dinâmica poderia ser usada para
calcular o equilíbrio ideal entre exploração e aproveitamento dentro de uma formulação
bayesiana do problema. A abordagem do índice de Gittins deve-se a Gittins e Jones
(1974). Duÿ (1995) mostrou como é possível aprender índices de Gittins para problemas
de bandidos através da aprendizagem por reforço. A pesquisa de Kumar (1985) fornece
uma boa discussão sobre abordagens bayesianas e não bayesianas para esses
problemas. O termo estado da informação vem da literatura sobre MDPs parcialmente
observáveis; ver, por exemplo, Lovejoy (1991).
Outra investigação teórica centra-se na eficiência da exploração, geralmente expressa
como a rapidez com que um algoritmo pode aproximar-se de uma política de tomada de
decisão óptima. Uma maneira de formalizar a eficiência da exploração é adaptar ao
aprendizado por reforço a noção de complexidade da amostra para um algoritmo de
aprendizado supervisionado, que é o número de exemplos de treinamento que o
algoritmo precisa para atingir um grau desejado de precisão no aprendizado da função
alvo. Uma definição da complexidade amostral de exploração para um algoritmo de
aprendizagem por reforço é o número de passos de tempo em que o algoritmo não
seleciona ações quase ótimas (Kakade, 2003). Li (2012) discute esta e várias outras
abordagens em uma pesquisa de abordagens teóricas para a eficiência de exploração
na aprendizagem por reforço. Um tratamento moderno e completo da amostragem de
Thompson é fornecido por Russo, Van Roy, Kazerouni, Osband e Wen (2018).
Capítulo 3
Decisão finita de Markov

Processos
Neste capítulo introduzimos o problema formal dos processos de decisão finitos de Markov, ou MDPs finitos,
que tentamos resolver no resto do livro. Este problema envolve feedback avaliativo , como nos bandidos,
mas também um aspecto associativo – escolher ações diferentes em situações diferentes. Os MDPs são
uma formalização clássica da tomada de decisão sequencial, onde as ações influenciam não apenas as
recompensas imediatas, mas também situações ou estados subsequentes, e através dessas recompensas
futuras. Assim, os MDPs envolvem recompensas atrasadas e a necessidade de negociar recompensas
imediatas e atrasadas. Enquanto nos problemas de bandidos estimamos o valor qÿ(a) de cada ação a, nos
MDPs estimamos o valor qÿ(s, a) de cada ação a em cada estado s, ou estimamos o valor vÿ(s) de cada
estado, dadas as seleções de ação ideais.
Estas quantidades dependentes do estado são essenciais para atribuir com precisão o crédito pelas
consequências a longo prazo às seleções de ações individuais.
Os MDPs são uma forma matematicamente idealizada do problema de aprendizagem por
reforço para a qual podem ser feitas declarações teóricas precisas. Apresentamos elementos-
chave da estrutura matemática do problema, como retornos, funções de valor e equações
de Bellman. Tentamos transmitir a ampla gama de aplicações que podem ser formuladas
como MDPs finitos. Como em toda a inteligência artificial, existe uma tensão entre a
amplitude da aplicabilidade e a tratabilidade matemática. Neste capítulo introduzimos esta
tensão e discutimos algumas das trocas e desafios que ela implica. Algumas maneiras pelas
quais a aprendizagem por reforço pode ser levada além dos MDPs são tratadas no Capítulo 17.
3.1 A Interface Agente-Ambiente

Os MDPs pretendem ser um enquadramento direto do problema de aprender a partir da interação para
atingir um objetivo. O aluno e tomador de decisão é chamado de agente. Aquilo com o qual ele interage,
compreendendo tudo fora do agente, é chamado de ambiente.
Estes interagem continuamente, o agente selecionando ações e o ambiente respondendo às
47
48 Capítulo 3: Processos de Decisão Finitos de Markov
essas ações e apresentando novas situações ao agente.1 O ambiente também dá origem a

recompensas, valores numéricos especiais que o agente procura maximizar ao longo do tempo
através da sua escolha de ações.
Agente
estado recompensa
Ação
Santo Rota
No
Rt+1
St+1 Ambiente
Figura 3.1: A interação agente-ambiente em um processo de decisão Markov.
Mais especificamente, o agente e o ambiente interagem em cada uma de uma sequência de passos
2
de tempo discretos, t = 0, 1, 2, 3,.... A cada passo de tempo t, o agente recebe alguma representação do
estado do ambiente, St 2 S, e com base nisso seleciona uma ação, At 2 A(s).3 Um passo de tempo
depois, em parte como consequência de sua ação, o agente recebe uma recompensa numérica, Rt+1 2
4
R ÿ R, e se encontra em um novo estado, St+1. O MDP e o agente
juntos dão origem a uma sequência ou trajetória que começa assim:
S0, A0, R1, S1 , A1 , R2 , S2, A2, R3,... (3.1)
Em um MDP finito, todos os conjuntos de estados, ações e recompensas (S, A e R) possuem

um número finito de elementos. Neste caso, as variáveis aleatórias Rt e St têm distribuições
de probabilidade discretas bem definidas, dependentes apenas do estado e da ação anteriores.
Ou seja, para valores particulares destas variáveis aleatórias, s0 2 S e r 2 R, existe uma
probabilidade desses valores ocorrerem no tempo t, dados valores particulares do estado e
ação anteriores:
p(s0 , r|s, a) .=Pr{St =s0 , Rt =r | St1 =s, At1 =a}, (3.2)
para todos s0 , s 2 S, r 2 R e a 2 A(s). A função p define a dinâmica do MDP.

O ponto sobre o sinal de igual na equação lembra-nos que se trata de uma definição (neste
caso da função p) e não de um facto que decorre de definições anteriores. A função dinâmica
p : S ÿ R ÿ S ÿ A ! [0, 1] é uma função determinística comum de quatro argumentos. O '|' no
meio disso vem a notação para probabilidade condicional,
1Usamos os termos agente, ambiente e ação em vez dos termos dos engenheiros controlador, controlado
sistema (ou planta) e sinal de controle porque são significativos para um público mais amplo.
2Restringimos a atenção ao tempo discreto para manter as coisas tão simples quanto possível, embora muitas das
ideias possam ser estendidas ao caso do tempo contínuo (por exemplo, ver Bertsekas e Tsitsiklis, 1996; Doya, 1996).
3Para simplificar a notação, às vezes assumimos o caso especial em que o conjunto de ações é o mesmo em todos
estados e escreva-o simplesmente como A.
4Usamos Rt+1 em vez de Rt para denotar a recompensa devida a At porque enfatiza que a próxima
recompensa e o próximo estado, Rt+1 e St+1, são determinados em conjunto. Infelizmente, ambas as convenções
são amplamente utilizadas na literatura.
3.1. A Interface Agente-Ambiente 49
mas aqui apenas nos lembra que p especifica uma distribuição de probabilidade para cada escolha
de s e a, ou seja, que
X X p(s0 , r|s, a)=1, para todo s 2 S, a 2 A(s). (3.3)

s02S r2R
Num processo de decisão de Markov, as probabilidades dadas por p caracterizam completamente a dinâmica do
ambiente. Ou seja, a probabilidade de cada valor possível para St e Rt depende apenas do estado e ação
imediatamente anteriores, St1 e At1, e, dados eles, de forma alguma dos estados e ações anteriores. Isto é melhor
visto como uma restrição não ao processo de decisão, mas ao estado. O estado deve incluir informações sobre todos
os aspectos da interação passado agente-ambiente que fazem a diferença para o futuro. Se isso acontecer, então diz-
se que o estado possui a propriedade de Markov. Assumiremos a propriedade de Markov ao longo deste livro, embora
começando na Parte II consideremos métodos de aproximação que não dependem dela, e no Capítulo 17
consideremos como um estado de Markov pode ser aprendido e construído a partir de observações não-Markov.
A partir da função dinâmica de quatro argumentos, p, pode-se calcular qualquer outra coisa
que se queira saber sobre o ambiente, como as probabilidades de transição de estado (que
denotamos , com um ligeiro abuso de notação, como uma função de três argumentos p : SÿSÿA ! [0, 1]),
p(s0 , r|s, uma).

= Pr{St =s0 | St1 =s, At1 =a} = X p(s0 |s, a) . (3.4)
r2R
Também podemos calcular as recompensas esperadas para pares estado-ação como uma função de
dois argumentos r : S ÿ A ! R:
= E[Rt | St1 =s, At1 =a] = X r(s, a) . r X p(s0 , r|s, uma), (3.5)
r2R s02S
e as recompensas esperadas para estado-ação-próximo estado triplicam como uma função de três
argumentos r : S ÿ A ÿ S ! R,
. p(s0 , r|s, a)
R . (3.6)
= E[Rt | St1 =s, At1 =a, St = s0 ] = X r(s, a, s0 )
r2R p(s0 |s, a)
Neste livro, geralmente usamos a função p de quatro argumentos (3.2), mas cada uma dessas outras
notações também é ocasionalmente conveniente.
A estrutura do MDP é abstrata e flexível e pode ser aplicada a muitos problemas diferentes de
muitas maneiras diferentes. Por exemplo, os intervalos de tempo não necessitam de se referir a
intervalos fixos de tempo real; eles podem referir-se a estágios sucessivos arbitrários de tomada
de decisão e ação. As ações podem ser controles de baixo nível, como as tensões aplicadas aos
motores de um braço robótico, ou decisões de alto nível, como almoçar ou não ou ir para a pós-
graduação. Da mesma forma, os estados podem assumir uma ampla variedade de formas. Eles
podem ser completamente determinados por sensações de baixo nível, como leituras diretas de
sensores, ou podem ser de mais alto nível e abstratos, como descrições simbólicas de objetos
em uma sala. Parte do que constitui um estado pode ser baseado na memória de sensações passadas ou
até mesmo ser inteiramente mental ou subjetivo. Por exemplo, um agente pode estar no estado de
não ter certeza de onde um objeto está, ou de ter sido surpreendido em algum sentido claramente
definido. Da mesma forma, algumas ações podem ser totalmente mentais ou computacionais. Por
exemplo, algumas ações podem controlar o que um agente escolhe pensar ou onde concentra a
sua atenção. Em geral, as ações podem ser quaisquer decisões que queiramos aprender a tomar,
e os estados podem ser qualquer coisa que possamos saber e que possa ser útil para tomá-las.
Em particular, a fronteira entre o agente e o ambiente normalmente não é a mesma que a
fronteira física do corpo de um robô ou animal. Normalmente, a fronteira é desenhada mais
perto do agente do que isso. Por exemplo, os motores e as ligações mecânicas de um robô e
o seu hardware de detecção devem normalmente ser considerados partes do ambiente e não
partes do agente. Da mesma forma, se aplicarmos a estrutura do MDP a uma pessoa ou
animal, os músculos, o esqueleto e os órgãos sensoriais devem ser considerados parte do ambiente.
As recompensas também são presumivelmente calculadas dentro dos corpos físicos dos sistemas de
aprendizagem naturais e artificiais, mas são consideradas externas ao agente.
A regra geral que seguimos é que qualquer coisa que não possa ser alterada arbitrariamente pelo agente
é considerada fora dele e, portanto, parte do seu ambiente. Não presumimos que tudo no ambiente seja
desconhecido para o agente. Por exemplo, o agente muitas vezes sabe bastante sobre como as suas
recompensas são calculadas em função das suas ações e dos estados em que são realizadas. Mas sempre
consideramos que o cálculo da recompensa é externo ao agente porque define a tarefa que o agente enfrenta
e, portanto, deve estar além da sua capacidade de mudar arbitrariamente. Na verdade, em alguns casos, o
agente pode saber tudo sobre como funciona o seu ambiente e ainda assim enfrentar uma difícil tarefa de
aprendizagem por reforço, tal como podemos saber exactamente como funciona um puzzle como o cubo de
Rubik, mas ainda assim sermos incapazes de o resolver. A fronteira agente-ambiente representa o limite do
controle absoluto do agente, não do seu conhecimento.
A fronteira agente-ambiente pode estar localizada em locais diferentes para finalidades diferentes. Em um
robô complicado, muitos agentes diferentes podem operar ao mesmo tempo, cada um com seu próprio limite.
Por exemplo, um agente pode tomar decisões de alto nível que fazem parte dos estados enfrentados por um
agente de nível inferior que implementa as decisões de alto nível. Na prática, a fronteira agente-ambiente é
determinada uma vez selecionados estados, ações e recompensas particulares e, assim, identificada uma
tarefa específica de interesse na tomada de decisão.
A estrutura do MDP é uma abstração considerável do problema da aprendizagem direcionada a objetivos

a partir da interação. Ele propõe que quaisquer que sejam os detalhes do aparelho sensorial, de memória e
de controle, e qualquer que seja o objetivo que se esteja tentando alcançar, qualquer problema de
aprendizagem do comportamento direcionado a objetivos pode ser reduzido a três sinais que passam de um
lado para o outro entre um agente e seu ambiente: um sinal para representar as escolhas feitas pelo agente
(as ações), um sinal para representar a base sobre a qual as escolhas são feitas (os estados) e um sinal
para definir o objetivo do agente (as recompensas). Esta estrutura pode não ser suficiente para representar
de forma útil todos os problemas de aprendizagem de decisão, mas provou ser amplamente útil e aplicável.
É claro que os estados e ações específicos variam muito de tarefa para tarefa, e a forma como são
representados pode afetar fortemente o desempenho. Na aprendizagem por reforço, como em outros tipos
de aprendizagem, tais escolhas representacionais são actualmente mais arte do que ciência.
3.1. A Interface Agente-Ambiente 51
Neste livro oferecemos alguns conselhos e exemplos sobre boas formas de representar estados e ações, mas nosso
foco principal está nos princípios gerais para aprender como se comportar depois que as representações forem
selecionadas.
Exemplo 3.1: Biorreator Suponha que o aprendizado por reforço esteja sendo aplicado para determinar temperaturas
e taxas de agitação momento a momento para um biorreator (um grande tanque de nutrientes e bactérias usado
para produzir produtos químicos úteis). As ações em tal aplicação podem ser temperaturas alvo e taxas de agitação
alvo que são passadas para sistemas de controle de nível inferior que, por sua vez, ativam diretamente elementos
de aquecimento e motores para atingir os alvos. Os estados provavelmente serão leituras de termopares e outras
leituras sensoriais, talvez filtradas e retardadas, além de entradas simbólicas que representam os ingredientes na
cuba e o produto químico alvo. As recompensas podem ser medidas momento a momento da taxa na qual o produto
químico útil é produzido pelo biorreator. Observe que aqui cada estado é uma lista, ou vetor, de leituras de sensores
e entradas simbólicas, e cada ação é um vetor que consiste em uma temperatura alvo e uma taxa de agitação. É
típico das tarefas de aprendizagem por reforço ter estados e ações com tais representações estruturadas. As
recompensas, por outro lado, são sempre números únicos.
Exemplo 3.2: Robô de pegar e colocar Considere o uso de aprendizagem por reforço para controlar
o movimento do braço de um robô em uma tarefa repetitiva de pegar e colocar. Se quisermos
aprender movimentos rápidos e suaves, o agente de aprendizagem terá que controlar os motores
diretamente e ter informações de baixa latência sobre as posições e velocidades atuais das ligações
mecânicas. As ações neste caso podem ser as tensões aplicadas a cada motor em cada junta, e os
estados podem ser as últimas leituras dos ângulos e velocidades das juntas.
A recompensa pode ser +1 para cada objeto recolhido e colocado com sucesso. Para encorajar
movimentos suaves, em cada passo de tempo uma pequena recompensa negativa pode ser dada
em função da “irregularidade” do movimento momento a momento.
Exercício 3.1 Elabore três tarefas de exemplo que se encaixem na estrutura do MDP, identificando
para cada uma seus estados, ações e recompensas. Faça os três exemplos tão diferentes quanto
possível. A estrutura é abstrata e flexível e pode ser aplicada de muitas maneiras diferentes. Amplie
seus limites de alguma forma em pelo menos um de seus exemplos. ÿ
Exercício 3.2 O quadro do MDP é adequado para representar de forma útil todas as tarefas de aprendizagem
orientadas para objectivos ? Você consegue pensar em alguma exceção clara? ÿ
Exercício 3.3 Considere o problema de dirigir. Você poderia definir as ações em termos de
acelerador, volante e freio, ou seja, onde seu corpo encontra a máquina.
Ou você pode defini-los mais adiante – digamos, onde a borracha encontra a estrada, considerando
suas ações como torques dos pneus. Ou você pode defini-los mais adiante – digamos, onde seu
cérebro encontra seu corpo, sendo as ações contrações musculares para controlar seus membros.
Ou você poderia ir a um nível realmente elevado e dizer que suas ações são suas escolhas de onde dirigir.
Qual é o nível certo, o lugar certo para traçar a linha entre o agente e o ambiente?
Com base em que uma localização da linha deve ser preferida a outra? Existe alguma razão fundamental para
preferir um local a outro, ou é uma escolha livre? ÿ
Exemplo 3.3 Robô de Reciclagem
Um robô móvel tem a função de coletar latas de refrigerante vazias em um ambiente de escritório. Isto
possui sensores para detectar latas e um braço e uma pinça que podem pegá-las e colocá-las
coloque-os em uma lixeira a bordo; funciona com uma bateria recarregável. O sistema de controle do robô
possui componentes para interpretar informações sensoriais, para navegar e para controlar
o braço e a pinça. As decisões de alto nível sobre como procurar latas são tomadas por um
agente de aprendizagem por reforço com base no nível de carga atual da bateria. Fazer um
exemplo simples, assumimos que apenas dois níveis de carga podem ser distinguidos, compreendendo
um pequeno conjunto de estados S = {alto, baixo}. Em cada estado, o agente pode decidir se (1)
procurar ativamente por uma lata por um determinado período de tempo, (2) permanecer parado e esperar
para alguém trazer uma lata ou (3) voltar para sua base para recarregar a bateria.
Quando o nível de energia é alto, recarregar seria sempre uma tolice, por isso não incluímos
na ação definida para este estado. Os conjuntos de ações são então A(high) = {search, wait} e
A (baixo) = {pesquisar, esperar, recarregar}.
As recompensas são zero na maioria das vezes, mas tornam-se positivas quando o robô consegue um
lata vazia ou grande e negativa se a bateria estiver totalmente descarregada. O melhor caminho para
encontrar latas é procurá-las ativamente, mas isso esgota a bateria do robô, enquanto
esperar não. Sempre que o robô estiver pesquisando, existe a possibilidade de sua bateria
ficará esgotado. Neste caso o robô deve desligar e esperar para ser resgatado
(produzindo uma recompensa baixa). Se o nível de energia for alto, então um período de busca ativa pode
sempre ser concluído sem risco de esgotar a bateria. Um período de busca que
começa com um nível de energia alto deixa o nível de energia alto com probabilidade ÿ e reduz
é muito baixo com probabilidade 1 ÿ. Por outro lado, um período de pesquisa realizado
quando o nível de energia está baixo deixa-o baixo com probabilidade e esgota a bateria
com probabilidade 1 . Neste último caso, o robô deve ser resgatado e a bateria é
então recarregado de volta ao alto. Cada lata coletada pelo robô conta como uma recompensa unitária,
enquanto uma recompensa de 3 resultados sempre que o robô tiver que ser resgatado. Deixe rsearch e
rwait, com rsearch > rwait, denotam respectivamente o número esperado de latas que o robô
irá coletar (e, portanto, a recompensa esperada) enquanto pesquisa e espera. Finalmente,
suponha que nenhuma lata possa ser coletada durante uma corrida para casa para recarga e que nenhuma lata
pode ser coletado em uma etapa em que a bateria esteja descarregada. Este sistema é então um sistema finito
MDP, e podemos anotar as probabilidades de transição e as recompensas esperadas, com
dinâmica conforme indicado na tabela à esquerda:
1, espere , pesquisa
1, 3
sa s0 alta pesquisa alta p(s0 |s, a) r(s, uma, s0 )
espere procurar
pesquisa baixa alto ÿ 1 ÿ pesquisa
pesquisa baixo pesquisa 3
alto 1
baixo procurar baixo pesquise 1, 0 recarrega
alta espera alta alto 1 0 rwait alto baixo
baixo -
espera baixa
espera -
alta 0 1 baixa
baixo espere espere
procurar espere
baixo recarga alta 1 0 recarga baixa 0
baixo -
ÿ, pesquisa 1ÿ, pesquisa 1, espere
Observe que há uma linha na tabela para cada combinação possível de estado atual, s,
ação, a 2 A(s), e próximo estado, s0 . Algumas transições têm probabilidade zero de ocorrer,
portanto, nenhuma recompensa esperada é especificada para eles. À direita é mostrada outra maneira útil de
3.2. Metas e recompensas 53
resumindo a dinâmica de um MDP finito, como um gráfico de transição. Existem dois tipos de nós: nós de estado
e nós de ação. Há um nó de estado para cada estado possível (um grande círculo aberto rotulado pelo nome do
estado) e um nó de ação para cada par estado-ação (um pequeno círculo sólido rotulado pelo nome da ação e
conectado por uma linha para o nó de estado). Começar no estado s e executar a ação a move você ao longo da
linha do nó de estado s para o nó de ação (s, a). Então o ambiente responde com uma transição para o nó do
próximo estado através de uma das setas saindo do nó de ação (s, a). Cada seta corresponde a um triplo (s, s0 ,
a), onde s0 é o próximo estado, e rotulamos a seta com a probabilidade de transição, p(s0 |s, a), e a recompensa
esperada para essa transição, r( s, a, s0 ). Observe que as probabilidades de transição que rotulam as setas que
saem de um nó de ação sempre somam 1.
Exercício 3.4 Forneça uma tabela análoga à do Exemplo 3.3, mas para p(s0 , r|s, a). Deve ter colunas
para s, a, s0 , r e p(s0 , r|s, a) e uma linha para cada tupla de 4 para as quais p(s0 , r|s, a) > 0. ÿ
3.2 Metas e Recompensas
Na aprendizagem por reforço, o propósito ou objetivo do agente é formalizado em termos de um

sinal especial, denominado recompensa, que passa do ambiente para o agente. A cada intervalo de
tempo, a recompensa é um número simples, Rt 2 R. Informalmente, o objetivo do agente é maximizar
o valor total da recompensa que recebe. Isso significa maximizar não a recompensa imediata, mas
a recompensa cumulativa no longo prazo. Podemos afirmar claramente esta ideia informal como
hipótese de recompensa:
Que tudo o que entendemos por metas e propósitos pode ser bem pensado como a
maximização do valor esperado da soma cumulativa de um sinal escalar recebido
(chamado recompensa).
O uso de um sinal de recompensa para formalizar a ideia de um objetivo é uma das características mais
distintivas da aprendizagem por reforço.
Embora a formulação de objectivos em termos de sinais de recompensa possa, à primeira vista,
parecer limitante, na prática provou ser flexível e amplamente aplicável. A melhor maneira de ver isso é
considerar exemplos de como ele foi ou poderia ser usado. Por exemplo, para fazer um robô aprender
a andar, os pesquisadores forneceram recompensas a cada passo de tempo proporcional ao movimento
para frente do robô. Ao fazer um robô aprender como escapar de um labirinto, a recompensa geralmente
é 1 para cada passo de tempo que passa antes da fuga; isso incentiva o agente a escapar o mais rápido
possível. Para fazer um robô aprender a encontrar e coletar latas de refrigerante vazias para reciclagem,
pode-se dar a ele uma recompensa zero na maioria das vezes e, em seguida, uma recompensa de +1
para cada lata coletada. Pode-se também querer dar recompensas negativas ao robô quando ele esbarra
nas coisas ou quando alguém grita com ele. Para um agente aprender a jogar damas ou xadrez, as
recompensas naturais são +1 por vitória, 1 por derrota e 0 por empate e para todas as posições não
terminais.
Você pode ver o que está acontecendo em todos esses exemplos. O agente sempre aprende a
maximizar sua recompensa. Se quisermos que ele faça algo por nós, devemos proporcionar-lhe
recompensas de tal forma que, ao maximizá-las, o agente também atinja nossos objetivos. Isto
é, portanto, fundamental que as recompensas que estabelecemos indiquem verdadeiramente o que queremos que seja realizado.
Em particular, o sinal de recompensa não é o lugar para transmitir ao agente conhecimento prévio
sobre como alcançar o que queremos que ele faça.5 Por exemplo, um agente jogador de xadrez
deveria ser recompensado apenas por realmente vencer, e não por alcançar subobjetivos como
como pegar as peças do oponente ou ganhar o controle do centro do tabuleiro. Se o alcance
desses tipos de subobjetivos fosse recompensado, o agente poderia encontrar uma maneira de
alcançá-los sem atingir o objetivo real. Por exemplo, pode encontrar uma forma de tomar as peças
do adversário mesmo ao custo de perder o jogo. O sinal de recompensa é a sua maneira de
comunicar ao robô o que você deseja que ele alcance, e não como deseja que ele seja alcançado.6
3.3 Retornos e Episódios

Até agora discutimos o objetivo de aprender informalmente. Dissemos que o objetivo do agente
é maximizar a recompensa cumulativa que recebe no longo prazo. Como isso pode ser definido
formalmente? Se a sequência de recompensas recebidas após o intervalo de tempo t for
denotada Rt+1, Rt+2, Rt+3,..., então que aspecto preciso desta sequência desejamos maximizar?
Em geral, procuramos maximizar o retorno esperado, onde o retorno, denotado Gt, é definido como
alguma função específica da sequência de recompensa. No caso mais simples, o retorno é a soma
das recompensas:
Gt .= Rt+1 + Rt+2 + Rt+3 + ··· + RT , (3.7)
onde T é um passo de tempo final. Essa abordagem faz sentido em aplicações nas quais existe uma
noção natural de passo de tempo final, ou seja, quando a interação agente-ambiente se divide
7
naturalmente em subsequências, que chamamos de episódios, como jogadas de um jogo, viagens por
um labirinto ou qualquer tipo de interação repetida. Cada episódio termina em um estado especial
denominado estado terminal, seguido por uma redefinição para um estado inicial padrão ou para uma
amostra de uma distribuição padrão de estados iniciais. Mesmo que você pense que os episódios
terminam de maneiras diferentes, como ganhar e perder um jogo, o próximo episódio começa
independentemente de como o anterior terminou. Assim, pode-se considerar que todos os episódios
terminam no mesmo estado terminal, com diferentes recompensas para os diferentes resultados.
Tarefas com episódios deste tipo são chamadas de tarefas episódicas. Em tarefas episódicas, às
vezes precisamos distinguir o conjunto de todos os estados não-terminais, denotado S, do conjunto
de todos os estados mais o estado terminal, denotado S+. O tempo de término, T, é uma variável
aleatória que normalmente varia de episódio para episódio.
Por outro lado, em muitos casos, a interacção agente-ambiente não se divide naturalmente em
episódios identificáveis, mas prossegue continuamente sem limites. Por exemplo, esta seria a maneira
natural de formular uma tarefa contínua de controle de processo ou uma aplicação a um robô com
longa vida útil. Chamamos isso de tarefas contínuas. A formulação de retorno (3.7) é problemática
para tarefas contínuas porque o passo de tempo final seria
5Os melhores locais para transmitir este tipo de conhecimento prévio são a política inicial ou a função de valor inicial,
ou em influências sobre estes.
6A Seção 17.4 aprofunda a questão da concepção de sinais de recompensa eficazes.
7Os episódios são por vezes chamados de “provas” na literatura.
3.3. Retornos e Episódios 55
seja T = 1, e o retorno, que é o que estamos tentando maximizar, poderia facilmente ser infinito.
(Por exemplo, suponha que o agente receba uma recompensa de +1 em cada intervalo de tempo.)
Assim, neste livro costumamos usar uma definição de retorno que é um pouco mais complexa
conceitualmente, mas muito mais simples matematicamente.
O conceito adicional de que precisamos é o de desconto. De acordo com esta abordagem, o
agente tenta selecionar ações de modo que a soma das recompensas descontadas que recebe
no futuro seja maximizada. Em particular, escolhe At para maximizar o retorno esperado com
desconto:
Gt . = Rt+1 + Rt+2 + 2Rt+3 + ··· = X1 kRt+k+1, (3.8)

k=0
onde está um parâmetro, 0 ÿ ÿ 1, denominado taxa de desconto.

A taxa de desconto determina o valor presente das recompensas futuras: uma recompensa
k1
recebida k passos de tempo no futuro vale apenas vezes o que valeria se fosse recebida
imediatamente. Se < 1, a soma infinita em (3.8) tem um valor finito desde que a sequência de
recompensa {Rk} seja limitada. Se = 0, o agente é “míope” por se preocupar apenas em
maximizar recompensas imediatas: seu objetivo neste caso é aprender a escolher At de forma
a maximizar apenas Rt+1. Se cada uma das ações do agente influenciasse apenas a
recompensa imediata, e não também as recompensas futuras, então um agente míope poderia
maximizar (3.8) maximizando separadamente cada recompensa imediata. Mas, em geral, agir
para maximizar a recompensa imediata pode reduzir o acesso a recompensas futuras, de
modo que o retorno seja reduzido. Conforme a abordagem 1, o objetivo de retorno leva em
conta mais fortemente as recompensas futuras ; o agente se torna mais clarividente.
Os retornos em etapas de tempo sucessivas estão relacionados entre si de uma forma que é importante
para a teoria e algoritmos de aprendizagem por reforço:
= Rt+1 + Rt+2 + 2Rt+3 + 3Rt+4 + ··· Gt .

= Rt+1 + Rt+2 + Rt+3 + 2Rt+4 + ··· = Rt+1 +
Gt+1 (3.9)
Observe que isso funciona para todos os intervalos de tempo t<T, mesmo que o término ocorra em t + 1,
se definirmos GT = 0. Isso geralmente facilita o cálculo dos retornos das sequências de recompensa.
Observe que embora o retorno (3.8) seja a soma de um número infinito de termos, ele ainda será
finito se a recompensa for diferente de zero e constante – se < 1. Por exemplo, se a recompensa for
uma constante +1, então o retorno é
k 1
= . (3.10)
Gt = X1 1
k=0
Exercício 3.5 As equações da Seção 3.1 são para o caso contínuo e precisam ser modificadas (muito
ligeiramente) para serem aplicadas a tarefas episódicas. Mostre que você conhece as modificações
necessárias fornecendo a versão modificada de (3.3). ÿ
Exemplo 3.4: Balanceamento de

poste O objetivo desta tarefa é aplicar
forças a um carrinho que se move ao
longo de um trilho, de modo a evitar que
um poste articulado ao carrinho caia: Diz-
se que ocorre uma falha se o poste cair
além de um determinado ângulo da vertical
ou se o carrinho sair da pista. O poste é
redefinido para vertical após cada falha.
Esta tarefa poderia ser tratada como
episódica, onde os episódios naturais são as repetidas tentativas de equilibrar o pólo. A recompensa
neste caso poderia ser +1 para cada passo de tempo em que a falha não ocorreu, de modo que o
retorno em cada tempo seria o número de passos até a falha. Neste caso, um equilíbrio bem-
sucedido para sempre significaria um retorno ao infinito. Alternativamente, poderíamos tratar o pole
balanceamento como uma tarefa contínua, utilizando descontos. Neste caso a recompensa seria 1
zero em K, onde K são todos os outros tempos. O retorno em cada em cada falha e
momento estaria então relacionado ao número de passos de tempo antes da falha. Em ambos os
casos, o retorno é maximizado mantendo o mastro equilibrado pelo maior tempo possível.
Exercício 3.6 Suponha que você tratou o pole balanceamento como uma tarefa episódica, mas
também usou o desconto, com todas as recompensas zeradas, exceto 1 em caso de falha. Qual
seria então o retorno em cada momento? Como esse retorno difere daquele obtido na formulação
contínua e descontada dessa tarefa? ÿ
Exercício 3.7 Imagine que você está projetando um robô para percorrer um labirinto. Você decide
dar a ele uma recompensa de +1 por escapar do labirinto e uma recompensa de zero em todos os
outros momentos. A tarefa parece dividir-se naturalmente em episódios – as sucessivas corridas
pelo labirinto – então você decide tratá-la como uma tarefa episódica, onde o objetivo é maximizar
a recompensa total esperada (3.7). Depois de executar o agente de aprendizagem por um tempo,
você descobre que ele não apresenta nenhuma melhora na fuga do labirinto. O que está errado?
Você comunicou efetivamente ao agente o que deseja que ele alcance? ÿ
Exercício 3.8 Suponha = 0,5 e a seguinte sequência de recompensas seja recebida R1 =

1, R2 = 2, R3 = 6, R4 = 3 e R5 = 2, com T = 5. O que são G0, G1, ..., G5 ? Dica: Trabalhe
de trás para frente. ÿ
Exercício 3.9 Suponha = 0,9 e a sequência de recompensa seja R1 = 2 seguida por uma sequência infinita de 7s.
O que são G1 e G0? ÿ Exercício 3.10 Prove a segunda igualdade em (3.10).
ÿ
3.4. Notação unificada para tarefas episódicas e contínuas 57
3.4 Notação Unificada para Tarefas Episódicas e Continuadas

Na seção anterior descrevemos dois tipos de tarefas de aprendizagem por reforço, uma em que a
interação agente-ambiente se divide naturalmente em uma sequência de episódios separados
(tarefas episódicas) e outra em que isso não acontece (tarefas contínuas). O primeiro caso é
matematicamente mais fácil porque cada ação afeta apenas o número finito de recompensas
recebidas posteriormente durante o episódio. Neste livro consideramos às vezes um tipo de
problema e às vezes o outro, mas muitas vezes ambos. É, portanto, útil estabelecer uma notação
que nos permita falar precisamente sobre ambos os casos simultaneamente.
Para ser preciso sobre tarefas episódicas é necessária alguma notação adicional. Em vez de uma longa
sequência de intervalos de tempo, precisamos considerar uma série de episódios, cada um dos quais consiste
numa sequência finita de intervalos de tempo. Numeramos os intervalos de tempo de cada episódio
começando do zero. Portanto, temos que nos referir não apenas a St, a representação do estado no tempo t,
mas a St,i, a representação do estado no tempo t do episódio i (e da mesma forma para At,i, Rt,i, ÿt,i, Ti, etc.).
No entanto, acontece que quando discutimos tarefas episódicas quase nunca temos que distinguir entre
...
episódios diferentes. Quase sempre consideramos um episódio específico ou afirmamos algo que é verdadeiro
para todos os episódios. Assim, na prática, quase sempre abusamos ligeiramente da notação, eliminando a
referência explícita ao número do episódio. Ou seja, escrevemos St para se referir a St,i, e assim por diante.
Precisamos de outra convenção para obter uma notação única que cubra tarefas episódicas
e contínuas. Definimos o retorno como uma soma sobre um número finito de termos num caso
(3.7) e como uma soma sobre um número infinito de termos no outro (3.8). Esses dois podem
ser unificados considerando-se o término do episódio como a entrada em um estado absorvente
especial que transita apenas para si mesmo e que gera apenas recompensas zero. Por
exemplo, considere o diagrama de transição de estado:
R4 = 0
R1 = +1 R2 = +1 R3 = +1
S0 S1 S2 R5 = 0
Aqui, o quadrado sólido representa o estado de absorção especial correspondente ao final de um

episódio. Começando em S0, obtemos a sequência de recompensas +1, +1, +1, 0, 0, 0,.... Somando
-as, obtemos o mesmo retorno se somarmos as primeiras T recompensas (aqui T = 3) ou sobre toda
a sequência infinita. Isto permanece verdadeiro mesmo se introduzirmos descontos. Assim, podemos
definir o retorno, em geral, de acordo com (3.8), utilizando a convenção de omitir números de
episódios quando eles não são necessários, e incluindo a possibilidade de que = 1 se a soma
permanecer definida (por exemplo, porque todos os episódios terminam) . Alternativamente, podemos escrever
T
Gt =X
. kt1Rk, (3.11)
k=t+1
incluindo a possibilidade de que T = 1 ou = 1 (mas não ambos). Usamos essas convenções

ao longo do restante do livro para simplificar a notação e expressar os paralelos estreitos
entre tarefas episódicas e contínuas. (Mais tarde, no Capítulo 10, apresentaremos uma
formulação que é ao mesmo tempo contínua e não descontada.)
3.5 Políticas e Funções de Valor
Quase todos os algoritmos de aprendizagem por reforço envolvem a estimativa de funções de valor –
funções de estados (ou de pares estado-ação) que estimam quão bom é para o agente estar em um
determinado estado (ou quão bom é realizar uma determinada ação em um determinado estado).
estado). A noção de “quão bom” aqui é definida em termos de recompensas futuras que podem ser
esperadas, ou, para ser mais preciso, em termos de retorno esperado. É claro que as recompensas
que o agente pode esperar receber no futuro dependem das ações que ele tomará. Conseqüentemente,
as funções de valor são definidas com relação a formas específicas de agir, chamadas políticas.
Formalmente, uma política é um mapeamento dos estados para as probabilidades de seleção
de cada ação possível. Se o agente estiver seguindo a política ÿ no tempo t, então ÿ(a|s) é a
probabilidade de que At = a se St = s. Assim como p, ÿ é uma função comum; o “|” no meio de
ÿ(a|s) apenas lembra que define uma distribuição de probabilidade sobre a 2 A(s) para cada s 2 S.
Os métodos de aprendizagem por reforço especificam como a política do agente é alterada como resultado
de sua experiência.
Exercício 3.11 Se o estado atual é St e as ações são selecionadas de acordo com a política estocástica
ÿ, então qual é a expectativa de Rt+1 em termos de ÿ e da função de quatro argumentos p (3.2)? ÿ A
função de valor de um estado s sob uma política ÿ, denotada por vÿ(s), é o retorno esperado ao iniciar
em s e seguir ÿ depois disso. Para MDPs, podemos definir vÿ formalmente por
vÿ(s) . para todo s 2 S, (3.12)

= Eÿ[Gt | St =s] = Eÿ " X1 kRt+k+1
k=0 St =s # ,
onde Eÿ[·] denota o valor esperado de uma variável aleatória dado que o agente segue a política ÿ, e t é
qualquer intervalo de tempo. Observe que o valor do estado terminal, se houver, é sempre zero.
Chamamos a função vÿ de função de valor de estado para política ÿ.
Da mesma forma, definimos o valor de tomar a ação a no estado s sob uma política ÿ,
denotado qÿ(s, a), como o retorno esperado começando em s, tomando a ação a, e depois
seguindo a política ÿ:
qÿ(s, uma) . . (3.13)

= Eÿ[Gt | St =s, At = a] = Eÿ " X1 kRt+k+1k=0
St =s, At =a #
Chamamos qÿ de função valor-ação para política ÿ.

Exercício 3.12 Forneça uma equação para vÿ em termos de qÿ e ÿ. ÿ
Exercício 3.13 Forneça uma equação para qÿ em termos de vÿ e do quatro argumentos p. ÿ
As funções de valor vÿ e qÿ podem ser estimadas a partir da experiência. Por exemplo, se

um agente segue a política ÿ e mantém uma média, para cada estado encontrado, dos retornos
reais que seguiram esse estado, então a média convergirá para o valor do estado, vÿ(s), como
o número de vezes esse estado encontrado se aproxima do infinito. Se médias separadas forem
mantidas para cada ação realizada em cada estado, então essas médias convergirão de forma
semelhante para os valores da ação, qÿ(s, a). Chamamos métodos de estimativa deste tipo de
métodos de Monte Carlo porque envolvem a média de muitas amostras aleatórias de retornos reais.
3.5. Políticas e funções de valor 59
Esses tipos de métodos são apresentados no Capítulo 5. É claro que, se houver muitos estados, talvez não
seja prático manter médias separadas para cada estado individualmente.
Em vez disso, o agente teria que manter vÿ e qÿ como funções parametrizadas (com menos
parâmetros que estados) e ajustar os parâmetros para melhor corresponder aos retornos
observados. Isto também pode produzir estimativas precisas, embora muito dependa da
natureza do aproximador da função parametrizada. Essas possibilidades são discutidas na
Parte II do livro.
Uma propriedade fundamental das funções de valor utilizadas na aprendizagem por
reforço e na programação dinâmica é que elas satisfazem relações recursivas semelhantes
às que já estabelecemos para o retorno (3.9). Para qualquer política ÿ e qualquer estado s,
a seguinte condição de consistência é válida entre o valor de s e o valor de seus possíveis
estados sucessores:
vÿ(s) =
. Eÿ[Gt | St =s]
= Eÿ[Rt+1 + Gt+1 | St =s] (por (3.9))
= X ÿ(uma|s) X X p(s0 , r|s, a) hr + Eÿ[Gt+1|St+1 =s0 ] i

a s0 R
= X ÿ(uma|s) X p(s0 , r|s, a) hr + vÿ(s0 ) eu ,

para todo s 2 S, (3.14)
a s0,r
onde está implícito que as ações, a, são retiradas do conjunto A(s), que os próximos estados, s0 ,
são, retirados do conjunto S (ou de S+ no caso de um problema episódico), e que as recompensas,
r, são retirados do conjunto R. Observe também como na última equação fundimos as duas somas,
uma sobre todos os valores de s0 e a outra sobre todos os valores de r, em uma soma sobre todos
os valores possíveis de ambos. . Usamos frequentemente esse tipo de soma mesclada para
simplificar fórmulas. Observe como a expressão final pode ser lida facilmente como um valor
esperado. Na verdade, é uma soma de todos os valores das três variáveis,,a, s0 e r. Para cada triplo,
calculamos sua probabilidade, ÿ(a|s)p(s0 , r|s, a), ponderamos a quantidade entre colchetes por essa
probabilidade e, em seguida, somamos todas as possibilidades para obter um valor esperado.
A equação (3.14) é a equação de Bellman para vÿ. Expressa uma
é
relação entre o valor de um estado e os valores dos seus estados
sucessores. Pense em olhar de um estado para seus possíveis estados ÿ
sucessores, conforme sugerido pelo diagrama à direita. Cada círculo a

ÿ
aberto representa um estado e cada círculo sólido representa um par

rp _
estado-ação. A partir dos estados s, o nó raiz no topo, o agente poderia s0
realizar qualquer conjunto de ações – três são mostradas no diagrama –
Diagrama de backup para vÿ
com base em sua política ÿ. A partir de cada um deles, o ambiente
poderia responder com um dos vários estados seguintes, s0 (dois são mostrados na figura),
juntamente com uma recompensa, r, dependendo de sua dinâmica dada pela função p. A equação
de Bellman (3.14) calcula a média de todas as possibilidades, ponderando cada uma pela sua
probabilidade de ocorrência. Afirma que o valor do estado inicial deve ser igual ao valor (descontado)
do próximo estado esperado, mais a recompensa esperada ao longo do caminho.
A função de valor vÿ é a única solução para sua equação de Bellman. Mostraremos nos capítulos
subsequentes como esta equação de Bellman forma a base de uma série de maneiras de
MachineoTranslated
a grade deixa sua localização inalterada, mas também resulta em uma recompensa de 1.
by Google
Outras ações resultam em uma recompensa de 0, exceto aquelas que movem o agente para fora
dos estados especiais A e B. Do estado A, todas as quatro
+10 eações
levamrendem uma
o agente recompensa
para de
A. . Do estado
60
B, todas as ações rendem uma recompensa de +5 e levam o agente para B.
calcular, aproximar e aprender vÿ. Chamamos diagramas como o acima de diagramas de

backup. Suponha
todas porque elesque o agenterelacionamentos
diagramam selecione todas que
as quatro
formamações comdos
a base igual probabilidade
estados das em
operações
política,
depara
atualização
os dis- que
ou backup.
estão noAcerne
Figurados
3.5b
métodos
mostra dea função
aprendizagem
de valor,por
vÿ,reforço.
para esta
Essas
operações transferem informações de valor de volta para um estado (ou um par
de seus estados sucessores (ou caso de recompensa contada com = 0,9. Esta função de valor estado-ação)
foi calculada por pares solv-estado-ação). Usamos diagramas de apoio ao longo do livro para
fornecer representação gráfica do sistema de equações (3.10). Observe os valores negativos
próximos aos resumos inferiores dos algoritmos que discutimos. (Observe que, diferentemente
dos gráficos
atingir ade transição,
borda dos nósa borda do estado;
da grade estes são
dos diagramas deobackup,
resultado
nãodarepresentam
alta probabilidade de
necessariamente
estados distintos;
se estar por exemplo,
sob este um lá
estado pode sob a política aleatória. Estado A. é o melhor estado para
ser
seu próprio sucessor.)
imediata, gelado,
porque do mas3.5:
Exemplo seuGridworld
retorno esperado
A Figuraé3.2
inferior a 10, sua
(esquerda) recompensa
mostra uma
representação retangular do ,
correspondem aos estados do ambiente.gridworldEm A o agente é levado para A, de onde é grade
de um MDP finito simples. As células da provável que
ele atinja a borda de cada célula, quatro ações são possíveis: norte, sul, leste e oeste, que
formam uma grade determinística. O estado B, por outro lado, tem valor superior a 5, sua
recompensa imediata, faz com que o agente mova uma célula na respectiva direção da
grade. Açõesdaque
agente porque
grade, de B sua
deixaria o agente é levado
localização , para B que
inalterada, mastem valor positivo.
também resultariaDe
emB,uma
tiraria o
penalidade
vantagemesperada
maior de
querecompensa (recompensa
1. Outras ações resultam negativa) por possivelmente
em uma recompensa encontrar
de 0, exceto uma
aquelas
que movem o agente para fora dos estados especiais A e B. Do estado A, todas as quatro
ações rendem uma recompensa de +10 e levam o agente para A0 . A partir do estado B, todas as ações ren
A B 3,3 8,8 4,4 5,3 1,5
+5 1,5 3,0 2,3 1,9 0,5
+10 B' 0,1 0,7 0,7 0,4 -0,4
-1,0 -0,4 -0,4 -0,6 -1,2

Ações
A' -1,9 -1,3 -1,2 -1,4 -2,0
(a) (b)
Figura 3.2: Exemplo do Gridworld: dinâmica de recompensa excepcional (esquerda) e função de valor de
estado para a política aleatória equiprovável (direita).
Figura 3.5: Exemplo de grade: (a) dinâmica de recompensa excepcional; (b) valor-estado Suponha
estados.que o agente
Função selecione
da Figura todasa as
3.2 para quatro
política ações com igual probabilidade em todos os
aleatória
equiprovável. (à direita) mostra a função de valor, vÿ, para esta política, para o caso de
recompensa com desconto com = 0,9. Esta função valor foi calculada resolvendo o sistema
de equações lineares (3.14). Observe os valores negativos próximos à borda inferior; estes
são o resultado da alta probabilidade de atingir o limite da grade sob a política aleatória. O
estado A é o melhor estado para se estar sob esta política, mas o seu retorno esperado é
inferior a 10, a sua recompensa imediata, porque de, A o agente é levado para A0 , de onde
é provável que esbarre no limite da rede. Já o estado B tem valor superior a 5, sua
recompensa imediata, pois de B o agente, é levado para B0 que tem valor positivo. A partir
de B0, a penalidade esperada (recompensa negativa) por possivelmente tropeçar em A ou B
é mais do que compensada pelo ganho esperado por possivelmente tropeçar em A ou B.
Exercício 3.14 A equação de Bellman (3.14) deve ser válida para cada estado da função valor
vÿ mostrada na Figura 3.2 (direita) do Exemplo 3.5. Mostre numericamente que esta equação
é válida para o estado central, avaliado em +0,7, em relação aos seus quatro estados vizinhos,
avaliados em +2,3, +0,4, 0,4 e +0,7. (Esses números têm precisão de apenas uma casa
decimal.) ÿ Exercício 3.15 No exemplo do mundo em grade, as recompensas são positivas
para metas, negativas para correr até o fim do mundo e zero no resto do tempo. São os sinais destes
3.5. Políticas e funções de valor 61
as recompensas são importantes ou apenas os intervalos entre elas? Prove, usando (3.8), que adicionar
uma constante c a todas as recompensas adiciona uma constante, vc, aos valores de todos os estados
e, portanto, não afeta os valores relativos de quaisquer estados sob quaisquer políticas. O que é vc em
termos de c e ? ÿ
Exercício 3.16 Agora considere adicionar uma constante c a todas as recompensas em uma
tarefa episódica, como correr em um labirinto. Isso teria algum efeito ou deixaria a tarefa
inalterada como na tarefa contínua acima? Por que ou por que não? Dê um exemplo. ÿ
Exemplo 3.6: Golfe Para formular jogar um buraco de golfe como uma tarefa de aprendizagem
por reforço, contamos uma penalidade (recompensa negativa) de 1 para cada tacada até
acertarmos a bola no buraco. O estado é a localização da bola. O valor de um estado é o
negativo do número de tacadas no buraco daquele local. Nossas ações são como miramos e
golpeamos a bola, é claro, e qual clube selecionamos. Tomemos o primeiro como dado e
consideremos apenas a escolha do taco, que assumimos ser um putter ou um driver. A parte
superior da Figura 3.3 mostra uma possível função de valor de estado, vputt(s), para a política
que sempre utiliza o putter. O estado
terminal no buraco tem o valor 0. De !4 !
vputt
Vputt 3
qualquer lugar no green, assumimos que areia !"
podemos dar uma tacada leve; esses estados têm valor 1.
Oÿ o verde não conseguimos chegar ao buraco !2
!1 !2
colocando, e o valor é maior. Se pudermos !3 !1

0
!4
alcançar o verde a partir de um estado !5 verde
areia
!6
colocando , então esse estado deve ter um !4 !"
valor menor que o valor do verde, ou seja, 2. !2
!3
Para simplificar, vamos supor que podemos
fazer uma tacada muito precisa e
deterministicamente, mas com um alcance Q*(s,motorista)
qÿ(s, motorista)
limitado. Isso nos dá a linha de contorno nítida areia
marcada como 2 na figura; todos os locais entre

essa linha e o green requerem exatamente duas
0 !1 !2
tacadas para completar o buraco. Da mesma !2
sa
forma, qualquer localização dentro do intervalo !3 e verde
de colocação da linha de contorno 2 deve ter

um valor de 3 e assim por diante para obter
todas as linhas de contorno mostradas na figura.
Colocar não nos tira das armadilhas de areia, entãoFigura
elas 3.3:
têmUm exemplo de golfe: a função de valor de estado
valor 1.
para putting (superior) e a função de valor de ação ideal para
No geral, levamos seis tacadas para ir do
usar o driver (inferior).
tee ao buraco, colocando.
Exercício 3.17 Qual é a equação de Bellman para valores de ação, ou é, um
seja, para qÿ? Deve fornecer o valor da ação qÿ(s, a) em termos dos p R
valores da ação, qÿ(s0 , a0 ), de possíveis sucessores do par estado-ação (s, a). s0
Dica: o diagrama de backup à direita corresponde a esta equação.
ÿ
Mostre a sequência de equações análoga a (3.14), mas para valores de ação. ÿ
a0
qÿ diagrama de backup
Exercício 3.18 O valor de um estado depende dos valores das ações possíveis nesse estado
e da probabilidade de cada ação ser tomada no âmbito da política atual. Podemos pensar
nisso em termos de um pequeno diagrama de backup enraizado no estado e considerando
cada ação possível:
é vÿ(s)
tomado com
probabilidade ÿ(a|s)
qÿ(s, uma)
a1 a2 a3
Forneça a equação correspondente a esta intuição e o diagrama para o valor no nó raiz, vÿ(s),
em termos do valor no nó folha esperado, qÿ(s, a), dado St = s. Esta equação deve incluir uma
expectativa condicionada ao cumprimento da política, ÿ. Em seguida, forneça uma segunda
equação na qual o valor esperado seja escrito explicitamente em termos de ÿ(a|s) de modo que
nenhuma notação de valor esperado apareça na equação. ÿ Exercício 3.19 O valor de uma
ação, qÿ(s, a), depende da próxima recompensa esperada e da soma esperada das recompensas
restantes. Novamente, podemos pensar nisso em termos de um pequeno diagrama de backup,
este enraizado em uma ação (par estado-ação) e ramificando-se para os próximos estados
possíveis:
recompensas
é, um qÿ(s, uma)
esperadas
r1 r2 r3
vÿ(s0 )
s01 0s
2_
s03
Forneça a equação correspondente a esta intuição e o diagrama para o valor da ação, qÿ(s, a), em termos da
próxima recompensa esperada, Rt+1, e do próximo valor esperado do estado, vÿ(St+1), dado que St =s e At =a.
Esta equação deve incluir uma expectativa, mas não uma expectativa condicionada ao cumprimento da política.
Em seguida, forneça uma segunda equação, escrevendo o valor esperado explicitamente em termos de p(s0 , r|s,
a) definido por (3.2), de modo que nenhuma notação de valor esperado apareça na equação.
ÿ
3.6 Políticas Ótimas e Funções de Valor Ótimo
Resolver uma tarefa de aprendizagem por reforço significa, grosso modo, encontrar uma política que obtenha
muitas recompensas no longo prazo. Para MDPs finitos, podemos definir com precisão uma política ótima da
seguinte maneira. As funções de valor definem uma ordem parcial sobre as políticas. Uma política ÿ é definida
como melhor ou igual a uma política ÿ0 se seu retorno esperado for maior ou igual ao de ÿ0 para todos os estados.
Em outras palavras, ÿ ÿ0 se e somente se vÿ(s) vÿ0 (s) para todo s 2 S. Sempre há pelo menos uma política que é
melhor ou igual a todas as outras políticas. Esta é uma política ideal. Embora possa haver mais de uma, denotamos
todas as políticas ótimas por ÿÿ. Eles compartilham a mesma função de valor de estado, chamada de função de
valor de estado ideal, denotada por vÿ, e definida como
vÿ(s) . = máximo vÿ(s), (3.15)

ÿ
para todo s 2 S.
3.6. Políticas ótimas e funções de valor ideal 63
As políticas ótimas também compartilham a mesma função valor-ação ótima, denotada qÿ, e
definida como
qÿ(s, uma)=. máximo qÿ(s, uma), (3.16)

ÿ
para todo s 2 S e a 2 A(s). Para o par estado-ação (s, a), esta função fornece o retorno esperado
para a ação a no estado s e, posteriormente, seguir uma política ótima.
Assim, podemos escrever qÿ em termos de vÿ da seguinte forma:
qÿ(s, a) = E[Rt+1 + vÿ(St+1) | St =s, At =a] . (3.17)
Exemplo 3.7: Funções de valor ótimo para golfe A parte inferior da Figura 3.3 mostra os contornos
de uma possível função de valor de ação ótima qÿ(s, driver). Estes são os valores de cada estado
se primeiro jogarmos uma tacada com o driver e depois selecionarmos o driver ou o putter, o que
for melhor. O driver nos permite acertar a bola mais longe, mas com menos precisão. Só podemos
chegar ao buraco de uma só vez usando o driver se já estivermos muito perto; assim, o contorno 1
para qÿ(s, driver) cobre apenas uma pequena parte do verde. Se tivermos dois traços, entretanto,
poderemos alcançar o buraco muito mais longe, como mostra o contorno 2. Neste caso não temos
de conduzir até ao pequeno contorno 1, mas apenas até qualquer ponto do green; a partir daí
podemos usar o taco. A função de valor de ação ideal fornece os valores após o comprometimento
com uma primeira ação específica, neste caso, para o motorista, mas depois usando as ações que
forem melhores. O contorno 3 está ainda mais afastado e inclui o tee inicial. A partir do tee, a
melhor sequência de ações são dois drives e um putt, afundando a bola em três tacadas.
Como vÿ é a função de valor para uma política, ela deve satisfazer a condição de
autoconsistência dada pela equação de Bellman para valores de estado (3.14). Contudo, por
ser a função de valor ideal, a condição de consistência de vÿ pode ser escrita de uma forma
especial, sem referência a qualquer política específica. Esta é a equação de Bellman para vÿ,
ou a equação de otimalidade de Bellman. Intuitivamente, a equação de otimalidade de Bellman
expressa o fato de que o valor de um estado sob uma política ótima deve ser igual ao retorno
esperado para a melhor ação desse estado:
vÿ(s) = máx qÿÿ (s, a)

a2A(s)
= máx Eÿÿ[Gt | St =s, At =a] =
máxa Eÿÿ[Rt+1 + Gt+1 | St =s, At =a] = maxa (por (3.9))
E[Rt+1 + vÿ(St+1) | St =s, At =a] = maxa X (3.18)
p(s0 , r|s, a) ÿ r + vÿ(s0 ) ÿ . (3.19)

s0,r
As duas últimas equações são duas formas da equação de otimalidade de Bellman para vÿ. A
equação de otimalidade de Bellman para qÿ é
qÿ(s, a) = E h Rt+1 + max qÿ(St+1,

a0 a0 ) St = s, At = aip(s0 , r|s, a)
=X h + max qÿ(s0 ,
a0 ) eu.
(3.20)
a0
s0,r
Os diagramas de backup na figura abaixo mostram graficamente os intervalos de estados

e ações futuras consideradas nas equações de otimalidade de Bellman para vÿ e qÿ. Eles são
iguais aos diagramas de backup para vÿ e qÿ apresentados anteriormente, exceto que arcos
foram adicionados nos pontos de escolha do agente para representar que o máximo dessa
escolha é obtido em vez do valor esperado dada alguma política. O diagrama de backup à
esquerda representa graficamente a equação de otimalidade de Bellman (3.19) e o diagrama
de backup à direita representa graficamente (3.20).
é é, um
(vÿ) (qÿ)
máx. R
a s0
R máx.
s0 a0
Figura 3.4: Diagramas de backup para vÿ e qÿ
Para MDPs finitos, a equação de otimalidade de Bellman para vÿ (3.19) tem uma solução única
independente da política. A equação de otimalidade de Bellman é na verdade um sistema de
equações, uma para cada estado, portanto, se houver n estados, então haverá n equações em n
incógnitas. Se a dinâmica p do ambiente for conhecida, então, em princípio, pode-se resolver este
sistema de equações para vÿ usando qualquer um de uma variedade de métodos para resolver
sistemas de equações não lineares. Pode-se resolver um conjunto relacionado de equações para qÿ.
Uma vez obtido vÿ, é relativamente fácil determinar uma política ótima. Para cada estado s, haverá
uma ou mais ações nas quais o máximo é obtido na equação de otimalidade de Bellman. Qualquer
política que atribua probabilidade diferente de zero apenas a estas ações é uma política ótima. Você
pode pensar nisso como uma pesquisa em uma etapa. Se você tiver a função de valor ideal, vÿ,
então as ações que aparecem melhor após uma pesquisa em uma etapa serão ações ideais. Outra
forma de dizer isto é que qualquer política que seja gananciosa no que diz respeito à função de
avaliação ótima vÿ é uma política ótima. O termo ganancioso é usado na ciência da computação para
descrever qualquer procedimento de busca ou decisão que seleciona alternativas com base apenas
em considerações locais ou imediatas, sem considerar a possibilidade de que tal seleção possa
impedir o acesso futuro a alternativas ainda melhores. Consequentemente, descreve políticas que
selecionam ações com base apenas nas suas consequências a curto prazo. A beleza de vÿ é que se
for usado para avaliar as consequências de curto prazo das ações – especificamente, as
consequências de uma etapa – então uma política gananciosa é na verdade ótima no sentido de
longo prazo em que estamos interessados, porque vÿ já leva em consideração as consequências de
recompensa de todos os comportamentos futuros possíveis. Por meio de vÿ, o retorno ótimo esperado
de longo prazo é transformado em uma quantidade que está local e imediatamente disponível para
cada estado. Conseqüentemente, uma busca um passo à frente produz as ações ideais de longo prazo.
Ter qÿ torna a escolha das ações ideais ainda mais fácil. Com qÿ, o agente nem precisa fazer
uma busca um passo à frente: para qualquer estado s, ele pode simplesmente encontrar qualquer
ação que maximize qÿ(s, a). A função de valor de ação armazena efetivamente em cache os
resultados de todas as pesquisas um passo à frente. Fornece o retorno óptimo esperado a longo
prazo como um valor que está local e imediatamente disponível para cada par estado-acção. Assim, ao custo de
3.6. Políticas ótimas e funções de valor ideal 65
representando uma função de pares estado-ação, em vez de apenas estados, a função ótima
ação-valor permite que ações ótimas sejam selecionadas sem a necessidade de saber nada
sobre possíveis estados sucessores e seus valores, isto é, sem precisar saber nada
sobre a dinâmica do ambiente.
Exemplo 3.8: Resolvendo o Gridworld Suponha que resolvamos a equação de Bellman para vÿ
para a tarefa de grade simples introduzida no Exemplo 3.5 e mostrada novamente na Figura 3.5 (esquerda).
Lembre-se de que o estado A é seguido por uma recompensa de +10 e uma transição para o estado A0 , enquanto estado
B é seguido por uma recompensa de +5 e transição para o estado B0 . A Figura 3.5 (meio) mostra o
função de valor ideal, e a Figura 3.5 (à direita) mostra as políticas ótimas correspondentes.
Onde houver diversas setas em uma célula, todas as ações correspondentes serão ideais.
A B 22,0 24,4 22,0 19,4 17,5
+5 19,8 22,0 19,8 17,8 16,0
+10 B' 17,8 19,8 17,8 16,0 14,4
16,0 17,8 16,0 14,4 13,0
A' 14,4 16,0 14,4 13,0 11,7
a) Mundo
mundo emGrid
grade b) vÿ
V*
v* c)ÿÿ
!*ÿ*
Figura 3.5: Soluções ótimas para o exemplo do gridworld.
Exemplo 3.9: Equações de Otimalidade de Bellman para o Robô de Reciclagem Usando

(3.19), podemos fornecer explicitamente a equação de otimalidade de Bellman para o robô reciclador
exemplo. Para tornar as coisas mais compactas, abreviamos os estados alto e baixo, e o
ações pesquisam, esperam e recarregam respectivamente por h, l, s, w e re. Porque eles são
apenas dois estados, a equação de otimalidade de Bellman consiste em duas equações. A equação
para vÿ(h) pode ser escrito da seguinte forma:
p(h|h,
vÿ(h) = máx ÿ p(h|h, w)[r(h,
s)[r(h, s, w,
h) h) + vÿ(h)]+ +p(l|h,
+ vÿ(h)] p(l|h,s)[r(h,
w)[r(h,s,w,l) l)+ +vÿ(eu)],
vÿ(l)]
1[rw
= máx ÿ ÿ[rs + vÿ(h)]+ +(10[rw
+ vÿ(h)] ÿ)[rs+ +vÿ(l)]
vÿ(l)],
.
= máx ÿ rsrw
+ +[ÿvÿ(h)
vÿ(h) + (1 ÿ)vÿ(l)],
Seguindo o mesmo procedimento para vÿ(l) produz a equação
8 rs 3(1 ) + [(1 )vÿ(h) + vÿ(l)], 9
vÿ(l) = máx. < rw + vÿ(l), .
=
: vÿ(h) ;
Para qualquer escolha de rs, rw, ÿ, , e com 0, ÿ < 1, 0 ÿ ÿ, ÿ 1, há exatamente
um par de números, vÿ(h) e vÿ(l), que satisfazem simultaneamente esses dois não lineares
equações.
Resolver explicitamente a equação de otimalidade de Bellman fornece um caminho para encontrar um

política ideal e, assim, para resolver o problema de aprendizagem por reforço. No entanto, isso
solução raramente é diretamente útil. É semelhante a uma busca exaustiva, olhando para frente
todas as possibilidades, computando suas probabilidades de ocorrência e suas desejabilidades em
termos de recompensas esperadas. Esta solução baseia-se em pelo menos três suposições que são
raramente é verdade na prática: (1) conhecemos com precisão a dinâmica do ambiente; (2)
temos recursos computacionais suficientes para completar o cálculo da solução;
e (3) a propriedade de Markov. Para os tipos de tarefas nas quais estamos interessados, é
geralmente não é capaz de implementar esta solução exatamente porque várias combinações de
essas suposições são violadas. Por exemplo, embora a primeira e a terceira suposições
não apresentam problemas para o jogo de gamão, o segundo é um grande impedimento.
Como o jogo tem cerca de 1.020 estados, levaria milhares de anos nos dias de hoje
computadores mais rápidos para resolver a equação de Bellman para vÿ, e o mesmo é verdade para encontrar
qÿ. Na aprendizagem por reforço normalmente é preciso se contentar com soluções aproximadas.
Muitos métodos diferentes de tomada de decisão podem ser vistos como formas de aproximadamente
resolvendo a equação de otimalidade de Bellman. Por exemplo, métodos de pesquisa heurística podem ser
visto como uma expansão do lado direito de (3.19) várias vezes, até alguma profundidade, formando
uma “árvore” de possibilidades e, em seguida, usando uma função de avaliação heurística para aproximar
vÿ nos nós “folha”. (Métodos de pesquisa heurística como Aÿ são quase sempre baseados
no caso episódico.) Os métodos de programação dinâmica podem ser ainda mais relacionados
estreitamente com a equação de otimalidade de Bellman. Muitos métodos de aprendizagem por reforço podem
ser claramente entendido como uma solução aproximada da equação de otimalidade de Bellman, usando
transições experimentadas reais em vez do conhecimento das transições esperadas. Nós
consideraremos uma variedade de tais métodos nos capítulos seguintes.
Exercício 3.20 Desenhe ou descreva a função valor-estado ótima para o exemplo do golfe. ÿ
Exercício 3.21 Desenhe ou descreva os contornos da função valor de ação ótima para
putting, qÿ(s, putter), para o exemplo do golfe. ÿ
Exercício 3.22 Considere o MDP contínuo mostrado no

certo. A única decisão a ser tomada é que no estado superior, esquerda certo
onde duas ações estão disponíveis, esquerda e direita. Os números

+1 0
mostrar as recompensas que são recebidas deterministicamente após 0 +2
cada ação. Existem exatamente duas políticas determinísticas,

ÿesquerda e ÿdireita. Qual política é ótima se = 0? Se = 0,9?
Se = 0,5? ÿ
Exercício 3.23 Forneça a equação de Bellman para qÿ para o robô reciclador. ÿ
Exercício 3.24 A Figura 3.5 fornece o valor ideal do melhor estado do gridworld como
24,4, com uma casa decimal. Use seu conhecimento da política ótima e (3.8) para expressar
esse valor simbolicamente e depois calculá-lo com três casas decimais. ÿ
Exercício 3.25 Forneça uma equação para vÿ em termos de qÿ. ÿ
Exercício 3.26 Forneça uma equação para qÿ em termos de vÿ e dos quatro argumentos p. ÿ
3.7. Otimização e Aproximação 67
Exercício 3.27 Forneça uma equação para ÿÿ em termos de qÿ. ÿ
Exercício 3.28 Forneça uma equação para ÿÿ em termos de vÿ e do quatro argumentos p. ÿ
Exercício 3.29 Reescreva as quatro equações de Bellman para as quatro funções de valor (vÿ,
vÿ, qÿ e qÿ) em termos da função de três argumentos p (3.4) e da função de dois argumentos r
(3.5). ÿ
3.7 Otimalidade e Aproximação

Definimos funções de valor ótimas e políticas ótimas. É evidente que um agente que aprende uma política
óptima se saiu muito bem, mas na prática isso raramente acontece. Para os tipos de tarefas nas quais
estamos interessados, políticas ótimas só podem ser geradas com custos computacionais extremos. Uma
noção bem definida de otimização organiza a abordagem de aprendizagem que descrevemos neste livro e
fornece uma maneira de compreender as propriedades teóricas de vários algoritmos de aprendizagem, mas
é um ideal que os agentes só podem aproximar em graus variados. Como discutimos acima, mesmo que
tenhamos um modelo completo e preciso da dinâmica do ambiente, normalmente não é possível calcular
simplesmente uma política óptima resolvendo a equação de optimidade de Bellman. Por exemplo, jogos de
tabuleiro como o xadrez são uma pequena fração da experiência humana, mas computadores grandes e
personalizados ainda não conseguem calcular os movimentos ideais. Um aspecto crítico do problema
enfrentado pelo agente é sempre o poder computacional disponível para ele, em particular, a quantidade de
computação que ele pode realizar em um único intervalo de tempo.
A memória disponível também é uma restrição importante. Freqüentemente, é necessária uma grande
quantidade de memória para construir aproximações de funções, políticas e modelos de valor.
Em tarefas com conjuntos de estados pequenos e finitos, é possível formar essas aproximações usando arrays ou
tabelas com uma entrada para cada estado (ou par estado-ação). Chamamos isso de caso tabular, e os métodos
correspondentes chamamos de métodos tabulares. Em muitos casos de interesse prático, contudo, há muito mais
estados do que poderiam ser entradas numa tabela. Nestes casos as funções devem ser aproximadas, utilizando
algum tipo de representação de função parametrizada mais compacta.
Nosso enquadramento do problema de aprendizagem por reforço nos obriga a nos contentar com
aproximações. No entanto, também nos apresenta algumas oportunidades únicas para alcançar
aproximações úteis. Por exemplo, ao aproximar o comportamento ideal, pode haver muitos estados que o
agente enfrenta com uma probabilidade tão baixa que a seleção de ações subótimas para eles tenha pouco
impacto na quantidade de recompensa que o agente recebe. O jogador de gamão de Tesauro , por exemplo,
joga com habilidade excepcional, embora possa tomar decisões muito erradas em configurações de
tabuleiro que nunca ocorrem em jogos contra especialistas. Na verdade, é possível que o TD-Gammon
tome decisões erradas em uma grande fração do conjunto de estados do jogo. A natureza online da
aprendizagem por reforço torna possível aproximar políticas óptimas de forma a colocar mais esforço na
aprendizagem para tomar boas decisões para estados frequentemente encontrados, à custa de menos
esforço para estados raramente encontrados. Esta é uma propriedade chave que distingue a aprendizagem
por reforço de outras abordagens para resolver aproximadamente MDPs.
3.8 Resumo
Vamos resumir os elementos do problema de aprendizagem por reforço que apresentamos
neste capítulo. A aprendizagem por reforço consiste em aprender, por meio da interação, como
se comportar para atingir um objetivo. O agente de aprendizagem por reforço e seu ambiente
interagem em uma sequência de passos de tempo discretos. A especificação da sua interface
define uma tarefa particular: as ações são as escolhas feitas pelo agente; os estados são a
base para fazer as escolhas; e as recompensas são a base para avaliar as escolhas. Tudo
dentro do agente é completamente conhecido e controlável pelo agente; tudo o que está fora é
incompletamente controlável, mas pode ou não ser completamente conhecido. Uma política é
uma regra estocástica pela qual o agente seleciona ações em função dos estados. O objetivo
do agente é maximizar a quantidade de recompensa que recebe ao longo do tempo.
Quando a configuração de aprendizagem por reforço descrita acima é formulada com
probabilidades de transição bem definidas, constitui um processo de decisão de Markov (MDP). Um
MDP finito é um MDP com estado finito, ação e (conforme formulamos aqui) conjuntos de
recompensa. Grande parte da teoria atual de aprendizagem por reforço está restrita a MDPs finitos,
mas os métodos e ideias se aplicam de forma mais geral.
O retorno é função das recompensas futuras que o agente busca maximizar (em valor
esperado). Tem várias definições diferentes dependendo da natureza da tarefa e se se deseja
descontar a recompensa atrasada. A formulação não descontada é apropriada para tarefas
episódicas, nas quais a interação agente-ambiente se divide naturalmente em episódios; a
formulação descontada é apropriada para tarefas contínuas, nas quais a interação não se divide
naturalmente em episódios, mas continua sem limite.
Tentamos definir os retornos para os dois tipos de tarefas de modo que um conjunto de equações possa ser
aplicado tanto aos casos episódicos quanto aos contínuos.
As funções de valor de uma política atribuem a cada estado, ou par estado-ação, o retorno
esperado desse estado, ou par estado-ação, dado que o agente usa a política. As funções de valor
ótimo atribuem a cada estado, ou par estado-ação, o maior retorno esperado alcançável por qualquer
política. Uma política cujas funções de valor são ótimas é uma política ótima.
Embora as funções de valor óptimas para estados e pares estado-acção sejam únicas para um
determinado MDP, pode haver muitas políticas óptimas. Qualquer política gananciosa no que diz
respeito às funções de valor óptimas deve ser uma política óptima. As equações de otimalidade de
Bellman são condições especiais de consistência que as funções de valor ótimo devem satisfazer e
que podem, em princípio, ser resolvidas para as funções de valor ótimo, a partir das quais uma
política ótima pode ser determinada com relativa facilidade.
Um problema de aprendizagem por reforço pode ser colocado de várias maneiras diferentes, dependendo
das suposições sobre o nível de conhecimento inicialmente disponível para o agente. Em problemas de
conhecimento completo, o agente possui um modelo completo e preciso da dinâmica do ambiente. Se o
ambiente for um MDP, então tal modelo consiste na função dinâmica completa de quatro argumentos p
(3.2). Em problemas de conhecimento incompleto, não está disponível um modelo completo e perfeito do
ambiente.
Mesmo que o agente tenha um modelo de ambiente completo e preciso, normalmente ele
não consegue realizar cálculos suficientes por intervalo de tempo para utilizá-lo totalmente. A
memória disponível também é uma restrição importante. Pode ser necessária memória para construir
obter aproximações precisas de funções, políticas e modelos de valor. Na maioria dos casos de
interesse prático, há muito mais estados do que poderiam existir entradas numa tabela, e devem
ser feitas aproximações.
Uma noção bem definida de otimização organiza a abordagem de aprendizagem que descrevemos
neste livro e fornece uma maneira de compreender as propriedades teóricas de vários algoritmos de
aprendizagem, mas é um ideal que os agentes de aprendizagem por reforço só podem aproximar em
graus variados. Na aprendizagem por reforço estamos muito preocupados com os casos em que as
soluções óptimas não podem ser encontradas, mas devem ser aproximadas de alguma forma.

O problema de aprendizagem por reforço deve profundamente à ideia dos processos de decisão
de Markov (MDPs) do campo do controle ótimo. Essas influências históricas e outras influências
importantes da psicologia são descritas na breve história apresentada no Capítulo 1.
A aprendizagem por reforço acrescenta aos MDPs um foco na aproximação e em informações incompletas
para problemas realisticamente grandes. Os MDPs e o problema da aprendizagem por reforço estão
apenas fracamente ligados aos problemas tradicionais de aprendizagem e tomada de decisão em
inteligência artificial. No entanto, a inteligência artificial está agora a explorar vigorosamente as formulações
do MDP para o planeamento e a tomada de decisões a partir de uma variedade de perspectivas. Os MDPs
são mais gerais do que as formulações anteriores utilizadas em inteligência artificial, na medida em que
permitem tipos mais gerais de objetivos e incertezas.
A teoria dos MDPs é tratada, por exemplo, por Bertsekas (2005), White (1969), Whittle (1982, 1983) e
Puterman (1994). Um tratamento particularmente compacto do caso finito é dado por Ross (1983). Os
MDPs também são estudados sob o título de controle ótimo estocástico, onde os métodos de controle
ótimo adaptativo estão mais intimamente relacionados ao aprendizado por reforço (por exemplo, Kumar,
1985; Kumar e Varaiya, 1986).
A teoria dos MDPs evoluiu a partir de esforços para compreender o problema de tomar
sequências de decisões sob incerteza, onde cada decisão pode depender das decisões anteriores
e dos seus resultados. Às vezes é chamada de teoria dos processos de decisão em múltiplos
estágios, ou processos de decisão sequenciais, e tem raízes na literatura estatística sobre
amostragem sequencial, começando com os artigos de Thompson (1933, 1934) e Robbins (1952)
que citamos no Capítulo 2 em conexão com com problemas de bandidos (que são MDPs prototípicos
se formulados como problemas de situações múltiplas).
O primeiro exemplo de que temos conhecimento em que a aprendizagem por reforço foi
discutida usando o formalismo MDP é a descrição de Andreae (1969b) de uma visão unificada
de máquinas de aprendizagem. Witten e Corbin (1973) experimentaram um sistema de
aprendizagem por reforço posteriormente analisado por Witten (1977, 1976a) usando o
formalismo MDP. Embora não tenha mencionado explicitamente os MDPs, Werbos (1977)
sugeriu métodos de solução aproximada para problemas de controle ótimo estocástico que
estão relacionados aos métodos modernos de aprendizagem por reforço (ver também Werbos,
1982, 1987, 1988, 1989, 1992). Embora as ideias de Werbos não fossem amplamente
reconhecidas na época, eles foram prescientes ao enfatizar a importância de resolver
aproximadamente problemas de controle ótimo em vários domínios, incluindo a inteligência
artificial. A integração mais influente de aprendizagem por reforço e MDPs se deve a Watkins (1989).
3.1 Nossa caracterização da dinâmica de um MDP em termos de p(s0 , r|s, a) é um pouco incomum.
É mais comum na literatura do MDP descrever a dinâmica em termos das probabilidades
de transição de estado p(s0 |s, a) e das próximas recompensas esperadas r(s, a). No
entanto, na aprendizagem por reforço, temos mais frequentemente que nos referir a
recompensas individuais reais ou amostrais (em vez de apenas aos seus valores
esperados). Nossa notação também deixa mais claro que St e Rt são em geral
determinados conjuntamente e, portanto, devem ter o mesmo índice de tempo. Ao ensinar
aprendizagem por reforço, descobrimos que nossa notação é mais direta conceitualmente
e mais fácil de entender.
Para uma boa discussão intuitiva do conceito de Estado na teoria sistêmica, ver Minsky
(1967).
O exemplo do biorreator é baseado no trabalho de Ungar (1990) e Miller e Williams
(1992). O exemplo do robô reciclador foi inspirado no robô coletor de latas
construído por Jonathan Connell (1989). Kober e Peters (2012) apresentam uma
coleção de aplicações robóticas de aprendizagem por reforço.
3.2 A hipótese da recompensa foi sugerida por Michael Littman (comunicação pessoal ).
3.3–4 A terminologia de tarefas episódicas e contínuas é diferente daquela normalmente

usada na literatura do MDP. Nessa literatura é comum distinguir três tipos de
tarefas: (1) tarefas de horizonte finito, nas quais a interação termina após um
determinado número fixo de passos de tempo; (2) tarefas de horizonte indefinido,
nas quais a interação pode durar arbitrariamente, mas deve eventualmente terminar;
e (3) tarefas de horizonte infinito, nas quais a interação não termina. Nossas tarefas
episódicas e contínuas são semelhantes às tarefas de horizonte indefinido e de
horizonte infinito, respectivamente, mas preferimos enfatizar a diferença na natureza
da interação. Esta diferença parece mais fundamental do que a diferença nas
funções objetivo enfatizadas pelos termos usuais. Freqüentemente, as tarefas
episódicas usam uma função objetivo de horizonte indefinido e as tarefas contínuas,
uma função objetivo de horizonte infinito , mas vemos isso como uma coincidência
comum e não como uma diferença fundamental.
O exemplo do pole balanceamento é de Michie e Chambers (1968) e Barto, Sutton e
Anderson (1983).
3.5–6 Atribuir valor com base no que é bom ou mau no longo prazo tem raízes antigas. Na teoria
de controle, mapear estados para valores numéricos que representam as consequências
de longo prazo das decisões de controle é uma parte fundamental da teoria de controle
ótimo, que foi desenvolvida na década de 1950, estendendo as teorias de função de
estado da mecânica clássica do século XIX (ver, por exemplo, Schultz e Melsa, 1967). Ao
descrever como um computador poderia ser programado para jogar xadrez, Shannon
(1950) sugeriu o uso de uma função de avaliação que levasse em conta as vantagens e
desvantagens de longo prazo das posições no xadrez.
O algoritmo Q-learning de Watkins (1989) para estimar qÿ (Capítulo 6) tornou as funções
de valor-ação uma parte importante da aprendizagem por reforço e, conseqüentemente,
essas funções são frequentemente chamadas de “funções Q”. Mas a ideia de uma função
valor-ação é muito mais antiga do que isso. Shannon (1950) sugeriu que uma função
h(P,M) poderia ser usada por um programa de jogo de xadrez para decidir se vale a pena
explorar um movimento M na posição P. O sistema MENACE de Michie (1961, 1963) e o
sistema BOXES de Michie e Chambers (1968) podem ser entendidos como estimativas de
funções de valor de ação. Na física clássica, a função principal de Hamilton é uma função
de valor de ação; A dinâmica newtoniana é gananciosa no que diz respeito a esta função
(por exemplo, Goldstein, 1957). As funções de valor-ação também desempenharam um
papel central no tratamento teórico de Denardo (1967) da programação dinâmica em
termos de mapeamentos de contração.
A equação de otimalidade de Bellman (para vÿ) foi popularizada por Richard Bellman
(1957a), que a chamou de “equação funcional básica”. A contrapartida da equação de
otimalidade de Bellman para problemas de tempo e estado contínuos é conhecida como
equação de Hamilton-Jacobi-Bellman (ou muitas vezes apenas a equação de Hamilton-
Jacobi), indicando suas raízes na física clássica (por exemplo, Schultz e Melsa, 1967).
O exemplo do golfe foi sugerido por Chris Watkins.
Capítulo 4
Programaçao dinamica
O termo programação dinâmica (DP) refere-se a uma coleção de algoritmos que podem ser usados
para calcular políticas ótimas dado um modelo perfeito do ambiente como um processo de decisão
de Markov (MDP). Os algoritmos DP clássicos são de utilidade limitada na aprendizagem por
reforço, tanto por sua suposição de um modelo perfeito quanto por seu grande custo computacional,
mas ainda são importantes teoricamente. DP fornece uma base essencial para a compreensão
dos métodos apresentados no restante deste livro. Na verdade, todos esses métodos podem ser
vistos como tentativas de alcançar praticamente o mesmo efeito que o DP, apenas com menos
computação e sem assumir um modelo perfeito do ambiente.
Geralmente assumimos que o ambiente é um MDP finito. Ou seja, assumimos que seus
conjuntos de estado, ação e recompensa, S, A e R, são finitos, e que sua dinâmica é dada por um
conjunto de probabilidades p(s0 , r|s, a), para todos s 2 S, a 2 A(s), r 2 R e s0 2 S+ (S+ é S mais
um estado terminal se o problema for episódico). Embora as ideias de DP possam ser aplicadas a
problemas com estados contínuos e espaços de ação, soluções exatas só são possíveis em casos especiais.
Uma maneira comum de obter soluções aproximadas para tarefas com estados e ações contínuas
é quantizar os espaços de estados e ações e então aplicar métodos DP de estados finitos.
Os métodos que exploramos no Capítulo 9 são aplicáveis a problemas contínuos e são uma
extensão significativa dessa abordagem.
A ideia chave da PD, e da aprendizagem por reforço em geral, é a utilização de funções de valor
para organizar e estruturar a procura de boas políticas. Neste capítulo mostramos como DP pode
ser usado para calcular as funções de valor definidas no Capítulo 3. Conforme discutido lá, podemos
facilmente obter políticas ótimas uma vez que tenhamos encontrado as funções de valor ótimas, vÿ
ou qÿ, que satisfazem a otimalidade de Bellman. equações:
vÿ(s) = máxa E[Rt+1 + vÿ(St+1) | St =s, At =a]

ou (4.1)
i , = maxa X
p(s0 , r|s, a) hr + vÿ(s0 )
s0,r
qÿ(s, a) = E h Rt+1 + max

a0
qÿ(St+1, a0 ) St =s, At
=X =aip(s0 , r|s, a) h + maxqÿ(s0 ,

a0 ) eu,
(4.2)
a0
s0,r
73
74 Capítulo 4: Programação Dinâmica
para todo s 2 S, a 2 A(s) e s0 2 S+. Como veremos, os algoritmos DP são obtidos transformando
equações de Bellman como estas em atribuições, isto é, em regras de atualização para melhorar
as aproximações das funções de valor desejadas.
4.1 Avaliação de Políticas (Previsão)

Primeiro consideramos como calcular a função de valor de estado vÿ para uma política arbitrária ÿ.
Isto é chamado de avaliação de políticas na literatura sobre PD. Também nos referimos a isso como
problema de previsão. Lembre-se do Capítulo 3 que, para todo s 2 S,
vÿ(s) . = Eÿ[Gt | St =s]

= Eÿ[Rt+1 + Gt+1 | St =s] (de (3.9))
= Eÿ[Rt+1 + vÿ(St+1) | St =s] (4.3)
= X ÿ(uma|s) X p(s0 , r|s, a) hr + vÿ(s0 ) eu , (4.4)

a s0,r
onde ÿ(a|s) é a probabilidade de tomar medidas a nos estados sob a política ÿ, e as expectativas são
subscritas por ÿ para indicar que estão condicionadas ao cumprimento de ÿ .
A existência e a unicidade de vÿ são garantidas desde que < 1 ou eventual rescisão seja garantida
em todos os estados sob a política ÿ.
Se a dinâmica do ambiente for completamente conhecida, então (4.4) é um sistema de |S|
equações lineares simultâneas em |S| incógnitas (o vÿ(s), s 2 S). Em princípio, sua solução é um
cálculo simples, embora tedioso. Para nossos propósitos, os métodos de solução iterativos são os
mais adequados. Considere uma sequência de funções de valor aproximado v0, v1, v2,..., cada
uma mapeando S+ para R (os números reais). A aproximação inicial, v0, é escolhida arbitrariamente
(exceto que o estado terminal, se houver, deve receber o valor 0), e cada aproximação sucessiva
é obtida usando a equação de Bellman para vÿ (4.4) como regra de atualização:
vk+1(s) . = Eÿ[Rt+1 + vk(St+1) | St =s]
= X ÿ(uma|s) X p(s0 , r|s, a) hr + vk(s0 ) i , (4.5)

a s0,r
para todo s 2 S. Claramente, vk = vÿ é um ponto fixo para esta regra de atualização porque a equação de Bellman para
vÿ nos garante igualdade neste caso. Na verdade, pode-se mostrar que a sequência {vk} em geral converge para vÿ
como k ! 1 nas mesmas condições que garantem a existência de vÿ. Este algoritmo é chamado de avaliação de política
iterativa.
Para produzir cada aproximação sucessiva, vk+1 a partir de vk, a avaliação de política iterativa
aplica a mesma operação a cada estado s: ela substitui o valor antigo de s por um novo valor obtido
a partir dos valores antigos dos estados sucessores de s, e o valor esperado recompensas imediatas ,
juntamente com todas as transições de uma etapa possíveis no âmbito da política que está sendo
avaliada. Chamamos esse tipo de operação de atualização esperada. Cada iteração da avaliação
iterativa da política atualiza o valor de cada estado uma vez para produzir a nova função de valor aproximado.
4.1. Avaliação de políticas (previsão) 75
vk+1. Existem vários tipos diferentes de atualizações esperadas, dependendo se um estado (como
aqui) ou um par estado-ação está sendo atualizado, e dependendo da maneira precisa como os valores
estimados dos estados sucessores são combinados. Todas as atualizações feitas nos algoritmos DP
são chamadas de atualizações esperadas porque são baseadas em uma expectativa sobre todos os
próximos estados possíveis, e não em uma amostra do próximo estado. A natureza de uma atualização
pode ser expressa em uma equação, como acima, ou em um diagrama de backup como aqueles
apresentados no Capítulo 3. Por exemplo, o diagrama de backup correspondente à atualização
esperada usado na avaliação de política iterativa é mostrado na página 59.
Para escrever um programa de computador sequencial para implementar avaliação de política
iterativa conforme dado por (4.5), você teria que usar dois arrays, um para os valores antigos, vk(s), e
outro para os novos valores, vk+1(s). Com duas matrizes, os novos valores podem ser calculados um
por um a partir dos valores antigos, sem que os valores antigos sejam alterados. É claro que é mais
fácil usar um array e atualizar os valores “no lugar”, ou seja, com cada novo valor substituindo
imediatamente o antigo. Então, dependendo da ordem em que os estados são atualizados, às vezes
novos valores são usados em vez dos antigos no lado direito de (4.5). Este algoritmo local também
converge para vÿ; na verdade, ela geralmente converge mais rápido que a versão de duas matrizes,
como seria de esperar, porque usa novos dados assim que ficam disponíveis. Pensamos nas
atualizações como sendo feitas em uma varredura no espaço de estados. Para o algoritmo in-place, a
ordem em que os estados têm seus valores atualizados durante a varredura tem uma influência
significativa na taxa de convergência. Geralmente temos a versão local em mente quando pensamos
em algoritmos DP.
Uma versão completa da avaliação de política iterativa é mostrada em pseudocódigo na caixa
abaixo. Observe como ele lida com a rescisão. Formalmente, a avaliação iterativa de políticas
converge apenas no limite, mas na prática deve ser interrompida antes disso. O pseudocódigo
testa a quantidade maxs2S |vk+1(s)vk(s)| após cada varredura e para quando é suficientemente
pequeno.
Avaliação Iterativa de Política, para estimar V ÿ vÿ
Entrada ÿ, a política a ser avaliada

Parâmetro do algoritmo: um pequeno limite ÿ > 0 determinando a precisão da estimativa
Inicialize V (s), para todo s 2 S+, arbitrariamente exceto que V (terminal)=0
Laço:
0
Loop para cada s 2 S:
v V (s)
V (s) P a ÿ(uma|s) P s0,r p(s0 , r|s, a) ÿ r + V (s0 ) ÿ
max(, |v V(s)|) até <
ÿ
Exemplo 4.1 Considere o mundo em grade 4ÿ4 mostrado abaixo.
1 2 3
7
Rt r== 1!1 em
45 6
todas as transições
8 9 10 11
ações
12 13 14
Os estados não terminais são S = {1, 2,..., 14}. Existem quatro ações possíveis em cada
estado, A = {cima, baixo, direita, esquerda}, que causam deterministicamente as transições
de estado correspondentes , exceto que as ações que tirariam o agente da grade na verdade
deixam o estado inalterado. Assim, por exemplo, p(6, 1|5, direita) = 1, p(7, 1|7, direita) = 1, e
p(10, r|5, direita) = 0 para todo r 2 R. Esta é uma tarefa episódica não descontada. A
recompensa é 1 em todas as transições até que o estado terminal seja alcançado. O estado
terminal está sombreado na figura (embora seja mostrado em dois lugares, é formalmente um
estado). A função de recompensa esperada é, portanto, r(s, a, s0 ) = 1 para todos os estados
s, s0 e ações a. Suponha que o agente siga a política aleatória equiprovável (todas as ações
são igualmente prováveis). O lado esquerdo da Figura 4.1 mostra a sequência de funções de
valor {vk} calculadas pela avaliação de política iterativa. A estimativa final é de fato vÿ, que
neste caso dá para cada estado a negação do número esperado de passos desse estado até o término.
Exercício 4.1 No Exemplo 4.1, se ÿ é a política aleatória equiprovável, qual é qÿ(11, down)?
O que é qÿ(7, para baixo)? ÿ
Exercício 4.2 No Exemplo 4.1, suponha que um novo estado 15 seja adicionado ao gridworld logo abaixo do
estado 13, e suas ações, esquerda, cima , direita e baixo, levem o agente aos estados 12, 13, 14 e 15,
respectivamente. Suponha que as transições dos estados originais permaneçam inalteradas.
O que é, então, vÿ(15) para a política aleatória equiprovável? Agora suponha que a dinâmica do estado 13
também seja alterada, de modo que a ação abaixo do estado 13 leve o agente para o novo estado 15. O que é
vÿ(15) para a política aleatória equiprovável neste caso? ÿ Exercício 4.3 Quais são as equações análogas a
(4.3), (4.4) e (4.5) para a função valor -ação qÿ e sua aproximação sucessiva por uma sequência de funções
q0, q1, q2,...? ÿ
4.2 Melhoria da Política

A nossa razão para calcular a função de valor de uma política é ajudar a encontrar políticas melhores.
Suponha que tenhamos determinado a função de valor vÿ para uma política determinística arbitrária ÿ. Para
alguns estados gostaríamos de saber se deveríamos ou não mudar a política para escolher deterministicamente
uma ação a 6= ÿ(s). Sabemos como é bom seguir a política atual a partir de s — isto é, vÿ(s) — mas seria
melhor ou pior mudar para a nova política? Uma maneira de responder a esta questão é considerar a seleção
de a in s e depois disso
4.2. Melhoria da política 77
Vk
vk para a
o Política
gananciosa
política aleatória
Política Aleatória política
gananciosa vk wrt Vk wrt vk
0,0 0,0 0,0 0,0
0,0 0,0 0,0 0,0 política

k=0 aleatória
0,0 0,0 0,0 0,0
0,0 0,0 0,0 0,0
-1,0 -1,0 -1,0 0,0
-1,0 -1,0 -1,0 -1,0

k=1
-1,0 -1,0 -1,0 -1,0
-1,0 -1,0 -1,0 0,0
0,0 -1,7 -2,0 -2,0
-1,7 -2,0 -2,0 -2,0

k=2
-2,0 -2,0 -2,0 -1,7
-2,0 -2,0 -1,7 0,0
0,0 -2,4 -2,9 -3,0

-2,4 -2,9 -3,0 -2,9
k=3
-2,9 -3,0 -2,9 -2,4
-3,0 -2,9 -2,4 0,0
0,0 -6,1 -8,4 -9,0
-6,1 -7,7 -8,4 -8,4 política

k = 10 ideal
-8,4 -8,4 -7,7 -6,1
-9,0 -8,4 -6,1 0,0
-14. -20. -22. 0,0
-14. -18. -20. -20.

k=!
-20. -20. -18. -14.
-22. -20. -14. 0,0
Figura 4.1: Convergência da avaliação iterativa de políticas num pequeno mundo em rede. A coluna da
esquerda é a sequência de aproximações da função valor-estado para a política aleatória (todas as ações são
igualmente prováveis). A coluna da direita é a sequência de políticas gananciosas correspondentes às
estimativas da função de valor (as setas são mostradas para todas as ações que atingem o máximo e os
números mostrados são arredondados para dois dígitos significativos). É garantido que a última política seja
apenas uma melhoria em relação à política aleatória, mas neste caso ela e todas as políticas após a terceira
iteração são ótimas.
seguindo a política existente, ÿ. O valor desta forma de comportamento é
qÿ(s, uma) =. E[Rt+1 + vÿ(St+1) | St =s, At =a] (4.6)
=X p(s0 , r|s, a) hr + vÿ(s0 ) eu .

s0,r
O critério principal é se isso é maior ou menor que vÿ(s). Se for maior - isto é, se for melhor
selecionar a uma vez em s e depois seguir ÿ do que seguir ÿ o tempo todo - então seria de esperar
que fosse melhor ainda selecionar a toda vez que s fosse encontrado , e que a nova política seria
de facto melhor em geral.
Que isto seja verdade é um caso especial de um resultado geral chamado de melhoria da política
teorema. Sejam ÿ e ÿ0 qualquer par de políticas determinísticas tais que, para todo s 2 S,
qÿ(s, ÿ0 (s)) vÿ(s). (4.7)
Então a política ÿ0 deve ser tão boa ou melhor que ÿ. Ou seja, deve obter retorno
esperado maior ou igual de todos os estados s 2 S:
vÿ0 (s) vÿ(s). (4.8)
Além disso, se existe uma desigualdade estrita de (4.7) em qualquer estado, então deve haver
uma desigualdade estrita de (4.8) nesse estado. Este resultado aplica-se em particular às duas
políticas que consideramos no parágrafo anterior, uma política determinística original, ÿ, e uma
, é idêntica a ÿ exceto que ÿ0 (s) = a 6= ÿ(s ). Obviamente, (4.7) vale para
política alterada, ÿ0 que
todos os estados exceto s. Assim, se qÿ(s, a) > vÿ(s), então a política alterada é de fato melhor
que ÿ.
A ideia por trás da prova do teorema da melhoria política é fácil de entender.
A partir de (4.7), continuamos expandindo o lado qÿ com (4.6) e reaplicando (4.7) até obtermos
vÿ0 (s):
vÿ(s) ÿ qÿ(s, ÿ0 (s))

= E[Rt+1 + vÿ(St+1) | St =s, Em =ÿ0 (s)] (por (4.6))
= Eÿ0[Rt+1 + vÿ(St+1) | St =s] ÿ
Eÿ0[Rt+1 + qÿ(St+1, ÿ0 (St+1)) | St =s] (por (4.7))
= Eÿ0[Rt+1 + Eÿ0[Rt+2 + vÿ(St+2)|St+1, At+1 =ÿ0 (St+1)] | St =s]
= Eÿ0 ÿ Rt+1 + Rt+2 + 2vÿ(St+2) St =s ÿ ÿ Eÿ0
ÿ Rt+1 + Rt+2 + 2Rt+3 + 3vÿ(St+3) St = ÿ
..
.
ÿ Eÿ0 ÿ Rt+1 + Rt+2 + 2Rt+3 + 3Rt+4 + ··· St =s ÿ = vÿ0 (s).
Até agora vimos como, dada uma política e a sua função de valor, podemos facilmente avaliar uma
mudança na política num único estado para uma acção específica. É uma extensão natural
4.2. Melhoria da política 79
considerar mudanças em todos os estados e em todas as ações possíveis, selecionando em cada estado
a ação que parece melhor de acordo com qÿ(s, a). Em outras palavras, para considerar a nova política
gananciosa,ÿ0 , dada por
ÿ0 (s) . = argmax qÿ(s, uma)

a
argmax E[Rt+1 + vÿ(St+1) | St =s, At =a] = (4.9)

a
= argmax X p(s0 , r|s, a) hr + vÿ(s0 ) eu ,

a
s0,r
onde argmaxa denota o valor de a no qual a expressão a seguir é maximizada (com empates
quebrados arbitrariamente). A política gananciosa toma a ação que parece melhor no curto
prazo – após um passo de antecipação – de acordo com vÿ. Por construção, a política
gananciosa satisfaz as condições do teorema de melhoria da política (4.7), pelo que
sabemos que é tão boa ou melhor que a política original. O processo de elaboração de uma
nova política que melhore uma política original, tornando-a gananciosa em relação à função
de valor da política original, é chamado de melhoria de política.
Suponha que a nova política gananciosa, ÿ0 , é tão boa, mas não melhor, que a política antiga ÿ. e de (4.9)
Então vÿ = vÿ0 , segue que para todo s 2 S:
vÿ0 (s) = máxa E[Rt+1 + vÿ0 (St+1) | St =s, At =a]
i . = máx X p(s0 , r|s, a) hr + vÿ0 (s0 )

s0,r
Mas isto é o mesmo que a equação de otimalidade de Bellman (4.1) e, portanto, vÿ0 deve ser vÿ, e tanto
ÿ quanto ÿ0 devem ser políticas ótimas. A melhoria da política deve, portanto, dar-nos uma política
estritamente melhor, excepto quando a política original já é óptima.
Até agora nesta secção considerámos o caso especial das políticas determinísticas.
No caso geral, uma política estocástica ÿ especifica probabilidades, ÿ(a|s), para realizar cada
ação, a, em cada estado, s. Não entraremos em detalhes, mas na verdade todas as ideias desta
secção estendem-se facilmente às políticas estocásticas. Em particular, o teorema da melhoria
da política cumpre o que foi afirmado para o caso estocástico. Além disso, se existirem ligações
nas etapas de melhoria das políticas, como (4.9) – isto é, se existirem várias ações nas quais o
máximo é alcançado – então, no caso estocástico, não precisamos de selecionar uma única ação
entre elas. Em vez disso, a cada ação maximizadora pode ser dada uma parte da probabilidade
de ser selecionada na nova política gananciosa. Qualquer esquema de repartição é permitido,
desde que todas as ações submáximas tenham probabilidade zero.
A última linha da Figura 4.1 mostra um exemplo de melhoria política para políticas estocásticas. Aqui a política
original, ÿ, é a política aleatória equiprovável, e a nova política, ÿ0 é gananciosa em relação a vÿ. A função de valor vÿ
, diagrama inferior esquerdo e o conjunto de possíveis ÿ0 é mostrado no diagrama inferior direito. Os
é mostrada no
estados com múltiplas setas no diagrama ÿ0 são aqueles em que diversas ações atingem o máximo em (4.9); qualquer
distribuição de probabilidade entre essas ações é permitida.
A função de valor de qualquer política desse tipo, vÿ0 (s), pode ser vista por inspeção como sendo 1, 2 ou
3 em todos os estados, s 2 S, enquanto vÿ(s) é no máximo 14. Assim, vÿ0 (s) vÿ(s), para todos
s 2 S, ilustrando a melhoria das políticas. Embora neste caso a nova política ÿ0 seja ótima, em geral apenas uma
melhoria é garantida.
4.3 Iteração de Política

Uma vez que uma política, ÿ, tenha sido melhorada usando vÿ para produzir uma política , podemos então
melhor, ÿ0 calcule vÿ0 e melhore-a novamente para produzir um ÿ00 ainda melhor. Podemos assim obter
uma sequência de políticas e funções de valor que melhoram monotonicamente:
E E E
E!···
EU EU EU
ÿ0 ! vÿ0 ! ÿ1 ! vÿ1 ! ÿ2 ! ÿÿ ! vÿ,
E
onde ! denota EU
uma avaliação política e ! denota uma melhoria política. Cada política tem a garantia de ser
uma melhoria estrita em relação à anterior (a menos que já seja ideal). Como um MDP finito tem apenas
um número finito de políticas, este processo deve convergir para uma política ótima e uma função de valor
ótima em um número finito de iterações.
Esta forma de encontrar uma política ideal é chamada de iteração de política. Um algoritmo
completo é fornecido na caixa abaixo. Observe que cada avaliação de política, em si um cálculo
iterativo, é iniciada com a função de valor da política anterior. Isto normalmente resulta num
grande aumento na velocidade de convergência da avaliação de políticas (presumivelmente
porque a função de valor muda pouco de uma política para outra).
Iteração de política (usando avaliação de política iterativa) para estimar ÿ ÿ ÿÿ
1. Inicialização V
(s) 2 R e ÿ(s) 2 A(s) arbitrariamente para todos s 2 S
2. Ciclo de avaliação de
políticas:
0
Loop para cada s 2 S: v
V (s)
V (s) P s0,r max(, p(s0 , r|s, ÿ(s))ÿ r + V (s0 ) ÿ
|v V (s)|) até < ÿ (um
pequeno número positivo que determina a precisão da estimativa)
3. Melhoria da política política

estável verdadeiro Para
cada s 2 S: ação
antiga ÿ(s) ÿ(s)
argmaxa P Se ação s0,r p(s0 , r|s, a) ÿ r + V (s0 ) ÿ
antiga 6= ÿ(s), então política estável falso Se política estável,
então parar e retornar V ÿ vÿ e ÿ ÿ ÿÿ; senão vá para 2
4.3. Iteração de Política 81
Exemplo 4.2: Jack's Car Rental Jack gerencia duas localidades para um carro nacional
Companhia de aluguel. Todos os dias, um certo número de clientes chega a cada local para alugar carros.
Se Jack tiver um carro disponível, ele o aluga e recebe US$ 10 da empresa nacional.
Se ele estiver sem carros naquele local, o negócio estará perdido. Os carros ficam disponíveis para
alugando no dia seguinte ao seu retorno. Para ajudar a garantir que os carros estejam disponíveis onde
eles são necessários, Jack pode movê-los entre os dois locais durante a noite, a um custo de
$ 2 por carro movido. Assumimos que o número de carros solicitados e devolvidos em cada
localização são variáveis aleatórias de Poisson, o que significa que a probabilidade de o número ser
n
n não! e, onde está o número esperado. Suponha que seja 3 e 4 para solicitações de aluguel em
são o primeiro e o segundo locais e 3 e 2 para retornos. Para simplificar um pouco o problema,
assumimos que não pode haver mais de 20 carros em cada local (quaisquer carros adicionais
são devolvidos à empresa nacional, e assim desaparecem do problema) e um
no máximo cinco carros podem ser transportados de um local para outro em uma noite. Nós levamos
a taxa de desconto seja = 0,9 e formule isso como um MDP finito contínuo, onde
os intervalos de tempo são dias, o estado é o número de carros em cada local no final de
o dia, e as ações são o número líquido de carros movimentados entre os dois locais
durante a noite. A Figura 4.2 mostra a sequência de políticas encontradas pela iteração de política começando
da política que nunca move nenhum carro.
"0
ÿ0 "1
ÿ1 ÿ2
"2
5 5
4
3
21
4
32
0 0
4 1
32
1
0
!1 !1
!2 !2
!3 -4 !3 !4
02
ÿ3
"3 ÿ4
"4
V4
vÿ4
5 5
4 4
32
32 1
1
612
0 0 20
localização
420
irop
#l
n
0
acC
a
primeiro
oãçaarziseirlm
no
!1 !1 #Cars na
0
!2 !2 segunda
0
localização20
!3 !4 !3 !4 #Carros
0 20
#Cars na segunda localização
Figura 4.2: A sequência de políticas encontradas pela iteração de políticas no problema do aluguel de automóveis de Jack,
e a função de valor de estado final. Os primeiros cinco diagramas mostram, para cada número de carros em
cada local no final do dia, o número de carros a serem movidos do primeiro local para
o segundo (os números negativos indicam transferências do segundo local para o primeiro). Cada
a política sucessiva é uma melhoria estrita em relação à política anterior, e a última política é ótima.
A iteração da política muitas vezes converge em um número surpreendentemente pequeno de

iterações, como ilustra o exemplo do aluguel de carro de Jack e também é ilustrado pelo exemplo
da Figura 4.1. O diagrama inferior esquerdo da Figura 4.1 mostra a função de valor para a política
aleatória equiprovável, e o diagrama inferior direito mostra uma política gananciosa para esta função
de valor. O teorema da melhoria da política assegura-nos que estas políticas são melhores do que a
política aleatória original . Neste caso, contudo, estas políticas não são apenas melhores, mas
óptimas, prosseguindo para os estados terminais no número mínimo de passos. Neste exemplo, a
iteração da política encontraria a política ideal após apenas uma iteração.
Exercício 4.4 O algoritmo de iteração de políticas na página 80 tem um erro sutil: ele pode
nunca terminar se a política alternar continuamente entre duas ou mais políticas que sejam
igualmente boas. Isto é bom para a pedagogia, mas não para uso real. Modifique o
pseudocódigo para que a convergência seja garantida. ÿ Exercício 4.5 Como seria definida a
iteração da política para valores de ação? Forneça um algoritmo completo para calcular qÿ,
análogo ao da página 80 para calcular vÿ. Por favor, preste atenção especial a este exercício,
porque as ideias envolvidas serão utilizadas ao longo do restante do livro. ÿ
Exercício 4.6 Suponha que você esteja restrito a considerar apenas políticas que sejam “-soft”, o
que significa que a probabilidade de selecionar cada ação em cada estado, s, é pelo menos “/|A(s)|.
Descreva qualitativamente as mudanças que seriam necessárias em cada uma das etapas 3, 2 e 1, nessa
ordem, do algoritmo de iteração de política para vÿ na página 80. ÿ Exercício 4.7 (programação) Escreva um
programa para iteração de política e repita -resolva o problema do aluguel de carro de Jack com as seguintes
alterações. Um dos funcionários de Jack no primeiro local pega um ônibus para casa todas as noites e mora
perto do segundo local. Ela fica feliz em transportar um carro para o segundo local gratuitamente. Cada carro
adicional ainda custa US$ 2, assim como todos os carros movidos na outra direção. Além disso, Jack tem
vagas de estacionamento limitadas em cada local.
Se mais de 10 carros forem mantidos durante a noite em um local (após qualquer movimentação de carros),
então um custo adicional de US$ 4 deverá ser incorrido para usar um segundo estacionamento
(independentemente de quantos carros forem mantidos lá). Esses tipos de não-linearidades e dinâmicas
arbitrárias ocorrem frequentemente em problemas reais e não podem ser facilmente tratadas por métodos de
otimização que não sejam a programação dinâmica. Para verificar seu programa, primeiro replique os
resultados fornecidos para o problema original. ÿ
4.4 Iteração de Valor
Uma desvantagem da iteração de políticas é que cada uma de suas iterações envolve avaliação
de políticas, que pode ser uma computação iterativa prolongada que requer múltiplas varreduras
no conjunto de estados. Se a avaliação da política for feita iterativamente, então a convergência
exatamente para vÿ ocorre apenas no limite. Devemos esperar pela convergência exata ou
podemos parar antes disso? O exemplo da Figura 4.1 sugere certamente que poderá ser possível
truncar a avaliação de políticas. Nesse exemplo, as iterações de avaliação de políticas além das
três primeiras não têm efeito sobre a política gananciosa correspondente.
Na verdade, a etapa de avaliação política da iteração política pode ser truncada de várias
maneiras sem perder as garantias de convergência da iteração política. Um especial importante
4.4. Iteração de valor 83
O caso é quando a avaliação da política é interrompida após apenas uma varredura (uma atualização de cada estado).
Este algoritmo é chamado de iteração de valor. Pode ser escrito como uma operação de atualização
particularmente simples que combina as etapas de melhoria da política e de avaliação truncada da política:
vk+1(s) . = máxa E[Rt+1 + vk(St+1) | St =s, At =a] p(s0 , r|s, a)
hr + vk(s0 ) i , = maxa X (4.10)

s0,r
para todo s 2 S. Para v0 arbitrário, pode-se mostrar que a sequência {vk} converge para vÿ
sob as mesmas condições que garantem a existência de vÿ.
Outra forma de entender a iteração de valor é por referência à equação de otimalidade de Bellman (4.1).
Observe que a iteração de valor é obtida simplesmente transformando a equação de otimalidade de
Bellman em uma regra de atualização. Observe também como a atualização da iteração de valor é idêntica
à atualização da avaliação da política (4.5), exceto que exige que o máximo seja tomado em todas as
ações. Outra forma de ver esta estreita relação é comparar os diagramas de backup para estes algoritmos
na página 59 (avaliação de políticas) e à esquerda da Figura 3.4 (iteração de valores). Essas duas são as
operações naturais de backup para computar vÿ e vÿ.
Finalmente, vamos considerar como termina a iteração de valor. Assim como a avaliação de políticas,
a iteração de valor requer formalmente um número infinito de iterações para convergir exatamente para
vÿ. Na prática, paramos quando a função de valor muda apenas uma pequena quantidade em uma varredura.
A caixa abaixo mostra um algoritmo completo com este tipo de condição de terminação.
Iteração de valor, para estimar ÿ ÿ ÿÿ
Parâmetro do algoritmo: um pequeno limite ÿ > 0 determinando a precisão da estimativa

Ciclo: |
0
| Loop para cada s 2 S: | v
V (s) |
V(s)máxa P | até < s0,r p(s0 , r|s, a) ÿ r + V (s0 ) ÿ
máx(, |v V(s)|)
ÿ
Produza uma política determinística, ÿ ÿ ÿÿ, tal que p(s0 ,

ÿ(s) = argmáxima P s0,r r|s, a) ÿ r + V (s0 ) ÿ
A iteração de valor combina efetivamente, em cada uma de suas varreduras, uma varredura de avaliação
de políticas e uma varredura de melhoria de políticas. Uma convergência mais rápida é muitas vezes
alcançada através da interposição de múltiplas varreduras de avaliação de políticas entre cada varredura
de melhoria de políticas. Em geral, toda a classe de algoritmos de iteração de políticas truncadas pode ser
pensada como sequências de varreduras, algumas das quais usam atualizações de avaliação de políticas
e outras usam atualizações de iteração de valores. Porque a operação máxima em (4.10) é a única diferença entre
essas atualizações, isso significa apenas que a operação máxima é adicionada a algumas varreduras de
avaliação de políticas. Todos esses algoritmos convergem para uma política ótima para MDPs finitos com
desconto.
Exemplo 4.3: Problema do Jogador Um jogador tem a oportunidade de fazer apostas nos
resultados de uma sequência de lançamentos de moeda. Se a moeda der cara, ele ganha
tantos dólares quantos apostou naquele lançamento; se der coroa, ele perde a aposta. O
jogo termina quando o jogador ganha ao atingir sua meta de US$ 100 ou perde por ficar sem dinheiro.
Em cada jogada, o jogador deve decidir que parcela do seu capital apostar, em números inteiros
de dólares. Este problema pode ser formulado como um MDP finito, episódico e não descontado.
O estado é o capital do jogador, s 2 {1,
2,..., 99} e as ações são apostas, a 2 {0, 1
1,..., min(s, 100 s)}. A recompensa é Função de

0,8 valor final
zero em todas as transições, exceto
naquelas em que o jogador atinge seu 0,6
varrer 32
objetivo, quando é +1. Estimativas de valor
A função valor-estado fornece então a 0,4
probabilidade de vitória em cada 0,2 varrer 1

estado. Uma política é um mapeamento varrer 2
varrer 3
dos níveis de capital para os 0
1 25 50 75 99
interesses. A política ótima maximiza
Capital
a probabilidade de atingir a meta.
Deixe ph denotar a probabilidade de a
moeda dar cara. Se ph for conhecido, 50
então todo o problema é conhecido e 40
pode ser resolvido, por exemplo, por iteração de valores.

Política
30
20
A Figura 4.3 mostra a mudança na final (aposta)
10
função de valor ao longo de varreduras 1
sucessivas de iteração de valor e a 1 25 50 75 99
política final encontrada, para o caso de Capital
ph = 0,4. Esta política é ótima, mas não

Figura 4.3: A solução para o problema do jogador para
única. Na verdade, existe toda uma
ph = 0,4. O gráfico superior mostra a função de valor
família de políticas óptimas, todas
encontrada por varreduras sucessivas de iteração de
correspondendo a empates para a valor. O gráfico inferior mostra a política final.
selecção da acção argmax em relação à função de valor óptimo.
Você consegue adivinhar como é a família
inteira ?
Exercício 4.8 Porque é que a política óptima para o problema do jogador tem uma forma tão curiosa?
Em particular, para um capital de 50 aposta tudo numa única jogada, mas para um capital de 51 não o
faz . Por que esta é uma boa política? ÿ
Exercício 4.9 (programação) Implemente a iteração de valores para o problema do jogador e

resolva-o para ph = 0,25 e ph = 0,55. Na programação, você pode achar conveniente
introduzir dois estados fictícios correspondentes à terminação com 0 e 100 maiúsculos,
dando-lhes valores de 0 e 1 respectivamente. Mostre seus resultados graficamente, como na Figura 4.3.
4.5. Programação Dinâmica Assíncrona 85
Seus resultados são estáveis como ÿ! 0? ÿ
Exercício 4.10 Qual é o análogo da atualização da iteração de valor (4.10) para valores de ação, qk+1(s, a)? ÿ
4.5 Programação Dinâmica Assíncrona

Uma grande desvantagem dos métodos DP que discutimos até agora é que eles envolvem
operações sobre todo o conjunto de estados do MDP, ou seja, exigem varreduras do conjunto de
estados. Se o conjunto de estados for muito grande, mesmo uma única varredura pode ser proibitivamente cara.
Por exemplo, o jogo de gamão tem mais de 1.020 estados. Mesmo que pudéssemos realizar a
atualização da iteração de valor em um milhão de estados por segundo, levaria mais de mil anos
para completar uma única varredura.
Algoritmos DP assíncronos são algoritmos DP iterativos in-loco que não são organizados em
termos de varreduras sistemáticas do conjunto de estados. Esses algoritmos atualizam os valores dos
estados em qualquer ordem, usando quaisquer valores de outros estados que estejam disponíveis.
Os valores de alguns estados podem ser atualizados diversas vezes antes que os valores de outros
sejam atualizados uma vez. Para convergir corretamente, entretanto, um algoritmo assíncrono deve
continuar a atualizar os valores de todos os estados: ele não pode ignorar nenhum estado após algum
ponto do cálculo. Algoritmos DP assíncronos permitem grande flexibilidade na seleção de estados a
serem atualizados.
Por exemplo, uma versão de iteração de valor assíncrona atualiza o valor, no local, de apenas
um estado, sk, em cada etapa, k, usando a atualização de iteração de valor (4.10). Se 0 ÿ < 1, a
convergência assintótica para vÿ é garantida dado apenas que todos os estados ocorrem na
sequência {sk} um número infinito de vezes (a sequência pode até ser estocástica). (No caso
episódico não descontado, é possível que existam algumas ordenações de atualizações que não
resultem em convergência, mas é relativamente fácil evitá-las.) Da mesma forma, é possível
misturar avaliações de políticas e atualizações de iteração de valores para produzir um tipo de
iteração de política truncada assíncrona. Embora os detalhes deste e de outros algoritmos DP
mais incomuns estejam além do escopo deste livro, está claro que algumas atualizações diferentes
formam blocos de construção que podem ser usados de forma flexível em uma ampla variedade
de algoritmos DP sem varredura.
É claro que evitar varreduras não significa necessariamente que podemos sair impunes com menos computação.
Significa apenas que um algoritmo não precisa ficar preso a uma varredura desesperadamente longa antes de
poder progredir na melhoria de uma política. Podemos tentar aproveitar essa flexibilidade selecionando os estados
aos quais aplicamos as atualizações, de modo a melhorar a taxa de progresso do algoritmo. Podemos tentar
ordenar as atualizações para permitir que as informações de valor se propaguem de estado para estado de maneira
eficiente. Alguns estados podem não precisar que seus valores sejam atualizados com tanta frequência quanto
outros. Poderíamos até tentar ignorar completamente a atualização de alguns estados se eles não forem relevantes
para o comportamento ideal. Algumas ideias para fazer isso são discutidas no Capítulo 8.
Algoritmos assíncronos também facilitam a combinação de computação com interação em tempo

real. Para resolver um determinado MDP, podemos executar um algoritmo DP iterativo ao mesmo
tempo em que um agente está realmente experimentando o MDP. A experiência do agente pode ser usada
para determinar os estados aos quais o algoritmo DP aplica suas atualizações. Ao mesmo tempo, as
informações mais recentes sobre valores e políticas do algoritmo DP podem orientar a tomada de
decisão do agente. Por exemplo, podemos aplicar atualizações aos estados à medida que o agente os visita.
Isto torna possível focar as atualizações do algoritmo DP nas partes do conjunto de estados que são
mais relevantes para o agente. Esse tipo de foco é um tema repetido na aprendizagem por reforço.
4.6 Iteração de Política Generalizada

A iteração da política consiste em dois processos simultâneos e interativos, um que torna a função de
valor consistente com a política atual (avaliação da política) e o outro que torna a política gananciosa
em relação à função de valor atual (melhoria da política). Na iteração de políticas, estes dois processos
alternam-se, cada um sendo concluído antes do outro começar, mas isto não é realmente necessário.
Na iteração de valor, por exemplo, apenas uma única iteração de avaliação de política é realizada
entre cada melhoria de política. Nos métodos DP assíncronos, os processos de avaliação e melhoria
são intercalados em uma granulação ainda mais refinada.
Em alguns casos, um único estado é atualizado em um processo antes de retornar para o outro.
Desde que ambos os processos continuem a actualizar todos os estados, o resultado final é
normalmente o mesmo – convergência para a função de valor óptima e uma política óptima.
Usamos o termo iteração generalizada de políticas (GPI) para
nos referirmos à ideia geral de permitir a interação dos processos
avaliação
de avaliação e melhoria de políticas, independentemente da V vÿ
granularidade e de outros detalhes dos dois processos. Quase
todos os métodos de aprendizagem por reforço são bem descritos ÿ V
como GPI. Ou seja, todos têm políticas e funções de valor
ÿ ganancioso(V )
identificáveis, sendo a política sempre melhorada no que diz
respeito à função de valor e a função de valor sempre orientada
melhoria
para a função de valor da política, conforme sugerido pelo
diagrama à direita. Se tanto o processo de avaliação como o
processo de melhoria se estabilizarem, isto é, não produzirem
mais mudanças, então a função de valor e a política deverão ser
ótimas. A função de valor estabiliza apenas quando é consistente ÿÿ vÿ
com a política actual, e a política estabiliza apenas quando é gananciosa em relação à função de valor actu
Assim, ambos os processos estabilizam apenas quando se encontra uma política que é gananciosa
no que diz respeito à sua própria função de avaliação. Isto implica que a equação de otimalidade de
Bellman (4.1) é válida e, portanto, que a política e a função de valor são ótimas.
Os processos de avaliação e melhoria no GPI podem ser vistos como concorrentes e cooperantes.
Eles competem no sentido de que agem em direções opostas. Tornar a política gananciosa em relação
à função de valor normalmente torna a função de valor incorreta para a política alterada, e tornar a
função de valor consistente com a política normalmente faz com que essa política deixe de ser
gananciosa. No longo prazo, contudo, estes dois processos interagem para encontrar uma única
solução conjunta: a função de valor óptima e uma política óptima.
4.7. Eciência da Programação Dinâmica 87
Poderíamos também pensar na interação entre os

processos de avaliação e melhoria no GPI em termos de duas v
restrições ou objetivos – por exemplo, como duas linhas no = vÿ
espaço bidimensional, conforme sugerido pelo diagrama à
direita. Embora a geometria real seja muito mais complicada v, ÿ
vÿ, ÿÿ
do que isto, o diagrama sugere o que acontece no caso real.
ÿ = ganancioso(v)
Cada processo direciona a função ou política de valor em
direção a uma das linhas que representa uma solução para
um dos dois objetivos. Os objetivos interagem porque as duas linhas não são ortogonais. Dirigir diretamente
em direção a um objetivo causa algum movimento para longe do outro objetivo. Inevitavelmente, no entanto,
o processo conjunto aproxima-se do objectivo global de optimização. As setas neste diagrama correspondem
ao comportamento da iteração de políticas, na medida em que cada uma leva o sistema até atingir
completamente um dos dois objetivos. No GPI também é possível dar passos menores e incompletos em
direção a cada objetivo. Em ambos os casos, os dois processos juntos alcançam o objetivo geral de
otimização, embora nenhum deles esteja tentando alcançá-lo diretamente.
4.7 Eciência da Programação Dinâmica

O DP pode não ser prático para problemas muito grandes, mas comparado com outros métodos
para resolver MDPs, os métodos DP são, na verdade, bastante eficientes. Se ignorarmos alguns
detalhes técnicos, então o tempo (no pior caso) que os métodos DP levam para encontrar uma
política ótima é polinomial no número de estados e ações. Se n e k denotam o número de estados
e ações, isso significa que um método DP requer um número de operações computacionais que é
menor do que alguma função polinomial de n e k. É garantido que um método DP encontre uma
política ótima em tempo polinomial, mesmo que o número total de políticas (determinísticas) seja kn.
Neste sentido, a DP é exponencialmente mais rápida do que qualquer pesquisa direta no espaço político
poderia ser, porque a pesquisa direta teria de examinar exaustivamente cada política para fornecer a mesma
garantia. Os métodos de programação linear também podem ser usados para resolver MDPs e, em alguns
casos, as suas garantias de convergência no pior caso são melhores do que as dos métodos DP.
Mas os métodos de programação linear tornam-se impraticáveis num número muito menor de estados do
que os métodos DP (por um factor de cerca de 100). Para os problemas maiores, apenas os métodos DP
são viáveis.
Às vezes, pensa-se que o DP tem aplicabilidade limitada devido à maldição da dimensionalidade , ao
facto de o número de estados muitas vezes crescer exponencialmente com o número de variáveis de estado.
Grandes conjuntos de estados criam dificuldades, mas estas são dificuldades inerentes ao problema, não ao
DP como método de solução. Na verdade, o DP é comparativamente mais adequado para lidar com grandes
espaços de estados do que métodos concorrentes, como busca direta e programação linear.
Na prática, os métodos DP podem ser usados com os computadores atuais para resolver MDPs com
milhões de estados. Tanto a iteração de políticas como a iteração de valores são amplamente utilizadas e
não está claro qual delas é melhor em geral. Na prática, estes métodos geralmente convergem muito mais
rapidamente do que os tempos de execução teóricos do pior caso, particularmente se forem iniciados
com boas funções ou políticas de valor inicial.

Em problemas com grandes espaços de estado, os métodos DP assíncronos são frequentemente
preferidos. Completar pelo menos uma varredura de um método síncrono requer computação e
memória para cada estado. Para alguns problemas, mesmo tanta memória e computação são
impraticáveis, mas o problema ainda é potencialmente solucionável porque relativamente poucos
estados ocorrem ao longo de trajetórias de solução ótimas. Métodos assíncronos e outras variações
de GPI podem ser aplicados nesses casos e podem encontrar políticas boas ou ideais muito mais
rapidamente do que os métodos síncronos.
4.8 Resumo
Neste capítulo nos familiarizamos com as ideias e algoritmos básicos da programação dinâmica
relacionados à solução de MDPs finitos. A avaliação de políticas refere-se ao cálculo (normalmente )
iterativo das funções de valor para uma determinada política. A melhoria da política refere-se ao cálculo
de uma política melhorada, dada a função de valor dessa política.
Juntando esses dois cálculos, obtemos a iteração de política e a iteração de valor, os dois métodos de DP
mais populares. Qualquer um deles pode ser usado para calcular de forma confiável políticas ótimas e
funções de valor para MDPs finitos, dado o conhecimento completo do MDP.
Os métodos DP clássicos operam em varreduras através do conjunto de estados, realizando uma

operação de atualização esperada em cada estado. Cada uma dessas operações atualiza o valor de um
estado com base nos valores de todos os possíveis estados sucessores e nas suas probabilidades de ocorrência.
As atualizações esperadas estão intimamente relacionadas às equações de Bellman: elas são pouco mais
do que equações transformadas em declarações de atribuição. Quando as atualizações não resultam mais
em alterações de valor, ocorreu convergência para valores que satisfazem a equação de Bellman
correspondente. Assim como existem quatro funções de valor primário (vÿ, vÿ, qÿ e qÿ), existem quatro
equações de Bellman correspondentes e quatro atualizações esperadas correspondentes.
Uma visão intuitiva do funcionamento das atualizações DP é fornecida por seus diagramas de backup.
A compreensão dos métodos de DP e, de fato, de quase todos os métodos de aprendizagem por
reforço, pode ser obtida vendo-os como iteração de política generalizada (GPI). GPI é a ideia geral de dois
processos interativos que giram em torno de uma política aproximada e de uma função de valor
aproximada. Um processo considera a política como dada e realiza alguma forma de avaliação da política,
alterando a função de valor para ser mais parecida com a verdadeira função de valor da política. O outro
processo toma a função de valor como dada e realiza alguma forma de melhoria da política, alterando a
política para torná-la melhor, assumindo que a função de valor é a sua função de valor. Embora cada
processo mude a base do outro, no geral eles trabalham em conjunto para encontrar uma solução conjunta:
uma função política e de valor que permanece inalterada por qualquer um dos processos e,
consequentemente, é óptima. Em alguns casos, pode-se provar que o GPI converge, principalmente para
os métodos clássicos de DP que apresentamos neste capítulo. Noutros casos, a convergência não foi
comprovada, mas ainda assim a ideia do GPI melhora a nossa compreensão dos métodos.
Não é necessário executar métodos DP em varreduras completas pelo conjunto de estados. Os

métodos DP assíncronos são métodos iterativos in-loco que atualizam estados em uma ordem arbitrária,
talvez determinada estocasticamente e usando informações desatualizadas.
Muitos desses métodos podem ser vistos como formas refinadas de GPI.
Finalmente, notamos uma última propriedade especial dos métodos DP. Todos eles atualizam
estimativas dos valores dos estados com base nas estimativas dos valores dos estados sucessores. Ou
seja, atualizam as estimativas com base em outras estimativas. Chamamos essa ideia geral de bootstrapping.
Muitos métodos de aprendizagem por reforço realizam bootstrapping, mesmo aqueles que não
requerem, como o DP exige, um modelo completo e preciso do ambiente. No próximo capítulo,
exploraremos métodos de aprendizagem por reforço que não requerem um modelo e não necessitam
de bootstrap. No capítulo seguinte, exploramos métodos que não requerem um modelo , mas fazem
bootstrap. Estas características e propriedades principais são separáveis, mas podem ser misturadas
em combinações interessantes.

O termo “programação dinâmica” se deve a Bellman (1957a), que mostrou como esses métodos
poderiam ser aplicados a uma ampla gama de problemas. Tratamentos extensivos de DP podem ser
encontrados em muitos textos, incluindo Bertsekas (2005, 2012), Bertsekas e Tsitsiklis (1996), Dreyfus
e Law (1977), Ross (1983), White (1969) e Whittle (1982, 1983) . Nosso interesse no DP restringe-se
ao seu uso na resolução de MDPs, mas o DP também se aplica a outros tipos de problemas. Kumar e
Kanal (1988) fornecem uma visão mais geral do DP.
Até onde sabemos, a primeira conexão entre DP e aprendizagem por reforço foi feita por
Minsky (1961) ao comentar o jogador de damas de Samuel. Numa nota de rodapé, Minsky
mencionou que é possível aplicar DP a problemas nos quais o processo de apoio de Samuel
pode ser tratado de forma analítica fechada. Esta observação pode ter induzido em erro os
investigadores da inteligência artificial, fazendo-os acreditar que a PD estava restrita a
problemas analiticamente tratáveis e, portanto, em grande parte irrelevantes para a inteligência artificial.
Andreae (1969b) mencionou DP no contexto da aprendizagem por reforço, especificamente
iteração de políticas, embora não tenha feito conexões específicas entre DP e algoritmos de
aprendizagem. Werbos (1977) sugeriu uma abordagem para aproximar DP chamada
“programação dinâmica heurística ” que enfatiza métodos gradiente-descendentes para
problemas de estado contínuo (Werbos, 1982, 1987, 1988, 1989, 1992). Esses métodos estão
intimamente relacionados aos algoritmos de aprendizagem por reforço que discutimos neste
livro. Watkins (1989) foi explícito ao conectar a aprendizagem por reforço ao DP, caracterizando
uma classe de métodos de aprendizagem por reforço como “programação dinâmica incremental”.
4.1–4 Estas seções descrevem algoritmos DP bem estabelecidos que são abordados em qualquer
uma das referências gerais de DP citadas acima. O teorema de melhoria de políticas e o
algoritmo de iteração de políticas são devidos a Bellman (1957a) e Howard (1960). A nossa
apresentação foi influenciada pela visão local de melhoria das políticas adoptada por
Watkins (1989). Nossa discussão sobre iteração de valor como uma forma de iteração de
política truncada é baseada na abordagem de Puterman e Shin (1978), que apresentaram
uma classe de algoritmos chamada iteração de política modificada, que inclui iteração de
política e iteração de valor como casos especiais. Uma análise que mostra como a iteração
de valor pode ser feita para encontrar uma política ótima em tempo finito é fornecida por Bertsekas (1987).
A avaliação iterativa de políticas é um exemplo de uma aproximação sucessiva clássica
algoritmo para resolver um sistema de equações lineares. A versão do algoritmo que usa
duas matrizes, uma contendo os valores antigos enquanto a outra é atualizada, é
frequentemente chamada de algoritmo do estilo Jacobi, após o uso clássico desse método por Jacobi.
Às vezes também é chamado de algoritmo síncrono porque o efeito é como se todos os valores
fossem atualizados ao mesmo tempo. A segunda matriz é necessária para simular essa computação
paralela sequencialmente. A versão local do algoritmo é frequentemente chamada de algoritmo do
estilo Gauss-Seidel, em homenagem ao algoritmo clássico de Gauss-Seidel para resolver sistemas
de equações lineares. Além da avaliação iterativa de políticas, outros algoritmos DP podem ser
implementados nessas diferentes versões.
Bertsekas e Tsitsiklis (1989) fornecem uma excelente cobertura dessas variações e de
suas diferenças de desempenho.
4,5 Os algoritmos DP assíncronos são devidos a Bertsekas (1982, 1983), que também os chamou de
algoritmos DP distribuídos. A motivação original para o DP assíncrono foi a sua implementação em
um sistema multiprocessador com atrasos de comunicação entre processadores e sem relógio de
sincronização global. Esses algoritmos são extensivamente discutidos por Bertsekas e Tsitsiklis
(1989). Algoritmos DP estilo Jacobi e estilo Gauss-Seidel são casos especiais da versão assíncrona.
Williams e Baird (1990) apresentaram algoritmos DP que são assíncronos em um nível mais
refinado do que aqueles que discutimos: as próprias operações de atualização são divididas em
etapas que podem ser executadas de forma assíncrona.
4.7 Esta seção, escrita com a ajuda de Michael Littman, é baseada em Littman, Dean e Kaelbling
(1995). A frase “maldição da dimensionalidade” é devida a Bellman (1957a).
O trabalho fundamental sobre a abordagem de programação linear para aprendizagem

por reforço foi realizado por Daniela de Farias (de Farias, 2002; de Farias e Van Roy, 2003).
capítulo 5
Métodos de Monte Carlo
Neste capítulo consideramos nossos primeiros métodos de aprendizagem para estimar funções de valor e
descobrir políticas ótimas. Ao contrário do capítulo anterior, aqui não assumimos um conhecimento completo do
meio ambiente. Os métodos de Monte Carlo requerem apenas experiência – exemplos de sequências de estados,
ações e recompensas de interação real ou simulada com um ambiente. Aprender com a experiência real é
impressionante porque não requer conhecimento prévio da dinâmica do ambiente, mas ainda assim pode atingir
um comportamento ideal. Aprender com a experiência simulada também é poderoso. Embora seja necessário um
modelo, o modelo precisa apenas gerar transições de amostra, não as distribuições de probabilidade completas
de todas as transições possíveis que são necessárias para a programação dinâmica (DP). Em muitos casos
surpreendentes, é fácil gerar experiências amostradas de acordo com as distribuições de probabilidade desejadas,
mas é inviável obter as distribuições de forma explícita.
Os métodos de Monte Carlo são formas de resolver o problema de aprendizagem por reforço com base na
média dos retornos das amostras. Para garantir que retornos bem definidos estejam disponíveis, definimos aqui
métodos de Monte Carlo apenas para tarefas episódicas. Isto é, assumimos que a experiência é dividida em
episódios e que todos os episódios eventualmente terminam, independentemente das ações selecionadas.
Somente após a conclusão de um episódio as estimativas de valor e as políticas são alteradas.
Os métodos de Monte Carlo podem, portanto, ser incrementais no sentido episódio a episódio, mas não
no sentido passo a passo (online). O termo “Monte Carlo” é frequentemente usado de forma mais ampla
para qualquer método de estimativa cuja operação envolva um componente aleatório significativo. Aqui
nós o usamos especificamente para métodos baseados na média dos retornos completos (em oposição
aos métodos que aprendem com os retornos parciais, considerados no próximo capítulo).
Os métodos de Monte Carlo mostram amostras e retornos médios para cada par estado-ação, de forma muito
semelhante aos métodos bandidos que exploramos no Capítulo 2, amostra e recompensas médias para cada ação.
A principal diferença é que agora existem vários estados, cada um agindo como um problema de
bandido diferente (como uma busca associativa ou bandido contextual) e os diferentes problemas
de bandido estão inter-relacionados. Ou seja, o retorno após a realização de uma ação em um
estado depende das ações realizadas em estados posteriores no mesmo episódio. Como todas as
seleções de ação estão em processo de aprendizagem, o problema torna-se não estacionário do
ponto de vista do estado anterior.
91
92 Capítulo 5: Métodos de Monte Carlo
Para lidar com a não estacionariedade, adaptamos a ideia de iteração de política geral (GPI)
desenvolvida no Capítulo 4 para DP. Enquanto lá calculamos funções de valor a partir do
conhecimento do MDP, aqui aprendemos funções de valor a partir de retornos de amostra com o
MDP. As funções de valor e as políticas correspondentes ainda interagem para atingir a otimização
essencialmente da mesma maneira (GPI). Tal como no capítulo DP, primeiro consideramos o
problema de previsão (o cálculo de vÿ e qÿ para uma política arbitrária fixa ÿ), depois a melhoria da
política e, finalmente, o problema de controlo e a sua solução por GPI. Cada uma destas ideias
retiradas da DP é estendida ao caso de Monte Carlo, no qual apenas uma experiência exemplar está disponível.
5.1 Previsão de Monte Carlo

Começamos por considerar métodos de Monte Carlo para aprender a função valor-estado para uma
determinada política. Lembre-se de que o valor de um estado é o retorno esperado – recompensa futura
cumulativa esperada com desconto – a partir desse estado. Uma forma óbvia de estimá-lo a partir da
experiência é simplesmente calcular a média dos retornos observados após visitas a esse estado. À medida
que mais retornos são observados, a média deve convergir para o valor esperado. Esta ideia está subjacente
a todos os métodos de Monte Carlo.
Em particular, suponhamos que desejamos estimar vÿ(s), o valor de um estado s sob a política
ÿ, dado um conjunto de episódios obtidos seguindo ÿ e passando por s. Cada ocorrência do estado
s em um episódio é chamada de visita a s. É claro que s podem ser visitados diversas vezes no
mesmo episódio; chamemos a primeira vez que ele é visitado em um episódio de primeira visita a
s. O método MC de primeira visita estima vÿ(s) como a média dos retornos após as primeiras visitas
a s, enquanto o método MC de cada visita calcula a média dos retornos após todas as visitas a s.
Esses dois métodos de Monte Carlo (MC) são muito semelhantes, mas possuem propriedades
teóricas ligeiramente diferentes. O CM de primeira visita tem sido mais amplamente estudado,
remontando à década de 1940, e é o foco deste capítulo. O MC de cada visita estende-se mais
naturalmente aos traços de aproximação e elegibilidade de funções, conforme discutido nos
Capítulos 9 e 12. O MC da primeira visita é mostrado em forma processual na caixa. Cada visita
MC seria a mesma, exceto sem a verificação de St ter ocorrido no início do episódio.
Previsão MC na primeira visita, para estimar V ÿ vÿ
Entrada: uma política ÿ a ser avaliada

Inicializar:
V (s) 2 R, arbitrariamente, para todo s 2 S
Retorna(m) uma lista vazia, para todos s 2 S
Loop eterno (para cada

episódio): Gere um episódio a seguir ÿ: S0, A0, R1, S1, A1, R2,...,ST 1,
AT 1,
RT G 0 Loop para cada etapa do episódio, t = T 1 ,
T 2,..., 0: GG +
Rt+1 A menos que St apareça em
S0, S1,...,St1: Anexe G a Returns(St)
V (St) média(Retornos(St))
5.1. Previsão de Monte Carlo 93
Tanto o MC de primeira visita quanto o MC de todas as visitas convergem para vÿ(s) à

medida que o número de visitas (ou primeiras visitas) a s vai para o infinito. Isto é fácil de ver no
caso do MC de primeira visita. Neste caso, cada retorno é uma estimativa independente e
distribuída de forma idêntica de vÿ(s) com variância finita. Pela lei dos grandes números a
sequência de médias destas estimativas converge para o seu valor esperado. Cada média é em
si uma estimativa imparcial, e o desvio padrão do seu erro cai como 1/pn, onde n é o número médio de retornos
O CM de cada visita é menos direto, mas suas estimativas também convergem quadraticamente para
vÿ(s) (Singh e Sutton, 1996).
A utilização dos métodos de Monte Carlo é melhor ilustrada através de um exemplo.
Exemplo 5.1: Blackjack O objetivo do popular jogo de cartas de cassino, blackjack, é obter
cartas cuja soma dos valores numéricos seja a maior possível, sem exceder 21. Todas as
cartas com figuras contam como 10, e um ás pode contar como 1 ou como 11. Consideramos
a versão em que cada jogador compete de forma independente contra o dealer. O jogo
começa com duas cartas distribuídas ao dealer e ao jogador. Uma das cartas do dealer está
virada para cima e a outra está virada para baixo. Se o jogador tiver 21 imediatamente (um
ás e uma carta 10), isso é chamado de natural. Ele então ganha, a menos que o dealer
também tenha um natural, caso em que o jogo empata. Se o jogador não tiver um natural,
ele pode solicitar cartas adicionais, uma a uma (acertar), até parar (ficar) ou ultrapassar 21
(quebrar). Se ele falir, ele perde; se ele aderir, será a vez do dealer. O dealer acerta ou
adere de acordo com uma estratégia fixa sem escolha: ele adere a qualquer soma de 17 ou
superior, e acerta de outra forma. Se o dealer falir, o jogador ganha; caso contrário, o
resultado – vitória, derrota ou empate – é determinado pela soma final mais próxima de 21.
Jogar blackjack é naturalmente formulado como um MDP finito episódico. Cada jogo de
blackjack é um episódio. Recompensas de +1, 1 e 0 são dadas por vitória, derrota e empate,
respectivamente. Todas as recompensas dentro de um jogo são zero e não descontamos ( = 1);
portanto, essas recompensas terminais também são os retornos. As ações do jogador são
acertar ou furar. Os estados dependem das cartas do jogador e da carta mostrada pelo dealer.
Assumimos que as cartas são distribuídas de um baralho infinito (ou seja, com reposição), de
modo que não há vantagem em manter o registro das cartas já distribuídas. Se o jogador tiver
um ás que possa contar como 11 sem estourar, então o ás é considerado utilizável. Neste caso
é sempre contado como 11 porque contá-lo como 1 daria a soma 11 ou menos, caso em que
não há decisão a ser tomada porque, obviamente, o jogador deve sempre acertar. Assim, o
jogador toma decisões com base em três variáveis: sua soma atual (12–21), a carta que o
dealer mostra (ás–10) e se ele tem ou não um ás utilizável . Isso perfaz um total de 200 estados.
Considere a política que permanece se a soma do jogador for 20 ou 21, e caso contrário acerta. Para
encontrar a função valor-estado para esta política através de uma abordagem de Monte Carlo, simulam-
se muitos jogos de blackjack usando a política e calcula-se a média dos retornos seguindo cada estado.
Desta forma, obtivemos as estimativas da função valor-estado mostrada na Figura 5.1.
As estimativas para estados com um ás utilizável são menos certas e menos regulares porque estes
estados são menos comuns. De qualquer forma, após 500.000 jogos a função valor é muito bem
aproximada.
Depois de 10.000 episódios Depois de 500.000 episódios
Utilizável +1
ás
!1
Não 21
utilizável
ás
Um revendedor jogador
Soma
do
mostrando 12
10
Figura 5.1: Funções de valor de estado aproximadas para a política de blackjack que se mantém apenas em 20
ou 21, calculadas pela avaliação da política de Monte Carlo.
Exercício 5.1 Considere os diagramas à direita da Figura 5.1. Por que a função de valor
estimado salta para as duas últimas linhas no final? Por que ele desaparece em toda a última
linha à esquerda? Por que os valores mais frontais são mais altos nos diagramas superiores
do que nos inferiores? ÿ
Exercício 5.2 Suponha que o MC de cada visita fosse usado em vez do MC da primeira visita na tarefa de
blackjack. Você esperaria que os resultados fossem muito diferentes? Por que ou por que não? ÿ
Embora tenhamos conhecimento completo do ambiente na tarefa de blackjack, não seria

fácil aplicar métodos DP para calcular a função valor. Os métodos DP exigem a distribuição
dos próximos eventos - em particular, exigem a dinâmica dos ambientes conforme dada pela
função p de quatro argumentos - e não é fácil determinar isso para o blackjack. Por exemplo,
suponha que a soma do jogador seja 14 e ele opte por continuar.
Qual é a probabilidade de ele terminar com uma recompensa de +1 em função da carta mostrada pelo dealer?
Todas as probabilidades devem ser calculadas antes que o DP possa ser aplicado, e tais cálculos são
frequentemente complexos e sujeitos a erros. Em contraste, é fácil gerar os jogos de amostra exigidos pelos
métodos de Monte Carlo. Este é o caso com uma frequência surpreendente; a capacidade dos métodos de Monte
Carlo de trabalhar apenas com episódios amostrais pode ser uma vantagem significativa, mesmo quando se tem
conhecimento completo da dinâmica do ambiente.
Podemos generalizar a ideia de diagramas de backup para algoritmos de Monte Carlo? A
ideia geral de um diagrama de backup é mostrar no topo o nó raiz a ser atualizado e mostrar
abaixo todas as transições e nós folha cujas recompensas e valores estimados contribuem
para a atualização. Para a estimativa de Monte Carlo de vÿ, a raiz é um nó de estado, e
abaixo dele está toda a trajetória de transições ao longo de um único episódio específico, terminando
5.1. Previsão de Monte Carlo 95
no estado terminal, conforme mostrado à direita. Enquanto o diagrama DP (página

59) mostra todas as transições possíveis, o diagrama de Monte Carlo mostra
apenas aquelas amostradas em um episódio. Enquanto o diagrama DP inclui
apenas transições de uma etapa, o diagrama de Monte Carlo vai até o final do
episódio. Essas diferenças nos diagramas refletem com precisão as diferenças
fundamentais entre os algoritmos.
Um fato importante sobre os métodos de Monte Carlo é que as estimativas para cada
estado são independentes. A estimativa para um estado não se baseia na estimativa de
qualquer outro estado, como é o caso do DP. Em outras palavras, os métodos de Monte
Carlo não são inicializados como definimos no capítulo anterior.
Em particular, observe que o custo computacional para estimar o valor de um único estado
é independente do número de estados. Isto pode tornar os métodos de Monte Carlo
particularmente atraentes quando se requer o valor de apenas um ou de um subconjunto de
estados. Pode-se gerar muitos episódios de amostra a partir dos estados de interesse, calculando a
média dos retornos apenas desses estados, ignorando todos os outros. Esta é uma terceira
vantagem que os métodos de Monte Carlo podem ter sobre os métodos DP (depois da capacidade
de aprender com a experiência real e com a experiência simulada).
Exemplo 5.2: Bolha de sabão Suponha que uma armação

de arame formando um circuito fechado seja mergulhada
em água com sabão para formar uma superfície ou
bolha de sabão que se ajusta em suas bordas à armação
de arame. Se a geometria da estrutura de arame for
irregular, mas conhecida, como calcular a forma da superfície?
A forma tem a propriedade de que a força total em
cada ponto exercida pelos pontos vizinhos é zero (ou
então a forma mudaria). Isto significa que a altura da
superfície em qualquer ponto é a média das suas
alturas em pontos num pequeno círculo em torno Uma bolha em um laço de arame.
desse ponto. Além disso, a superfície deve encontrar- De Hersh e Griego (1969). Reproduzido com
se nos seus limites com a estrutura de arame. A permissão. c 1969 Scientific American, uma divisão
da Nature America, Inc. Todos os direitos reservados.
abordagem usual para problemas deste tipo é colocar
uma grade sobre a área coberta pela superfície e
resolver sua altura nos pontos da grade por meio de um cálculo iterativo. Os pontos da grade na
fronteira são forçados para a estrutura de arame e todos os outros são ajustados em direção à média
das alturas de seus quatro vizinhos mais próximos. Este processo então itera, tal como a avaliação
iterativa de políticas do DP, e finalmente converge para uma grande aproximação à superfície
desejada.
Isto é semelhante ao tipo de problema para o qual os métodos de Monte Carlo foram originalmente
concebidos. Em vez do cálculo iterativo descrito acima, imagine estar na superfície e fazer um
passeio aleatório, caminhando aleatoriamente de um ponto da grade para um ponto vizinho da
grade, com igual probabilidade, até chegar ao limite. Acontece que o valor esperado da altura no
limite é uma grande aproximação da altura da superfície desejada no ponto inicial (na verdade, é
exatamente o valor calculado pelo método iterativo descrito acima). Assim, pode-se aproximar a
altura do
superfície em um ponto simplesmente calculando a média das alturas limite de muitos passeios iniciados
naquele ponto. Se estivermos interessados apenas no valor de um ponto, ou em qualquer pequeno
conjunto fixo de pontos, então este método de Monte Carlo pode ser muito mais eficiente do que o método
iterativo baseado na consistência local.
5.2 Estimativa Monte Carlo de Valores de Ação
Se um modelo não estiver disponível, então é particularmente útil estimar os valores da ação (os
valores dos pares estado-ação) em vez dos valores do estado. Com um modelo, os valores do
Estado por si só são suficientes para determinar uma política; basta olhar um passo adiante e
escolher a ação que leva à melhor combinação de recompensa e próximo estado, como fizemos no
capítulo sobre DP. Sem um modelo, contudo, os valores estatais por si só não são suficientes. É
preciso estimar explicitamente o valor de cada ação para que os valores sejam úteis na sugestão de uma política.
Assim, um dos nossos principais objetivos para os métodos de Monte Carlo é estimar qÿ. Para conseguir
isso, primeiro consideramos o problema de avaliação de políticas para valores de ação.
O problema de avaliação de políticas para valores de ação é estimar qÿ(s, a), o retorno
esperado ao iniciar no estado s, executar a ação a e, posteriormente, seguir a política ÿ. Os
métodos de Monte Carlo para isso são essencialmente os mesmos apresentados para valores
de estado, exceto que agora falamos sobre visitas a um par estado-ação em vez de a um
estado. Diz-se que um par estado-ação s, a é visitado em um episódio se o estado s for visitado
e a ação a for executada nele. O método MC de cada visita estima o valor de um par estado-
ação como a média dos retornos que se seguiram a todas as visitas a ele. O método MC da
primeira visita calcula a média dos retornos após a primeira vez em cada episódio em que o
estado foi visitado e a ação foi selecionada. Esses métodos convergem quadraticamente, como
antes, para os verdadeiros valores esperados à medida que o número de visitas a cada par
estado-ação se aproxima do infinito.
A única complicação é que muitos pares estado-ação podem nunca ser visitados. Se ÿ for uma política
determinística, então ao seguir ÿ observar-se-ão retornos apenas para uma das ações de cada estado.
Sem retornos à média, as estimativas de Monte Carlo das outras acções não melhorarão com a
experiência. Este é um problema sério porque o objetivo de aprender valores de ação é ajudar na escolha
entre as ações disponíveis em cada estado. Para comparar alternativas precisamos estimar o valor de
todas as ações de cada estado, e não apenas daquele que favorecemos atualmente.
Este é o problema geral da manutenção da exploração, conforme discutido no contexto do problema

do bandido armado k no Capítulo 2. Para que a avaliação de políticas funcione para valores de ação,
devemos assegurar a exploração contínua. Uma maneira de fazer isso é especificar que os episódios
começam em um par estado-ação e que cada par tem uma probabilidade diferente de zero de ser
selecionado como início. Isto garante que todos os pares estado-ação serão visitados um número infinito
de vezes no limite de um número infinito de episódios. Chamamos isso de suposição de início de
exploração.
A suposição de que a exploração começa às vezes é útil, mas é claro que não pode ser confiável em
geral, especialmente quando se aprende diretamente a partir da interação real com um ambiente. Nesse
caso, é pouco provável que as condições iniciais sejam tão úteis. A abordagem alternativa mais comum
para garantir que todos os pares estado-ação sejam encontrados é
5.3. Controle de Monte Carlo 97
considerar apenas políticas estocásticas com probabilidade diferente de zero de selecionar todas as
ações em cada estado. Discutiremos duas variantes importantes dessa abordagem em seções posteriores.
Por enquanto, mantemos a suposição de início da exploração e completamos a apresentação de um
método de controle de Monte Carlo completo.
Exercício 5.3 Qual é o diagrama de backup para a estimativa de Monte Carlo de qÿ? ÿ
5.3 Controle de Monte Carlo

Estamos agora prontos para considerar como a estimativa de Monte Carlo pode ser usada no controlo,
isto é, para aproximar políticas óptimas. A ideia geral é proceder de acordo com o mesmo padrão do
capítulo do PD, ou seja, de acordo com a ideia de iteração política generalizada (GPI). No GPI mantém-
se uma política aproximada e uma função de valor aproximado. A função avaliação
de valor é alterada repetidamente para se aproximar mais da função de
Qqÿ _
valor da política actual, e a política é melhorada repetidamente em relação
à função de valor actual, conforme sugerido pelo diagrama à direita. Estes
dois tipos de mudanças funcionam um contra o outro até certo ponto, uma
ÿ P
vez que cada um cria um alvo móvel para o outro, mas juntos fazem com ÿ ganancioso(Q)
que tanto a política como a função de valor se aproximem da optimização.
melhoria
Para começar, consideremos uma versão Monte Carlo da iteração política clássica.
Neste método, realizamos etapas completas alternadas de avaliação e melhoria de
políticas, começando com uma política arbitrária ÿ0 e terminando com a política ótima e a
função valor de ação ótima:
E EU E EU E EU E
ÿ0 ! qÿ0 ! ÿ1 ! qÿ1 ! ÿ2 !··· ! ÿÿ ! qÿ,
E
onde ! denota EU
uma avaliação política completa e ! denota uma melhoria política completa. A avaliação
da política é feita exactamente como descrito na secção anterior.
Muitos episódios são vivenciados, com a função valor-ação aproximada aproximando-se
assintoticamente da função verdadeira. Por enquanto, vamos supor que de fato
observamos um número infinito de episódios e que, além disso, os episódios são gerados
com inícios de exploração. Sob essas suposições, os métodos de Monte Carlo calcularão
cada qÿk exatamente, para ÿk arbitrário.
A melhoria da política é feita tornando a política gananciosa em relação à função de valor atual.
Neste caso temos uma função ação-valor e, portanto, nenhum modelo é necessário para construir a
política gananciosa. Para qualquer função valor-ação q, a política gananciosa correspondente é aquela
que, para cada s 2 S, escolhe deterministicamente uma ação com valor-ação máximo:
ÿ(s) . = arg maxa q(s, a). (5.1)
A melhoria da política pode então ser feita construindo cada ÿk+1 como a política gananciosa em
relação a qÿk . O teorema de melhoria de política (Seção 4.2) então se aplica a ÿk
e ÿk+1 porque, para todo s 2 S,
qÿk (s, ÿk+1(s)) = qÿk (s, argmax qÿk (s, a))

a
= máxa qÿk (s, a)

qÿk (s, ÿk(s))
vÿk (s).
Como discutimos no capítulo anterior, o teorema assegura-nos que cada ÿk+1 é uniformemente melhor que
ÿk, ou tão bom quanto ÿk, caso em que ambas são políticas óptimas. Isto, por sua vez, assegura-nos que o
processo global converge para a política óptima e para a função de valor óptima. Desta forma, os métodos de
Monte Carlo podem ser usados para encontrar políticas óptimas, dados apenas episódios amostrais e nenhum
outro conhecimento da dinâmica do ambiente.
Fizemos duas suposições improváveis acima para obter facilmente esta garantia de convergência
para o método de Monte Carlo. Uma era que os episódios tinham início de exploração e a outra era
que a avaliação política poderia ser feita com um número infinito de episódios. Para obter um
algoritmo prático teremos que remover ambas as suposições. Adiamos a consideração da primeira
suposição para mais adiante neste capítulo.
Por agora centramo-nos no pressuposto de que a avaliação de políticas opera num número infinito
de episódios. Essa suposição é relativamente fácil de remover. Na verdade, a mesma questão surge
mesmo em métodos clássicos de PD, como a avaliação iterativa de políticas, que também convergem
apenas assintoticamente para a função de valor verdadeiro. Tanto no caso DP como no caso Monte
Carlo existem duas maneiras de resolver o problema. Uma delas é manter-se firme na ideia de
aproximar qÿk em cada avaliação de política. São feitas medições e pressupostos para obter limites
de magnitude e probabilidade de erro nas estimativas e, em seguida, são tomadas medidas
suficientes durante cada avaliação de política para garantir que esses limites sejam suficientemente pequenos.
Esta abordagem pode provavelmente ser completamente satisfatória no sentido de garantir uma
convergência correcta até algum nível de aproximação. No entanto, também é provável que exija
demasiados episódios para ser útil na prática em qualquer problema, exceto nos mais pequenos.
Existe uma segunda abordagem para evitar o número infinito de episódios nominalmente
necessários para a avaliação de políticas, na qual desistimos de tentar completar a avaliação de
políticas antes de regressarmos à melhoria das políticas. Em cada etapa de avaliação, movemos a
função de valor em direção a qÿk , mas não esperamos chegar perto, exceto em muitas etapas.
Usamos essa ideia quando introduzimos pela primeira vez a ideia de GPI na Seção 4.6. Uma forma
extrema da ideia é a iteração de valor, na qual apenas uma iteração de avaliação iterativa de
políticas é realizada entre cada etapa de melhoria da política. A versão local da iteração de valor é
ainda mais extrema; lá alternamos entre etapas de melhoria e avaliação para estados individuais.
Para a avaliação de políticas de Monte Carlo é natural alternar entre avaliação e melhoria
episódio a episódio. Após cada episódio, os retornos observados são utilizados para
avaliação da política e, em seguida, a política é melhorada em todos os estados visitados
no episódio. Um algoritmo simples e completo nesse sentido, que chamamos de Monte
Carlo ES, para Monte Carlo com Exploring Starts, é fornecido em pseudocódigo na caixa
da próxima página.
5.3. Controle de Monte Carlo 99
Monte Carlo ES (Exploring Starts), para estimar ÿ ÿ ÿÿ
Inicializar:
ÿ(s) 2 A(s) (arbitrariamente), para todo s 2 S
Q(s, a) 2 R (arbitrariamente), para todo s 2 S, a 2 A(s)
Retorna(s, a) lista vazia, para todos s 2 S, a 2 A(s)
Loop eterno (para cada episódio):

Escolha S0 2 S, A0 2 A(S0) aleatoriamente de modo que todos os pares tenham
probabilidade > 0 Gere um episódio de S0, A0, seguindo ÿ: S0, A0, R1,...,ST 1,
AT 1,
RT G 0 Loop para cada etapa do episódio, t = T 1, T
2,..., 0: GG +
Rt+1 A menos que o par St, At apareça em S0, A0, S1, A1 . ..,St1, At1:
Anexar G a Returns(St, At)
Q(St, At) média(Retorna(St, At)) ÿ(St)
argmaxa Q(St, a)
Exercício 5.4 O pseudocódigo para Monte Carlo ES é ineficiente porque, para cada par
estado-ação, mantém uma lista de todos os retornos e calcula repetidamente a sua média.
Seria mais eficiente usar técnicas semelhantes às explicadas na Seção 2.4 para manter
apenas a média e uma contagem (para cada par estado-ação) e atualizá-las de forma incremental.
Descreva como o pseudocódigo seria alterado para conseguir isso. ÿ
Em Monte Carlo ES, todos os retornos de cada par estado-ação são acumulados e calculada a
média, independentemente da política que estava em vigor quando foram observados. É fácil
perceber que Monte Carlo ES não pode convergir para nenhuma política subótima. Se assim fosse,
então a função de valor acabaria por convergir para a função de valor dessa política, e isso, por
sua vez, faria com que a política mudasse. A estabilidade só é alcançada quando tanto a política
como a função de valor são óptimas. A convergência para este ponto fixo ideal parece inevitável à
medida que as mudanças na função valor-ação diminuem ao longo do tempo, mas ainda não foi
formalmente provada. Em nossa opinião, esta é uma das questões teóricas abertas mais
fundamentais na aprendizagem por reforço (para uma solução parcial, ver Tsitsiklis, 2002).
Exemplo 5.3: Resolvendo o Blackjack É simples aplicar Monte Carlo ES ao blackjack. Como os
episódios são todos jogos simulados, é fácil organizar inícios de exploração que incluam todas as
possibilidades. Neste caso, basta escolher as cartas do dealer, a soma do jogador e se o jogador
tem ou não um ás utilizável, tudo aleatoriamente com igual probabilidade. Como política inicial
usamos a política avaliada no exemplo anterior do blackjack, aquela que se mantém apenas em 20
ou 21. A função inicial de valor-ação pode ser zero para todos os pares estado-ação. A Figura 5.2
mostra a política ideal para o blackjack encontrada por Monte Carlo ES. Esta política é igual à
estratégia “básica” de Thorp (1966), com a única excepção do entalhe mais à esquerda na política
para um ás utilizável, que não está presente na estratégia de Thorp. Não temos certeza da razão
desta discrepância, mas estamos confiantes de que o que é mostrado aqui é de facto a política
ideal para a versão de blackjack que descrevemos .
21
GRUDAR 20
19
Utilizável 18 +1 21
100 17 Capítulo 5: Métodos de Monte Carlo
ás 16
"1
15
BATER 14
13
A
* 12
11
!*
A 2 3 4 5 6 7 8 9 10 v**
V* 12
10
21
21
GRUDAR 20
GRUDAR 19
19
18
18 +1 21
ÁsNão 17
17
utilizável
agoooS
dj
16
16
roadm
15
15
"1
utilizável BATER BATER 14
14
13
13
A jogador
Soma
do
12
12 Exibição
11
11
*!
A 2 3 4 5 6 7 8 9 10
Exibição do revendedor
v*
V*
do revendedor 12
12
10
10
21
21
GRUDAR 20
20
GRUDAR 19
19
18
18 +1 21
ÁsNão 17
17
utilizável
agoooS
dj
utilizável 16
16
roadm
15
15
"1
ás A
BATER BATER 14
14
13
13
A jogador
Soma
do
jogador
Soma
do
12
12 Exibição
Exibição
11
11
AA 22 33 44 55 66 77 88 99 10
10 do
dorevendedor
revendedor 12
12
10
21
20
Figura 5.2: A política ótima e a funçãoGRUDAR
de valor estatal para o blackjack, encontrada por Monte Carlo No ES. A função de
19
21
18
valor de estado mostrada foi calculada a partir da função de valor de ação encontrada pelo Monte Carlo ES utilizável . ás
17
agoooS
dj
16
roadm
15
BATER 14
13
A jogador
Soma
do
12 Exibição
11
A 2 3 4 5 6 7 8 9 10 do revendedor 12
5.4 Controle Monte Carlo sem Exploração Inicia 10
Como podemos evitar a suposição improvável de que a exploração comece? A única maneira geral
de garantir que todas as ações sejam selecionadas com uma frequência infinita é o agente continuar
a selecioná- las. Existem duas abordagens para garantir isso, resultando no que chamamos de
métodos dentro da política e métodos fora da política. Os métodos dentro da política tentam avaliar
ou melhorar a política usada para tomar decisões, enquanto os métodos fora da política avaliam ou
melhoram uma política diferente daquela usada para gerar os dados. O método Monte Carlo ES
desenvolvido acima é um exemplo de método baseado em políticas. Nesta secção mostramos como
pode ser concebido um método de controlo de Monte Carlo dentro da política que não utilize a
suposição irrealista de inícios de exploração. Os métodos de política Oÿ são considerados na próxima seção.
Nos métodos de controle sob política, a política é geralmente suave, o que significa que ÿ(a|s) >
0 para todos s 2 S e todos a 2 A(s), mas gradualmente se aproxima cada vez mais de uma política
ótima determinística. Muitos dos métodos discutidos no Capítulo 2 fornecem mecanismos para isso.
O método on-policy que apresentamos nesta seção usa “políticas gananciosas, o que significa que
na maioria das vezes eles escolhem uma ação que tem valor de ação estimado máximo, mas com
probabilidade ” eles selecionam uma ação aleatoriamente. Ou seja, todas as ações não gananciosas
recebem a probabilidade mínima de seleção e o volume restante "de |A(s)| , a probabilidade, 1 " + é
dada
à ação gananciosa. As políticas" "-gananciosos
|A(s)| , são para todos os estados e
exemplos de "políticas suaves, definidas como políticas para as quais ÿ(a|s) "
|A(s)|
ações, para alguns "> 0. Entre as políticas "soft", as políticas gananciosas são, em certo sentido, aquelas
5.4. Controle de Monte Carlo sem explorar começa 101
que estão mais próximos do ganancioso.
A ideia geral do controlo de Monte Carlo dentro da política ainda é a do GPI. Tal como em
Monte Carlo ES, utilizamos métodos de CM de primeira visita para estimar a função valor-ação
para a política atual. Sem a suposição de que a exploração começa, contudo, não podemos
simplesmente melhorar a política, tornando-a gananciosa em relação à função de valor actual,
porque isso impediria uma maior exploração de acções não gananciosas. Felizmente, o GPI
não exige que a política seja levada até uma política gananciosa, apenas que seja movida
para uma política gananciosa. Em nosso método on-policy, iremos movê-lo apenas para uma
política "-ganancioso . Para qualquer política "-soft, ÿ, qualquer política "-ganancioso em
relação a qÿ é garantidamente melhor ou igual a ÿ. O completo algoritmo é fornecido na caixa abaixo.
Controle de MC na primeira visita na política (para "políticas suaves), estimativas ÿ ÿ ÿÿ
Parâmetro do algoritmo: pequeno " > 0

Inicializar:
ÿ uma "política suave" arbitrária
Q(s, a) 2 R (arbitrariamente), para todo s 2 S, a 2 A(s)
Retorna(s, a) lista vazia, para todos s 2 S, a 2 A(s)
Repita para sempre (para cada episódio):

Gere um episódio seguindo ÿ: S0, A0, R1,...,ST 1, AT 1, RT G 0 Loop
para
cada etapa do episódio, t = T 1, T 2,..., 0:
GG + Rt+1 A menos
que o par St, At apareça em S0, A0, S1, A1 ...,St1, At1:
Anexar G a Returns(St, At)
Q(St, At) média(Retorna(St, At))
Aÿ argmaxa Q(St, a) (com empates quebrados arbitrariamente)
Para todos os 2 A(St):
"/|A(St)|se a = Aÿ
ÿ(a|St) ÿ 1 " + "/|A(St)| se uma 6= UMAÿ
Que qualquer política "-ganancioso em relação a qÿ é uma melhoria em relação a qualquer

política "-soft ÿ é assegurado pelo teorema da melhoria da política. Seja ÿ0 a política "-ganancioso.
As condições do teorema de melhoria da política se aplicam porque para qualquer s 2 S:
qÿ(s, ÿ0 (s)) = X ÿ0 (uma|s)qÿ(s, uma)

a
"
= (5.2)
X qÿ(s, a) + (1 ") maxa qÿ(s, a)
|A(s)|
a
"
" ÿ(uma|s) |A(s)|
X qÿ(s, a) + (1") X qÿ(s, uma)
|A(s)| 1"
a a
(a soma é uma média ponderada com pesos não negativos somando 1 e, como tal,
deve ser menor ou igual ao maior número médio)

" "
=
|A(s)| Xqÿ (s, uma)
|A(s)| X qÿ(s, a) + X ÿ(a|s)qÿ(s, a)
a a a
= vÿ(s).
Assim, pelo teorema de melhoria de política, ÿ0 ÿ (ou seja, vÿ0 (s) vÿ(s), para todo s 2 S).
Provamos agora que a igualdade só pode ser mantida quando ambos ÿ0 e ÿ são ótimos entre
as políticas “-soft” , isto é, quando são melhores ou iguais a todas as outras “políticas-soft”.
Considere um novo ambiente que seja exatamente igual ao ambiente original, exceto com o
requisito de que as políticas sejam "-soft" movidas para dentro do ambiente. O novo ambiente
tem a mesma ação e estado definidos como o original e se comporta da seguinte forma. Se
estiver no estado s e realizando a ação a, então com probabilidade 1 " o novo ambiente se
comporta exatamente como o ambiente antigo. Com probabilidade " ele retoma a ação
aleatoriamente, com probabilidades iguais, e então se comporta como o ambiente antigo com a nova ação aleat
O melhor que se pode fazer neste novo ambiente com políticas gerais é o mesmo que se
pode fazer no ambiente original com "políticas suaves. Deixemos veÿ e qeÿ denotarem
as funções de valor ideais para o novo ambiente. Então, uma política ÿ é ideal entre
"políticas suaves se e somente se vÿ = veÿ. Pela definição de veÿ sabemos que é a única
solução para
"
|A(s)|a)X
veÿ(s) = (1 ") maxa qeÿ(s, a) + qeÿ(s,
a
veÿ(s0 ) i = (1 ") maxa

p(s0X, r|s, a) hr +
s0,r
"
+
A(s)| XX | p(s0 , r|s, a) hr + veÿ(s0 ) i .
a s0,r
Quando a igualdade se mantém e a “política branda ÿ não é mais melhorada, então também sabemos, a
partir de (5.2), que
"
a) X
vÿ(s) = (1 ") maxa qÿ(s, a) + qÿ(s,|A(s)|
a
i = (1 ") maxa X p(s0 , r|s, a) hr + vÿ(s0 )

s0,r
"
+
A(s)| XX | p(s0 , r|s, a) hr + vÿ(s0 ) eu .
a s0,r
Porém, esta equação é igual à anterior, exceto pela substituição de vÿ por veÿ. Como veÿ
é a única solução, deve ser que vÿ = veÿ.
Em essência, mostramos nas últimas páginas que a iteração política funciona para políticas
"-soft ". Usando a noção natural de política gananciosa para políticas "-soft, temos a garantia
de melhoria em cada etapa, exceto quando a melhor política tiver sido encontrada entre as "
políticas suaves. Esta análise é independente de como as funções de valor de ação são
determinadas em cada estágio, mas pressupõe que elas sejam calculadas com exatidão. Isso nos leva a
5.5. Previsão de política Oÿ por meio de amostragem de importância 103
aproximadamente o mesmo ponto da seção anterior. Agora só alcançamos a melhor

política entre as "políticas suaves, mas, por outro lado, eliminamos a suposição de começar
a explorar.
5.5 Previsão de política Oÿ por meio de amostragem de importância

Todos os métodos de controle de aprendizagem enfrentam um dilema: eles procuram aprender
valores de ação condicionados ao comportamento ideal subsequente, mas precisam se comportar de
maneira não ideal para explorar todas as ações (para encontrar as ações ideais). Como podem
aprender sobre a política óptima enquanto se comportam de acordo com uma política exploratória? A
abordagem baseada na política na secção anterior é, na verdade, um compromisso – ela aprende
valores de acção não para a política óptima, mas para uma política quase óptima que ainda explora.
Uma abordagem mais simples é usar duas políticas, uma que é aprendida e que se torna a política
ideal, e outra que é mais exploratória e é usada para gerar comportamento. A política que está sendo
aprendida é chamada de política alvo, e a política usada para gerar comportamento é chamada de
política de comportamento. Neste caso, dizemos que a aprendizagem provém dos dados “oÿ” da
política alvo, e o processo global é denominado aprendizagem fora da política.
Ao longo do restante deste livro, consideraremos métodos dentro e fora da política.
Os métodos baseados na política são geralmente mais simples e são considerados primeiro. Os métodos de
política Oÿ requerem conceitos e notação adicionais e, como os dados são devidos a uma política diferente,
os métodos de política Oÿ são frequentemente de maior variância e são mais lentos para convergir. Por outro
lado, os métodos de política externa são mais poderosos e gerais. Eles incluem métodos baseados em
políticas como o caso especial em que as políticas de alvo e de comportamento são as mesmas. Os métodos
de política Oÿ também têm uma variedade de usos adicionais em aplicativos. Por exemplo, muitas vezes
podem ser aplicados para aprender a partir de dados gerados por um controlador convencional sem
aprendizagem ou por um especialista humano. A aprendizagem de políticas Oÿ também é vista por alguns
como fundamental para a aprendizagem de modelos preditivos em várias etapas da dinâmica mundial (ver
Secção 17.2; Sutton, 2009; Sutton et al., 2011).
Nesta seção iniciamos o estudo dos métodos de oÿ-política considerando o problema de
previsão, no qual tanto as políticas-alvo quanto as políticas comportamentais são fixas. Isto é,
suponhamos que desejamos estimar vÿ ou qÿ, mas tudo o que temos são episódios seguindo
outra política b, onde b 6= ÿ. Neste caso, ÿ é a política alvo, b é a política comportamental e ambas
as políticas são consideradas fixas e dadas.
Para usar episódios de b para estimar valores para ÿ, exigimos que toda ação realizada sob ÿ
também seja realizada, pelo menos ocasionalmente, sob b. Ou seja, exigimos que ÿ(a|s) > 0
implique b(a|s) > 0. Isso é chamado de suposição de cobertura. Segue-se da cobertura que b deve
ser estocástico em estados onde não é idêntico a ÿ. A política-alvo ÿ, por outro lado, pode ser
determinística e, de facto, este é um caso de particular interesse em aplicações de controlo. No
controle, a política-alvo é tipicamente a política gananciosa determinística em relação à estimativa
atual da função valor-ação. Esta política torna-se uma política ótima determinística enquanto a
política de comportamento permanece estocástica e mais exploratória, por exemplo, uma política
"ganancioso". Nesta seção, entretanto, consideramos o problema de previsão, no qual ÿ é imutável
e dado.
Quase todos os métodos fora da política utilizam amostragem de importância, uma técnica geral para
estimar valores esperados sob uma distribuição, dadas amostras de outra. Aplicamos a amostragem
de importância à aprendizagem fora da política, ponderando os retornos de acordo com a
probabilidade relativa de suas trajetórias ocorrerem sob as políticas de metas e de comportamento,
chamada razão de amostragem de importância. Dado um estado inicial St, a probabilidade da
trajetória estado-ação subsequente, At, St+1, At+1,...,ST , ocorrer sob qualquer política ÿ é
Pr{At, St+1, At+1,...,ST | St, At:T 1 ÿ ÿ} = ÿ(At|

St)p(St+1 |St, At)ÿ(At+1|St+1)··· p(ST |ST 1, AT 1)
T
= A1 ÿ(Ak|Sk)p(Sk+1 |Sk, Ak),
k=t
onde p aqui é a função de probabilidade de transição de estado definida por (3.4). Assim, a
probabilidade relativa da trajetória sob as políticas de meta e comportamento (a razão importância-
amostragem) é
T
. QTk=t1 ÿ(Ak|Sk)p(Sk+1 |Sk, Ak)
ÿt:T 1 = = A1 ÿ(Ak|Sk) . (5.3)
QTk=t1 b(Ak|Sk)p(Sk+1 |Sk, Ak) k=t b(Ak|Sk)
Embora as probabilidades de trajetória dependam das probabilidades de transição do MDP, que

geralmente são desconhecidas, elas aparecem de forma idêntica tanto no numerador quanto no
denominador e, portanto, são canceladas. A razão amostral de importância acaba dependendo
apenas das duas políticas e da sequência, e não do PDM.
Lembre-se de que desejamos estimar os retornos (valores) esperados sob a política alvo, mas tudo o que temos são retornos Gt
devido à política comportamental. Esses retornos têm a expectativa errada E[Gt|St =s] = vb(s) e, portanto, não pode ser calculada a média
para obter vÿ. É aqui que entra a amostragem de importância. A razão ÿt:T 1 transforma os retornos para terem o valor esperado correto:
E[ÿt:T 1Gt | St =s] = vÿ(s). (5.4)
Agora estamos prontos para fornecer um algoritmo de Monte Carlo que calcula a média dos retornos
de um lote de episódios observados seguindo a política b para estimar vÿ(s). É conveniente aqui numerar
os passos de tempo de uma forma que aumente através dos limites do episódio. Isto é, se o primeiro
episódio do lote termina em um estado terminal no tempo 100, então o próximo episódio começa no tempo
t = 101. Isso nos permite usar números de intervalo de tempo para nos referirmos a etapas específicas
em episódios específicos. Em particular, podemos definir o conjunto de todos os intervalos de tempo em
que o estado s é visitado, denotado por T(s). Isto é para um método de cada visita; para um método de
primeira visita, T(s) incluiria apenas intervalos de tempo que fossem as primeiras visitas a s dentro de
seus episódios. Além disso, deixe T(t) denotar o primeiro tempo de término após o tempo t, e Gt denotar
são
o retorno após t até T(t). Então {Gt}t2T(s) são os retornos que pertencem ao estado s, e ÿt:T(t)1
t2T(s) as taxas de amostragem de importância correspondentes. Para estimar vÿ(s), simplesmente
dimensionamos os retornos pelas proporções e calculamos a média dos resultados:
P t2T(s) ÿt:T(t)1Gt
V(s) . = . (5.5)
|T(s)|
Quando a amostragem por importância é feita como uma média simples desta forma, ela é chamada de amostragem
por importância ordinária.
Uma alternativa importante é a amostragem por importância ponderada, que utiliza uma
média, definida como
P t2T(s) ÿt:T(t)1Gt
V(s) . = , (5.6)
P t2T(s) ÿt:T(t)1
ou zero se o denominador for zero. Para compreender essas duas variedades de amostragem
de importância, considere as estimativas de seus métodos de primeira visita após observar
um único retorno dos estados . Na estimativa da média ponderada, o rácio ÿt:T(t)1 para o
retorno único anula-se no numerador e no denominador, de modo que a estimativa é igual ao
retorno observado independentemente do rácio (assumindo que o rácio é diferente de zero).
Dado que este retorno foi o único observado, esta é uma estimativa razoável, mas a sua
expectativa é vb(s) em vez de vÿ(s), e neste sentido estatístico é tendenciosa. Em contraste,
a versão de primeira visita do estimador de amostragem de importância comum (5.5) é
sempre vÿ(s) na expectativa (é imparcial), mas pode ser extrema. Suponhamos que o rácio
fosse dez, indicando que a trajetória observada é dez vezes mais provável sob a política-alvo
do que sob a política comportamental. Neste caso, a estimativa normal da amostragem por
importância seria dez vezes o retorno observado. Ou seja, estaria bastante distante do retorno
observado, embora a trajetória do episódio seja considerada muito representativa da política-alvo.
Formalmente, a diferença entre os métodos de primeira visita dos dois tipos de amostragem
de importância é expressa em seus vieses e variâncias. A amostragem de importância comum
é imparcial, enquanto a amostragem de importância ponderada é tendenciosa (embora o viés
convirja assintoticamente para zero). Por outro lado, a variância da amostragem de importância
ordinária é em geral ilimitada porque a variância dos rácios pode ser ilimitada, enquanto no
estimador ponderado o maior peso em qualquer retorno único é um. Na verdade, assumindo
retornos limitados, a variância do estimador de amostragem de importância ponderada
converge para zero mesmo que a variância dos próprios rácios seja infinita (Precup, Sutton e
Dasgupta 2001). Na prática, o estimador ponderado geralmente tem uma variância
dramaticamente menor e é fortemente preferido. No entanto, não abandonaremos totalmente
a amostragem de importância ordinária, pois é mais fácil estendê-la aos métodos aproximados
usando a aproximação de função que exploramos na segunda parte deste livro.
Os métodos de cada visita para amostragem de importância ordinária e ponderada são ambos
tendenciosos, embora, novamente, o viés caia assintoticamente para zero à medida que o número de amostras aumenta.
Na prática, os métodos de cada visita são frequentemente preferidos porque eliminam a necessidade
de registar quais os estados que foram visitados e porque são muito mais fáceis de estender a
aproximações. Um algoritmo MC completo para cada visita para avaliação de políticas fora da política
usando amostragem de importância ponderada é fornecido na próxima seção na página 110.
Exercício 5.5 Considere um MDP com um único estado não-terminal e uma única ação que transita
de volta para o estado não-terminal com probabilidade p e transiciona para o estado terminal com
probabilidade 1p. Deixe a recompensa ser +1 em todas as transições e seja = 1. Suponha que você
observe um episódio que dura 10 etapas, com um retorno de 10. Quais são os estimadores de
primeira visita e de cada visita do valor do estado não terminal? ÿ
Exemplo 5.4: Estimativa da política Oÿ do valor de um estado de blackjack Aplicamos métodos de

amostragem de importância ordinária e ponderada para estimar o valor de um único estado de
blackjack (Exemplo 5.1) a partir de dados da política oÿ. Lembre-se de que uma das vantagens dos
métodos de Monte Carlo é que eles podem ser usados para avaliar um único estado sem formar
estimativas para quaisquer outros estados. Neste exemplo, avaliamos o estado em que o dealer
mostra um dois, a soma das cartas do jogador é 13 e o jogador tem um ás utilizável (ou seja, o
jogador tem um ás e um dois, ou equivalentemente três ases ).
Os dados foram gerados começando nesse estado e depois escolhendo acertar ou atacar
aleatoriamente com igual probabilidade (a política de comportamento). A política-alvo era limitar-se
apenas a uma soma de 20 ou 21, como no Exemplo 5.1. O valor deste estado sob a política-alvo é
de aproximadamente 0,27726 (isto foi determinado gerando separadamente cem milhões de
episódios utilizando a política-alvo e calculando a média dos seus retornos). Ambos os métodos de
política oÿ aproximaram-se deste valor após 1000 episódios de política oÿ usando a política aleatória.
Para garantir que isso fosse feito de maneira confiável, realizamos 100 execuções independentes,
cada uma começando com estimativas de zero e aprendendo por 10.000 episódios. A Figura 5.3
mostra as curvas de aprendizado resultantes – o erro quadrático das estimativas de cada método
em função do número de episódios, calculado em média ao longo das 100 execuções. O erro se
aproxima de zero para ambos os algoritmos, mas o método de amostragem por importância
ponderada apresenta um erro muito menor no início, como é típico na prática.
Amostragem
Significar de importância
comum
erro
quadrado (média
superior a 100 execuções)
Amostragem de importância ponderada
0
0 10 100 1000 10.000
Episódios (escala logarítmica)
Figura 5.3: A amostragem por importância ponderada produz estimativas de erro mais baixas do valor de um único
estado de blackjack a partir de episódios de política externa.
Exemplo 5.5: Variância Infinita As estimativas de amostragem de importância ordinária terão

tipicamente variância infinita e, portanto, propriedades de convergência insatisfatórias, sempre que
os retornos escalonados tiverem variância infinita – e isto pode facilmente acontecer na aprendizagem
fora da política quando as trajetórias contêm loops. Um exemplo simples é mostrado na Figura 5.4.
Existe apenas um estado não terminal e duas ações, direita e esquerda. A ação da direita causa
uma transição determinística para o término, enquanto a ação da esquerda transita, com probabilidade
0,9, de volta para s ou, com probabilidade 0,1, para o término. As recompensas são +1 na última
transição e zero. Considere a política alvo que sempre seleciona à esquerda.
Todos os episódios sob esta política consistem em algum número (possivelmente zero) de transições de volta
para s seguido de rescisão com recompensa e retorno de +1. Assim, o valor de s na política-alvo
é 1 (= 1). Suponha que estejamos estimando esse valor a partir de dados de política oÿ usando a
política de comportamento que seleciona direita e esquerda com igual probabilidade.
R = +1
ÿ(esquerda|s)=1
0,1
esquerda
certo
é 1
0,9 R=0
b(esquerda|s) =
2
R=0
2
Estimativa de
Monte-Carlo de
vÿ(s) com
amostragem
de importância 1
ordinária
(dez execuções)
0
1 10 100 1000 10.000 100.000 1.000.000 10.000.000 100.000.000
Episódios (escala logarítmica)
Figura 5.4: A amostragem de importância comum produz estimativas surpreendentemente instáveis no MDP de um estado
mostrado no detalhe (Exemplo 5.5). A estimativa correta aqui é 1 ( = 1) e, embora este seja o valor esperado de um retorno
amostral (após amostragem de importância), a variância das amostras é infinita e as estimativas não convergem para este
valor. Estes resultados são para CM de primeira visita fora da política.
A parte inferior da Figura 5.4 mostra dez execuções independentes do algoritmo MC de primeira
visita usando amostragem de importância ordinária. Mesmo depois de milhões de episódios, as
estimativas não conseguem convergir para o valor correcto de 1. Em contraste, o algoritmo de
amostragem de importância ponderada daria uma estimativa de exactamente 1 para sempre após o
primeiro episódio que terminou com a acção à esquerda. Todos os retornos diferentes de 1 (ou seja,
terminando com a ação correta) seriam inconsistentes com a política-alvo e, portanto, teriam um
ÿt:T(t)1 igual a zero e não contribuiriam nem para o numerador nem para o denominador de (5.6). .
O algoritmo de amostragem por importância ponderada produz uma média ponderada apenas dos
retornos consistentes com a política alvo, e todos estes seriam exactamente 1.
Podemos verificar que a variância dos retornos em escala de amostragem de importância é infinita
neste exemplo por meio de um cálculo simples. A variância de qualquer variável aleatória X é o valor
esperado do desvio de sua média X¯, que pode ser escrito
Var[X] . = E h XX¯2 i = E ÿ X2 2XX¯ + X¯ 2ÿ = E ÿ X2ÿ X¯ 2.
Assim, se a média for finita, como é no nosso caso, a variância é infinita se e somente se a
a expectativa do quadrado da variável aleatória é infinita. Assim, precisamos apenas mostrar que o
quadrado esperado do retorno em escala de amostragem de importância é infinito:
T
2 ÿ(Em|St)
Eb A1 b(Em|St)
4 t=0 G0 !235.
Para calcular essa expectativa, nós a dividimos em casos com base na duração e no término do
episódio. Em primeiro lugar, note que, para qualquer episódio que termine com a acção correcta, o
rácio de amostragem de importância é zero, porque a política alvo nunca executaria esta acção;
esses episódios, portanto, não contribuem em nada para a expectativa (a quantidade entre
parênteses será zero) e podem ser ignorados. Precisamos apenas considerar episódios que
envolvem algum número (possivelmente zero) de ações à esquerda que transitam de volta ao
estado não-terminal, seguidas por uma ação à esquerda que transita para a terminação. Todos
esses episódios têm retorno 1, portanto o fator G0 pode ser ignorado. Para obter o quadrado
esperado, precisamos apenas considerar cada duração do episódio, multiplicando a probabilidade
de ocorrência do episódio pelo quadrado de sua razão importância-amostragem, e somar:
1
= (a duração de 1 episódio)
2 •2 · 0,10,5
1 1 · 0,9 · + 1
22 (a duração do episódio 2)
ÿ 1 · 0,1 ÿ0,5
1 0,5
1 1 · 0,9 · · 1 1 1
0,9 · + 2 2 2 (a duração do episódio 3)
•2 · 0,10,5
ÿ 10,5 0,5 •2
+ ···
= 0,1 X1 0,9k · 2k · 2= 0,2 X1 1,8k = 1.

k=0 k=0
Exercício 5.6 Qual é a equação análoga a (5.6) para valores de ação Q(s, a) em vez de valores
de estado V(s), novamente dados os retornos gerados usando b? ÿ
Exercício 5.7 Em curvas de aprendizagem como as mostradas na Figura 5.3, o erro geralmente diminui
com o treinamento, como de fato aconteceu com o método comum de amostragem por importância. Mas
para o método de amostragem por importância ponderada, o erro primeiro aumentou e depois diminuiu.
Por que você acha que isso aconteceu? ÿ
Exercício 5.8 Os resultados do Exemplo 5.5 e mostrados na Figura 5.4 usaram um método MC de primeira
visita . Suponha que, em vez disso, um método MC de cada visita tenha sido usado no mesmo problema.
A variância do estimador ainda seria infinita? Por que ou por que não? ÿ
5.7. Oÿ-política Controle de Monte Carlo 109
5.6 Implementação Incremental

Os métodos de previsão de Monte Carlo podem ser implementados de forma incremental,
episódio por episódio, usando extensões das técnicas descritas no Capítulo 2 (Seção 2.4).
Enquanto no Capítulo 2 calculamos a média das recompensas, nos métodos de Monte Carlo calculamos a média dos retornos.
Em todos os outros aspectos, podem ser utilizados exactamente os mesmos métodos utilizados no Capítulo 2
para os métodos de Monte Carlo dentro da política. Para métodos de Monte Carlo fora da política, precisamos
considerar separadamente aqueles que usam amostragem de importância ordinária e aqueles que usam
amostragem de importância ponderada.
Na amostragem de importância ordinária, os retornos são escalonados pela razão de amostragem de
importância ÿt:T(t)1 (5.3), e então simplesmente calculada a média, como em (5.5). Para estes métodos
podemos utilizar novamente os métodos incrementais do Capítulo 2, mas utilizando os retornos
escalonados em vez das recompensas desse capítulo. Isto deixa o caso dos métodos de política externa
que utilizam amostragem de importância ponderada. Aqui temos que formar uma média ponderada dos
retornos, e um algoritmo incremental ligeiramente diferente é necessário.
Suponha que temos uma sequência de retornos G1, G2,...,Gn1, todos começando no mesmo estado e cada
um com um peso aleatório correspondente Wi (por exemplo, Wi = ÿti:T(ti)1). Nós desejamos
formar a estimativa
k = 1 Semana
Pn1
Vn .= , número 2, (5.7)
Pn1
k=1 Semana
e mantê-lo atualizado pois obtemos um único retorno adicional Gn. Além de acompanhar Vn,
devemos manter para cada estado a soma cumulativa Cn dos pesos dados aos primeiros n
retornos. A regra de atualização para Vn é
Wn
Vn+1 .= Vn + número 1, (5.8)
Cn h Gn Vn eu ,
Cn+1 .= Cn + Wn+1,
página contém
= 0 (e V1 é arbitrário e, portanto, não precisa ser especificado). A caixa no where C0 . a próxima
um algoritmo incremental completo episódio por episódio para avaliação de políticas de Monte Carlo. O algoritmo
é nominalmente para o caso de política oÿ, usando amostragem de importância ponderada, mas também se
aplica ao caso de política apenas escolhendo as políticas alvo e de comportamento iguais (nesse caso (ÿ = b ) ,
W é sempre 1). A aproximação Q converge para qÿ (para todos os pares estado-ação encontrados) enquanto as
ações são selecionadas de acordo com uma política potencialmente diferente, b.
Exercício 5.9 Modifique o algoritmo para avaliação de políticas de CM na primeira visita (Seção
5.1) para usar a implementação incremental para médias amostrais descrita na Seção 2.4. ÿ
Exercício 5.10 Derive a regra de atualização da média ponderada (5.8) de (5.7). Siga o padrão
de derivação da regra não ponderada (2.3). ÿ
Previsão MC da política Oÿ (avaliação da política) para estimar Q ÿ qÿ
Entrada: uma política alvo arbitrária ÿ

Inicialize, para todo s 2 S, a 2 A(s):
Q(s, a) 2 R (arbitrariamente)
C(s, a) 0
Loop para sempre (para cada episódio):

b qualquer apólice com cobertura de ÿ
Gere um episódio seguindo b: S0, A0, R1,...,ST 1, AT 1, RT G 0 W 1 Loop para
cada
etapa
do episódio, t = T 1, T 2,..., 0, enquanto W 6= 0: GG + Rt+1 C(St, At) C(St, At) +
WQ(St, At) Q(St,
At) + WW ÿ(At|St)
C
C(St,At)
[GQ(St, At)]
b(Em|St)
5.7 Política Oÿ Controle de Monte Carlo
Agora estamos prontos para apresentar um exemplo da segunda classe de métodos de controle de
aprendizagem que consideramos neste livro: métodos de política oÿ. Lembre-se de que a característica
distintiva dos métodos baseados em políticas é que eles estimam o valor de uma política enquanto a utilizam para controle.
Nos métodos de política oÿ, essas duas funções são separadas. A política usada para gerar comportamento,
chamada de política de comportamento, pode na verdade não estar relacionada com a política que é avaliada
e melhorada, chamada de política alvo. Uma vantagem desta separação é que a política alvo pode ser
determinística (por exemplo, gananciosa), enquanto a política comportamental pode continuar a amostrar
todas as ações possíveis.
Os métodos de controle Monte Carlo da política Oÿ usam uma das técnicas apresentadas nas duas seções
anteriores. Eles seguem a política de comportamento enquanto aprendem e melhoram a política-alvo. Estas
técnicas exigem que a política comportamental tenha uma probabilidade diferente de zero de selecionar todas
as ações que possam ser selecionadas pela política alvo (cobertura). Para explorar todas as possibilidades,
exigimos que a política comportamental seja suave (ou seja, que selecione todas as ações em todos os
estados com probabilidade diferente de zero).
A caixa na próxima página mostra um método de controle de Monte Carlo fora da política, baseado em GPI
e amostragem de importância ponderada, para estimar ÿÿ e qÿ. A política alvo ÿ ÿ ÿÿ é a política gananciosa
em relação a Q, que é uma estimativa de qÿ. A política comportamental b pode ser qualquer coisa, mas para
garantir a convergência de ÿ para a política ótima, um número infinito de retornos deve ser obtido para cada
par de estado e ação. Isso pode ser garantido escolhendo b como "-soft. A política ÿ converge para o ideal em
todos os estados encontrados, mesmo que as ações sejam selecionadas de acordo com uma política suave b
diferente, que pode mudar entre ou mesmo dentro dos episódios.
5.7. Oÿ-política Controle de Monte Carlo 111
Controle MC Oÿ-política, para estimar ÿ ÿ ÿÿ
Inicialize, para todo s 2 S, a 2 A(s):

Q(s, a) 2 R (arbitrariamente)
C(s, a) 0 ÿ(s)
argmaxa Q(s, a) (com empates quebrados consistentemente)
Loop eterno (para cada episódio): b

qualquer política flexível
Gere um episódio usando b: S0, A0, R1,...,ST 1, AT 1, RT G 0 W 1 Loop
para
cada
etapa do episódio, t = T 1 , T 2,..., 0: GG + Rt+1 C(St, At) C(St,
At) + WQ(St, At)
Q(St, At) + [GQ(St, At)] ÿ (St)
C
argmaxa Q(St, a) (com empatesC(St,At)
desfeitos consistentemente)
Se At 6= ÿ(St) então saia do Loop interno (prossiga para o próximo episódio)

1
WW b(Em|
St)
Um problema potencial é que esse método aprende apenas com o final dos episódios, quando todas as
ações restantes no episódio são gananciosas. Se ações não gananciosas forem comuns, o aprendizado será
lento, especialmente para estados que aparecem nas primeiras partes de episódios longos. Potencialmente,
isso poderia retardar muito o aprendizado. Não tem havido experiência suficiente com métodos de Monte
Carlo fora das políticas para avaliar a gravidade deste problema. Se for sério, a maneira mais importante de
abordá-lo é provavelmente incorporando a aprendizagem por diferença temporal, a ideia algorítmica
desenvolvida no próximo capítulo. Alternativamente, se for menor que 1, então a ideia desenvolvida na
próxima seção também poderá ajudar significativamente.
Exercício 5.11 No algoritmo in a box para controle MC de política oÿ, você poderia esperar que a
atualização W envolvesse a razão de amostragem de importância ÿ(At|St), mas
b(Em|St) ,
1
em vez disso, envolve ÿ
b(Em|St) . Por que isso é, no entanto, correto?
Exercício 5.12: Pista de corrida (programação) Considere dirigir um carro de corrida em uma curva
como as mostradas na Figura 5.5. Você quer ir o mais rápido possível, mas não tão rápido a ponto
de sair da pista. Em nossa pista simplificada, o carro está em uma posição de um conjunto discreto
de posições no grid, as células do diagrama. A velocidade também é discreta, um número de células
da grade movidas horizontal e verticalmente por intervalo de tempo. As ações são incrementos nos
componentes da velocidade. Cada uma pode ser alterada em +1, 1 ou 0 em cada etapa, totalizando
nove (3 ÿ 3) ações. Ambas as componentes da velocidade estão restritas a serem não negativas e
menores que 5, e ambas não podem ser zero, exceto na linha de partida. Cada episódio começa em
um dos estados iniciais selecionados aleatoriamente com ambas as componentes de velocidade
zero e termina quando o carro cruza a linha de chegada. As recompensas são 1 para cada etapa
até o carro cruzar a linha de chegada. Se o carro atingir o limite da pista, ele será movido de volta
para uma posição aleatória na linha de partida, ambas as componentes da velocidade serão reduzidas a zero e o
Terminar
linha
Terminar
linha
Linha de partida Linha de partida
Figura 5.5: Algumas curvas à direita para a tarefa de pista.
o episódio continua. Antes de atualizar a localização do carro a cada passo de tempo, verifique se
o caminho projetado do carro cruza o limite da pista. Se cruzar a linha de chegada,
o episódio termina; se cruzar com qualquer outro lugar, considera-se que o carro atingiu a pista
limite e é enviado de volta à linha de partida. Para tornar a tarefa mais desafiadora, com
probabilidade 0,1 em cada passo de tempo os incrementos de velocidade são ambos zero, independentemente de
os incrementos pretendidos. Aplique um método de controle de Monte Carlo a esta tarefa para calcular
a política ótima de cada estado inicial. Exiba diversas trajetórias seguindo o
política ideal (mas desligue o ruídoÿ para essas trajetórias). ÿ
5.8 *Amostragem de Importância Consciente de Desconto

Os métodos oÿ-política que consideramos até agora baseiam-se na formação de pesos
amostrais de importância para retornos considerados como todos unitários, sem levar em conta
as estruturas internas dos retornos como somas de recompensas descontadas. Consideramos agora brevemente
ideias de pesquisa de ponta para usar esta estrutura para reduzir significativamente a variação de
estimadores de oÿ-política.
Por exemplo, considere o caso em que os episódios são longos e significativamente menores do que
1. Para ser mais concreto, digamos que os episódios duram 100 passos e que = 0. O retorno de
o tempo 0 será então apenas G0 = R1, mas sua taxa de amostragem de importância será um produto de
ÿ(A0|S0) ÿ(A1|S1) ··· ÿ(A99|S99)
100 fatores, b(A0|S0) b(A1|S1) b(A99|S99) . Na amostragem de importância ordinária, o retorno
será dimensionado pelo produto inteiro, mas na verdade só é necessário dimensionar pelo primeiro
ÿ(A0|S0) ··· ÿ(A99|S99) são irrelevantes porque
fator, por b(A0|S0) . Os outros 99 fatores ÿ(A1|S1) b(A1|S1) b(A99|S99)
após a primeira recompensa o retorno já foi determinado. Esses fatores posteriores são
tudo independente do retorno e do valor esperado 1; eles não mudam o esperado
atualização, mas aumentam enormemente sua variação. Em alguns casos, eles poderiam até fazer o
5.9. Amostragem de importância por decisão 113
variação infinita. Consideremos agora uma ideia para evitar esta grande variação estranha.
A essência da ideia é pensar no desconto como uma determinação de uma probabilidade de
rescisão ou, equivalentemente, de um grau de rescisão parcial. Para qualquer 2 [0, 1), podemos pensar
no retorno G0 como terminando parcialmente em uma etapa, no grau 1, produzindo um retorno apenas
da primeira recompensa, R1, e terminando parcialmente após duas etapas, no grau (1), produzindo
um retorno de R1 + R2, e assim por diante. O último grau corresponde a terminar no segundo degrau,
1, e ainda não ter terminado no primeiro degrau, . ,O grau de terminação na terceira etapa é, portanto,
(1 )2, refletindo que a terminação não ocorreu em nenhuma das duas primeiras etapas. Os retornos 2
parciais aqui são chamados de retornos parciais planos:
G¯t:h=. Rt+1 + Rt+2 + ··· + Rh, 0 ÿ t<h ÿ T,

onde “plano” denota a ausência de desconto, e “parcial” denota que esses retornos
não se estendem até o término, mas param em h, chamado horizonte (e T é o
momento do término do episódio). O retorno total convencional Gt pode ser visto
como uma soma de retornos parciais planos, conforme sugerido acima:
T
= = Rt+1 + Rt+2 + 2Rt+3 + ··· + Gt . t1RT
(1 )Rt+1 + (1 )
(Rt+1 + Rt+2)
+ (1 )2 (Rt+1 + Rt+2 + Rt+3)
..
.
+ (1 )T t2 (Rt+1 + Rt+2 + ··· + RT 1)

+ T t1
(Rt+1 + Rt+2 + ··· + RT )
T
T
= (1 ) X1 ht1G¯t:h + t1G¯t:T .
h=t+1
Agora precisamos dimensionar os retornos parciais planos por uma razão de amostragem de
importância que é similarmente truncada. Como G¯t:h envolve apenas recompensas até um horizonte h,
precisamos apenas da razão das probabilidades até h. Definimos um estimador de amostragem de
importância comum, análogo a (5.5), como
t2T(s) ÿ (1 ) PT(t)1
h=t+1 ht1ÿt:h1G¯t:h + T(t)t1ÿt:T(t)1G¯t:T(t) ÿ
PV(s)=. , (5.9)
|T(s)|
e um estimador de amostragem de importância ponderada, análogo a (5.6), como
P t2T(s) ÿ ) PT(t)1
h=t+1 ht1ÿt:h1G¯t:h + T(t)t1ÿt:T(t)1G¯t:T(t) ÿ ht1ÿt:h1
V(s) . = . (5.10)
P (1 t2T(s) ÿ (1 ) PT(t)1
h=t+1 + T(t)t1ÿt:T(t)1 ÿ
Chamamos esses dois estimadores de estimadores de amostragem de importância com reconhecimento
de desconto. Eles levam em conta a taxa de desconto, mas não têm efeito (são iguais aos estimadores
de política externa da Seção 5.5) se = 1.
5.9 *Amostragem de importância por decisão

Há mais uma forma pela qual a estrutura do retorno como uma soma de recompensas pode ser
levada em conta na amostragem de importância fora da política, uma forma que pode ser capaz
de reduzir a variância mesmo na ausência de desconto (ou seja, mesmo se = 1). Nos estimadores
de política oÿ (5.5) e (5.6), cada termo da soma no numerador é ele próprio uma soma:
T
ÿt:T 1Gt = ÿt:T 1 Rt+1 + Rt+2 + ··· + t1RT
T
= ÿt:T 1Rt+1 + ÿt:T 1Rt+2 + ··· + t1ÿt:T 1RT . (5.11)
Os estimadores oÿ-política baseiam-se nos valores esperados destes termos, que podem ser escritos de
uma forma mais simples. Observe que cada subtermo de (5.11) é um produto de uma recompensa aleatória
e uma razão aleatória de amostragem de importância. Por exemplo, o primeiro subtermo pode ser escrito,
usando (5.3), como
ÿ(At|St) ÿ(At+1|St+1) ÿ(At+2|St+2) ÿt:T ··· ÿ(AT 1|ST 1)

1Rt+1 = b(At| Rt+1.
St) b(At+1|St+1) b(At+2|St+2) (5.12)b(AT 1|ST 1)
De todos estes factores, pode-se suspeitar que apenas o primeiro e o último (a recompensa) estão
relacionados; todos os outros são para eventos que ocorreram após a recompensa. Além disso, o
valor esperado de todos esses outros fatores é um:
. ÿ(a|Sk)
= X = XSk)
b(a|Sk) ÿ(a|Sk)=1. b(a| (5.13)
b(Ak|Sk)
E ÿ ÿ(Ak|Sk)
a a
Com mais alguns passos, pode-se mostrar que, como se suspeita, todos esses outros fatores não têm
efeito na expectativa, em outras palavras, que
E[ÿt:T 1Rt+1] = E[ÿt:tRt+1] . (5.14)
Se repetirmos este processo para o k-ésimo subtermo de (5.11), obtemos
E[ÿt:T 1Rt+k] = E[ÿt:t+k1Rt+k] .
Segue-se então que a expectativa do nosso termo original (5.11) pode ser escrita
E[ÿt:T 1Gt] = E h G˜t i ,
onde
T
G˜t = ÿt:tRt+1 + ÿt:t+1Rt+2 + 2ÿt:t+2Rt+3 + ··· + t1ÿt:T 1RT .
Chamamos essa ideia de amostragem de importância por decisão. Segue-se imediatamente que existe
um estimador de amostragem de importância alternativo, com a mesma expectativa imparcial (no caso
da primeira visita) que o estimador de amostragem de importância ordinária (5.5), usando G˜t:
Pt2T (s) Tenho
V(s) . = , (5.15)
|T(s)|
5.10. Resumo 115
que poderíamos esperar que às vezes fosse de menor variância.

Existe uma versão por decisão da amostragem de importância ponderada? Isto é menos claro.
Até o momento, todos os estimadores propostos para isso que conhecemos não são consistentes
(ou seja, não convergem para o valor verdadeiro com dados infinitos).
ÿ
Exercício 5.13 Mostre os passos para derivar (5.14) de (5.12). ÿ
ÿ
Exercício 5.14 Modifique o algoritmo para controle de Monte Carlo fora da política (página 111)
para usar a ideia do estimador de média ponderada truncada (5.10). Observe que primeiro você
precisará converter esta equação em valores de ação. ÿ
5.10 Resumo
Os métodos de Monte Carlo apresentados neste capítulo aprendem funções de valor e políticas
ótimas a partir da experiência na forma de episódios de amostra. Isto lhes dá pelo menos três tipos
de vantagens sobre os métodos DP. Primeiro, eles podem ser usados para aprender o comportamento
ideal diretamente da interação com o ambiente, sem nenhum modelo da dinâmica do ambiente . Em
segundo lugar, eles podem ser usados com modelos de simulação ou de amostra. Surpreendentemente,
para muitas aplicações é fácil simular episódios amostrais, embora seja difícil construir o tipo de
modelo explícito de probabilidades de transição exigido pelos métodos DP.
Terceiro, é fácil e eficiente concentrar os métodos de Monte Carlo num pequeno subconjunto de estados.
Uma região de interesse especial pode ser avaliada com precisão sem o custo de avaliar com
precisão o resto do conjunto de estados (exploraremos isso mais detalhadamente no Capítulo 8).
Uma quarta vantagem dos métodos de Monte Carlo, que discutiremos mais adiante neste livro, é que
eles podem ser menos prejudicados por violações da propriedade de Markov. Isto acontece porque não
atualizam as suas estimativas de valor com base nas estimativas de valor dos estados sucessores.
Em outras palavras, é porque eles não inicializam.
Ao conceber métodos de controlo de Monte Carlo, seguimos o esquema geral de iteração política
generalizada (GPI) apresentado no Capítulo 4. A GPI envolve processos interactivos de avaliação e
melhoria de políticas. Os métodos de Monte Carlo proporcionam um processo alternativo de avaliação
de políticas. Em vez de usar um modelo para calcular o valor de cada estado, eles simplesmente
calculam a média de muitos retornos que começam no estado. Como o valor de um estado é o
retorno esperado, esta média pode tornar-se uma boa aproximação ao valor. Nos métodos de controlo
estamos particularmente interessados em aproximar funções de valor de acção, porque estas podem
ser utilizadas para melhorar a política sem necessitar de um modelo da dinâmica de transição do
ambiente. Os métodos de Monte Carlo misturam etapas de avaliação e melhoria de políticas, episódio
por episódio, e podem ser implementados de forma incremental, episódio por episódio.
Manter a exploração suficiente é um problema nos métodos de controle de Monte Carlo. Não
basta apenas seleccionar as acções actualmente estimadas como sendo as melhores, porque então
não serão obtidos retornos para acções alternativas e poderá nunca se saber que são realmente
melhores. Uma abordagem é ignorar este problema, assumindo que os episódios começam com
pares estado-ação selecionados aleatoriamente para cobrir todas as possibilidades. Tais inícios de
exploração podem, por vezes, ser organizados em aplicações com episódios simulados, mas são
improváveis na aprendizagem a partir de experiências reais. Nos métodos on-policy, o agente se compromete a semp
explorando e tenta encontrar a melhor política que ainda explora. Nos métodos oÿ-política, o agente
também explora, mas aprende uma política ótima determinística que pode não estar relacionada
com a política seguida.
A previsão da política Oÿ refere-se ao aprendizado da função de valor de uma política alvo a partir
de dados gerados por uma política de comportamento diferente. Tais métodos de aprendizagem baseiam-
se numa forma de amostragem por importância, ou seja, na ponderação dos retornos pelo rácio das
probabilidades de realização das acções observadas no âmbito das duas políticas, transformando assim
as suas expectativas da política comportamental para a política alvo. A amostragem de importância
ordinária utiliza uma média simples dos retornos ponderados, enquanto a amostragem de importância
ponderada utiliza uma média ponderada. A amostragem de importância ordinária produz estimativas
imparciais, mas tem variância maior, possivelmente infinita, enquanto a amostragem de importância
ponderada sempre tem variância finita e é preferida na prática. Apesar da sua simplicidade conceptual,
os métodos de Monte Carlo fora da política, tanto para previsão como para controlo, permanecem
incertos e são objecto de investigação contínua.
Os métodos de Monte Carlo tratados neste capítulo diferem dos métodos DP tratados no capítulo
anterior em dois aspectos principais. Primeiro, eles operam com base na experiência de amostra e,
portanto, podem ser usados para aprendizagem direta sem modelo. Em segundo lugar, eles não inicializam.
Ou seja, não atualizam as suas estimativas de valor com base em outras estimativas de valor.
Estas duas diferenças não estão intimamente ligadas e podem ser separadas. No próximo capítulo
consideraremos métodos que aprendem com a experiência, como os métodos de Monte Carlo, mas
também bootstrap, como os métodos DP.

O termo “Monte Carlo” data da década de 1940, quando físicos de Los Alamos desenvolveram jogos de
azar que poderiam estudar para ajudar a compreender fenómenos físicos complexos relacionados com
a bomba atómica. A cobertura dos métodos de Monte Carlo neste sentido pode ser encontrada em
vários livros didáticos (por exemplo, Kalos e Whitlock, 1986; Rubinstein, 1981).
5.1–2 Singh e Sutton (1996) distinguiram entre métodos MC de cada visita e de primeira visita e
provaram resultados relacionando esses métodos a algoritmos de aprendizagem por reforço.
O exemplo do blackjack é baseado em um exemplo usado por Widrow, Gupta e Maitra (1973).
O exemplo da bolha de sabão é um problema clássico de Dirichlet cuja solução de Monte
Carlo foi proposta pela primeira vez por Kakutani (1945; ver Hersh e Griego, 1969; Doyle e
Snell, 1984).
Barto e Duÿ (1994) discutiram a avaliação de políticas no contexto dos algoritmos clássicos
de Monte Carlo para resolução de sistemas de equações lineares. Eles usaram a análise de
Curtiss (1954) para apontar as vantagens computacionais da avaliação de políticas de Monte
Carlo para grandes problemas.
5.3–4 Monte Carlo ES foi apresentado na edição de 1998 deste livro. Essa pode ter sido a primeira
ligação explícita entre a estimativa de Monte Carlo e os métodos de controlo baseados na
iteração de políticas. Um dos primeiros usos dos métodos de Monte Carlo para estimar valores
de ação em um contexto de aprendizagem por reforço foi feito por Michie e
Câmaras (1968). No balanceamento de pólos (página 56), eles usaram médias de durações
de episódios para avaliar o valor (equilíbrio “vida” esperado) de cada ação possível em cada
estado e, em seguida, usaram essas avaliações para controlar as seleções de ação. Seu
método é semelhante em espírito ao Monte Carlo ES, com estimativas de MC para cada visita.
Narendra e Wheeler (1986) estudaram um método de Monte Carlo para cadeias de Markov
finitas ergódicas que usavam o retorno acumulado entre visitas sucessivas ao mesmo estado
como recompensa pelo ajuste das probabilidades de ação de um autômato de aprendizagem.
5.5 A aprendizagem eficiente sobre políticas foi reconhecida como um desafio importante que surge
em vários domínios. Por exemplo, está intimamente relacionado com a ideia de “intervenções”
e “contrafactuais” em modelos gráficos probabalísticos (bayesianos) (por exemplo, Pearl,
1995; Balke e Pearl, 1994). Os métodos de política Oÿ que utilizam amostragem por
importância têm uma longa história e ainda não são bem compreendidos. A amostragem de
importância ponderada, que às vezes também é chamada de amostragem de importância
normalizada (por exemplo, Koller e Friedman, 2009), é discutida por Rubinstein (1981),
Hesterberg (1988), Shelton (2001) e Liu (2001), entre outros.
A política-alvo na aprendizagem de políticas externas é por vezes referida na literatura
como a política de “estimativa”, como foi o caso na primeira edição deste livro.
5.7 O exercício de pista é adaptado de Barto, Bradtke e Singh (1995) e

de Gardner (1973).
5.8 Nosso tratamento da ideia de amostragem de importância consciente do desconto

baseia-se na análise de Sutton, Mahmood, Precup e van Hasselt (2014). Foi elaborado
de forma mais completa até o momento por Mahmood (2017; Mahmood, van Hasselt
e Sutton, 2014).
5.9 A amostragem por importância por decisão foi introduzida por Precup, Sutton e Singh (2000).
Eles também combinaram a aprendizagem fora da política com a aprendizagem da diferença
temporal, traços de elegibilidade e métodos de aproximação, introduzindo questões sutis que
consideraremos em capítulos posteriores.
Capítulo 6
Aprendizagem de diferença temporal
Se fosse necessário identificar uma ideia como central e nova para a aprendizagem por reforço,
seria, sem dúvida, a aprendizagem por diferença temporal (DT). A aprendizagem TD é uma
combinação de ideias de Monte Carlo e ideias de programação dinâmica (DP). Tal como os
métodos de Monte Carlo, os métodos TD podem aprender diretamente a partir da experiência
bruta, sem um modelo da dinâmica do ambiente. Assim como o DP, os métodos TD atualizam
as estimativas com base, em parte, em outras estimativas aprendidas, sem esperar por um
resultado final (eles são inicializados). A relação entre os métodos TD, DP e Monte Carlo é um
tema recorrente na teoria da aprendizagem por reforço; este capítulo é o início de nossa
exploração dele. Antes de terminarmos, veremos que essas ideias e métodos se misturam e
podem ser combinados de várias maneiras. Em particular, no Capítulo 7 apresentamos algoritmos
de n etapas, que fornecem uma ponte entre os métodos TD e Monte Carlo, e no Capítulo 12
apresentamos o algoritmo TD(), que os unifica perfeitamente .
Como sempre, começamos focando no problema de avaliação ou previsão de políticas, o
problema de estimar a função de valor vÿ para uma determinada política ÿ. Para o problema de
controle (encontrar uma política ótima), os métodos DP, TD e Monte Carlo usam alguma variação
de iteração de política generalizada (GPI). As diferenças nos métodos são principalmente
diferenças em suas abordagens para o problema de previsão.
6.1 Previsão de TD
Os métodos TD e Monte Carlo usam a experiência para resolver o problema de previsão. Dada
alguma experiência seguindo uma política ÿ, ambos os métodos atualizam sua estimativa V de vÿ
para os estados não-terminais St que ocorrem naquela experiência. Grosso modo, os métodos de
Monte Carlo esperam até que o retorno após a visita seja conhecido e então usam esse retorno
como alvo para V (St). Um método Monte Carlo simples para cada visita, adequado para ambientes
não estacionários, é
V (St) V (St) + ÿ h Gt V (St) eu , (6.1)

119
120 Capítulo 6: Aprendizagem de Diferença Temporal
onde Gt é o retorno real após o tempo t, e ÿ é um parâmetro de tamanho de passo constante (cf.
Equação 2.4). Vamos chamar esse método de constante-ÿ MC. Enquanto os métodos de Monte
Carlo devem esperar até o final do episódio para determinar o incremento em V (St) (só então Gt
é conhecido), os métodos TD precisam esperar apenas até o próximo passo de tempo. No tempo
t + 1 eles formam imediatamente um alvo e fazem uma atualização útil usando a recompensa
observada Rt+1 e a estimativa V (St+1). O método TD mais simples faz a atualização
V (St) V (St) + ÿ h Rt+1 + V (St+1) V (St) i (6.2)
imediatamente na transição para St+1 e recebendo Rt+1. Com efeito, o alvo para a atualização
de Monte Carlo é Gt, enquanto o alvo para a atualização de TD é Rt+1 + V (St+1). Este
método TD é chamado TD(0), ou TD de uma etapa, porque é um caso especial dos métodos
TD() e TD de n etapas desenvolvidos no Capítulo 12 e no Capítulo 7. A caixa abaixo especifica
TD(0) completamente na forma processual.
TD(0) tabular para estimar vÿ
Entrada: a política ÿ a ser avaliada

Parâmetro do algoritmo: tamanho do passo ÿ 2 (0, 1]
Loop para cada episódio:
Inicializar S
Loop para cada etapa do episódio:
Uma ação dada por ÿ para S
Tome a ação A, observe R, S0
V (S) V (S) + ÿ ÿ R + V (S0 ) V (S) ÿ
S S0
até que S seja terminal
Como TD(0) baseia sua atualização em parte em uma estimativa existente, dizemos que é um
método de bootstrapping, como DP. Sabemos pelo Capítulo 3 que
vÿ(s) . = Eÿ[Gt | St =s] (6.3)

= Eÿ[Rt+1 + Gt+1 | St =s] (de (3.9))
= Eÿ[Rt+1 + vÿ(St+1) | St =s] . (6.4)
Grosso modo, os métodos de Monte Carlo usam uma estimativa de (6.3) como meta, enquanto os
métodos DP usam uma estimativa de (6.4) como meta. A meta de Monte Carlo é uma estimativa
porque o valor esperado em (6.3) não é conhecido; um retorno amostral é usado no lugar do retorno
real esperado. A meta DP é uma estimativa não por causa dos valores esperados, que são assumidos
como totalmente fornecidos por um modelo do ambiente, mas porque vÿ(St+1) não é conhecido e a
estimativa atual, V (St+1) , é usado em seu lugar. O alvo TD é uma estimativa por ambos os motivos:
ele amostra os valores esperados em (6.4) e usa a estimativa atual V em vez do verdadeiro vÿ.
Assim, os métodos TD combinam a amostragem de
6.1. Previsão de TD 121
Monte Carlo com o bootstrapping do DP. Como veremos, com cuidado e imaginação
isso pode nos levar um longo caminho para obter as vantagens de Monte Carlo e
Métodos DP.
À direita é mostrado o diagrama de backup para TD(0) tabular. O valor que
estimativa para o nó de estado no topo do diagrama de backup é atualizada em
com base na transição de uma amostra dele para o imediatamente seguinte
estado. Referimo-nos às atualizações TD e Monte Carlo como amostras de atualizações porque
eles envolvem olhar adiante para um estado sucessor de amostra (ou par estado-ação),
usando o valor do sucessor e a recompensa ao longo do caminho para calcular um
valor de backup e, em seguida, atualizando o valor do estado original (ou estado– DT(0)
par de ações) adequadamente. Amostras de atualizações diferem das atualizações esperadas
dos métodos DP, na medida em que são baseados em um único sucessor de amostra, e não em um
distribuição completa de todos os possíveis sucessores.
Finalmente, observe que a quantidade entre colchetes na atualização TD(0) é uma espécie de erro,
medindo a diferença entre o valor estimado de St e a melhor estimativa
Rt+1 + V (St+1). Esta quantidade, chamada de erro TD, surge de várias formas ao longo do tempo.
aprendizagem por reforço:
.
t
= Rt+1 + V (St+1) V (St). (6.5)
Observe que o erro TD em cada momento é o erro da estimativa feita naquele momento.
Como o erro TD depende do próximo estado e da próxima recompensa, na verdade não é
disponível até um passo depois. Ou seja, t t + 1. é o erro em V (St), disponível no tempo
Observe também que se a matriz V não mudar durante o episódio (como não acontece em
Métodos de Monte Carlo), então o erro de Monte Carlo pode ser escrito como uma soma de erros TD:
Gt V (St) = Rt+1 + Gt+1 V (St) + V (St+1) V (St+1) t + Gt+1 V (de (3.9))

= (St+1)
2
= t + t+1 + t + Gt+2 V (St+2)
T T-t
= t+1 + 2t+2 + ··· + t1T 1 + t + t+1 + 2t+2 + ··· + GT V (ST )
T T-t
= t1T 1 + 00
T
kt
= X1 k. (6.6)
k=t
Esta identidade não é exata se V for atualizado durante o episódio (como é em TD(0)), mas se o
o tamanho do passo é pequeno, então ainda pode aguentar aproximadamente. Generalizações desta identidade
desempenham um papel importante na teoria e nos algoritmos de aprendizagem por diferença temporal.
Exercício 6.1 Se V muda durante o episódio, então (6.6) é válido apenas aproximadamente; o que
a diferença seria entre os dois lados? Deixe Vt denotar a matriz de valores de estado
usado no tempo t no erro TD (6.5) e na atualização TD (6.2). Refaça a derivação
acima para determinar o valor adicional que deve ser adicionado à soma dos erros de TD
para igualar o erro de Monte Carlo. ÿ
Exemplo 6.1: Dirigindo para casa Todos os dias, ao voltar do trabalho para casa, você tenta
prever quanto tempo levará para chegar em casa. Quando você sai do seu escritório, você anota a hora,
o dia da semana, o clima e qualquer outra coisa que possa ser relevante. Diga sobre isso
Sexta-feira você sai exatamente às 6 horas e estima que levará 30 minutos
para chegar em casa. Quando você chega ao seu carro, são 6h05 e você percebe que está começando a chover. Trac
geralmente é mais lento na chuva, então você reestima que levará 35 minutos a partir de então, ou um
total de 40 minutos. Quinze minutos depois você completou a parte da rodovia
sua jornada em tempo útil. Ao sair para uma estrada secundária, você reduz sua estimativa de
tempo total de viagem para 35 minutos. Infelizmente, neste ponto você fica preso atrás de um lento
caminhão, e a estrada é estreita demais para passar. Você acaba tendo que seguir o caminhão até
você entra na rua lateral onde mora às 6h40. Três minutos depois você está em casa.
A sequência de estados, tempos e previsões é a seguinte:
Tempo decorrido previsto (minutos) Previsto

Estado 0 5 20 30 40 Hora de ir Tempo total
saindo do escritório, sexta-feira 30 30
às 6h chega ao carro, 35 40
chovendo saindo da 43 15 35
rodovia 2ndary road, atrás do 10 40
caminhão entrando na rua 3 43
de casa chega em casa 0 43
As recompensas neste exemplo são os tempos decorridos em cada trecho da jornada.1 Estamos
sem descontar ( = 1) e, portanto, o retorno para cada estado é o tempo real para ir de
esse estado. O valor de cada estado é o tempo esperado para ir. A segunda coluna de
números fornece o valor estimado atual para cada estado encontrado.
Uma maneira simples de visualizar a operação dos métodos de Monte Carlo é traçar o valor previsto
tempo total (a última coluna) ao longo da sequência, como na Figura 6.1 (esquerda). As setas vermelhas
mostram as mudanças nas previsões recomendadas pelo método MC constante (6.1), para
ÿ = 1. Esses são exatamente os erros entre o valor estimado (tempo previsto para ir)
em cada estado e o retorno real (tempo real para ir). Por exemplo, quando você saiu
estrada você pensou que levaria apenas mais 15 minutos para chegar em casa, mas na verdade
demorou 23 minutos. A Equação 6.1 se aplica neste ponto e determina um incremento no
estimativa de tempo a percorrer após sair da rodovia. O erro, Gt V (St), neste momento é
oito minutos. Suponha que o parâmetro de tamanho do passo, ÿ, seja 1/2. Então o tempo previsto para ir
após sair da rodovia seria revisado para cima em quatro minutos como resultado desta
experiência. Esta é provavelmente uma mudança muito grande neste caso; o caminhão provavelmente estava apenas
uma pausa infeliz. Em qualquer hipótese, a alteração só poderá ser feita off-line, ou seja, após você
chegaram em casa. Somente neste ponto você conhece algum dos retornos reais.
É necessário esperar até que o resultado final seja conhecido antes de a aprendizagem poder começar?
Suponha que em outro dia você estime novamente, ao sair do seu escritório, que levará 30
minutos para voltar para casa, mas então você fica preso em um enorme engarrafamento. Vinte e cinco
minutos depois de sair do escritório, você ainda está parado na estrada. Você agora
1Se este fosse um problema de controle com o objetivo de minimizar o tempo de viagem, então, é claro,
torne as recompensas o negativo do tempo decorrido. Mas porque estamos preocupados aqui apenas com
previsão (avaliação de políticas), podemos simplificar as coisas usando números positivos.
6.1. Previsão de TD 123
45 45
resultado real
resultado real
40 40
Tempo total Tempo total
de de
viagem viagem
35 35
previsto previsto
30 30
saindo do carro de saindo do 2º ano para casa chega estrada rua saindo do alcançar saindo da segunda casa chega rodovia estrada
escritório alcance casa rodovia escritório carro rua casa
Situação Situação
Figura 6.1: Alterações recomendadas no exemplo de condução para casa pelos métodos de Monte Carlo
(esquerda) e métodos TD (direita).
estime que levará mais 25 minutos para chegar em casa, num total de 50 minutos. Enquanto
espera no trac, você já sabe que sua estimativa inicial de 30 minutos foi otimista demais.
Você deve esperar até chegar em casa antes de aumentar sua estimativa para o estado
inicial? De acordo com a abordagem de Monte Carlo, você deve fazê-lo, porque ainda não
conhece o verdadeiro retorno.
De acordo com uma abordagem TD, por outro lado, você aprenderia imediatamente,
mudando sua estimativa inicial de 30 para 50 minutos. Na verdade, cada estimativa seria
deslocada em direção à estimativa que a segue imediatamente. Voltando ao nosso primeiro
dia de condução, a Figura 6.1 (à direita) mostra as alterações nas previsões recomendadas
pela regra TD (6.2) (estas são as alterações feitas pela regra se ÿ = 1). Cada erro é
proporcional à mudança ao longo do tempo da previsão, ou seja, às diferenças temporais nas previsões.
Além de lhe dar algo para fazer enquanto espera no trac, há diversas razões
computacionais pelas quais é vantajoso aprender com base em suas previsões atuais, em
vez de esperar até o término quando você sabe o retorno real. Discutiremos brevemente
alguns deles na próxima seção.
Exercício 6.2 Este é um exercício para ajudar a desenvolver a sua intuição sobre por que os métodos
TD são frequentemente mais eficientes que os métodos de Monte Carlo. Consideremos o exemplo do
caminho para casa e como ele é abordado pelos métodos TD e Monte Carlo. Você consegue imaginar
um cenário em que uma atualização de TD seria, em média, melhor do que uma atualização de Monte
Carlo? Dê um exemplo de cenário – uma descrição da experiência passada e um estado atual – no
qual você esperaria que a atualização do DT fosse melhor. Aqui vai uma dica: suponha que você tenha
muita experiência dirigindo do trabalho para casa. Então você se muda para um novo prédio e um novo
estacionamento (mas ainda entra na rodovia no mesmo local). Agora você está começando a aprender
as previsões para o novo edifício. Você consegue ver por que as atualizações do TD provavelmente
serão muito melhores, pelo menos inicialmente, neste caso? Poderia o mesmo tipo de coisa acontecer
no cenário original? ÿ
6.2 Vantagens dos métodos de previsão de TD

Os métodos TD atualizam suas estimativas com base, em parte, em outras estimativas. Eles
aprendem um palpite a partir de um palpite – eles iniciam. Isso é uma boa coisa a fazer? Quais
vantagens os métodos TD têm sobre os métodos Monte Carlo e DP? Desenvolver e responder a
essas perguntas ocupará o restante deste livro e muito mais. Nesta seção antecipamos brevemente
algumas das respostas.
Obviamente, os métodos TD têm uma vantagem sobre os métodos DP porque não requerem um
modelo do ambiente, da sua recompensa e das distribuições de probabilidade do próximo estado.
A próxima vantagem mais óbvia dos métodos TD sobre os métodos de Monte Carlo é que eles são
naturalmente implementados de forma online e totalmente incremental. Com os métodos de Monte
Carlo deve-se esperar até o final de um episódio, pois só então o retorno é conhecido, enquanto com
os métodos TD é necessário esperar apenas um passo de tempo. Surpreendentemente, muitas vezes
isto acaba por ser uma consideração crítica. Alguns aplicativos têm episódios muito longos, de modo
que atrasar todo o aprendizado até o final do episódio é muito lento. Outros aplicativos são tarefas
contínuas e não apresentam nenhum episódio. Finalmente, como observamos no capítulo anterior,
alguns métodos de Monte Carlo devem ignorar ou desconsiderar episódios em que são realizadas
ações experimentais, o que pode retardar enormemente a aprendizagem. Os métodos TD são muito
menos suscetíveis a esses problemas porque aprendem com cada transição, independentemente das
ações subsequentes tomadas.
Mas os métodos TD são adequados? Certamente é conveniente aprender uma suposição a
partir da seguinte, sem esperar por um resultado real, mas ainda podemos garantir a convergência
para a resposta correta? Felizmente, a resposta é sim. Para qualquer política fixa ÿ, provou-se que
TD(0) converge para vÿ, na média para um parâmetro de tamanho de passo constante se for
suficientemente pequeno, e com probabilidade 1 se o parâmetro de tamanho de passo diminuir de
acordo com o usual condições de aproximação estocástica (2.7). A maioria das provas de
convergência se aplicam apenas ao caso baseado em tabela do algoritmo apresentado acima (6.2),
mas algumas também se aplicam ao caso de aproximação geral de função linear. Estes resultados
são discutidos num contexto mais geral no Capítulo 9.
Se os métodos TD e Monte Carlo convergirem assintoticamente para as previsões corretas,
então a próxima pergunta natural é “Qual chega primeiro?” Em outras palavras, qual método
aprende mais rápido? O que torna o uso mais eficiente de dados limitados? Actualmente esta é
uma questão em aberto no sentido de que ninguém foi capaz de provar matematicamente que um
método converge mais rapidamente que o outro. Na verdade, nem sequer está claro qual é a
forma formal mais apropriada de formular esta questão! Na prática, entretanto, descobriu-se que
os métodos TD geralmente convergem mais rapidamente do que os métodos MC constantes em
tarefas estocásticas, conforme ilustrado no Exemplo 6.2.
6.2. Vantagens dos métodos de previsão de TD 125
Exemplo 6.2 Passeio Aleatório
Neste exemplo, comparamos empiricamente as habilidades de previsão de TD(0) e

constante-ÿ MC quando aplicado ao seguinte processo de recompensa de Markov:
0 0 0 0 0 1
A B C D E
começar
Um processo de recompensa de Markov, ou MRP, é um processo de decisão de Markov sem ações.

Freqüentemente usaremos MRPs quando nos concentrarmos no problema de previsão, no qual há
não há necessidade de distinguir as dinâmicas devidas ao ambiente daquelas devidas ao
agente. Neste MRP, todos os episódios começam no estado central, C, e depois prosseguem para a esquerda
ou certo por um estado em cada etapa, com igual probabilidade. Os episódios terminam
na extrema esquerda ou na extrema direita. Quando um episódio termina à direita,
ocorre uma recompensa de +1; todas as outras recompensas são zero. Por exemplo, um episódio típico
pode consistir na seguinte sequência de estado e recompensa: C, 0,B, 0, C, 0, D, 0, E, 1.
Como esta tarefa não é descontada, o verdadeiro valor de cada estado é a probabilidade de
terminando à direita se partir desse estado. Assim, o verdadeiro valor do
o estado central é vÿ(C)=0,5. Os verdadeiros valores de todos os estados, A a E, são
1 2 3 4 5
6,6,6,6,
e 6.
0,8 Estimado 0,25 Erro RMS empírico, calculado

valor 100 em média sobre os estados
ÿ = 0,01
0,2
0,6 10
0
MC
Estimado 1 Erro RMS, 0,15
ÿ = 0,02
valor 0,4
média ÿ = 0,04
Verdadeiro sobre estados 0,1

ÿ = 0,03
valores ÿ = 0,15
0,2
0,05
DT ÿ = 0,1
ÿ = 0,05
0 0
A B C D E 0 25 50 75 100
Estado Caminhadas / Episódios
O gráfico esquerdo acima mostra os valores aprendidos após vários números de episódios
em uma única execução de TD(0). As estimativas após 100 episódios são tão próximas quanto
eles sempre chegam aos valores verdadeiros - com um parâmetro de tamanho de passo constante (ÿ = 0,1
neste exemplo), os valores flutuam indefinidamente em resposta aos resultados
dos episódios mais recentes. O gráfico da direita mostra curvas de aprendizado para os dois
métodos para vários valores de ÿ. A medida de desempenho mostrada é a raiz
erro quadrático médio (RMS) entre a função de valor aprendida e o valor verdadeiro
função, calculada a média dos cinco estados e, em seguida, calculada a média de 100 execuções. Em todos os casos o
função de valor aproximado foi inicializada para o valor intermediário V (s)=0,5, para
tudo S. O método TD foi consistentemente melhor que o método MC nesta tarefa.
Exercício 6.3 A partir dos resultados mostrados no gráfico esquerdo do exemplo do passeio aleatório,
parece que o primeiro episódio resulta em alteração apenas em V (A). O que isso diz a você
sobre o que aconteceu no primeiro episódio? Por que apenas a estimativa para este estado foi
mudado? Exatamente em quanto foi alterado? ÿ
Exercício 6.4 Os resultados específicos mostrados no gráfico direito do exemplo do passeio aleatório
dependem do valor do parâmetro de tamanho do passo, ÿ. Você acha que as conclusões
sobre qual algoritmo é melhor seria afetado se uma faixa mais ampla de valores ÿ fosse usada?
Existe um valor fixo diferente de ÿ no qual qualquer um dos algoritmos teria executado
significativamente melhor do que o mostrado? Por que ou por que não? ÿ
ÿ
Exercício 6.5 No gráfico da direita do exemplo do passeio aleatório, o erro RMS do
O método TD parece cair e subir novamente, especialmente em ÿ altos. O que poderia
causaram isso? Você acha que isso sempre ocorre ou pode ser uma função de como o
a função de valor aproximado foi inicializada? ÿ
Exercício 6.6 No Exemplo 6.2 afirmamos que os valores verdadeiros para o exemplo do passeio aleatório
são 1 2 3 4 5
e6, 6, para os estados de A a E. Descreva pelo menos duas maneiras diferentes de
6,6,6,
estes poderiam ter sido calculados. Qual você acha que realmente usamos? Por que? ÿ
6.3 Otimalidade de TD(0)

Suponha que haja disponível apenas uma quantidade finita de experiência, digamos 10 episódios ou 100 episódios.
passos de tempo. Neste caso, uma abordagem comum com métodos de aprendizagem incremental é
apresente a experiência repetidamente até que o método convirja para uma resposta. Dado um
função de valor aproximado, V para , os incrementos especificados por (6.1) ou (6.2) são calculados
cada passo de tempo t no qual um estado não terminal é visitado, mas a função de valor é
alterado apenas uma vez, pela soma de todos os incrementos. Então toda a experiência disponível é
processado novamente com a nova função de valor para produzir um novo incremento geral, e assim
ligado, até que a função de valor convirja. Chamamos isso de atualização em lote porque as atualizações são
feito somente após o processamento de cada lote completo de dados de treinamento.
Na atualização em lote, TD(0) converge deterministicamente para uma única resposta independente
do parâmetro de tamanho do passo, ÿ, desde que ÿ seja escolhido para ser suficientemente pequeno. A constante-
ÿ O método MC também converge deterministicamente nas mesmas condições, mas para um
resposta diferente. Compreender essas duas respostas nos ajudará a entender a diferença
entre os dois métodos. Sob atualização normal, os métodos não se movem completamente
às suas respectivas respostas em lote, mas de certa forma eles tomam medidas nessas direções.
Antes de tentar compreender as duas respostas em geral, para todas as tarefas possíveis, primeiro
veja alguns exemplos.
Exemplo 6.3: Passeio aleatório na atualização em lote Atualizar versões em lote de
TD(0) e constante-ÿ MC foram aplicados como segue ao exemplo de previsão de passeio aleatório
(Exemplo 6.2). Após cada novo episódio, todos os episódios vistos até agora eram tratados como um lote.
Eles foram apresentados repetidamente ao algoritmo, seja TD(0) ou constante-ÿ MC, com
ÿ suficientemente pequeno para que a função valor converja. A função de valor resultante foi
em seguida, comparado com vÿ, e a raiz média do erro quadrático médio nos cinco estados
(e através de 100 repetições independentes de todo o experimento) foi plotado para obter
6.3. Otimalidade de TD(0) 127
as curvas de aprendizado mostradas na Figura 6.2. Observe que o método TD em lote foi consistentemente
melhor que o método de Monte Carlo em lote.
No treinamento em lote, constante-ÿ

MC converge para valores, V (s), que 0,25
são médias amostrais dos retornos TREINAMENTO EM LOTE
reais experimentados após visitar cada .2

estado S. Estas são estimativas ótimas
no sentido de que minimizam o Erro RMS, .15
erro quadrático médio do real média

sobre estados .1
retorna no conjunto de treinamento. Nisso MC
sentido, é surpreendente que o lote 0,05
DT
O método TD foi capaz de realizar
melhor de acordo com a medida da raiz do .0
erro quadrático médio mostrada no 0 25 50 75 100
figura à direita. Como é que Caminhadas / Episódios

o lote TD conseguiu um desempenho melhor
do que este método ideal? A resposta é que Figura 6.2: Desempenho de TD(0) e constante-ÿ
o método de Monte Carlo MC em treinamento em lote na tarefa de passeio aleatório.
é ideal apenas de uma forma limitada, e
que TD é ótimo de uma forma que é mais relevante para prever retornos.
Exemplo 6.4: Você é o preditor Coloque-se agora no papel do preditor
de retornos para um processo de recompensa de Markov desconhecido. Suponha que você observe o seguinte
oito episódios:
A, 0, B, 0 B, 1
B, 1 B, 1
B, 1 B, 1
B, 1 B, 0
Isso significa que o primeiro episódio começou no estado A, transitou para B com uma recompensa de
0, e então encerrado em B com uma recompensa de 0. Os outros sete episódios foram pares
mais curto, começando em B e terminando imediatamente. Dado esse lote de dados, o que
você diria que são as previsões ótimas, os melhores valores para as estimativas V (A) e
3
V (B)? Todos provavelmente concordariam que o valor ideal para V (B) é porque seis
4 , das oito vezes no estado B o processo terminou imediatamente com um retorno de 1,
e nas outras duas vezes em B o processo terminou imediatamente com retorno 0.
Mas qual é o valor ideal para a estimativa V (A) dados esses dados? Aqui há
duas respostas razoáveis. Uma delas é observar que 100% dos
vezes em que o processo estava no estado A, ele passou imediatamente para
B (com recompensa 0); e porque já decidimos r=1
3 portanto A deve ter valor
que B também tem valor. 3 75%
4, 4 r=0
Uma maneira de ver esta resposta é que ela se baseia primeiro A 100% B
modelando o processo de Markov, neste caso conforme mostrado ao r=0
25%
certo e, em seguida, calcular as estimativas corretas, dadas as
3
modelo, que de fato neste caso dá V (A) = 4 . Isso é
também a resposta que o lote TD(0) dá.

A outra resposta razoável é simplesmente observar que vimos A uma vez e o retorno que
se seguiu foi 0; portanto, estimamos V (A) como 0. Esta é a resposta que os métodos de
Monte Carlo em lote fornecem. Observe que também é a resposta que fornece o erro
quadrático mínimo nos dados de treinamento. Na verdade, não há erro nos dados. Mas ainda
assim esperamos que a primeira resposta seja melhor. Se o processo for Markov, esperamos
que a primeira resposta produza menos erros nos dados futuros, embora a resposta de Monte
Carlo seja melhor nos dados existentes.
O Exemplo 6.4 ilustra uma diferença geral entre as estimativas encontradas pelos métodos
do lote TD(0) e do lote Monte Carlo. Os métodos de lote Monte Carlo sempre encontram as
estimativas que minimizam o erro quadrático médio no conjunto de treinamento, enquanto o
lote TD(0) sempre encontra as estimativas que seriam exatamente corretas para o modelo de
máxima verossimilhança do processo de Markov . Em geral, a estimativa de máxima
verossimilhança de um parâmetro é o valor do parâmetro cuja probabilidade de geração dos
dados é maior. Neste caso, a estimativa de máxima verossimilhança é o modelo do processo
de Markov formado de forma óbvia a partir dos episódios observados: a probabilidade de
transição estimada de i para j é a fração de transições observadas de i que foram para j, e o
associado a recompensa esperada é a média das recompensas observadas nessas transições.
Dado este modelo, podemos calcular a estimativa da função valor que seria exatamente
correta se o modelo fosse exatamente correto. Isto é chamado de estimativa de equivalência
de certeza porque equivale a assumir que a estimativa do processo subjacente era conhecida
com certeza, em vez de ser aproximada. Em geral, o lote TD(0) converge para a estimativa de
equivalência de certeza.
Isto ajuda a explicar porque é que os métodos TD convergem mais rapidamente do que os métodos de Monte Carlo.
Na forma de lote, TD(0) é mais rápido que os métodos de Monte Carlo porque calcula a
verdadeira estimativa de equivalência de certeza. Isso explica a vantagem de TD(0) mostrada
nos resultados do lote na tarefa de passeio aleatório (Figura 6.2). A relação com a estimativa
de equivalência de certeza também pode explicar em parte a vantagem de velocidade do TD(0)
não-batch (por exemplo, Exemplo 6.2, página 125, gráfico à direita). Embora os métodos não-
batch não atinjam nem a equivalência de certeza nem as estimativas de erro quadrático mínimo,
eles podem ser entendidos como se movendo aproximadamente nessas direções. TD(0) não-
batch pode ser mais rápido que MC constante porque está se movendo em direção a uma
estimativa melhor, mesmo que não esteja chegando lá. No momento, nada mais definitivo pode
ser dito sobre a relativa eficiência dos métodos de TD online e de Monte Carlo.
Finalmente, vale a pena notar que embora a estimativa da equivalência de certeza seja, em
certo sentido, uma solução óptima, quase nunca é viável calculá-la directamente. Se n = |S| é
o número de estados, então apenas formar a estimativa de máxima verossimilhança do
processo pode exigir na ordem de n2 memória, e calcular a função de valor correspondente
requer na ordem de n3 etapas computacionais, se feito convencionalmente. Nestes termos, é
realmente surpreendente que os métodos TD possam aproximar a mesma solução usando
memória não mais do que a ordem n e cálculos repetidos no conjunto de treinamento. Em
tarefas com grandes espaços de estados, os métodos TD podem ser a única forma viável de
aproximar a solução de equivalência de certeza.
ÿ
Exercício 6.7 Projete uma versão de política oÿ da atualização TD(0) que possa ser usada com

BartoSutton 1 150

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

BartoSutton 1 150

Enviado por

Direitos autorais:

Formatos disponíveis

Machine Translated by Google

Richard S. Sutton e Andrew G. Barto

Computação Adaptativa e Aprendizado de Máquina

série aparece no final deste livro.

sistema de aprendizagem por reforço desenvolvido por Jette Randløv.

Aprendizagem por Reforço:

Richard S. Sutton e Andrew G. Barto

c2018 Richard S. Sutton e Andrew G. Barto

Este trabalho está licenciado sob Creative Commons Attribution-NonCommercial-NoDerivs

org/licenses/by-nc-nd/2.0/ ou envie uma carta para Creative Commons, PO Box 1866,

Mountain View, CA 94042, EUA.

Comp: Preencha a fonte, o compositor e a localização

Os dados de catalogação na publicação da Biblioteca do Congresso estão disponíveis.

Em memória de A. Harry Klopf

Prefácio à segunda edição xiii

Prefácio à Primeira Edição xvii

Resumo da notação XIX

Métodos de solução tabular 23

3 processos de decisão finitos de Markov 47

4 Programação Dinâmica 4.1 73

5 métodos de Monte Carlo 91

6 Aprendizagem por Diferença Temporal 119

7 Bootstrapping em n etapas 141

8 Planejando e aprendendo com métodos tabulares 159

II Métodos de solução aproximada 195

9 Predição dentro da política com aproximação 9.1 197

9.9 Aproximação de Função Baseada em Memória . . . . . . . . . . . . . ... . . . 230

10 Controle de acordo com a política com aproximação 243

11 Métodos de política *Oÿ com aproximação 11.1 257

12 traços de elegibilidade 287

13 Métodos de Gradiente de Políticas 321

III Olhando mais profundamente 339

14 Psicologia 14.1 341

16 Aplicações e Estudos de Caso 16.1 TD- 421

Prefácio à segunda edição

XIV Prefácio à segunda edição

é o excesso de subscritos e sobrescritos. Nesta edição usamos a notação explícita de p(s0 , r|

Prefácio à segunda edição xv

xvi Prefácio à segunda edição

Prefácio à Primeira Edição

XVIII Prefácio à Primeira Edição

" probabilidade de tomar uma ação aleatória em uma "política gananciosa

parâmetro de taxa de desconto

Em um problema de bandido com vários braços:

Em um processo de decisão de Markov:

S conjunto de todos os estados não terminais

S+ conjunto de todos os estados, incluindo o estado terminal

t passo de tempo discreto

Santo estado no tempo t, normalmente devido, estocasticamente, a St1 e At1

Gt retorna após o tempo t

vÿ(s) valor dos estados sob a política ÿ (retorno esperado)

V,Vt estimativas de array da função de valor de estado vÿ ou vÿ

Resumo da notação xxi

t erro de diferença temporal (TD) em t (uma variável aleatória) (Seção 6.1)

d dimensionalidade - o número de componentes de w

vˆ(s,w) valor aproximado do estado s dado o vetor de peso w

x(s) vetor de recursos visíveis quando no estado s

ÿ, ÿt vetor de parâmetros da política alvo (Capítulo 13)

ÿ(s) distribuição de acordo com a política entre os estados (Seção 9.2)

XXII Resumo da notação

¯w(s) Erro Bellman (erro TD esperado) para vw no estado s (Seção 11.4)

1.1 Aprendizado por Reforço

Formalizamos o problema da aprendizagem por reforço usando ideias da teoria de sistemas