Escolar Documentos
Profissional Documentos
Cultura Documentos
Reforço
Aprendizado
Uma introdução
segunda edição
Francisco Bach
Uma lista completa de livros publicados na Adaptive Computation and Machine Learning
O desenho da capa é baseado nas trajetórias de uma bicicleta simulada controlada por um
Uma introdução
segunda edição
A imprensa do MIT
Cambridge, Massachusetts
Londres, Inglaterra
Machine Translated by Google
2.0 Licença Genérica. Para visualizar uma cópia desta licença, visite http://creativecommons.
Este livro foi ambientado em —— por ——. Impresso e encadernado nos Estados Unidos da América.
ISBN: 978-0-262-19398-6
10 9 8 7 6 5 4 3 2 1
Machine Translated by Google
Conteúdo
1. Introdução 1
1.1 Aprendizagem por Reforço. . . . . . . . . . . . . . ... . ... . ... . .. 1
1.2 Exemplos. . . . . . . . . . . . . . . . . . . . . . ... . ... . ... . ..4
1.3 Elementos de Aprendizagem por Reforço. . . . . . . . . . . ... . ... . ..6
1.4 Limitações e Escopo . . . . . . . . . . . . . . . . . . . ... . ... . ..7
1.5 Um exemplo estendido: jogo da velha. . . . . . . . . . . ... . ... . ..8
1.6 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 13
1.7 História Inicial da Aprendizagem por Reforço. . . . . ... . ... . ... . . . 13
2 bandidos multi-armados 25
2.1 Um problema de bandido armado com k. . . . . . . . . . . . . . . . . . . . ... . . . 25
2.2 Métodos de Ação-Valor . . . . . . . . . . . . . . . ... . ... . ... . . . 27
2.3 O Testbed de 10 braços . . . . . . . . . . . . . . . . . . . ... . ... . . . 28
2.4 Implementação Incremental . . . . . . . . . . . . ... . ... . ... . . . 30
2.5 Rastreando um Problema Não Estacionário . . . . . . . . . . . . ... . ... . . . 32
2.6 Valores Iniciais Otimistas . . . . . . . . . . . . . . ... . ... . ... . . . 34
2.7 Seleção de Ações com Limite Superior de Confiança . . . . . . . . ... . ... . . . 35
2.8 Algoritmos Gradiente Bandido . . . . . . . . . . . . . . . . ... . ... . . . 37
2.9 Pesquisa Associativa (Bandidos Contextuais) . . . . . ... . ... . ... . . . 41
2.10 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 42
vii
Machine Translated by Google
viii Conteúdo
Conteúdo ix
x Conteúdo
Conteúdo XI
15 Neurociência 377
15.1 Noções básicas de neurociência . . . . . . . . . . . . . . . . ... . ... . ... . . . 378
15.2 Sinais de recompensa, sinais de reforço, valores e erros de previsão. . 380
15.3 A Hipótese do Erro de Previsão de Recompensa. . . 381. . . . . . . ... . ... .
15.4 Dopamina. . . . . . . . . . . . . . . . . . . . . . ... . ... . ... . . . 383
15.5 Suporte experimental para a hipótese de erro de previsão de recompensa. . . . 387
15.6 Correspondência de erro TD/dopamina . . . . . . . . . . . ... . ... . . . 390
15.7 Ator-Crítico Neural . . . . . . . . . . . . . . . . ... . ... . ... . . . 395
15.8 Regras de Aprendizagem do Ator e do Crítico . . . . . . . . . . . . . . . . . ... . . . 398
15.9 Neurônios Hedonistas . . . . . . . . . . . . . . . . . ... . ... . ... . . . 402
15.10 Aprendizagem por Reforço Coletivo . . . . . . . . ... . ... . ... . . . 404
15.11 Métodos Baseados em Modelos no Cérebro . . . . . . . . . . . . ... . ... . . . 407
15.12 Dependência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . 409
15.13 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . ... . ... . . . 410
Machine Translated by Google
xii Conteúdo
17 Fronteiras 459
17.1 Funções de Valores Gerais e Tarefas Auxiliares . . ... . ... . ... . . . 459
17.2 Abstração Temporal via Opções . . . . . . . . ... . ... . ... . . . 461
17.3 Observações e Estado . . . . . . . . . . . . . . . . . . ... . ... . . . 464
17.4 Projetando Sinais de Recompensa . . . . . . . . . . . . . ... . ... . ... . . . 469
17.5 Questões Restantes . . . . . . . . . . . . . . . . . . ... . ... . ... . . . 472
17.6 O Futuro da Inteligência Artificial . . . . . . . . ... . ... . ... . . . 475
Referências 481
Índice 519
Machine Translated by Google
Os vinte anos desde a publicação da primeira edição deste livro testemunharam um tremendo
progresso na inteligência artificial, impulsionado em grande parte pelos avanços na aprendizagem
automática, incluindo avanços na aprendizagem por reforço. Embora o impressionante poder
computacional disponibilizado seja responsável por alguns desses avanços, novos
desenvolvimentos na teoria e nos algoritmos também têm sido forças motrizes. Diante desse
progresso, uma segunda edição do nosso livro de 1998 estava muito atrasada e finalmente
iniciamos o projeto em 2012. Nosso objetivo para a segunda edição foi o mesmo que o objetivo
para a primeira: fornecer um relato claro e simples das principais ideias e algoritmos de
aprendizagem por reforço que são acessíveis aos leitores em todas as disciplinas relacionadas.
A edição continua sendo uma introdução e mantemos o foco nos principais algoritmos de
aprendizagem on-line. Esta edição inclui alguns tópicos novos que ganharam importância ao
longo dos anos seguintes, e ampliamos a cobertura de tópicos que agora entendemos melhor.
Mas não fizemos nenhuma tentativa de fornecer uma cobertura abrangente da área, que explodiu
em muitas direções diferentes. Pedimos desculpas por ter deixado de fora todas essas contribuições, exceto algu
Tal como na primeira edição, optámos por não produzir um tratamento formal rigoroso da aprendizagem por
reforço, ou formulá-lo nos termos mais gerais. No entanto, a nossa compreensão mais profunda de alguns tópicos
desde a primeira edição exigiu um pouco mais de matemática para explicar; colocamos em caixas sombreadas as
partes mais matemáticas que os não inclinados à matemática podem optar por ignorar. Também usamos uma
notação ligeiramente diferente da usada na primeira edição. No ensino, descobrimos que a nova notação ajuda a
resolver alguns pontos comuns de confusão. Enfatiza a diferença entre variáveis aleatórias, denotadas com letras
maiúsculas, e suas instanciações, denotadas em minúsculas . Por exemplo, o estado, a ação e a recompensa na
etapa de tempo t são denotados por St, At e Rt, enquanto seus valores possíveis podem ser denotados por s, a e r.
Junto com isso, é natural usar letras minúsculas para funções de valor (por exemplo, vÿ) e restringir maiúsculas às
suas estimativas tabulares (por exemplo, Qt(s, a)). Funções de valor aproximado são funções determinísticas de
parâmetros aleatórios e, portanto, também estão em letras minúsculas (por exemplo, vˆ(s,wt) ÿ vÿ(s)). Vetores, como
o vetor de peso wt (anteriormente ÿt) e o vetor de características xt (anteriormente t), estão em negrito e escritos em
letras minúsculas, mesmo que sejam variáveis aleatórias. Negrito maiúsculo é reservado para matrizes. Na primeira
edição utilizamos notações especiais, Pa e Ra para a transição ss0 , probabilidades e recompensas esperadas. Um
ponto fraco dessa notação é que ela ainda não caracterizou completamente a dinâmica das recompensas, fornecendo
apenas as suas expectativas, o que é suficiente para a programação dinâmica,
ss0 mas não para a aprendizagem por
reforço. Outra fraqueza
xiii
Machine Translated by Google
com um ÿ. Estas podem ser omitidas na primeira leitura sem criar problemas posteriores. Alguns
exercícios também são marcados com um ÿ para indicar que são mais avançados e não
essenciais para a compreensão do material básico do capítulo.
A maioria dos capítulos termina com uma seção intitulada “Observações bibliográficas e
históricas”, na qual creditamos as fontes das ideias apresentadas naquele capítulo, fornecemos
dicas para leituras adicionais e pesquisas em andamento e descrevemos o contexto histórico
relevante. Apesar de nossas tentativas de tornar estas seções oficiais e completas, sem dúvida
deixamos de fora alguns trabalhos anteriores importantes. Por isso pedimos novamente
desculpas e agradecemos correções e extensões para incorporação na versão eletrônica do livro.
Tal como a primeira edição, esta edição do livro é dedicada à memória de A. Harry Klopf. Foi
Harry quem nos apresentou um ao outro, e foram suas ideias sobre o cérebro e a inteligência
artificial que lançaram nossa longa excursão pelo aprendizado por reforço.
Treinado em neurofisiologia e há muito interessado em inteligência de máquina, Harry era
um cientista sênior aliado da Diretoria de Aviônica do Departamento de Pesquisa Científica
da Força Aérea (AFOSR) na Base Aérea de Wright-Patterson, Ohio. Ele estava insatisfeito
com a grande importância atribuída aos processos de busca de equilíbrio, incluindo a
homeostase e métodos de classificação de padrões de correção de erros, na explicação da
inteligência natural e no fornecimento de uma base para a inteligência da máquina. Ele
observou que os sistemas que tentam maximizar algo (seja lá o que for) são qualitativamente
diferentes dos sistemas que buscam o equilíbrio, e argumentou que os sistemas de
maximização são a chave para a compreensão de aspectos importantes da inteligência
natural e para a construção de inteligências artificiais. Harry foi fundamental na obtenção de
financiamento da AFOSR para um projeto para avaliar o mérito científico destas e de ideias
relacionadas. Este projeto foi conduzido no final da década de 1970 na Universidade de
Massachusetts Amherst (UMass Amherst), inicialmente sob a direção de Michael Arbib,
William Kilmer e Nico Spinelli, professores do Departamento de Ciência da Computação e
Informação da UMass Amherst, e membros fundadores. do Centro Cibernético para
Neurociências de Sistemas da Universidade, um grupo clarividente com foco na intersecção
da neurociência e da inteligência artificial. Barto, um recente Ph.D. da Universidade de
Michigan, foi contratado como pesquisador de pós-doutorado no projeto. Enquanto isso,
Sutton, um estudante de graduação em ciência da computação e psicologia em Stanford,
correspondia-se com Harry a respeito de seu interesse mútuo no papel do tempo de estímulo
no condicionamento clássico. Harry sugeriu ao grupo UMass que Sutton seria um ótimo
complemento para o projeto. Assim, Sutton tornou-se um estudante de pós-graduação da
UMass, cujo Ph.D. foi dirigido por Barto, que se tornou professor associado. O estudo da
aprendizagem por reforço apresentado neste livro é justamente o resultado daquele projeto
instigado por Harry e inspirado por suas ideias. Além disso, Harry foi responsável por reunir nós, os autores
Ao dedicar este livro a Harry, honramos as suas contribuições essenciais, não apenas no campo
da aprendizagem por reforço, mas também na nossa colaboração. Agradecemos também aos
professores Arbib, Kilmer e Spinelli pela oportunidade que nos proporcionaram de começar a
explorar essas ideias. Finalmente, agradecemos à AFOSR pelo generoso apoio durante os
primeiros anos da nossa investigação, e à NSF pelo seu generoso apoio durante muitos dos anos seguintes.
Temos muitas pessoas a quem agradecer pela inspiração e ajuda nesta segunda edição.
Todos que reconhecemos por sua inspiração e ajuda na primeira edição
Machine Translated by Google
merecem também a nossa mais profunda gratidão por esta edição, que não existiria se não fosse pelas
suas contribuições para a edição número um. A essa longa lista devemos acrescentar muitos outros
que contribuíram especificamente para a segunda edição. Nossos alunos, ao longo dos muitos anos
em que ensinamos este material, contribuíram de inúmeras maneiras: expondo erros, oferecendo
soluções e, não menos importante, ficando confusos em lugares onde poderíamos ter explicado melhor as coisas.
Agradecemos especialmente a Martha Steenstrup pela leitura e pelos comentários detalhados . Os capítulos
sobre psicologia e neurociência não poderiam ter sido escritos sem a ajuda de muitos especialistas nessas
áreas. Agradecemos a John Moore por sua orientação paciente durante muitos anos em experimentos de
aprendizagem animal, teoria e neurociência, e por sua leitura cuidadosa de vários rascunhos dos Capítulos
14 e 15. Agradecemos também a Matt Botvinick, Nathaniel Daw, Peter Dayan e Yael Niv por seus comentários
penetrantes sobre os rascunhos deste capítulo, sua orientação essencial através da enorme literatura e sua
interceptação de muitos de nossos erros nos primeiros rascunhos. É claro que os erros remanescentes
nestes capítulos – e ainda deve haver alguns – são totalmente nossos. Agradecemos a Phil Thomas por nos
ajudar a tornar estes capítulos acessíveis a não-psicólogos e não-neurocientistas, e agradecemos a Peter
Sterling por nos ajudar a melhorar a exposição. Somos gratos a Jim Houk por nos apresentar o tema do
processamento de informação nos gânglios da base e por nos alertar para outros aspectos relevantes da
neurociência. Jos´e Mart´ÿnez, Terry Sejnowski, David Silver, Gerry Tesauro, Georgios Theocharous e Phil
Thomas generosamente nos ajudaram a entender os detalhes de suas aplicações de aprendizagem por
reforço para inclusão no capítulo de estudos de caso, e forneceram comentários úteis sobre os rascunhos
destes Seções.
Agradecimentos especiais são devidos a David Silver por nos ajudar a entender melhor o
Monte Carlo Tree Search e os programas DeepMind Go-playing. Agradecemos a George
Konidaris por sua ajuda com a seção na base de Fourier. Emilio Cartoni, Thomas Cederborg,
Stefan Dernbach, Clemens Rosenbaum, Patrick Taylor, Thomas Colin e Pierre-Luc Bacon
ajudaram-nos de diversas maneiras importantes pelas quais estamos muito gratos.
Sutton também gostaria de agradecer aos membros do laboratório de Aprendizagem por Reforço e
Inteligência Artificial da Universidade de Alberta pelas contribuições para a segunda edição. Ele tem uma
dívida especial com Rupam Mahmood pelas contribuições essenciais para o tratamento dos métodos de
Monte Carlo fora da política no Capítulo 5, com Hamid Maei por ajudar a desenvolver a perspectiva sobre a
aprendizagem fora da política apresentada no Capítulo 11, com Eric Graves por conduzir os experimentos
no Capítulo 13, a Shangtong Zhang por replicar e assim verificar quase todos os resultados experimentais, a
Kris De Asis por melhorar o novo conteúdo técnico dos Capítulos 7 e 12, e a Harm van Seijen pelos insights
que levaram à separação de n -step métodos de rastreios de elegibilidade e (juntamente com Hado van
Hasselt) para as ideias que envolvem a equivalência exata de visões progressivas e retrógradas de rastreios
de elegibilidade apresentadas no Capítulo 12. Sutton também reconhece com gratidão o apoio e a liberdade
que lhe foram concedidos pelo governo de Alberta e o Conselho Nacional de Pesquisa em Ciência e
Engenharia do Canadá durante todo o período durante o qual a segunda edição foi concebida e escrita. Em
particular, ele gostaria de agradecer a Randy Goebel por criar um ambiente de apoio e clarividência para a
pesquisa em Alberta. Ele também gostaria de agradecer à DeepMind pelo apoio nos últimos seis meses de
escrita do livro.
Por fim, agradecemos aos muitos leitores atentos dos rascunhos da segunda edição que publicamos na
internet. Eles encontraram muitos erros que havíamos perdido e nos alertaram sobre possíveis pontos de
confusão.
Machine Translated by Google
Começamos a nos concentrar no que hoje é conhecido como aprendizagem por reforço no
final de 1979. Estávamos ambos na Universidade de Massachusetts, trabalhando em um dos
primeiros projetos para reviver a ideia de que redes de elementos adaptativos semelhantes a
neurônios poderiam provar ser uma abordagem promissora. à inteligência adaptativa artificial.
O projeto explorou a “teoria heterostática de sistemas adaptativos” desenvolvida por A. Harry
Klopf. O trabalho de Harry foi uma rica fonte de ideias, e pudemos explorá-las criticamente e
compará-las com a longa história de trabalhos anteriores em sistemas adaptativos. Nossa
tarefa passou a ser separar as ideias e compreender suas relações e importância relativa. Isto
continua até hoje, mas em 1979 percebemos que talvez a mais simples das ideias, que há
muito era tida como certa, tinha recebido surpreendentemente pouca atenção do ponto de
vista computacional. Esta foi simplesmente a ideia de um sistema de aprendizagem que quer
alguma coisa, que adapta o seu comportamento para maximizar um sinal especial do seu
ambiente. Esta era a ideia de um sistema de aprendizagem “hedonista” ou, como diríamos
agora, a ideia de aprendizagem por reforço.
Tal como outros, tínhamos a sensação de que a aprendizagem por reforço tinha sido
exaustivamente explorada nos primórdios da cibernética e da inteligência artificial. Porém, examinando
mais de perto, descobrimos que ele havia sido explorado apenas ligeiramente. Embora a
aprendizagem por reforço tenha claramente motivado alguns dos primeiros estudos computacionais
de aprendizagem, a maioria destes investigadores passou para outras coisas, tais como classificação
de padrões, aprendizagem supervisionada e controlo adaptativo, ou abandonaram completamente o
estudo da aprendizagem. Como resultado, as questões especiais envolvidas na aprendizagem de
como obter algo do ambiente receberam relativamente pouca atenção. Em retrospectiva, concentrar-
se nesta ideia foi o passo crítico que deu início a este ramo de investigação. Pouco progresso poderia
ser feito no estudo computacional da aprendizagem por reforço até que se reconhecesse que tal
ideia fundamental ainda não havia sido completamente explorada.
O campo percorreu um longo caminho desde então, evoluindo e amadurecendo em diversas direções.
O aprendizado por reforço tornou-se gradualmente uma das áreas de pesquisa mais ativas em
aprendizado de máquina, inteligência artificial e pesquisa de redes neurais. O campo desenvolveu
bases matemáticas sólidas e aplicações impressionantes. O estudo computacional da aprendizagem
por reforço é hoje um campo amplo, com centenas de pesquisadores ativos em todo o mundo em
diversas disciplinas, como psicologia, teoria de controle, inteligência artificial e neurociência.
Particularmente importantes foram as contribuições que estabelecem e desenvolvem as relações
com a teoria do controle ótimo e da programação dinâmica.
xvii
Machine Translated by Google
O problema geral de aprender através da interacção para atingir objectivos ainda está longe de
ser resolvido, mas a nossa compreensão do mesmo melhorou significativamente. Podemos agora
colocar ideias componentes, como aprendizagem por diferença temporal, programação dinâmica
e aproximação de funções, dentro de uma perspectiva coerente em relação ao problema geral.
Nosso objetivo ao escrever este livro foi fornecer um relato claro e simples das principais ideias
e algoritmos da aprendizagem por reforço. Queríamos que nosso tratamento fosse acessível aos
leitores de todas as disciplinas relacionadas, mas não pudemos cobrir detalhadamente todas essas
perspectivas. Na maior parte, nosso tratamento adota o ponto de vista da inteligência artificial e da
engenharia. A cobertura das conexões com outros campos deixamos para outros ou para outro
momento. Também optamos por não produzir um tratamento formal rigoroso da aprendizagem por reforço.
Não alcançamos o nível mais alto possível de abstração matemática e não confiamos em um
formato de prova de teoremas. Tentamos escolher um nível de detalhe matemático que apontasse
os inclinados à matemática na direção certa, sem desviar a atenção da simplicidade e da
generalidade potencial das ideias subjacentes.
...
De certa forma, temos trabalhado neste livro há trinta anos e temos muitas pessoas a
quem agradecer. Em primeiro lugar, agradecemos àqueles que nos ajudaram pessoalmente
a desenvolver a visão global apresentada neste livro: Harry Klopf, por nos ajudar a
reconhecer que a aprendizagem por reforço precisava de ser reavivada; Chris Watkins,
Dimitri Bertsekas, John Tsitsiklis e Paul Werbos, por nos ajudar a ver o valor das relações
com a programação dinâmica; John Moore e Jim Kehoe, pelos insights e inspirações da
teoria da aprendizagem animal; Oliver Selfridge, por enfatizar a amplitude e a importância
da adaptação; e, de forma mais geral, nossos colegas e estudantes que contribuíram de
inúmeras maneiras: Ron Williams, Charles Anderson, Satinder Singh, Sridhar Mahadevan,
Steve Bradtke, Bob Crites, Peter Dayan e Leemon Baird. Nossa visão da aprendizagem
por reforço foi significativamente enriquecida por discussões com Paul Cohen, Paul Utgoÿ,
Martha Steenstrup, Gerry Tesauro, Mike Jordan, Leslie Kaelbling, Andrew Moore, Chris
Atkeson, Tom Mitchell, Nils Nilsson, Stuart Russell, Tom Dietterich, Tom Dean e Bob Narendra.
Agradecemos a Michael Littman, Gerry Tesauro, Bob Crites, Satinder Singh e Wei Zhang por
fornecerem detalhes das Seções 4.7, 15.1, 15.4, 15.4 e 15.6, respectivamente. Agradecemos ao
Departamento de Pesquisa Científica da Força Aérea, à National Science Foundation e aos
Laboratórios GTE por seu apoio duradouro e clarividente.
Gostaríamos também de agradecer às muitas pessoas que leram os rascunhos deste
livro e forneceram comentários valiosos, incluindo Tom Kalt, John Tsitsiklis, Pawel
Cichosz, Olle G¨allmo, Chuck Anderson, Stuart Russell, Ben Van Roy, Paul Steenstrup,
Paul Cohen. , Sridhar Mahadevan, Jette Randlov, Brian Sheppard, Thomas O'Connell,
Richard Coggins, Cristina Versino, John H. Hiett, Andreas Badelt, Jay Ponte, Joe Beck,
Justus Piater, Martha Steenstrup, Satinder Singh, Tommi Jaakkola, Dimitri Bertsekas,
Torbj¨orn Ekman, Christina Bj¨orkman, Jakob Carlstr¨om e Olle Palmgren. Por fim,
agradecemos a Gwyn Mitchell por ajudar de várias maneiras, e a Harry Stanton e Bob
Prior por serem nossos defensores na MIT Press.
Machine Translated by Google
Resumo da notação
Letras maiúsculas são usadas para variáveis aleatórias, enquanto letras minúsculas são usadas para
os valores de variáveis aleatórias e para funções escalares. Quantidades necessárias para
vetores com valor real são escritos em negrito e em letras minúsculas (mesmo se forem variáveis aleatórias).
Matrizes são maiúsculas em negrito.
.
= relação de igualdade que é verdadeira por definição
ÿ
Aproximadamente igual
/ proporcional a
Pr{X =x} probabilidade de que uma variável aleatória X assuma o valor x
Xÿp variável aleatória X selecionada da distribuição p(x) . =Pr{X =x}
E[X] expectativa de uma variável aleatória X, ou seja, E[X] . =P x p(x)x
argmaxa f(a) um valor de a no qual f(a) assume seu valor máximo
ln x logaritmo natural de x
a base do logaritmo natural, e ÿ 2,71828, elevada à potência x; eln x ex R f : X ! S =x
conjunto de números reais
função f de elementos do conjunto X para elementos do conjunto Y
atribuição
(a,b] o intervalo real entre a e b incluindo b, mas não incluindo a
XIX
Machine Translated by Google
xx Resumo da notação
p(s0 , r|s, a) probabilidade de transição para o estado s0 com recompensa r, do estado s e ação a
p(s0 |s, a) probabilidade de transição para o estado s0 , do estado tomando medidas
r(s, a) recompensa imediata esperada do estado s após a ação a
r(s, a, s0 ) recompensa imediata esperada na transição de s para s0 sob ação a
b(uma| política de comportamento usada para selecionar ações enquanto aprende sobre a política alvo ÿ
s) uma função de linha de base b : S 7! R para métodos de gradiente de política
b(s) b fator de ramificação para um MDP ou árvore de pesquisa
ÿt:h razão de amostragem de importância para o tempo t até o tempo h (Seção 5.5)
.
ÿt taxa de amostragem de importância apenas para o tempo t, ÿt = ÿt:t
r(ÿ) recompensa média (taxa de recompensa) para a política ÿ (Seção 10.3)
R¯t estimativa de r(ÿ) no tempo t
A d ÿ d matriz A .
= E h xt xt xt+1>i
b vetor d-dimensional b .
. = E[Rt+1xt]
wTD TD ponto fixo wTD = A1b (um vetor d, Seção 9.4)
EU
matriz de identidade
P |S| ÿ |S| matriz de probabilidades de transição de estado sob ÿ
D |S| ÿ |S| matriz diagonal com µ em sua diagonal
X |S| ÿ d matriz com x(s) como suas linhas
Capítulo 1
Introdução
A ideia de que aprendemos interagindo com o nosso ambiente é provavelmente a primeira que nos
ocorre quando pensamos sobre a natureza da aprendizagem. Quando uma criança brinca, agita os
braços ou olha em volta, não tem um professor explícito, mas tem uma ligação sensório-motora direta
com o seu ambiente. O exercício desta ligação produz uma riqueza de informações sobre causa e
efeito, sobre as consequências das ações e sobre o que fazer para atingir os objetivos. Ao longo de
nossas vidas, essas interações são, sem dúvida, uma importante fonte de conhecimento sobre nosso
meio ambiente e sobre nós mesmos. Quer estejamos aprendendo a dirigir um carro ou a manter uma
conversa, estamos perfeitamente conscientes de como o nosso ambiente responde ao que fazemos e
procuramos influenciar o que acontece através do nosso comportamento. Aprender a partir da interação
é uma ideia fundamental subjacente a quase todas as teorias de aprendizagem e inteligência.
Neste livro, exploramos uma abordagem computacional para aprender a partir da interação. Em vez
de teorizar diretamente sobre como as pessoas ou os animais aprendem, exploramos principalmente
situações de aprendizagem idealizadas e avaliamos a eficácia de vários métodos de aprendizagem.1
Ou seja, adotamos a perspectiva de um pesquisador ou engenheiro de inteligência artificial. Exploramos
projetos de máquinas que sejam eficazes na resolução de problemas de aprendizagem de interesse
científico ou econômico, avaliando os projetos por meio de análises matemáticas ou experimentos
computacionais. A abordagem que exploramos, chamada aprendizagem por reforço, é muito mais
focada na aprendizagem direcionada a objetivos a partir da interação do que outras abordagens de
aprendizagem de máquina.
1As relações com a psicologia e a neurociência estão resumidas nos Capítulos 14 e 15.
1
Machine Translated by Google
2 Capítulo 1 Introdução
recompensa, mas também a próxima situação e, através dela, todas as recompensas subsequentes.
Essas duas características – busca por tentativa e erro e recompensa atrasada – são as duas
características distintivas mais importantes da aprendizagem por reforço.
O aprendizado por reforço, como muitos tópicos cujos nomes terminam com “ing”, como aprendizado de
máquina e montanhismo, é simultaneamente um problema, uma classe de métodos de solução que funcionam
bem no problema e o campo que estuda esse problema e seus métodos de solução. É conveniente usar um único
nome para todas as três coisas, mas ao mesmo tempo é essencial mantê-las conceitualmente separadas. Em
particular, a distinção entre problemas e métodos de solução é muito importante na aprendizagem por reforço;
deixar de fazer essa distinção é fonte de muitas confusões.
Um dos desafios que surgem na aprendizagem por reforço, e não em outros tipos de aprendizagem,
é a trocaÿ entre exploração e aproveitamento. Para obter muita recompensa, um agente de
aprendizagem por reforço deve preferir ações que ele tentou no passado e considerou eficazes na
produção de recompensa. Mas para descobrir tais ações, tem que tentar ações que não tenha
selecionado antes. O agente tem que explorar o que já experimentou para obter recompensa, mas
também tem que explorar para fazer melhores seleções de ações no futuro. O dilema é que nem a
exploração nem a exploração podem ser prosseguidas exclusivamente sem falhar na tarefa. O agente
deve tentar uma variedade de ações e favorecer progressivamente aquelas que parecerem melhores.
Numa tarefa estocástica, cada ação deve ser tentada muitas vezes para obter uma estimativa
confiável da recompensa esperada. O dilema exploração-exploração tem sido intensamente estudado
por matemáticos há muitas décadas, mas permanece sem solução. Por enquanto, apenas notamos
que toda a questão do equilíbrio entre exploração e exploração nem sequer surge na aprendizagem
supervisionada e não supervisionada, pelo menos nas formas mais puras destes paradigmas.
Outra característica fundamental da aprendizagem por reforço é que ela considera explicitamente
todo o problema de um agente direcionado a um objetivo interagindo com um ambiente incerto. Isto
contrasta com muitas abordagens que consideram subproblemas sem abordar como eles podem se
encaixar em um quadro mais amplo. Por exemplo, mencionámos que grande parte da investigação
sobre aprendizagem automática se preocupa com a aprendizagem supervisionada, sem especificar
explicitamente como tal capacidade seria finalmente útil. Outros investigadores desenvolveram teorias
de planeamento com objectivos gerais, mas sem considerar o papel do planeamento na tomada de
decisões em tempo real , ou a questão de onde viriam os modelos preditivos necessários para o
planeamento . Embora estas abordagens tenham produzido muitos resultados úteis, o seu foco em
subproblemas isolados é uma limitação significativa.
A aprendizagem por reforço segue o caminho oposto, começando com um agente completo,
interativo e que busca objetivos. Todos os agentes de aprendizagem por reforço têm objetivos
explícitos, podem sentir aspectos dos seus ambientes e podem escolher ações para influenciar os seus ambientes.
Além disso, é geralmente assumido desde o início que o agente tem de operar apesar de uma
incerteza significativa sobre o ambiente que enfrenta. Quando a aprendizagem por reforço envolve
planeamento, tem de abordar a interação entre o planeamento e a seleção de ações em tempo real,
bem como a questão de como os modelos ambientais são adquiridos e melhorados.
Quando a aprendizagem por reforço envolve aprendizagem supervisionada, fá-lo por razões específicas
que determinam quais capacidades são críticas e quais não são. Para que a investigação em aprendizagem
progrida, subproblemas importantes têm de ser isolados e estudados, mas devem ser subproblemas que
desempenhem papéis claros em agentes completos, interactivos e que procuram objectivos, mesmo que
todos os detalhes do agente completo ainda não possam ser preenchidos.
Por agente completo, interativo e que busca objetivos nem sempre queremos dizer algo como um
organismo ou robô completo. Estes são claramente exemplos, mas um agente completo, interativo e
que busca objetivos também pode ser um componente de um sistema comportamental mais amplo.
Neste caso, o agente interage diretamente com o resto do sistema maior e interage indiretamente
com o ambiente do sistema maior. Um exemplo simples é um agente que monitora o nível de carga
da bateria do robô e envia comandos para a arquitetura de controle do robô.
O ambiente deste agente é o resto do robô junto com o ambiente do robô.
É preciso olhar além dos exemplos mais óbvios de agentes e seus ambientes para
Machine Translated by Google
4 Capítulo 1 Introdução
1.2 Exemplos
Uma boa maneira de compreender a aprendizagem por reforço é considerar alguns dos exemplos
e possíveis aplicações que orientaram o seu desenvolvimento.
• Um filhote de gazela consegue se levantar minutos depois de nascer. Meia hora depois é
correndo a 20 milhas por hora.
• Um robô móvel decide se deve entrar em uma nova sala em busca de mais lixo para coletar
ou começar a tentar encontrar o caminho de volta para a estação de recarga de bateria. Ele
toma sua decisão com base no nível de carga atual de sua bateria e na rapidez e facilidade
com que conseguiu encontrar o carregador no passado.
• Phil prepara seu café da manhã. Examinada de perto, mesmo esta actividade aparentemente
mundana revela uma teia complexa de comportamento condicional e relações entrelaçadas
entre objectivos e subobjectivos: caminhar até ao armário, abri-lo, seleccionar uma caixa
de cereais, depois estender a mão, agarrar e recuperar a caixa. Outras sequências de
comportamento complexas, sintonizadas e interativas são necessárias para obter uma
tigela, uma colher e uma caixa de leite. Cada etapa envolve uma série de movimentos
oculares para obter informações e orientar o alcance e a locomoção. Julgamentos rápidos
são continuamente feitos sobre como transportar os objetos ou se é melhor transportar
alguns deles para a mesa de jantar antes de obter outros. Cada passo é guiado por
objetivos, como pegar uma colher ou chegar à geladeira, e está a serviço de outros
objetivos, como ter a colher para comer depois de preparado o cereal e, em última análise,
obter o alimento. Esteja ele ciente disso ou não, Phil está acessando informações sobre o
estado de seu corpo que determinam suas necessidades nutricionais, nível de fome e preferências aliment
Esses exemplos compartilham recursos que são tão básicos que são fáceis de ignorar. Todos
envolvem a interação entre um agente ativo na tomada de decisões e o seu ambiente, dentro da
qual o agente procura atingir um objetivo apesar da incerteza sobre o seu ambiente. As ações do
agente podem afetar o estado futuro do ambiente (por exemplo, a próxima posição do xadrez, o
nível dos reservatórios da refinaria, a próxima localização do robô e o futuro nível de carga de
sua bateria), afetando assim o ações e oportunidades disponíveis para o agente em momentos
posteriores. A escolha correcta exige ter em conta as consequências indirectas e retardadas das
acções e, portanto, pode exigir previsão ou planeamento.
Ao mesmo tempo, em todos estes exemplos os efeitos das ações não podem ser totalmente previstos;
portanto, o agente deve monitorar seu ambiente com frequência e reagir de forma adequada. Por
exemplo, Phil deve tomar cuidado com o leite que coloca em sua tigela de cereal para evitar que transborde.
Todos estes exemplos envolvem objectivos que são explícitos no sentido de que o agente pode
avaliar o progresso em direcção ao seu objectivo com base naquilo que pode sentir directamente.
O jogador de xadrez sabe se ganha ou não, o controlador da refinaria sabe quanto petróleo está
sendo produzido, o filhote de gazela sabe quando cai, o robô móvel sabe quando suas baterias
acabam e Phil sabe se está ou não aproveitando seu café da manhã. .
Em todos estes exemplos o agente pode usar a sua experiência para melhorar o seu
desempenho ao longo do tempo. O enxadrista refina a intuição que utiliza para avaliar posições,
melhorando assim seu jogo; o bezerro gazela melhora a eficiência com que pode correr; Phil
aprende a simplificar a preparação do café da manhã. O conhecimento que o agente traz para a
tarefa no início – seja da experiência anterior com tarefas relacionadas ou incorporado a ela pelo
design ou pela evolução – influencia o que é útil ou fácil de aprender, mas a interação com o
ambiente é essencial para ajustar o comportamento para explorar especificidades . características da tarefa.
Machine Translated by Google
6 Capítulo 1 Introdução
método para estimar valores de forma eficiente. O papel central da estimativa de valor é sem
dúvida a coisa mais importante que foi aprendida sobre a aprendizagem por reforço nas
últimas seis décadas.
O quarto e último elemento de alguns sistemas de aprendizagem por reforço é um modelo do
ambiente. Isto é algo que imita o comportamento do ambiente, ou mais genericamente, que permite
fazer inferências sobre como o ambiente se comportará.
Por exemplo, dado um estado e uma ação, o modelo pode prever o próximo estado e a próxima
recompensa resultantes. Modelos são usados para planejamento, o que significa qualquer forma de
decidir sobre um curso de ação considerando possíveis situações futuras antes que elas sejam realmente
vivenciadas. Os métodos para resolver problemas de aprendizagem por reforço que usam modelos e
planejamento são chamados de métodos baseados em modelos, em oposição aos métodos mais
simples, sem modelos, que são alunos explicitamente por tentativa e erro - vistos quase como o oposto
do planejamento. No Capítulo 8 exploramos sistemas de aprendizagem por reforço que aprendem
simultaneamente por tentativa e erro, aprendem um modelo do ambiente e usam o modelo para
planejamento. A aprendizagem por reforço moderna abrange o espectro desde a aprendizagem de baixo
nível, por tentativa e erro, até o planejamento deliberativo de alto nível.
A maioria dos métodos de aprendizagem por reforço que consideramos neste livro são estruturados
em torno da estimativa de funções de valor, mas não é estritamente necessário fazer isso para resolver
problemas de aprendizagem por reforço. Por exemplo, métodos de solução como algoritmos genéticos ,
programação genética, recozimento simulado e outros métodos de otimização nunca estimam funções
de valor. Esses métodos aplicam diversas políticas estáticas, cada uma interagindo por um longo período
de tempo com uma instância separada do ambiente. As políticas que obtêm a maior recompensa, e as
suas variações aleatórias, são transferidas para a próxima geração de políticas e o processo repete-se.
Chamamos estes métodos evolutivos porque o seu funcionamento é análogo ao modo como a evolução
biológica produz organismos com comportamento qualificado, mesmo que não aprendam durante as
suas vidas individuais. Se o espaço das políticas for suficientemente pequeno ou puder ser estruturado
para que boas políticas sejam
Machine Translated by Google
8 Capítulo 1 Introdução
comum ou fácil de encontrar – ou se houver muito tempo disponível para a busca – então os métodos
evolutivos podem ser eficazes. Além disso, os métodos evolutivos apresentam vantagens em problemas
nos quais o agente de aprendizagem não consegue sentir o estado completo do seu ambiente.
Nosso foco está em métodos de aprendizagem por reforço que aprendem enquanto interagem
com o meio ambiente, o que os métodos evolutivos não fazem. Os métodos capazes de tirar
vantagem dos detalhes das interações comportamentais individuais podem ser muito mais
eficientes do que os métodos evolutivos em muitos casos. Os métodos evolutivos ignoram grande
parte da estrutura útil do problema da aprendizagem por reforço: não utilizam o facto de que a
política que procuram é uma função dos estados para as ações; eles não percebem quais estados
um indivíduo passa durante sua vida, ou quais ações ele seleciona. Em alguns casos, esta
informação pode ser enganosa (por exemplo, quando os estados são mal interpretados), mas
mais frequentemente deverá permitir uma pesquisa mais eficiente. Embora evolução e
aprendizagem compartilhem muitas características e trabalhem naturalmente juntas, não
consideramos que os métodos evolutivos por si só sejam especialmente adequados para
problemas de aprendizagem por reforço e, portanto, não os abordamos neste livro.
neste problema é primeiro aprender um modelo do comportamento do oponente, até certo nível de
confiança, e então aplicar a programação dinâmica para calcular uma solução ótima dado o modelo
aproximado do oponente. No final das contas, isso não é muito diferente de alguns dos métodos de
aprendizagem por reforço que examinaremos mais adiante neste livro.
Um método evolutivo aplicado a este problema procuraria diretamente no espaço de
políticas possíveis aquela com alta probabilidade de vitória contra o oponente.
Aqui, uma política é uma regra que informa ao jogador qual movimento fazer para cada
estado do jogo – cada configuração possível de Xs e Os no tabuleiro três por três. Para
cada política considerada, uma estimativa da sua probabilidade de vitória seria obtida
jogando um certo número de jogos contra o adversário. Esta avaliação orientaria então
qual política ou políticas seriam consideradas a seguir. Um método evolutivo típico seria
subir colinas no espaço político, gerando e avaliando sucessivamente políticas numa
tentativa de obter melhorias incrementais. Ou, talvez, um algoritmo de estilo genético
pudesse ser usado para manter e avaliar uma população de políticas. Literalmente
centenas de métodos de otimização diferentes poderiam ser aplicados.
Aqui está como o problema do jogo da velha seria abordado com um método que faz uso de
uma função de valor. Primeiro montaríamos uma tabela de números, uma para cada estado
possível do jogo. Cada número será a última estimativa da probabilidade de vencermos nesse
estado. Tratamos esta estimativa como o valor do estado, e toda a tabela é a função de valor
aprendida. O estado A tem um valor mais alto que o estado B, ou é considerado “melhor” que o
estado B, se a estimativa atual da probabilidade de ganharmos de A for maior do que de B.
Supondo que sempre jogamos Xs, então para todos os estados com três X seguidos a
probabilidade de ganhar é 1, porque já ganhamos. Da mesma forma, para todos os estados com
três Os seguidos, ou que estão preenchidos, a probabilidade correta é 0, pois não podemos
ganhar com eles. Definimos os valores iniciais de todos os outros estados como 0,5, representando
uma estimativa de que temos 50% de chance de ganhar.
Depois jogamos muitos jogos contra o adversário. Para selecionar nossos movimentos,
examinamos os estados que resultariam de cada um dos nossos movimentos possíveis (um para
cada espaço em branco no tabuleiro) e procuramos seus valores atuais na tabela. Na maioria das
vezes movemo-nos avidamente, selecionando a jogada que leva ao estado de maior valor, ou
seja, com maior probabilidade estimada de vitória. Ocasionalmente, porém, selecionamos
aleatoriamente entre outros movimentos. Estes são chamados movimentos exploratórios porque
nos fazem experimentar estados que de outra forma nunca veríamos. Uma sequência de
movimentos realizados e considerados durante um jogo pode ser diagramada como na Figura 1.1.
Enquanto jogamos, mudamos os valores dos estados em que nos encontramos durante
o jogo. Tentamos fazer estimativas mais precisas das probabilidades de vitória. Para fazer
isso, “fazemos backup” do valor do estado após cada movimento ganancioso para o estado
anterior ao movimento, conforme sugerido pelas setas na Figura 1.1. Mais precisamente, o
valor atual do estado anterior é atualizado para ficar mais próximo do valor do estado posterior.
Isso pode ser feito movendo o valor do estado anterior uma fração do caminho em direção ao
valor do estado posterior. Se deixarmos St denotar o estado antes do movimento ganancioso, e
St+1 o estado após o movimento, então a atualização para o valor estimado de St, denotado V
(St), pode ser escrita como
10 Capítulo 1 Introdução
posiçãoinicial
posição inicial
• um um
movimento do oponente b
b•
{ nosso movimento
•
cc c* c*
{ movimento do oponente d
d•
{ nosso movimento
e*e* • e
{ movimento do oponente f
…
•f
{ nosso movimento {
g •
g*
g* g
..
.
Figura 1.1: Uma sequência de movimentos do jogo da velha. As linhas pretas sólidas representam os movimentos realizados
durante um jogo; as linhas tracejadas representam movimentos que nós (nosso jogador de aprendizagem por reforço)
consideramos, mas não fizemos. Nosso segundo movimento foi um movimento exploratório, o que significa que foi realizado
mesmo que outro movimento irmão, aquele que leva a eÿ, tivesse uma classificação superior. Os movimentos exploratórios
não resultam em qualquer aprendizagem, mas cada um dos nossos outros movimentos sim, causando atualizações
conforme sugerido pelas setas vermelhas nas quais os valores estimados são movidos para cima na árvore dos nós
posteriores para os nós anteriores, conforme detalhado no texto.
onde ÿ é uma pequena fração positiva chamada parâmetro de tamanho do passo, que influencia a taxa
de aprendizagem. Esta regra de atualização é um exemplo de método de aprendizagem por diferença
temporal, assim chamado porque suas mudanças são baseadas em uma diferença, V (St+1)V (St), entre
estimativas em dois momentos sucessivos.
O método descrito acima funciona muito bem nesta tarefa. Por exemplo, se o parâmetro do
tamanho do passo for reduzido adequadamente ao longo do tempo, então este método converge,
para qualquer oponente fixo, para as verdadeiras probabilidades de vitória em cada estado, dado o
jogo ideal do nosso jogador. Além disso, os movimentos então executados (excepto os movimentos
exploratórios) são de facto os movimentos óptimos contra este adversário (imperfeito). Em outras
palavras, o método converge para uma política ótima de jogo contra esse adversário. Se o
parâmetro de tamanho do passo não for reduzido a zero ao longo do tempo, então este jogador
também joga bem contra adversários que mudam lentamente a sua forma de jogar.
Este exemplo ilustra as diferenças entre métodos evolutivos e métodos que aprendem funções de
valor. Para avaliar uma política, um método evolutivo mantém a política fixa e joga muitos jogos contra
o oponente, ou simula muitos jogos usando um modelo do oponente. A frequência de vitórias fornece
uma estimativa imparcial da probabilidade
Machine Translated by Google
de vencer com essa política e pode ser usado para orientar a próxima seleção de política. Mas cada mudança
de política só é feita depois de muitos jogos, e apenas o resultado final de cada jogo é utilizado: o que
acontece durante os jogos é ignorado. Por exemplo, se o jogador vencer, todo o seu comportamento no jogo
receberá crédito, independentemente de como movimentos específicos possam ter sido críticos para a vitória.
O crédito é dado até mesmo a movimentos que nunca ocorreram!
Os métodos de função de valor, por outro lado, permitem que estados individuais sejam avaliados.
No final das contas, os métodos evolucionários e de função de valor buscam o espaço das
políticas, mas aprender uma função de valor aproveita as informações disponíveis durante o jogo.
Este exemplo simples ilustra algumas das principais características dos métodos de aprendizagem por
reforço. Primeiro, há a ênfase no aprendizado interagindo com um ambiente, neste caso com um jogador
adversário. Em segundo lugar, existe um objectivo claro e o comportamento correcto requer planeamento ou
previsão que tenha em conta os efeitos retardados das escolhas de alguém. Por exemplo, o jogador de
aprendizagem por reforço simples aprenderia a montar armadilhas de múltiplos movimentos para um
oponente míope. É uma característica marcante da solução de aprendizagem por reforço que ela pode
alcançar os efeitos de planejamento e antecipação sem usar um modelo do oponente e sem conduzir uma
busca explícita sobre possíveis sequências de estados e ações futuras.
Embora este exemplo ilustre algumas das principais características da aprendizagem por reforço, é tão
simples que pode dar a impressão de que a aprendizagem por reforço é mais limitada do que realmente é.
Embora o jogo da velha seja um jogo para duas pessoas, a aprendizagem por reforço também se aplica no
caso em que não há adversário externo, ou seja, no caso de um “jogo contra a natureza” . A aprendizagem
por reforço também não se restringe a problemas em que o comportamento se divide em episódios separados,
como os jogos separados do jogo da velha, com recompensa apenas no final de cada episódio. É igualmente
aplicável quando o comportamento continua indefinidamente e quando recompensas de diversas magnitudes
podem ser recebidas a qualquer momento. A aprendizagem por reforço também é aplicável a problemas que
nem sequer se dividem em etapas de tempo discretas, como os jogos do jogo da velha. Os princípios gerais
também se aplicam a problemas de tempo contínuo, embora a teoria fique mais complicada e a omitamos
deste tratamento introdutório.
O jogo da velha tem um conjunto de estados relativamente pequeno e finito, enquanto o aprendizado por
reforço pode ser usado quando o conjunto de estados é muito grande, ou mesmo infinito. Por exemplo, Gerry
Tesauro (1992, 1995) combinou o algoritmo descrito acima com uma rede neural artificial para aprender a
jogar gamão, que possui aproximadamente 1.020 estados. Com tantos estados, é impossível experimentar
mais do que uma pequena fração deles. O programa de Tesauro aprendeu a jogar muito melhor do que
qualquer programa anterior e, eventualmente, melhor do que os melhores jogadores humanos do mundo
(Secção 16.1). A rede neural artificial fornece ao programa a capacidade de generalizar a partir de sua
experiência, de modo que em novos estados ele selecione movimentos com base em informações salvas de
estados semelhantes enfrentados no passado, conforme determinado por sua rede. O quão bem um sistema
de aprendizagem por reforço pode funcionar em problemas com conjuntos de estados tão grandes está
intimamente ligado ao quão apropriadamente ele pode generalizar a partir de experiências anteriores. É
nesta função que temos maior necessidade de métodos de aprendizagem supervisionada com aprendizagem
por reforço. As redes neurais artificiais e a aprendizagem profunda (Secção 9.6) não são a única, nem
necessariamente a melhor, forma de o fazer.
Neste exemplo do jogo da velha, a aprendizagem começou sem nenhum conhecimento prévio além do
Machine Translated by Google
12 Capítulo 1 Introdução
regras do jogo, mas a aprendizagem por reforço não implica de forma alguma uma visão tabula rasa da aprendizagem e
da inteligência. Pelo contrário, informações prévias podem ser incorporadas na aprendizagem por reforço de diversas
maneiras que podem ser críticas para uma aprendizagem eficiente (por exemplo, ver Seções 9.5, 17.4 e 13.1). Também
temos acesso ao estado verdadeiro no exemplo do jogo da velha, enquanto a aprendizagem por reforço também pode ser
aplicada quando parte do estado está oculta ou quando estados diferentes parecem iguais ao aluno.
Por fim, o jogador do jogo da velha conseguiu olhar para frente e conhecer os estados que resultariam de cada um de
seus movimentos possíveis. Para fazer isso, precisava ter um modelo de jogo que lhe permitisse prever como o ambiente
mudaria em resposta a movimentos que talvez nunca fizesse. Muitos problemas são assim, mas noutros falta mesmo um
modelo de curto prazo dos efeitos das acções. A aprendizagem por reforço pode ser aplicada em ambos os casos.
Não é necessário um modelo, mas os modelos podem ser facilmente usados se estiverem disponíveis ou puderem ser
aprendidos (Capítulo 8).
Por outro lado, existem métodos de aprendizagem por reforço que não necessitam de nenhum tipo de modelo de
ambiente. Os sistemas livres de modelos não conseguem sequer pensar em como os seus ambientes irão mudar em
resposta a uma única acção. O jogador do jogo da velha é livre de modelos neste sentido em relação ao seu oponente:
ele não tem nenhum modelo de seu oponente de qualquer tipo. Como os modelos precisam ser razoavelmente precisos
para serem úteis, os métodos livres de modelos podem ter vantagens sobre métodos mais complexos quando o verdadeiro
gargalo na resolução de um problema é a dificuldade de construir um modelo ambiental suficientemente preciso . Os
métodos livres de modelo também são blocos de construção importantes para métodos baseados em modelo.
Neste livro dedicamos vários capítulos aos métodos livres de modelos antes de discutir como eles podem ser usados
como componentes de métodos baseados em modelos mais complexos.
O aprendizado por reforço pode ser usado em níveis altos e baixos em um sistema. Embora o jogador do jogo da velha
tenha aprendido apenas sobre os movimentos básicos do jogo, nada impede que a aprendizagem por reforço funcione em
níveis mais elevados, onde cada uma das “ações” pode ser ela própria a aplicação de um método possivelmente elaborado
de resolução de problemas. Em sistemas de aprendizagem hierárquicos, a aprendizagem por reforço pode funcionar
simultaneamente em vários níveis.
Exercício 1.1: Autojogo Suponha que, em vez de jogar contra um adversário aleatório, o algoritmo de aprendizagem por
reforço descrito acima jogasse contra si mesmo, com ambos os lados aprendendo. O que você acha que aconteceria
neste caso? Aprenderia uma política diferente para selecionar movimentos? ÿ
Exercício 1.2: Simetrias Muitas posições do jogo da velha parecem diferentes, mas são realmente iguais por causa das
simetrias. Como podemos alterar o processo de aprendizagem descrito acima para tirar vantagem disso? De que forma
essa mudança melhoraria o processo de aprendizagem? Agora pense novamente. Suponha que o oponente não tenha
aproveitado as simetrias.
Nesse caso, deveríamos? É verdade, então, que posições simetricamente equivalentes deveriam
necessariamente ter o mesmo valor? ÿ
Exercício 1.3: Jogo Ganancioso Suponha que o jogador que está aprendendo por reforço fosse ganancioso,
ou seja, sempre executasse o movimento que o levasse à posição que ele classificou como melhor.
Poderia aprender a jogar melhor ou pior do que um jogador não ganancioso? Que problemas podem ocorrer? ÿ
Exercício 1.4: Aprendendo com a Exploração Suponha que as atualizações de aprendizagem tenham ocorrido após todos
os movimentos, inclusive os movimentos exploratórios. Se o parâmetro de tamanho do passo for reduzido adequadamente
Machine Translated by Google
com o tempo (mas não a tendência de explorar), então os valores do estado convergiriam para um
conjunto diferente de probabilidades. Quais são (conceitualmente) os dois conjuntos de
probabilidades calculados quando aprendemos e quando não aprendemos com os movimentos
exploratórios? Supondo que continuamos a fazer movimentos exploratórios, que conjunto de
probabilidades seria melhor aprender? O que resultaria em mais vitórias? ÿ
Exercício 1.5: Outras melhorias Você consegue pensar em outras maneiras de melhorar o jogador que aprende
por reforço? Você consegue pensar em alguma maneira melhor de resolver o problema do jogo da velha conforme
apresentado? ÿ
1.6 Resumo
A aprendizagem por reforço é uma abordagem computacional para compreender e automatizar a
aprendizagem direcionada a objetivos e a tomada de decisões. Distingue-se de outras abordagens
computacionais pela sua ênfase na aprendizagem de um agente a partir da interação direta com
seu ambiente, sem exigir supervisão exemplar ou modelos completos do ambiente . Em nossa
opinião, a aprendizagem por reforço é o primeiro campo a abordar seriamente as questões
computacionais que surgem quando se aprende a partir da interação com um ambiente, a fim de
atingir objetivos de longo prazo.
A aprendizagem por reforço usa a estrutura formal dos processos de decisão de Markov para
definir a interação entre um agente de aprendizagem e seu ambiente em termos de estados, ações
e recompensas. Esta estrutura pretende ser uma forma simples de representar características
essenciais do problema de inteligência artificial. Essas características incluem um senso de causa e
efeito, um senso de incerteza e não determinismo e a existência de objetivos explícitos.
Os conceitos de valor e função de valor são fundamentais para a maioria dos métodos de
aprendizagem por reforço que consideramos neste livro. Assumimos a posição de que as funções
de valor são importantes para a busca eficiente no espaço das políticas. O uso de funções de valor
distingue os métodos de aprendizagem por reforço dos métodos evolutivos que pesquisam
diretamente no espaço político, guiados por avaliações de políticas inteiras.
14 Capítulo 1 Introdução
O segmento centrado na aprendizagem por tentativa e erro é aquele com o qual estamos mais
familiarizados e sobre o qual temos mais a dizer nesta breve história. Antes de fazer isso, entretanto,
discutiremos brevemente o thread de controle ideal.
O termo “controle ótimo” entrou em uso no final da década de 1950 para descrever o problema
de projetar um controlador para minimizar ou maximizar uma medida do comportamento de um
sistema dinâmico ao longo do tempo. Uma das abordagens para este problema foi desenvolvida em
meados da década de 1950 por Richard Bellman e outros através da extensão de uma teoria de
Hamilton e Jacobi do século XIX . Esta abordagem utiliza os conceitos de estado de um sistema
dinâmico e de função de valor, ou “função de retorno ideal”, para definir uma equação funcional,
agora frequentemente chamada de equação de Bellman. A classe de métodos para resolver
problemas de controle ótimo resolvendo esta equação passou a ser conhecida como programação dinâmica (Bellman
Bellman (1957b) também introduziu a versão estocástica discreta do problema de controle ótimo
conhecida como processos de decisão de Markov (MDPs). Ronald Howard (1960) desenvolveu o
método de iteração de políticas para MDPs. Todos esses são elementos essenciais subjacentes à
teoria e aos algoritmos da moderna aprendizagem por reforço.
A programação dinâmica é amplamente considerada a única maneira viável de resolver
problemas gerais de controle ótimo estocástico. Ele sofre do que Bellman chamou de “a maldição
da dimensionalidade”, o que significa que seus requisitos computacionais crescem exponencialmente
com o número de variáveis de estado, mas ainda é muito mais eficiente e mais amplamente
aplicável do que qualquer outro método geral. A programação dinâmica tem sido extensivamente
desenvolvida desde o final da década de 1950, incluindo extensões para MDPs parcialmente
observáveis (pesquisados por Lovejoy, 1991), muitas aplicações (pesquisados por White, 1985,
1988, 1993), métodos de aproximação (pesquisados por Rust, 1996), e métodos assíncronos
(Bertsekas, 1982, 1983). Muitos excelentes tratamentos modernos de programação dinâmica
estão disponíveis (por exemplo, Bertsekas, 2005, 2012; Puterman, 1994; Ross, 1983; e Whittle,
1982, 1983). Bryson (1996) fornece uma história oficial de controle ideal.
As conexões entre controle ideal e programação dinâmica, por um lado, e aprendizagem, por
outro, demoraram a ser reconhecidas. Não podemos ter a certeza sobre o que explica esta
separação, mas a sua principal causa foi provavelmente a separação entre as disciplinas envolvidas
e os seus diferentes objectivos. Também contribuiu pode ter sido a visão predominante da
programação dinâmica como uma computação off-line, dependendo essencialmente de modelos de
sistema precisos e soluções analíticas para a equação de Bellman. Além disso, a forma mais simples
de programação dinâmica é uma computação que retrocede no tempo, tornando difícil ver como ela
poderia estar envolvida em um processo de aprendizagem que deve prosseguir no sentido
progressivo. Alguns dos primeiros trabalhos em programação dinâmica, como o de Bellman e
Dreyfus (1959), podem agora ser classificados como seguindo uma abordagem de aprendizagem.
O trabalho de Witten (1977) (discutido abaixo) certamente se qualifica como uma combinação de
ideias de aprendizagem e programação dinâmica. Werbos (1987) defendeu explicitamente uma
maior inter-relação entre programação dinâmica e métodos de aprendizagem e a relevância da
programação dinâmica para a compreensão dos mecanismos neurais e cognitivos. Para nós, a
integração total dos métodos de programação dinâmica com a aprendizagem online não ocorreu até
o trabalho de Chris Watkins em 1989, cujo tratamento da aprendizagem por reforço utilizando o
formalismo MDP foi amplamente adotado. Desde então, estas relações foram extensivamente
desenvolvidas por muitos investigadores, mais particularmente por Dimitri Bertsekas
Machine Translated by Google
Das várias respostas dadas à mesma situação, aquelas que são acompanhadas ou
seguidas de perto pela satisfação do animal estarão, em igualdade de condições, mais
firmemente ligadas à situação, de modo que, quando esta se repetir, será mais provável
que se repitam. ; aquelas que são acompanhadas ou seguidas de perto por desconforto
para o animal terão, em igualdade de circunstâncias, as suas ligações com essa
situação enfraquecidas, de modo que, quando esta se repetir, será menos provável que
ocorram. Quanto maior a satisfação ou desconforto, maior será o fortalecimento ou
enfraquecimento do vínculo. (Thorndike, 1911, p. 244)
Thorndike chamou isso de “Lei do Efeito” porque descreve o efeito de eventos reforçadores sobre a
tendência de selecionar ações. Mais tarde, Thorndike modificou a lei para melhor explicar os dados
subsequentes sobre a aprendizagem animal (como as diferenças entre os efeitos da recompensa e
da punição), e a lei em suas diversas formas gerou considerável controvérsia entre os teóricos da
aprendizagem (por exemplo, ver Gallistel). , 2005; Herrnstein, 1970; Kimble, 1961, 1967; Mazur,
1994). Apesar disso, a Lei do Efeito – de uma forma ou de outra – é amplamente considerada como
um princípio básico subjacente a muitos comportamentos (por exemplo, Hilgard e Bower, 1975;
Dennett, 1978; Campbell, 1960; Cziko, 1995). É a base do influente
Machine Translated by Google
16 Capítulo 1 Introdução
confusão sobre a relação entre esses tipos de aprendizagem. Muitos pesquisadores pareciam acreditar
que estavam estudando a aprendizagem por reforço, quando na verdade estavam estudando a
aprendizagem supervisionada. Por exemplo, pioneiros de redes neurais artificiais como Rosenblatt
(1962) e Widrow e Hoÿ (1960) foram claramente motivados pela aprendizagem por reforço - eles
usaram a linguagem de recompensas e punições - mas os sistemas que estudaram eram sistemas de
aprendizagem supervisionada adequados para reconhecimento de padrões. e aprendizagem
perceptiva. Ainda hoje, alguns investigadores e livros didáticos minimizam ou confundem a distinção
entre estes tipos de aprendizagem. Por exemplo, alguns livros didáticos sobre redes neurais artificiais
usaram o termo “tentativa e erro” para descrever redes que aprendem com exemplos de treinamento .
Esta é uma confusão compreensível porque estas redes usam informações de erro para atualizar os
pesos das conexões, mas isso ignora o caráter essencial da aprendizagem por tentativa e erro, como
a seleção de ações com base em feedback avaliativo que não depende do conhecimento de qual
deveria ser a ação correta. ser.
Em parte como resultado destas confusões, a investigação sobre a aprendizagem genuína por
tentativa e erro tornou-se rara nas décadas de 1960 e 1970, embora tenha havido excepções notáveis.
Na década de 1960, os termos “reforço” e “aprendizado por reforço” foram usados pela primeira vez
na literatura de engenharia para descrever usos de engenharia de aprendizagem por tentativa e erro
(por exemplo, Waltz e Fu, 1965; Mendel, 1966; Fu, 1970). ; Mendel e McClaren, 1970). Particularmente
influente foi o artigo de Minsky “Steps Toward Artificial Intelligence” (Minsky, 1961), que discutiu
diversas questões relevantes para a aprendizagem por tentativa e erro, incluindo previsão, expectativa
e o que ele chamou de problema básico de atribuição de créditos para reforço complexo . sistemas de
aprendizagem: como distribuir o crédito pelo sucesso entre as muitas decisões que podem ter estado
envolvidas na sua produção? Todos os métodos que discutimos neste livro são, de certa forma,
direcionados à solução desse problema. Vale a pena ler o artigo de Minsky hoje.
Nos próximos parágrafos discutiremos algumas das outras exceções e exceções parciais à relativa
negligência do estudo computacional e teórico da aprendizagem genuína por tentativa e erro nas
décadas de 1960 e 1970.
Uma exceção foi o trabalho do pesquisador neozelandês John Andreae, que desenvolveu um
sistema chamado STeLLA que aprendia por tentativa e erro na interação com seu ambiente. Este
sistema incluía um modelo interno do mundo e, mais tarde, um “monólogo interno” para lidar com
problemas de estado oculto (Andreae, 1963, 1969a,b).
O trabalho posterior de Andreae (1977) colocou mais ênfase na aprendizagem de um professor, mas
ainda incluía a aprendizagem por tentativa e erro, sendo a geração de novos eventos um dos objetivos
do sistema. Uma característica deste trabalho foi um “processo de vazamento”, elaborado mais
detalhadamente em Andreae (1998), que implementou um mecanismo de atribuição de crédito
semelhante às operações de atualização de backup que descrevemos. Infelizmente, sua pesquisa
pioneira não era bem conhecida e não teve grande impacto nas pesquisas subsequentes sobre aprendizagem por refor
Estão disponíveis resumos recentes (Andreae, 2017a,b).
Mais influente foi o trabalho de Donald Michie. Em 1961 e 1963, ele descreveu um sistema simples
de aprendizagem por tentativa e erro para aprender a jogar jogo da velha (ou jogo da velha) chamado
MENACE (para Matchbox Educable Naughts and Crosses Engine). Consistia em uma caixa de fósforos
para cada posição de jogo possível, cada caixa de fósforos contendo um número de contas coloridas,
uma cor diferente para cada movimento possível daquela posição. Por
Machine Translated by Google
18 Capítulo 1 Introdução
tirando aleatoriamente uma conta da caixa de fósforos correspondente à posição atual do jogo, pode-se
determinar o movimento de MENACE. Quando o jogo terminava, contas eram adicionadas ou removidas das
caixas usadas durante o jogo para recompensar ou punir as decisões da MENACE.
Michie e Chambers (1968) descreveram outro aluno por reforço do jogo da velha chamado GLEE (Game
Learning Expectimaxing Engine) e um controlador de aprendizagem por reforço chamado BOXES. Eles
aplicaram CAIXAS à tarefa de aprender a equilibrar um poste articulado a um carrinho móvel com base
em um sinal de falha que ocorria apenas quando o poste caía ou o carrinho chegava ao fim de um trilho.
Esta tarefa foi adaptada do trabalho anterior de Widrow e Smith (1964), que utilizou métodos de
aprendizagem supervisionada, assumindo a instrução de um professor já capaz de equilibrar o mastro. A
versão de equilíbrio de pólos de Michie e Chambers é um dos melhores exemplos iniciais de uma tarefa
de aprendizagem por reforço sob condições de conhecimento incompleto. Influenciou trabalhos muito
posteriores em aprendizagem por reforço, começando com alguns de nossos próprios estudos (Barto,
Sutton e Anderson, 1983; Sutton, 1984). Michie enfatizou consistentemente o papel da tentativa e erro e
da aprendizagem como aspectos essenciais da inteligência artificial (Michie, 1974).
Widrow, Gupta e Maitra (1973) modificaram o algoritmo Least-Mean-Square (LMS) de Widrow e Hoÿ
(1960) para produzir uma regra de aprendizagem por reforço que pudesse aprender com sinais de
sucesso e falha em vez de exemplos de treinamento. Eles chamaram esta forma de aprendizagem de
“adaptação bootstrap seletiva” e a descreveram como “aprender com um crítico” em vez de “aprender
com um professor”. Eles analisaram esta regra e mostraram como poderia aprender a jogar blackjack.
Esta foi uma incursão isolada na aprendizagem por reforço de Widrow, cujas contribuições para a
aprendizagem supervisionada foram muito mais influentes. Nosso uso do termo “crítico” deriva do artigo
de Widrow, Gupta e Maitra. Buchanan, Mitchell, Smith e Johnson (1978) usaram independentemente o
termo crítico no contexto da aprendizagem automática (ver também Dietterich e Buchanan, 1984), mas
para eles um crítico é um sistema especialista capaz de fazer mais do que avaliar o desempenho.
A pesquisa sobre autômatos de aprendizagem teve uma influência mais direta no segmento de
tentativa e erro que levou à pesquisa moderna de aprendizagem por reforço. Esses são métodos para
resolver um problema de aprendizagem não associativo e puramente seletivo, conhecido como bandido
armado k, por analogia a uma máquina caça-níqueis, ou “bandido armado”, exceto com alavancas k (ver Capítulo 2).
Os autômatos de aprendizagem são máquinas simples e com pouca memória para melhorar a
probabilidade de recompensa nesses problemas. Os autômatos de aprendizagem originaram-se do
trabalho na década de 1960 do matemático e físico russo ML Tsetlin e colegas (publicado postumamente
em Tsetlin, 1973) e foram extensivamente desenvolvidos desde então na engenharia (ver Narendra e
Thathachar, 1974, 1989). Esses desenvolvimentos incluíram o estudo de autômatos de aprendizagem
estocásticos, que são métodos para atualizar probabilidades de ação com base em sinais de recompensa.
Embora não tenha sido desenvolvido na tradição dos autômatos de aprendizagem estocásticos, o
algoritmo Alopex de Harth e Tzanakou (1974) (para algoritmo de extração de padrões) é um método
estocástico para detectar correlações entre ações e reforço que influenciaram algumas de nossas
primeiras pesquisas (Barto, Sutton e Brower, 1981). Os autômatos de aprendizagem estocásticos foram
prenunciados por trabalhos anteriores em psicologia, começando com o esforço de William Estes (1950)
em direção a uma teoria estatística de aprendizagem e posteriormente desenvolvidos por outros (por
exemplo, Bush e Mosteller, 1955; Sternberg, 1963).
As teorias de aprendizagem estatística desenvolvidas em psicologia foram adotadas por pesquisadores em
Machine Translated by Google
economia, levando a uma linha de pesquisa nesse campo dedicada à aprendizagem por reforço.
Este trabalho começou em 1973 com a aplicação da teoria da aprendizagem de Bush e Mosteller a uma
colecção de modelos económicos clássicos (Cross, 1973). Um dos objetivos desta pesquisa foi estudar
agentes artificiais que agem mais como pessoas reais do que agentes econômicos tradicionais
idealizados (Arthur, 1991). Essa abordagem se expandiu para o estudo da aprendizagem por reforço no
contexto da teoria dos jogos. A aprendizagem por reforço em economia desenvolveu-se em grande parte
independentemente dos primeiros trabalhos sobre aprendizagem por reforço em inteligência artificial,
embora a teoria dos jogos continue a ser um tópico de interesse em ambos os campos (além do escopo deste livro).
Camerer (2011) discute a tradição de aprendizagem por reforço em economia, e Now´e, Vrancx e De
Hauwere (2012) fornecem uma visão geral do assunto do ponto de vista de extensões multiagentes para
a abordagem que apresentamos neste livro. . O reforço no contexto da teoria dos jogos é um assunto
muito diferente do aprendizado por reforço usado em programas para jogar jogo da velha, damas e
outros jogos recreativos. Ver, por exemplo, Szita (2012) para uma visão geral deste aspecto da
aprendizagem por reforço e dos jogos.
John Holland (1975) delineou uma teoria geral de sistemas adaptativos baseada em princípios
seletivos. Seus primeiros trabalhos tratavam de tentativa e erro principalmente em sua forma não
associativa, como nos métodos evolutivos e no bandido armado com k. Em 1976 e de forma mais
completa em 1986, ele introduziu sistemas classificadores, verdadeiros sistemas de aprendizagem por
reforço, incluindo funções de associação e valor. Um componente-chave dos sistemas classificadores
da Holanda foi o “algoritmo de brigada de balde” para atribuição de crédito, que está intimamente
relacionado ao algoritmo de diferença temporal usado em nosso exemplo do jogo da velha e discutido no Capítulo 6.
Outro componente chave foi um algoritmo genético, um método evolutivo cujo papel era desenvolver
representações úteis. Os sistemas classificadores foram extensivamente desenvolvidos por muitos
pesquisadores para formar um ramo importante da pesquisa de aprendizagem por reforço (revisado por
Urbanowicz e Moore, 2009), mas os algoritmos genéticos - que não consideramos sistemas de
aprendizagem por reforço por si só - receberam muito mais atenção. , assim como outras abordagens
da computação evolutiva (por exemplo, Fogel, Owens e Walsh, 1966, e Koza, 1992).
O indivíduo mais responsável por reviver o fio de tentativa e erro da aprendizagem por
reforço na inteligência artificial foi Harry Klopf (1972, 1975, 1982). Klopf reconheceu que
aspectos essenciais do comportamento adaptativo estavam sendo perdidos à medida que os
pesquisadores da aprendizagem passaram a se concentrar quase exclusivamente na
aprendizagem supervisionada. O que faltava, segundo Klopf, eram os aspectos hedónicos do
comportamento, o impulso para obter algum resultado do ambiente, para controlar o ambiente
em direcção a fins desejados e para longe de fins indesejáveis (ver Secção 15.9). Esta é a ideia
essencial da aprendizagem por tentativa e erro. As ideias de Klopf foram especialmente
influentes sobre os autores porque a nossa avaliação delas (Barto e Sutton, 1981a) levou à
nossa apreciação da distinção entre aprendizagem supervisionada e por reforço, e ao nosso
eventual foco na aprendizagem por reforço. Grande parte do trabalho inicial que nós e colegas
realizamos foi direcionado para mostrar que a aprendizagem por reforço e a aprendizagem
supervisionada eram de fato diferentes (Barto, Sutton e Brouwer, 1981; Barto e Sutton, 1981b;
Barto e Anandan, 1985). Outros estudos mostraram como a aprendizagem por reforço poderia
resolver problemas importantes na aprendizagem de redes neurais artificiais, em particular,
como poderia produzir algoritmos de aprendizagem para redes multicamadas (Barto, Anderson
e Sutton, 1982; Barto e Anderson, 1985; Barto, 1985, 1986; Barto e Jordan, 1987; ver Seção 15.10).
Machine Translated by Google
20 Capítulo 1 Introdução
Voltamo-nos agora para o terceiro fio da história da aprendizagem por reforço, aquele que diz
respeito à aprendizagem por diferença temporal. Os métodos de aprendizagem por diferença
temporal distinguem-se por serem motivados pela diferença entre estimativas temporalmente
sucessivas da mesma quantidade – por exemplo, da probabilidade de ganhar no exemplo do jogo
da velha. Este segmento é menor e menos distinto que os outros dois, mas tem desempenhado um
papel particularmente importante no campo, em parte porque os métodos de diferença temporal
parecem ser novos e únicos para a aprendizagem por reforço.
As origens da aprendizagem por diferença temporal estão, em parte, na psicologia da
aprendizagem animal, em particular, na noção de reforçadores secundários. Um reforçador
secundário é um estímulo que foi associado a um reforçador primário, como comida ou dor, e,
como resultado, passou a assumir propriedades de reforço semelhantes. Minsky (1954) pode ter
sido o primeiro a perceber que este princípio psicológico poderia ser importante para sistemas de aprendizagem ar
Arthur Samuel (1959) foi o primeiro a propor e implementar um método de aprendizagem que incluía
ideias de diferença temporal, como parte de seu célebre programa de jogo de damas (Seção 16.2).
Samuel não fez nenhuma referência ao trabalho de Minsky ou a possíveis conexões com a
aprendizagem animal. Sua inspiração aparentemente veio da sugestão de Claude Shannon (1950)
de que um computador poderia ser programado para usar uma função de avaliação para jogar
xadrez e que poderia melhorar seu jogo modificando essa função online. (É possível que estas
ideias de Shannon também tenham influenciado Bellman, mas não conhecemos nenhuma evidência disso.)
Minsky (1961) discutiu extensivamente o trabalho de Samuel em seu artigo “Steps”,
sugerindo a conexão com teorias de reforço secundário, tanto naturais quanto artificiais.
Como discutimos, na década seguinte ao trabalho de Minsky e Samuel, pouco trabalho
computacional foi feito na aprendizagem por tentativa e erro, e aparentemente nenhum trabalho
computacional foi feito na aprendizagem por diferença temporal. Em 1972, Klopf reuniu a
aprendizagem por tentativa e erro com um componente importante da aprendizagem por diferença temporal.
Klopf estava interessado em princípios que se adaptassem à aprendizagem em grandes sistemas e,
portanto, ficou intrigado com as noções de reforço local, por meio das quais os subcomponentes de
um sistema de aprendizagem global poderiam reforçar-se uns aos outros. Ele desenvolveu a ideia
de “reforço generalizado”, segundo o qual cada componente (nominalmente, cada neurônio) vê todas
as suas entradas em termos de reforço: entradas excitatórias como recompensas e entradas
inibitórias como punições. Esta não é a mesma ideia que hoje conhecemos como aprendizagem por
diferença temporal e, em retrospecto, está mais distante disso do que o trabalho de Samuel. Por
outro lado, Klopf relacionou a ideia com a aprendizagem por tentativa e erro e relacionou-a com a
enorme base de dados empírica da psicologia da aprendizagem animal.
Sutton (1978a,b,c) desenvolveu ainda mais as ideias de Klopf, particularmente as ligações às
teorias de aprendizagem animal, descrevendo regras de aprendizagem impulsionadas por mudanças
em previsões temporalmente sucessivas. Ele e Barto refinaram essas ideias e desenvolveram um
modelo psicológico de condicionamento clássico baseado na aprendizagem da diferença temporal
(Sutton e Barto, 1981a; Barto e Sutton, 1982). Seguiram-se vários outros modelos psicológicos
influentes de condicionamento clássico baseados na aprendizagem da diferença temporal (por
exemplo, Klopf, 1988; Moore et al., 1986; Sutton e Barto, 1987, 1990). Alguns modelos de
neurociência desenvolvidos nesta época são bem interpretados em termos de aprendizagem por
diferença temporal (Hawkins e Kandel, 1984; Byrne, Gingrich e Baxter, 1990; Gelperin, Hopfield e Tank, 1985; Tesaur
Machine Translated by Google
Observações Bibliográficas 21
1986; Friston et al., 1994), embora na maioria dos casos não houvesse conexão histórica.
Nosso trabalho inicial sobre aprendizagem por diferença temporal foi fortemente influenciado pelas
teorias de aprendizagem animal e pelo trabalho de Klopf. As relações com o jornal “Steps” de Minsky e
com os jogadores de damas de Samuel só foram reconhecidas posteriormente. Em 1981, entretanto,
estávamos plenamente conscientes de todo o trabalho anterior mencionado acima como parte das linhas
de diferença temporal e tentativa e erro. Neste momento, desenvolvemos um método para usar a
aprendizagem por diferença temporal combinada com a aprendizagem por tentativa e erro, conhecida
como arquitetura ator-crítica, e aplicamos esse método ao problema de equilíbrio de pólos de Michie e
Chambers (Barto, Sutton e Anderson, 1983). Este método foi extensivamente estudado no Ph.D. de
Sutton (1984). dissertação e estendida para usar redes neurais de retropropagação em Anderson (1986)
Ph.D. dissertação. Nessa época, Holland (1986) incorporou explicitamente ideias de diferença temporal
em seus sistemas classificadores na forma de seu algoritmo de brigada de balde.
Um passo fundamental foi dado por Sutton (1988) ao separar a aprendizagem por diferença temporal do controle,
tratando-a como um método geral de previsão. Esse artigo também introduziu o algoritmo TD() e provou algumas
de suas propriedades de convergência.
Quando estávamos finalizando nosso trabalho sobre a arquitetura ator-crítico em 1981, descobrimos
um artigo de Ian Witten (1977, 1976a) que parece ser a primeira publicação de uma regra de
aprendizagem por diferença temporal. Ele propôs o método que agora chamamos de TD(0) tabular para
uso como parte de um controlador adaptativo para resolver MDPs. Este trabalho foi submetido pela
primeira vez para publicação em periódico em 1974 e também apareceu na dissertação de doutorado de Witten em 1976.
O trabalho de Witten foi descendente dos primeiros experimentos de Andreae com STeLLA e outros sistemas
de aprendizagem por tentativa e erro. Assim, o artigo de Witten de 1977 abrangeu os dois principais tópicos da
pesquisa sobre aprendizagem por reforço – aprendizagem por tentativa e erro e controle ideal – ao mesmo
tempo em que fez uma contribuição inicial distinta para a aprendizagem por diferença temporal.
A diferença temporal e os threads de controle ideal foram totalmente reunidos em 1989 com
o desenvolvimento do Q-learning por Chris Watkins. Este trabalho ampliou e integrou trabalhos
anteriores em todos os três segmentos de pesquisa de aprendizagem por reforço. Paul Werbos
(1987) contribuiu para esta integração defendendo a convergência da aprendizagem por
tentativa e erro e da programação dinâmica desde 1977. Na época do trabalho de Watkins,
houve um tremendo crescimento na pesquisa de aprendizagem por reforço, principalmente no
subcampo de aprendizagem de máquina de inteligência artificial, mas também em redes
neurais artificiais e inteligência artificial de forma mais ampla. Em 1992, o notável sucesso do
programa de gamão de Gerry Tesauro, TD-Gammon, trouxe atenção adicional para o campo.
Desde a publicação da primeira edição deste livro, desenvolveu-se um florescente subcampo
da neurociência que se concentra na relação entre algoritmos de aprendizagem por reforço e
aprendizagem por reforço no sistema nervoso. O maior responsável por isso é uma estranha
semelhança entre o comportamento dos algoritmos de diferença temporal e a atividade dos
neurônios produtores de dopamina no cérebro, como apontado por vários pesquisadores
(Friston et al., 1994; Barto, 1995a; Houk , Adams e Barto, 1995; Montague, Dayan e Sejnowski,
1996; e Schultz, Dayan e Montague, 1997). O Capítulo 15 fornece uma introdução a esse
aspecto interessante da aprendizagem por reforço. Outras contribuições importantes feitas na
história recente da aprendizagem por reforço são numerosas demais para serem mencionadas
neste breve relato; citamos muitos deles no final dos capítulos individuais em que surgem.
Machine Translated by Google
22 Capítulo 1 Introdução
Observações Bibliográficas
Para uma cobertura geral adicional da aprendizagem por reforço, remetemos o leitor aos
livros de Szepesv´ari (2010), Bertsekas e Tsitsiklis (1996), Kaelbling (1993a) e Sugiyama,
Hachiya e Morimura (2013) . Os livros que adotam uma perspectiva de controle ou
pesquisa operacional incluem os de Si, Barto, Powell e Wunsch (2004), Powell (2011),
Lewis e Liu (2012) e Bertsekas (2012). A revisão de Cao (2009) coloca a aprendizagem
por reforço no contexto de outras abordagens para aprendizagem e otimização de
sistemas dinâmicos estocásticos. Três edições especiais da revista Machine Learning
enfocam a aprendizagem por reforço: Sutton (1992a), Kaelbling (1996) e Singh (2002).
Pesquisas úteis são fornecidas por Barto (1995b); Kaelbling, Littman e Moore (1996); e
Keerthi e Ravindran (1997). O volume editado por Weiring e van Otterlo (2012) oferece
uma excelente visão geral dos desenvolvimentos recentes.
1.2 O exemplo do café da manhã de Phil neste capítulo foi inspirado em Agre (1988).
Nesta parte do livro descrevemos quase todas as ideias centrais dos algoritmos de aprendizagem
por reforço em suas formas mais simples: aquela em que os espaços de estado e ação são pequenos
o suficiente para que as funções de valor aproximado sejam representadas como matrizes ou tabelas.
Nesse caso, os métodos muitas vezes conseguem encontrar soluções exatas, ou seja, muitas vezes
conseguem encontrar exatamente a função de valor ótima e a política ótima. Isto contrasta com os
métodos aproximados descritos na próxima parte do livro, que apenas encontram soluções
aproximadas, mas que em troca podem ser aplicados eficazmente a problemas muito maiores.
O primeiro capítulo desta parte do livro descreve métodos de solução para o caso especial do
problema de aprendizagem por reforço no qual existe apenas um único estado, denominado problemas
bandidos. O segundo capítulo descreve a formulação geral do problema que tratamos ao longo do
restante do livro – processos de decisão finitos de Markov – e suas ideias principais, incluindo equações
de Bellman e funções de valor.
Os próximos três capítulos descrevem três classes fundamentais de métodos para resolver problemas
de decisão finita de Markov: programação dinâmica, métodos de Monte Carlo e aprendizagem por
diferença temporal. Cada classe de métodos tem seus pontos fortes e fracos. Os métodos de
programação dinâmica são bem desenvolvidos matematicamente, mas requerem um modelo completo
e preciso do ambiente. Os métodos de Monte Carlo não requerem um modelo e são conceitualmente
simples, mas não são adequados para computação incremental passo a passo.
Finalmente, os métodos de diferença temporal não requerem modelo e são totalmente incrementais, mas
são mais complexos de analisar. Os métodos também diferem em vários aspectos no que diz respeito à
sua eficiência e velocidade de convergência.
Os dois capítulos restantes descrevem como essas três classes de métodos podem ser combinadas
para obter as melhores características de cada uma delas. Num capítulo descrevemos como os pontos
fortes dos métodos de Monte Carlo podem ser combinados com os pontos fortes dos métodos de
diferença temporal através de métodos de bootstrapping em múltiplos passos. No capítulo final desta
parte do livro, mostramos como os métodos de aprendizagem por diferença temporal podem ser
combinados com métodos de aprendizagem e planejamento de modelos (como programação dinâmica)
para uma solução completa e unificada para o problema de aprendizagem por reforço tabular.
23
Machine Translated by Google
Machine Translated by Google
Capítulo 2
Bandidos Multi-armados
A característica mais importante que distingue a aprendizagem por reforço de outros tipos de aprendizagem
é que ela utiliza informações de treinamento que avaliam as ações tomadas, em vez de instruir dando ações
corretas. É isso que cria a necessidade de uma exploração ativa, de uma busca explícita de bom
comportamento. O feedback puramente avaliativo indica quão boa foi a ação tomada, mas não se foi a
melhor ou a pior ação possível. O feedback puramente instrutivo, por outro lado, indica a ação correta a ser
tomada, independentemente da ação efetivamente realizada. Esse tipo de feedback é a base do aprendizado
supervisionado, que inclui grandes partes de classificação de padrões, redes neurais artificiais e identificação
de sistemas. Nas suas formas puras, estes dois tipos de feedback são bastante distintos: o feedback
avaliativo depende inteiramente da acção tomada, enquanto o feedback instrutivo é independente da acção
tomada.
Considere o seguinte problema de aprendizagem. Você se depara repetidamente com uma escolha
entre k diferentes opções ou ações. Após cada escolha, você recebe uma recompensa numérica
escolhida em uma distribuição de probabilidade estacionária que depende da ação selecionada. Seu
25
Machine Translated by Google
O objetivo é maximizar a recompensa total esperada durante algum período de tempo, por exemplo, mais
de 1.000 seleções de ação ou intervalos de tempo.
Esta é a forma original do problema do bandido armado k, assim chamado por analogia com
uma máquina caça-níqueis, ou “bandido armado”, exceto que possui k alavancas em vez de uma.
Cada seleção de ação é como jogar uma das alavancas da máquina caça-níqueis, e as
recompensas são os pagamentos por ganhar o jackpot. Através de seleções de ações repetidas,
você maximizará seus ganhos, concentrando suas ações nas melhores alavancas. Outra analogia
é a de um médico escolhendo entre tratamentos experimentais para uma série de pacientes gravemente enfermos.
Cada ação é a seleção de um tratamento e cada recompensa é a sobrevivência ou o bem-estar do
paciente. Hoje, o termo “problema do bandido” às vezes é usado para uma generalização do
problema descrito acima, mas neste livro nós o usamos para nos referirmos apenas a este problema simples.
caso.
Em nosso problema do bandido armado com k, cada uma das k ações tem uma recompensa
esperada ou média, dado que essa ação é selecionada; chamemos isso de valor daquela ação.
Denotamos a ação selecionada no intervalo de tempo t como At, e a recompensa correspondente
como Rt. O valor então de uma ação arbitrária a, denotada qÿ(a), é a recompensa esperada dado que a é selecionado:
Se você soubesse o valor de cada ação, seria trivial resolver o problema do bandido
armado com k: você sempre selecionaria a ação com maior valor. Presumimos que você
não conhece os valores da ação com certeza, embora possa ter estimativas. Denotamos
o valor estimado da ação a na etapa de tempo t como Qt(a). Gostaríamos que Qt(a) fosse
próximo de qÿ(a).
Se você mantiver estimativas dos valores de ação, então, em qualquer intervalo de tempo, haverá
pelo menos uma ação cujo valor estimado é maior. Chamamos isso de ações gananciosas. Quando
você seleciona uma dessas ações, dizemos que você está explorando seu conhecimento atual dos
valores das ações. Se, em vez disso, você selecionar uma das ações não gananciosas, então dizemos
que você está explorando, porque isso lhe permite melhorar sua estimativa do valor da ação não
gananciosa. A exploração é a coisa certa a fazer para maximizar a recompensa esperada numa etapa,
mas a exploração pode produzir a maior recompensa total no longo prazo. Por exemplo, suponhamos
que o valor de uma acção gananciosa seja conhecido com certeza, enquanto várias outras acções são
estimadas como sendo quase tão boas, mas com incerteza substancial. A incerteza é tanta que pelo
menos uma dessas outras ações provavelmente é melhor que a ação gananciosa, mas você não sabe
qual. Se você tiver muitos passos de tempo à frente para fazer seleções de ação, então talvez seja
melhor explorar as ações não gananciosas e descobrir quais delas são melhores do que a ação
gananciosa. A recompensa é menor no curto prazo, durante a exploração, mas maior no longo prazo,
porque depois de descobrir as melhores ações, você poderá explorá-las muitas vezes. Como não é
possível explorar e explorar com uma única selecção de acção, refere-se frequentemente ao “conflito”
entre exploração e exploração.
Em qualquer caso específico, se é melhor explorar ou explorar depende de uma forma complexa
dos valores precisos das estimativas, das incertezas e do número de etapas restantes. Existem
muitos métodos sofisticados para equilibrar a exploração e a exploração para formulações
matemáticas específicas do bandido armado com k e problemas relacionados.
Machine Translated by Google
Começamos examinando mais de perto os métodos para estimar os valores das ações e para usar
as estimativas para tomar decisões de seleção de ações, que chamamos coletivamente de métodos
de valor da ação. Lembre-se de que o verdadeiro valor de uma ação é a recompensa média quando
essa ação é selecionada. Uma maneira natural de estimar isso é calculando a média das recompensas
realmente recebidas:
Qt(a) . =
soma das recompensas quando a foi obtida antes = Pt1
eu=1 Ri · Ai=a
, (2.1)
de t número de vezes que foi obtida antes de t
Pt1 i=1 Ai=a
onde denota a variável aleatória que é 1 se o predicado for verdadeiro e 0 se não for. predicado Se o
denominador for zero, então definimos Qt(a) como algum valor padrão, como 0. À medida que o
denominador vai para o infinito, pela lei dos grandes números, Qt(a) converge para qÿ(a). Chamamos
isso de método da média amostral para estimar valores de ação porque cada estimativa é uma média
da amostra de recompensas relevantes. É claro que esta é apenas uma forma de estimar os valores
das ações, e não necessariamente a melhor. No entanto, por enquanto, continuemos com este
método de estimativa simples e passemos à questão de como as estimativas podem ser utilizadas
para seleccionar acções.
A regra de seleção de ações mais simples é selecionar uma das ações com maior valor estimado,
ou seja, uma das ações gananciosas definidas na seção anterior.
Se houver mais de uma ação gananciosa, então é feita uma seleção entre elas de forma arbitrária,
talvez aleatoriamente. Escrevemos este método ganancioso de seleção de ações como
onde argmaxa denota a ação a para a qual a expressão a seguir é maximizada (novamente, com empates
quebrados arbitrariamente). A seleção gananciosa de ações sempre explora o conhecimento atual para
maximizar a recompensa imediata; não perde tempo algum experimentando ações aparentemente inferiores
para ver se elas poderiam realmente ser melhores. Uma alternativa simples é comportar-se de forma
gananciosa na maior parte do tempo, mas de vez em quando, digamos com pequena probabilidade ", em vez disso
Machine Translated by Google
Exercício 2.1 Em "-seleção de ações gananciosas, para o caso de duas ações e " = 0,5, qual é
a probabilidade de que a ação gananciosa seja selecionada? ÿ
2
qÿ(3)
qÿ(5)
1
qÿ(9)
qÿ(4)
Recompensa qÿ(1)
0 qÿ(7)
distribuição
qÿ(10)
qÿ(2)
-1 qÿ(8)
qÿ(6)
-2
-3
1 2 3 4 5 6 7 8 9 10
Ação
Figura 2.1: Um exemplo de problema de bandido do ambiente de teste de 10 braços. O verdadeiro valor qÿ(a) de
cada uma das dez ações foi selecionada de acordo com uma distribuição normal com média zero e unidade
variância e, em seguida, as recompensas reais foram selecionadas de acordo com uma média qÿ(a) variância unitária
distribuição normal, conforme sugerido por essas distribuições cinza.
Machine Translated by Google
foram selecionados de acordo com uma distribuição normal (Gaussiana) com média 0 e variância 1.
Então, quando um método de aprendizagem aplicado a esse problema selecionou a ação At na etapa de
tempo t, a recompensa real, Rt, foi selecionada a partir de uma distribuição normal com média qÿ(At) e
variância 1. Essas distribuições são mostradas em cinza na Figura 2.1 . Chamamos esse conjunto de tarefas
de teste de teste de 10 braços. Para qualquer método de aprendizagem, podemos medir seu desempenho e
comportamento à medida que melhora com a experiência em mais de 1.000 intervalos de tempo quando
aplicado a um dos problemas do bandido. Isso constitui uma corrida. Repetindo isso para 2.000 execuções
independentes, cada uma com um problema de bandido diferente, obtivemos medidas do comportamento
médio do algoritmo de aprendizagem.
A Figura 2.2 compara um método ganancioso com dois métodos "-gananciosos ("= 0,01 e "= 0,1),
conforme descrito acima, no ambiente de teste de 10 braços. Todos os métodos formaram suas
estimativas de valor de ação usando a técnica de média amostral. O O gráfico superior mostra o
aumento na recompensa esperada com a experiência. O método ganancioso melhorou um pouco
mais rápido do que os outros métodos no início, mas depois nivelou ÿ em um nível mais baixo. Ele
alcançou uma recompensa por etapa de apenas cerca de 1, em comparação com o melhor possível
de cerca de 1,55 neste teste. O método ganancioso teve um desempenho significativamente pior no longo prazo porqu
1,5
"= 0,1
"= 0,01
1
(ganancioso) "= 0
Recompensa
média
0,5
0
10 250 500 750 1000
Passos
100%
80%
"= 0,1
% 60%
"= 0,01
Ação ideal
40%
"= 0 (ganancioso)
20%
0%
01 250 500 750 1000
Passos
Figura 2.2: Desempenho médio de métodos de valor de ação "gananciosos" no ambiente de teste de 10 braços.
Esses dados são médias de mais de 2.000 execuções com diferentes problemas de bandidos. Todos os métodos usaram médias
amostrais como estimativas de valor de ação.
Machine Translated by Google
muitas vezes ficava preso executando ações abaixo do ideal. O gráfico inferior mostra que o
método ganancioso encontrou a ação ideal em apenas aproximadamente um terço das tarefas.
Nos outros dois terços, as suas amostras iniciais da acção óptima foram decepcionantes e nunca
mais voltaram a fazê-lo. Os métodos "-gananciosos eventualmente tiveram melhor desempenho
porque continuaram a explorar e a melhorar suas chances de reconhecer a ação ideal. O método
" = 0,1 explorou mais e geralmente encontrou a ação ideal mais cedo, mas nunca selecionou
essa ação mais de 91% do tempo. O método " = 0,01 melhorou mais lentamente, mas
eventualmente teria um desempenho melhor do que o método " = 0,1 em ambas as medidas de
desempenho mostradas na figura. Também é possível reduzir " ao longo do tempo para tentar
obter o melhor dos valores altos e baixos.
A vantagem dos métodos "-gananciosos sobre os métodos gananciosos depende da tarefa. Por
exemplo, suponha que a variação da recompensa tenha sido maior, digamos 10 em vez de 1. Com
recompensas mais barulhentas, é necessária mais exploração para encontrar a ação ideal, e os
métodos "-gananciosos devem se sai ainda melhor em relação ao método ganancioso. Por outro lado,
se as variações da recompensa fossem zero, então o método ganancioso saberia o verdadeiro valor
de cada ação depois de tentar uma vez. Neste caso, o método ganancioso pode realmente ter o
melhor desempenho porque logo encontraria a ação ideal e nunca mais exploraria. Mas mesmo no
caso determinista há uma grande vantagem em explorar se enfraquecermos alguns dos outros
pressupostos. Por exemplo, suponha que a tarefa do bandido fosse não estacionária, ou seja, os
verdadeiros valores das ações mudassem ao longo do tempo. Neste caso, a exploração é necessária
mesmo no caso determinístico para garantir que uma das ações não gananciosas não mudou para se
tornar melhor do que a gananciosa. Como veremos nos próximos capítulos, a não estacionariedade é
o caso mais comumente encontrado na aprendizagem por reforço. Mesmo que a tarefa subjacente
seja estacionária e determinística, o aluno enfrenta um conjunto de tarefas de decisão semelhantes a
bandidos, cada uma das quais muda ao longo do tempo à medida que a aprendizagem prossegue e
a política de tomada de decisão do agente muda. A aprendizagem por reforço requer um equilíbrio entre exploração e
Exercício 2.2: Exemplo de bandido Considere um problema de bandido armado com k com k = 4
ações, denotadas 1, 2, 3 e 4. Considere aplicar a este problema um algoritmo de bandido usando
"seleção de ação gananciosa, estimativas de valor de ação média amostral , e estimativas iniciais
de Q1(a) = 0, para todo a. Suponha que a sequência inicial de ações e recompensas seja A1 = 1,
R1 = 1, A2 = 2, R2 = 1, A3 = 2, R3 = 2, A4 = 2, R4 = 2, A5 = 3, R5 = 0. Em alguns desses
intervalos de tempo o caso " pode ter ocorrido, fazendo com que uma ação fosse selecionada
aleatoriamente . Em quais intervalos de tempo isso definitivamente ocorreu? Em quais intervalos
de tempo isso poderia ter ocorrido? ÿ
Exercício 2.3 Na comparação mostrada na Figura 2.2, qual método terá melhor desempenho no
longo prazo em termos de recompensa cumulativa e probabilidade de selecionar a melhor ação?
Quão melhor será? Expresse sua resposta quantitativamente. ÿ
R1 + R2 + ··· + Rn1 n 1
Qn .= .
1
Qn+1 = Xn Ri
n eu=1
1
= Rn + n
n X1 Ri !
eu=1
1 1
= Rn + (n 1) n 1
n nX1
eu=1_Ri !
1
=
nº ÿ Rn + (n 1)Qn ÿ
1
=
n ÿ Rn + nQn Qn ÿ
1
= Qn + (2.3)
n h Rn Qn eu ,
o que vale mesmo para n = 1, obtendo Q2 = R1 para Q1 arbitrário. Esta implementação requer
memória apenas para Qn e n, e apenas o pequeno cálculo (2.3) para cada nova recompensa.
Esta regra de atualização (2.3) tem um formato que ocorre frequentemente ao longo deste
livro. A forma geral é
Observe que o parâmetro de tamanho do passo (StepSize) usado no método incremental (2.3)
muda de intervalo de tempo para intervalo de tempo. Ao processar a enésima recompensa pela ação a, o
Machine Translated by Google
1
O método usa o parâmetro step-size n . Neste livro denotamos o parâmetro step-size
por ÿ ou, mais geralmente, por ÿt(a).
O pseudocódigo para um algoritmo de bandido completo usando médias de amostra calculadas
incrementalmente e seleção de ação "-ganancioso é mostrado na caixa abaixo. Presume-se que a
função bandit(a) execute uma ação e retorne uma recompensa correspondente.
Inicialize, para a = 1 a k:
Q(a) 0
N(a) 0
Loop para sempre:
com probabilidade 1 "(desempate aleatoriamente)
uma Q(a)
A ÿ argmaxa ação aleatória com probabilidade"
Bandido R(A)
N(A) N(A)+1
1
Q(A) Q(A) + N / D) ÿ QR(A) ÿ
Qn+1 .= Qn + ÿ h Rn Qn eu , (2.5)
onde o parâmetro de tamanho do passo ÿ 2 (0, 1] é constante. Isso resulta em Qn+1 sendo uma média
ponderada de recompensas passadas e a estimativa inicial Q1:
Qn+1 = Qn + ÿ h Rn Qn i
= ÿRn + (1 ÿ)Qn =
ÿRn + (1 ÿ) [ÿRn1 + (1 ÿ)Qn1] = ÿRn + (1
ÿ)ÿRn1 + (1 ÿ) 2Qn1 = ÿRn + (1 ÿ )ÿRn1 +
(1 ÿ) 2ÿRn2 + ··· + (1 ÿ) n1ÿR1 + (1 ÿ) nQ1
não
= (1 ÿ) nQ1 +Xn ÿ(1 ÿ) Ri. (2.6)
eu=1
Machine Translated by Google
Chamamos isso de média ponderada porque a soma dos pesos é (1 ÿ)n + Pn ÿ)ni = 1, como eu=1 ÿ(1
você mesmo pode verificar. Observe que o peso, ÿ(1 ÿ)ni , dado à recompensa Ri depende de quantas
recompensas atrás, n i, ela foi observada. A quantidade 1 ÿ é menor que 1 e, portanto, o peso dado a Ri
diminui à medida que o número de recompensas intermediárias aumenta. Na verdade, o peso decai
exponencialmente de acordo com o expoente em 1 ÿ. (Se 1 ÿ = 0, então todo o peso vai para a última
recompensa, Rn, devido à convenção de que 00 = 1.) Conseqüentemente, isso às vezes é chamado de
média exponencial ponderada pela atualidade.
Às vezes é conveniente variar o parâmetro de tamanho do passo de passo para passo. Seja ÿn(a) o
parâmetro de tamanho do passo usado para processar a recompensa recebida após a enésima seleção
1
da ação a. Como observamos, a escolha ÿn(a) = resulta no nmétodo da média amostral, que garante
convergência para os verdadeiros valores da ação pela lei dos grandes números.
Mas é claro que a convergência não é garantida para todas as escolhas da sequência {ÿn(a)}. Um
resultado bem conhecido na teoria da aproximação estocástica nos dá as condições necessárias
para garantir a convergência com probabilidade 1:
A primeira condição é necessária para garantir que os passos sejam suficientemente grandes para
eventualmente superar quaisquer condições iniciais ou flutuações aleatórias. A segunda condição garante
que eventualmente os passos se tornem pequenos o suficiente para assegurar a convergência.
1
Observe que ambas as condições de convergência são atendidas para o caso da média amostral, n ,
ÿn(a) = mas não para o caso do parâmetro de tamanho de passo constante, ÿn(a) = ÿ. Neste último caso,
a segunda condição não é satisfeita, indicando que as estimativas nunca convergem completamente, mas
continuam a variar em resposta às recompensas recebidas mais recentemente. Como mencionamos
acima, isso é realmente desejável em um ambiente não estacionário, e problemas que são efetivamente
não estacionários são os mais comuns na aprendizagem por reforço. Além disso, sequências de
parâmetros de tamanho de passo que satisfazem as condições (2.7) muitas vezes convergem muito
lentamente ou necessitam de ajuste considerável para obter uma taxa de convergência satisfatória.
Embora sequências de parâmetros de tamanho de passo que atendam a essas condições de convergência
sejam frequentemente utilizadas em trabalhos teóricos, elas raramente são utilizadas em aplicações e pesquisas empíricas.
Exercício 2.4 Se os parâmetros do tamanho do passo, ÿn, não forem constantes, então a estimativa
Qn é uma média ponderada das recompensas recebidas anteriormente com uma ponderação diferente
daquela dada por (2.6). Qual é o peso de cada recompensa anterior para o caso geral, análogo a
(2.6), em termos da sequência de parâmetros de tamanho do passo? ÿ Exercício 2.5 (programação)
Projete e conduza um experimento para demonstrar as dificuldades que os métodos de média
amostral apresentam para problemas não estacionários. Use uma versão modificada do ambiente de
teste de 10 braços em que todos os qÿ(a) começam iguais e depois fazem passeios aleatórios
independentes (digamos, adicionando um incremento normalmente distribuído com média zero e
desvio padrão 0,01 a todos os qÿ(a ) em cada etapa). Prepare gráficos como a Figura 2.2 para um
método de valor de ação usando médias amostrais, computadas de forma incremental, e outro método
de valor de ação usando um parâmetro de tamanho de passo constante, ÿ = 0,1. Use "= 0,1 e
execuções mais longas, digamos de 10.000 passos. ÿ
Machine Translated by Google
100%
Otimista, ganancioso
otimista, ganancioso
Q1 = 5, "= 0
80% Q01 = 5, !!= 0
20%
0%
10 200 400 600 800 1000
Tocam
Passos
Figura 2.3: O efeito das estimativas iniciais otimistas do valor da ação no banco de testes de 10 braços.
Ambos os métodos usaram um parâmetro de tamanho de passo constante, ÿ = 0,1.
Machine Translated by Google
temporário. Se a tarefa mudar, criando uma necessidade renovada de exploração, este método
não poderá ajudar. Na verdade, é improvável que qualquer método que se concentre nas condições
iniciais de alguma forma especial ajude no caso geral não estacionário. O início dos tempos ocorre
apenas uma vez e, portanto, não devemos nos concentrar muito nele. Esta crítica aplica-se
também aos métodos de média amostral, que também tratam o início do tempo como um evento
especial, calculando a média de todas as recompensas subsequentes com pesos iguais. No
entanto, todos estes métodos são muito simples e um deles – ou alguma combinação simples
deles – é muitas vezes adequado na prática. No restante deste livro faremos uso frequente de
diversas dessas técnicas simples de exploração.
Exercício 2.6: Picos Misteriosos Os resultados mostrados na Figura 2.3 devem ser bastante confiáveis
porque são médias superiores a 2.000 tarefas individuais, escolhidas aleatoriamente, de 10 bandidos armados.
Por que, então, existem oscilações e picos na parte inicial da curva do método otimista? Por outras
palavras, o que poderá fazer com que este método tenha um desempenho particularmente melhor ou pior,
em média, em determinados passos iniciais? ÿ Exercício 2.7: Truque imparcial de tamanho de passo
constante Na maior parte deste capítulo usamos médias amostrais para estimar valores de ação porque
as médias amostrais não produzem o viés inicial que os tamanhos de passo constantes produzem (veja a
análise que leva a (2.6)). No entanto, as médias amostrais não são uma solução completamente satisfatória
porque podem ter um desempenho insatisfatório em problemas não estacionários. É possível evitar o viés
de tamanhos de passo constantes, mantendo suas vantagens em problemas não estacionários? Uma
maneira é usar um tamanho de passo de
.
n = ÿ/o¯n, (2.8)
para processar a enésima recompensa para uma ação específica, onde ÿ > 0 é um tamanho de passo
constante convencional e ¯on é um traço de um que começa em 0:
. .
= ¯on1 + ÿ(1 o¯n1), para n 0, com ¯o0 = 0. o¯n (2.9)
Faça uma análise como a de (2.6) para mostrar que Qn é uma média exponencial ponderada pela
atualidade sem viés inicial. ÿ
onde ln t denota o logaritmo natural de t (o número ao qual e ÿ 2,71828 teria que ser elevado para ser
igual a t), Nt(a) denota o número de vezes que a ação a foi selecionada antes do tempo t (o denominador
em (2.1)), e o número c > 0 controla o grau de exploração. Se Nt(a) = 0, então a é considerado uma ação
maximizadora.
A ideia desta seleção de ação do limite de confiança superior (UCB) é que o termo da raiz quadrada é uma
medida da incerteza ou variância na estimativa do valor de a. A quantidade máxima é, portanto, uma espécie
de limite superior do possível valor verdadeiro da ação a, com c determinando o nível de confiança. Cada vez
que a é selecionado, a incerteza é presumivelmente reduzida: Nt(a) aumenta e, conforme aparece no
denominador, o termo de incerteza diminui. Por outro lado, cada vez que uma ação diferente de a é
selecionada, t aumenta, mas Nt(a) não; porque t aparece no numerador, a estimativa da incerteza aumenta.
A utilização do logaritmo natural significa que os aumentos diminuem com o tempo, mas são ilimitados;
todas as ações serão eventualmente selecionadas, mas as ações com estimativas de valor mais baixas,
ou que já tenham sido selecionadas com frequência, serão selecionadas com frequência decrescente ao
longo do tempo.
Os resultados com UCB na bancada de teste de 10 braços são mostrados na Figura 2.4. O UCB muitas
vezes tem um bom desempenho, como mostrado aqui, mas é mais difícil do que "-ávido" estender-se além
dos bandidos para as configurações mais gerais de aprendizagem por reforço consideradas no restante deste livro.
Uma dificuldade está em lidar com problemas não estacionários; seriam necessários métodos mais
complexos do que os apresentados na Seção 2.5. Outra dificuldade é lidar com grandes espaços de
estados, particularmente quando se utiliza a aproximação de funções desenvolvida na Parte II deste livro.
Nestes contextos mais avançados, a ideia de selecção de acções de SCU geralmente não é prática.
1,5 UCBc = 2
-ganancioso = 0,1
1
Recompensa
média
0,5
Figura 2.4: Desempenho médio da seleção de ações do UCB no banco de testes de 10 braços. Como mostrado, o UCB
geralmente tem um desempenho melhor do que a seleção de ações gananciosas, exceto nas primeiras k etapas, quando
seleciona aleatoriamente entre as ações ainda não experimentadas.
Exercício 2.8: Picos de UCB Na Figura 2.4 o algoritmo UCB mostra um aumento distinto no desempenho
no 11º passo. Por que é isso? Observe que, para que sua resposta seja totalmente satisfatória, ela deverá
explicar por que a recompensa aumenta no 11º passo e por que diminui nas etapas subsequentes. Dica:
se c = 1, então o pico é menos proeminente. ÿ
Machine Translated by Google
eHt(a) .
Pr{At =a} . = = ÿt(a), (2.11)
Pkb=1 eHt(b)
onde aqui também introduzimos uma nova notação útil, ÿt(a), para a probabilidade de realizar uma
ação a no tempo t. Inicialmente todas as preferências de ação são iguais (por exemplo, H1(a) = 0,
para todo a) de modo que todas as ações têm igual probabilidade de serem selecionadas.
Exercício 2.9 Mostre que, no caso de duas ações, a distribuição soft-max é a mesma dada
pela função logística, ou sigmóide, frequentemente usada em estatísticas e redes neurais
artificiais. ÿ
Existe um algoritmo de aprendizagem natural para esta configuração baseado na ideia de subida
gradiente estocástica. Em cada etapa, após selecionar a ação At e receber a recompensa Rt, as
preferências de ação são atualizadas por:
100%
ÿ = 0,1
80% com linha de base
ÿ = 0,4
% 60%
Ação ideal ÿ = 0,1
40%
sem linha de base
ÿ = 0,4
20%
0%
1 250 500 750 1000
Passos
Figura 2.5: Desempenho médio do algoritmo gradiente bandido com e sem uma linha de base de recompensa no
ambiente de teste de 10 braços quando qÿ(a) são escolhidos como próximos de +4 em vez de próximos de zero.
Pode-se obter uma visão mais profunda do algoritmo gradiente bandido, entendendo- o
como uma aproximação estocástica da subida gradiente. Na subida gradiente exata,
cada preferência de ação Ht(a) seria incrementada proporcionalmente ao efeito do
incremento no desempenho:
@E[Rt]
Ht+1(a) . = Ht(a) + ÿ , (2.13)
@Ht(a)
E[Rt] = X ÿt(x)qÿ(x),
x
passos. Primeiro, damos uma olhada mais de perto no gradiente exato de desempenho:
@E[Rt] = @
@E[Rt] @ ÿt(x)
= X ÿt(x) qÿ(x) Bt /ÿt(x).
@Ht(a) x
@Ht(a)
@
ÿt(Em) /ÿt(Em)
= E ÿ qÿ(Em) Bt @Ht(a)
@ ÿt(At) /
ÿt(At) ,
= E ÿ Rt R¯t @Ht(a)
onde aqui escolhemos a linha de base Bt = R¯t e substituímos Rt por qÿ(At), o que é
permitido porque E[Rt|At] = qÿ(At). Em breve estabeleceremos que @ ÿt(x) = ÿt(x) a=x
ÿt(a) , onde
@Ht(a) é definido como 1 se a = x, caso contrário, 0.
uma=x
Lembre-se de que nosso plano foi escrever o gradiente de desempenho como uma expectativa
de algo que podemos amostrar em cada etapa, como acabamos de fazer, e depois atualizar
em cada etapa proporcional à amostra. Substituindo uma amostra da expectativa acima pelo
gradiente de desempenho em (2.13) resulta:
que você pode reconhecer como equivalente ao nosso algoritmo original (2.12).
Machine Translated by Google
@
Portanto, resta apenas mostrar isso @Ht(a)
como
ÿt(x)assumimos.
= ÿt(x) a=x ÿt(a) ,
Lembre-se da regra padrão do quociente para derivadas:
@ ÿt(x) = @
ÿt(x)
@Ht(a) @Ht(a)
@
=
Pk y =eHt(y)
@Ht(a) " eHt(x) 1#
= @Ht(a) Pk y = 1 @Ht(a)
(pela regra do quociente)
ÿPk eHt(y) ÿ2
y=1 a=xeHt(x) yPk
=1
eHt(y) eHt(x) eHt(a) @ex
= (porque @x = ex)
ÿPk y=1 eHt(y) ÿ2
a=xeHt(x) eHt(x) eHt(a)
=
Pk y=1 eHt(y)
ÿPk y=1 eHt(y) ÿ2
= a=xÿt(x) ÿt(x)ÿt(a) = ÿt(x)
a=x ÿt(a) . QED
Exercício 2.10 Suponha que você enfrente uma tarefa de bandido de 2 braços cujos valores reais de ação
mudam aleatoriamente de intervalo de tempo para intervalo de tempo. Especificamente, suponha que,
para qualquer intervalo de tempo, os valores verdadeiros das ações 1 e 2 sejam respectivamente 0,1 e
0,2 com probabilidade 0,5 (caso A) e 0,9 e 0,8 com probabilidade 0,5 (caso B). Se você não consegue
dizer qual caso você enfrenta em qualquer etapa, qual é a melhor expectativa de sucesso que você pode
alcançar e como você deve se comportar para alcançá-lo? Agora suponha que em cada etapa você seja
informado se está enfrentando o caso A ou o caso B (embora ainda não saiba os verdadeiros valores da
ação). Esta é uma tarefa de pesquisa associativa. Qual a melhor expectativa de sucesso que você pode
alcançar nesta tarefa e como você deve se comportar para alcançá-la? ÿ
Machine Translated by Google
2.10 Resumo
Apresentamos neste capítulo várias maneiras simples de equilibrar exploração e aproveitamento. Os
métodos "-gananciosos escolhem aleatoriamente uma pequena fração do tempo, enquanto os métodos
UCB escolhem deterministicamente, mas conseguem a exploração favorecendo sutilmente em cada etapa
as ações que até agora receberam menos amostras. Algoritmos de gradiente bandido estimam não valores
de ação, mas preferências de ação, e favorecer as ações mais preferidas de maneira graduada e
probabilística, usando uma distribuição soft-max. O simples expediente de inicializar estimativas de maneira
otimista faz com que até mesmo métodos gananciosos sejam explorados significativamente.
É natural perguntar qual destes métodos é o melhor. Embora esta seja uma pergunta difícil de responder
em geral, certamente podemos executá-las todas no banco de testes de 10 braços que usamos ao longo
deste capítulo e comparar seus desempenhos. Uma complicação é que todos eles possuem um parâmetro;
para obter uma comparação significativa, temos que considerar o seu desempenho como uma função do
seu parâmetro. Nossos gráficos até agora mostraram o curso do aprendizado ao longo do tempo para cada
algoritmo e configuração de parâmetro, para produzir uma curva de aprendizado para esse algoritmo e
configuração de parâmetro. Se plotássemos curvas de aprendizado para todos os algoritmos e todas as
configurações de parâmetros, o gráfico seria muito complexo e lotado para fazer comparações claras. Em
vez disso, resumimos uma curva de aprendizagem completa pelo seu valor médio ao longo dos 1000
passos; este valor é proporcional à área sob a curva de aprendizado. A Figura 2.6 mostra essa medida para
os vários algoritmos bandidos deste capítulo, cada um como uma função de seu próprio parâmetro mostrado
em uma única escala no eixo x. Esse tipo de gráfico é chamado de estudo de parâmetros. Observe que os
valores dos parâmetros variam por fatores de dois e são apresentados em uma escala logarítmica. Observe
também as formas características de U invertido do desempenho de cada algoritmo; todos os algoritmos
apresentam melhor desempenho com um valor intermediário de seu parâmetro, nem muito grande nem
muito pequeno. Na avaliação
1,5
UCB ganancioso com
inicialização
1.4 otimista ÿ = 0,1
Recompensa
1.3 -ambicioso
média
bandido
nas
1.2 gradiente
primeiras 1.000 etapas
1.1
1
1/128 1/64 1/32 1/16 1/8 1/4 1/2 1 2 4
" ÿc Q0 _
Figura 2.6: Um estudo de parâmetros dos vários algoritmos bandidos apresentados neste capítulo.
Cada ponto é a recompensa média obtida em 1.000 etapas com um algoritmo específico em uma
configuração específica de seu parâmetro.
Machine Translated by Google
2.10. Resumo 43
um método, devemos prestar atenção não apenas ao quão bem ele se sai em sua melhor configuração de
parâmetro, mas também ao quão sensível ele é ao seu valor de parâmetro. Todos esses algoritmos são bastante
insensíveis, apresentando bom desempenho em uma faixa de valores de parâmetros que variam em cerca de
uma ordem de magnitude. No geral, neste problema, o UCB parece ter o melhor desempenho.
Apesar da sua simplicidade, em nossa opinião, os métodos apresentados neste capítulo podem ser
considerados o estado da arte. Existem métodos mais sofisticados, mas a sua complexidade e pressupostos
tornam-nos impraticáveis para o problema de aprendizagem por reforço total que é o nosso verdadeiro foco. A
partir do Capítulo 5 apresentamos métodos de aprendizagem para resolver o problema de aprendizagem por
reforço completo que utilizam em parte os métodos simples explorados neste capítulo.
Embora os métodos simples explorados neste capítulo possam ser os melhores que podemos fazer
actualmente, estão longe de ser uma solução totalmente satisfatória para o problema do equilíbrio entre a
exploração e a exploração.
Uma abordagem bem estudada para equilibrar exploração e exploração em problemas de bandidos armados
com k é calcular um tipo especial de valor de ação chamado índice de Gittins. Em certos casos especiais
importantes, este cálculo é tratável e leva diretamente a soluções ótimas, embora exija conhecimento completo
da distribuição anterior de possíveis problemas, que geralmente assumimos não estar disponível. Além disso,
nem a teoria nem a tratabilidade computacional desta abordagem parecem generalizar para o problema de
aprendizagem por reforço completo que consideramos no resto do livro.
A abordagem do índice de Gittins é um exemplo de métodos Bayesianos, que assumem uma distribuição
inicial conhecida sobre os valores da ação e então atualizam a distribuição exatamente após cada etapa
(assumindo que os verdadeiros valores da ação são estacionários). Em geral, os cálculos de atualização podem
ser muito complexos, mas para certas distribuições especiais (chamadas anteriores conjugadas) eles são fáceis.
Uma possibilidade é então selecionar ações em cada etapa de acordo com sua probabilidade posterior de ser a
melhor ação. Esse método, às vezes chamado de amostragem posterior ou amostragem de Thompson,
geralmente tem desempenho semelhante ao melhor dos métodos sem distribuição que apresentamos neste
capítulo.
No cenário bayesiano é até concebível calcular o equilíbrio ideal entre exploração e exploração.
Pode-se calcular para qualquer ação possível a probabilidade de cada recompensa imediata
possível e as distribuições posteriores resultantes sobre os valores da ação. Essa distribuição
em evolução torna-se o estado de informação do problema. Dado um horizonte, digamos de
1.000 passos, pode-se considerar todas as ações possíveis, todas as possíveis recompensas
resultantes, todas as próximas ações possíveis, todas as próximas recompensas e assim por
diante para todos os 1.000 passos. Dadas as suposições, as recompensas e probabilidades de
cada possível cadeia de eventos podem ser determinadas, e basta escolher a melhor. Mas a
árvore de possibilidades cresce com extrema rapidez; mesmo que houvesse apenas duas ações
e duas recompensas, a árvore teria 22.000 folhas. Geralmente não é viável realizar com exatidão
esse imenso cálculo, mas talvez ele possa ser aproximado de maneira eficiente. Essa abordagem
transformaria efetivamente o problema do bandido em uma instância do problema de
aprendizagem por reforço total. No final, poderemos usar métodos aproximados de aprendizagem
por reforço, como os apresentados na Parte II deste livro, para abordar esta solução ótima. Mas
esse é um tema para pesquisa e está além do escopo deste livro introdutório.
Machine Translated by Google
Exercício 2.11 (programação) Faça uma figura análoga à Figura 2.6 para o caso não estacionário
descrito no Exercício 2.5. Inclua o algoritmo "-greedy de tamanho de passo constante com ÿ = 0,1. Use
execuções de 200.000 etapas e, como medida de desempenho para cada algoritmo e configuração de
parâmetro, use a recompensa média nas últimas 100.000 etapas. ÿ
2.2 Métodos de valor de ação para nosso problema do bandido armado com k foram propostos pela primeira
vez por Thathachar e Sastry (1985). Estes são frequentemente chamados de algoritmos estimadores na
literatura sobre autômatos de aprendizagem. O termo valor de ação se deve a Watkins (1989).
O primeiro a usar métodos "gananciosos" também pode ter sido Watkins (1989, p. 187), mas
a ideia é tão simples que algum uso anterior parece provável.
2.4–5 Este material se enquadra no título geral de algoritmos iterativos estocásticos, que é
bem abordado por Bertsekas e Tsitsiklis (1996).
2.6 A inicialização otimista foi usada na aprendizagem por reforço por Sutton (1996).
2.7 Os primeiros trabalhos sobre a utilização de estimativas do limite superior de confiança para
selecionar ações foram realizados por Lai e Robbins (1985), Kaelbling (1993b) e Agrawal (1995).
O algoritmo UCB que apresentamos aqui é denominado UCB1 na literatura e foi desenvolvido
pela primeira vez por Auer, Cesa-Bianchi e Fischer (2002).
2.8 Os algoritmos gradiente bandido são um caso especial dos algoritmos de aprendizagem por reforço
baseados em gradiente introduzidos por Williams (1992) e que mais tarde se desenvolveram nos
algoritmos ator-crítico e gradiente político que trataremos mais adiante neste livro.
Nosso desenvolvimento aqui foi influenciado por Balaraman Ravindran (pessoa
Machine Translated by Google
2.10 Bellman (1956) foi o primeiro a mostrar como a programação dinâmica poderia ser usada para
calcular o equilíbrio ideal entre exploração e aproveitamento dentro de uma formulação
bayesiana do problema. A abordagem do índice de Gittins deve-se a Gittins e Jones
(1974). Duÿ (1995) mostrou como é possível aprender índices de Gittins para problemas
de bandidos através da aprendizagem por reforço. A pesquisa de Kumar (1985) fornece
uma boa discussão sobre abordagens bayesianas e não bayesianas para esses
problemas. O termo estado da informação vem da literatura sobre MDPs parcialmente
observáveis; ver, por exemplo, Lovejoy (1991).
Outra investigação teórica centra-se na eficiência da exploração, geralmente expressa
como a rapidez com que um algoritmo pode aproximar-se de uma política de tomada de
decisão óptima. Uma maneira de formalizar a eficiência da exploração é adaptar ao
aprendizado por reforço a noção de complexidade da amostra para um algoritmo de
aprendizado supervisionado, que é o número de exemplos de treinamento que o
algoritmo precisa para atingir um grau desejado de precisão no aprendizado da função
alvo. Uma definição da complexidade amostral de exploração para um algoritmo de
aprendizagem por reforço é o número de passos de tempo em que o algoritmo não
seleciona ações quase ótimas (Kakade, 2003). Li (2012) discute esta e várias outras
abordagens em uma pesquisa de abordagens teóricas para a eficiência de exploração
na aprendizagem por reforço. Um tratamento moderno e completo da amostragem de
Thompson é fornecido por Russo, Van Roy, Kazerouni, Osband e Wen (2018).
Machine Translated by Google
Machine Translated by Google
Capítulo 3
Neste capítulo introduzimos o problema formal dos processos de decisão finitos de Markov, ou MDPs finitos,
que tentamos resolver no resto do livro. Este problema envolve feedback avaliativo , como nos bandidos,
mas também um aspecto associativo – escolher ações diferentes em situações diferentes. Os MDPs são
uma formalização clássica da tomada de decisão sequencial, onde as ações influenciam não apenas as
recompensas imediatas, mas também situações ou estados subsequentes, e através dessas recompensas
futuras. Assim, os MDPs envolvem recompensas atrasadas e a necessidade de negociar recompensas
imediatas e atrasadas. Enquanto nos problemas de bandidos estimamos o valor qÿ(a) de cada ação a, nos
MDPs estimamos o valor qÿ(s, a) de cada ação a em cada estado s, ou estimamos o valor vÿ(s) de cada
estado, dadas as seleções de ação ideais.
Estas quantidades dependentes do estado são essenciais para atribuir com precisão o crédito pelas
consequências a longo prazo às seleções de ações individuais.
Os MDPs são uma forma matematicamente idealizada do problema de aprendizagem por
reforço para a qual podem ser feitas declarações teóricas precisas. Apresentamos elementos-
chave da estrutura matemática do problema, como retornos, funções de valor e equações
de Bellman. Tentamos transmitir a ampla gama de aplicações que podem ser formuladas
como MDPs finitos. Como em toda a inteligência artificial, existe uma tensão entre a
amplitude da aplicabilidade e a tratabilidade matemática. Neste capítulo introduzimos esta
tensão e discutimos algumas das trocas e desafios que ela implica. Algumas maneiras pelas
quais a aprendizagem por reforço pode ser levada além dos MDPs são tratadas no Capítulo 17.
47
Machine Translated by Google
Agente
estado recompensa
Ação
Santo Rota
No
Rt+1
St+1 Ambiente
Mais especificamente, o agente e o ambiente interagem em cada uma de uma sequência de passos
2
de tempo discretos, t = 0, 1, 2, 3,.... A cada passo de tempo t, o agente recebe alguma representação do
estado do ambiente, St 2 S, e com base nisso seleciona uma ação, At 2 A(s).3 Um passo de tempo
depois, em parte como consequência de sua ação, o agente recebe uma recompensa numérica, Rt+1 2
4
R ÿ R, e se encontra em um novo estado, St+1. O MDP e o agente
juntos dão origem a uma sequência ou trajetória que começa assim:
1Usamos os termos agente, ambiente e ação em vez dos termos dos engenheiros controlador, controlado
sistema (ou planta) e sinal de controle porque são significativos para um público mais amplo.
2Restringimos a atenção ao tempo discreto para manter as coisas tão simples quanto possível, embora muitas das
ideias possam ser estendidas ao caso do tempo contínuo (por exemplo, ver Bertsekas e Tsitsiklis, 1996; Doya, 1996).
3Para simplificar a notação, às vezes assumimos o caso especial em que o conjunto de ações é o mesmo em todos
estados e escreva-o simplesmente como A.
4Usamos Rt+1 em vez de Rt para denotar a recompensa devida a At porque enfatiza que a próxima
recompensa e o próximo estado, Rt+1 e St+1, são determinados em conjunto. Infelizmente, ambas as convenções
são amplamente utilizadas na literatura.
Machine Translated by Google
mas aqui apenas nos lembra que p especifica uma distribuição de probabilidade para cada escolha
de s e a, ou seja, que
Num processo de decisão de Markov, as probabilidades dadas por p caracterizam completamente a dinâmica do
ambiente. Ou seja, a probabilidade de cada valor possível para St e Rt depende apenas do estado e ação
imediatamente anteriores, St1 e At1, e, dados eles, de forma alguma dos estados e ações anteriores. Isto é melhor
visto como uma restrição não ao processo de decisão, mas ao estado. O estado deve incluir informações sobre todos
os aspectos da interação passado agente-ambiente que fazem a diferença para o futuro. Se isso acontecer, então diz-
se que o estado possui a propriedade de Markov. Assumiremos a propriedade de Markov ao longo deste livro, embora
começando na Parte II consideremos métodos de aproximação que não dependem dela, e no Capítulo 17
consideremos como um estado de Markov pode ser aprendido e construído a partir de observações não-Markov.
A partir da função dinâmica de quatro argumentos, p, pode-se calcular qualquer outra coisa
que se queira saber sobre o ambiente, como as probabilidades de transição de estado (que
denotamos , com um ligeiro abuso de notação, como uma função de três argumentos p : SÿSÿA ! [0, 1]),
Também podemos calcular as recompensas esperadas para pares estado-ação como uma função de
dois argumentos r : S ÿ A ! R:
= E[Rt | St1 =s, At1 =a] = X r(s, a) . r X p(s0 , r|s, uma), (3.5)
r2R s02S
e as recompensas esperadas para estado-ação-próximo estado triplicam como uma função de três
argumentos r : S ÿ A ÿ S ! R,
. p(s0 , r|s, a)
R . (3.6)
= E[Rt | St1 =s, At1 =a, St = s0 ] = X r(s, a, s0 )
r2R p(s0 |s, a)
Neste livro, geralmente usamos a função p de quatro argumentos (3.2), mas cada uma dessas outras
notações também é ocasionalmente conveniente.
A estrutura do MDP é abstrata e flexível e pode ser aplicada a muitos problemas diferentes de
muitas maneiras diferentes. Por exemplo, os intervalos de tempo não necessitam de se referir a
intervalos fixos de tempo real; eles podem referir-se a estágios sucessivos arbitrários de tomada
de decisão e ação. As ações podem ser controles de baixo nível, como as tensões aplicadas aos
motores de um braço robótico, ou decisões de alto nível, como almoçar ou não ou ir para a pós-
graduação. Da mesma forma, os estados podem assumir uma ampla variedade de formas. Eles
podem ser completamente determinados por sensações de baixo nível, como leituras diretas de
sensores, ou podem ser de mais alto nível e abstratos, como descrições simbólicas de objetos
em uma sala. Parte do que constitui um estado pode ser baseado na memória de sensações passadas ou
Machine Translated by Google
até mesmo ser inteiramente mental ou subjetivo. Por exemplo, um agente pode estar no estado de
não ter certeza de onde um objeto está, ou de ter sido surpreendido em algum sentido claramente
definido. Da mesma forma, algumas ações podem ser totalmente mentais ou computacionais. Por
exemplo, algumas ações podem controlar o que um agente escolhe pensar ou onde concentra a
sua atenção. Em geral, as ações podem ser quaisquer decisões que queiramos aprender a tomar,
e os estados podem ser qualquer coisa que possamos saber e que possa ser útil para tomá-las.
Em particular, a fronteira entre o agente e o ambiente normalmente não é a mesma que a
fronteira física do corpo de um robô ou animal. Normalmente, a fronteira é desenhada mais
perto do agente do que isso. Por exemplo, os motores e as ligações mecânicas de um robô e
o seu hardware de detecção devem normalmente ser considerados partes do ambiente e não
partes do agente. Da mesma forma, se aplicarmos a estrutura do MDP a uma pessoa ou
animal, os músculos, o esqueleto e os órgãos sensoriais devem ser considerados parte do ambiente.
As recompensas também são presumivelmente calculadas dentro dos corpos físicos dos sistemas de
aprendizagem naturais e artificiais, mas são consideradas externas ao agente.
A regra geral que seguimos é que qualquer coisa que não possa ser alterada arbitrariamente pelo agente
é considerada fora dele e, portanto, parte do seu ambiente. Não presumimos que tudo no ambiente seja
desconhecido para o agente. Por exemplo, o agente muitas vezes sabe bastante sobre como as suas
recompensas são calculadas em função das suas ações e dos estados em que são realizadas. Mas sempre
consideramos que o cálculo da recompensa é externo ao agente porque define a tarefa que o agente enfrenta
e, portanto, deve estar além da sua capacidade de mudar arbitrariamente. Na verdade, em alguns casos, o
agente pode saber tudo sobre como funciona o seu ambiente e ainda assim enfrentar uma difícil tarefa de
aprendizagem por reforço, tal como podemos saber exactamente como funciona um puzzle como o cubo de
Rubik, mas ainda assim sermos incapazes de o resolver. A fronteira agente-ambiente representa o limite do
controle absoluto do agente, não do seu conhecimento.
A fronteira agente-ambiente pode estar localizada em locais diferentes para finalidades diferentes. Em um
robô complicado, muitos agentes diferentes podem operar ao mesmo tempo, cada um com seu próprio limite.
Por exemplo, um agente pode tomar decisões de alto nível que fazem parte dos estados enfrentados por um
agente de nível inferior que implementa as decisões de alto nível. Na prática, a fronteira agente-ambiente é
determinada uma vez selecionados estados, ações e recompensas particulares e, assim, identificada uma
tarefa específica de interesse na tomada de decisão.
É claro que os estados e ações específicos variam muito de tarefa para tarefa, e a forma como são
representados pode afetar fortemente o desempenho. Na aprendizagem por reforço, como em outros tipos
de aprendizagem, tais escolhas representacionais são actualmente mais arte do que ciência.
Machine Translated by Google
Neste livro oferecemos alguns conselhos e exemplos sobre boas formas de representar estados e ações, mas nosso
foco principal está nos princípios gerais para aprender como se comportar depois que as representações forem
selecionadas.
Exemplo 3.1: Biorreator Suponha que o aprendizado por reforço esteja sendo aplicado para determinar temperaturas
e taxas de agitação momento a momento para um biorreator (um grande tanque de nutrientes e bactérias usado
para produzir produtos químicos úteis). As ações em tal aplicação podem ser temperaturas alvo e taxas de agitação
alvo que são passadas para sistemas de controle de nível inferior que, por sua vez, ativam diretamente elementos
de aquecimento e motores para atingir os alvos. Os estados provavelmente serão leituras de termopares e outras
leituras sensoriais, talvez filtradas e retardadas, além de entradas simbólicas que representam os ingredientes na
cuba e o produto químico alvo. As recompensas podem ser medidas momento a momento da taxa na qual o produto
químico útil é produzido pelo biorreator. Observe que aqui cada estado é uma lista, ou vetor, de leituras de sensores
e entradas simbólicas, e cada ação é um vetor que consiste em uma temperatura alvo e uma taxa de agitação. É
típico das tarefas de aprendizagem por reforço ter estados e ações com tais representações estruturadas. As
recompensas, por outro lado, são sempre números únicos.
Exemplo 3.2: Robô de pegar e colocar Considere o uso de aprendizagem por reforço para controlar
o movimento do braço de um robô em uma tarefa repetitiva de pegar e colocar. Se quisermos
aprender movimentos rápidos e suaves, o agente de aprendizagem terá que controlar os motores
diretamente e ter informações de baixa latência sobre as posições e velocidades atuais das ligações
mecânicas. As ações neste caso podem ser as tensões aplicadas a cada motor em cada junta, e os
estados podem ser as últimas leituras dos ângulos e velocidades das juntas.
A recompensa pode ser +1 para cada objeto recolhido e colocado com sucesso. Para encorajar
movimentos suaves, em cada passo de tempo uma pequena recompensa negativa pode ser dada
em função da “irregularidade” do movimento momento a momento.
Exercício 3.1 Elabore três tarefas de exemplo que se encaixem na estrutura do MDP, identificando
para cada uma seus estados, ações e recompensas. Faça os três exemplos tão diferentes quanto
possível. A estrutura é abstrata e flexível e pode ser aplicada de muitas maneiras diferentes. Amplie
seus limites de alguma forma em pelo menos um de seus exemplos. ÿ
Exercício 3.2 O quadro do MDP é adequado para representar de forma útil todas as tarefas de aprendizagem
orientadas para objectivos ? Você consegue pensar em alguma exceção clara? ÿ
Exercício 3.3 Considere o problema de dirigir. Você poderia definir as ações em termos de
acelerador, volante e freio, ou seja, onde seu corpo encontra a máquina.
Ou você pode defini-los mais adiante – digamos, onde a borracha encontra a estrada, considerando
suas ações como torques dos pneus. Ou você pode defini-los mais adiante – digamos, onde seu
cérebro encontra seu corpo, sendo as ações contrações musculares para controlar seus membros.
Ou você poderia ir a um nível realmente elevado e dizer que suas ações são suas escolhas de onde dirigir.
Qual é o nível certo, o lugar certo para traçar a linha entre o agente e o ambiente?
Com base em que uma localização da linha deve ser preferida a outra? Existe alguma razão fundamental para
preferir um local a outro, ou é uma escolha livre? ÿ
Machine Translated by Google
Um robô móvel tem a função de coletar latas de refrigerante vazias em um ambiente de escritório. Isto
possui sensores para detectar latas e um braço e uma pinça que podem pegá-las e colocá-las
coloque-os em uma lixeira a bordo; funciona com uma bateria recarregável. O sistema de controle do robô
possui componentes para interpretar informações sensoriais, para navegar e para controlar
o braço e a pinça. As decisões de alto nível sobre como procurar latas são tomadas por um
agente de aprendizagem por reforço com base no nível de carga atual da bateria. Fazer um
exemplo simples, assumimos que apenas dois níveis de carga podem ser distinguidos, compreendendo
um pequeno conjunto de estados S = {alto, baixo}. Em cada estado, o agente pode decidir se (1)
procurar ativamente por uma lata por um determinado período de tempo, (2) permanecer parado e esperar
para alguém trazer uma lata ou (3) voltar para sua base para recarregar a bateria.
Quando o nível de energia é alto, recarregar seria sempre uma tolice, por isso não incluímos
na ação definida para este estado. Os conjuntos de ações são então A(high) = {search, wait} e
A (baixo) = {pesquisar, esperar, recarregar}.
As recompensas são zero na maioria das vezes, mas tornam-se positivas quando o robô consegue um
lata vazia ou grande e negativa se a bateria estiver totalmente descarregada. O melhor caminho para
encontrar latas é procurá-las ativamente, mas isso esgota a bateria do robô, enquanto
esperar não. Sempre que o robô estiver pesquisando, existe a possibilidade de sua bateria
ficará esgotado. Neste caso o robô deve desligar e esperar para ser resgatado
(produzindo uma recompensa baixa). Se o nível de energia for alto, então um período de busca ativa pode
sempre ser concluído sem risco de esgotar a bateria. Um período de busca que
começa com um nível de energia alto deixa o nível de energia alto com probabilidade ÿ e reduz
é muito baixo com probabilidade 1 ÿ. Por outro lado, um período de pesquisa realizado
quando o nível de energia está baixo deixa-o baixo com probabilidade e esgota a bateria
com probabilidade 1 . Neste último caso, o robô deve ser resgatado e a bateria é
então recarregado de volta ao alto. Cada lata coletada pelo robô conta como uma recompensa unitária,
enquanto uma recompensa de 3 resultados sempre que o robô tiver que ser resgatado. Deixe rsearch e
rwait, com rsearch > rwait, denotam respectivamente o número esperado de latas que o robô
irá coletar (e, portanto, a recompensa esperada) enquanto pesquisa e espera. Finalmente,
suponha que nenhuma lata possa ser coletada durante uma corrida para casa para recarga e que nenhuma lata
pode ser coletado em uma etapa em que a bateria esteja descarregada. Este sistema é então um sistema finito
MDP, e podemos anotar as probabilidades de transição e as recompensas esperadas, com
dinâmica conforme indicado na tabela à esquerda:
1, espere , pesquisa
1, 3
sa s0 alta pesquisa alta p(s0 |s, a) r(s, uma, s0 )
espere procurar
pesquisa baixa alto ÿ 1 ÿ pesquisa
pesquisa baixo pesquisa 3
alto 1
baixo procurar baixo pesquise 1, 0 recarrega
alta espera alta alto 1 0 rwait alto baixo
baixo -
espera baixa
espera -
alta 0 1 baixa
baixo espere espere
procurar espere
baixo recarga alta 1 0 recarga baixa 0
baixo -
ÿ, pesquisa 1ÿ, pesquisa 1, espere
Observe que há uma linha na tabela para cada combinação possível de estado atual, s,
ação, a 2 A(s), e próximo estado, s0 . Algumas transições têm probabilidade zero de ocorrer,
portanto, nenhuma recompensa esperada é especificada para eles. À direita é mostrada outra maneira útil de
Machine Translated by Google
resumindo a dinâmica de um MDP finito, como um gráfico de transição. Existem dois tipos de nós: nós de estado
e nós de ação. Há um nó de estado para cada estado possível (um grande círculo aberto rotulado pelo nome do
estado) e um nó de ação para cada par estado-ação (um pequeno círculo sólido rotulado pelo nome da ação e
conectado por uma linha para o nó de estado). Começar no estado s e executar a ação a move você ao longo da
linha do nó de estado s para o nó de ação (s, a). Então o ambiente responde com uma transição para o nó do
próximo estado através de uma das setas saindo do nó de ação (s, a). Cada seta corresponde a um triplo (s, s0 ,
a), onde s0 é o próximo estado, e rotulamos a seta com a probabilidade de transição, p(s0 |s, a), e a recompensa
esperada para essa transição, r( s, a, s0 ). Observe que as probabilidades de transição que rotulam as setas que
saem de um nó de ação sempre somam 1.
Exercício 3.4 Forneça uma tabela análoga à do Exemplo 3.3, mas para p(s0 , r|s, a). Deve ter colunas
para s, a, s0 , r e p(s0 , r|s, a) e uma linha para cada tupla de 4 para as quais p(s0 , r|s, a) > 0. ÿ
Que tudo o que entendemos por metas e propósitos pode ser bem pensado como a
maximização do valor esperado da soma cumulativa de um sinal escalar recebido
(chamado recompensa).
O uso de um sinal de recompensa para formalizar a ideia de um objetivo é uma das características mais
distintivas da aprendizagem por reforço.
Embora a formulação de objectivos em termos de sinais de recompensa possa, à primeira vista,
parecer limitante, na prática provou ser flexível e amplamente aplicável. A melhor maneira de ver isso é
considerar exemplos de como ele foi ou poderia ser usado. Por exemplo, para fazer um robô aprender
a andar, os pesquisadores forneceram recompensas a cada passo de tempo proporcional ao movimento
para frente do robô. Ao fazer um robô aprender como escapar de um labirinto, a recompensa geralmente
é 1 para cada passo de tempo que passa antes da fuga; isso incentiva o agente a escapar o mais rápido
possível. Para fazer um robô aprender a encontrar e coletar latas de refrigerante vazias para reciclagem,
pode-se dar a ele uma recompensa zero na maioria das vezes e, em seguida, uma recompensa de +1
para cada lata coletada. Pode-se também querer dar recompensas negativas ao robô quando ele esbarra
nas coisas ou quando alguém grita com ele. Para um agente aprender a jogar damas ou xadrez, as
recompensas naturais são +1 por vitória, 1 por derrota e 0 por empate e para todas as posições não
terminais.
Você pode ver o que está acontecendo em todos esses exemplos. O agente sempre aprende a
maximizar sua recompensa. Se quisermos que ele faça algo por nós, devemos proporcionar-lhe
recompensas de tal forma que, ao maximizá-las, o agente também atinja nossos objetivos. Isto
Machine Translated by Google
é, portanto, fundamental que as recompensas que estabelecemos indiquem verdadeiramente o que queremos que seja realizado.
Em particular, o sinal de recompensa não é o lugar para transmitir ao agente conhecimento prévio
sobre como alcançar o que queremos que ele faça.5 Por exemplo, um agente jogador de xadrez
deveria ser recompensado apenas por realmente vencer, e não por alcançar subobjetivos como
como pegar as peças do oponente ou ganhar o controle do centro do tabuleiro. Se o alcance
desses tipos de subobjetivos fosse recompensado, o agente poderia encontrar uma maneira de
alcançá-los sem atingir o objetivo real. Por exemplo, pode encontrar uma forma de tomar as peças
do adversário mesmo ao custo de perder o jogo. O sinal de recompensa é a sua maneira de
comunicar ao robô o que você deseja que ele alcance, e não como deseja que ele seja alcançado.6
onde T é um passo de tempo final. Essa abordagem faz sentido em aplicações nas quais existe uma
noção natural de passo de tempo final, ou seja, quando a interação agente-ambiente se divide
7
naturalmente em subsequências, que chamamos de episódios, como jogadas de um jogo, viagens por
um labirinto ou qualquer tipo de interação repetida. Cada episódio termina em um estado especial
denominado estado terminal, seguido por uma redefinição para um estado inicial padrão ou para uma
amostra de uma distribuição padrão de estados iniciais. Mesmo que você pense que os episódios
terminam de maneiras diferentes, como ganhar e perder um jogo, o próximo episódio começa
independentemente de como o anterior terminou. Assim, pode-se considerar que todos os episódios
terminam no mesmo estado terminal, com diferentes recompensas para os diferentes resultados.
Tarefas com episódios deste tipo são chamadas de tarefas episódicas. Em tarefas episódicas, às
vezes precisamos distinguir o conjunto de todos os estados não-terminais, denotado S, do conjunto
de todos os estados mais o estado terminal, denotado S+. O tempo de término, T, é uma variável
aleatória que normalmente varia de episódio para episódio.
Por outro lado, em muitos casos, a interacção agente-ambiente não se divide naturalmente em
episódios identificáveis, mas prossegue continuamente sem limites. Por exemplo, esta seria a maneira
natural de formular uma tarefa contínua de controle de processo ou uma aplicação a um robô com
longa vida útil. Chamamos isso de tarefas contínuas. A formulação de retorno (3.7) é problemática
para tarefas contínuas porque o passo de tempo final seria
5Os melhores locais para transmitir este tipo de conhecimento prévio são a política inicial ou a função de valor inicial,
ou em influências sobre estes.
6A Seção 17.4 aprofunda a questão da concepção de sinais de recompensa eficazes.
7Os episódios são por vezes chamados de “provas” na literatura.
Machine Translated by Google
seja T = 1, e o retorno, que é o que estamos tentando maximizar, poderia facilmente ser infinito.
(Por exemplo, suponha que o agente receba uma recompensa de +1 em cada intervalo de tempo.)
Assim, neste livro costumamos usar uma definição de retorno que é um pouco mais complexa
conceitualmente, mas muito mais simples matematicamente.
O conceito adicional de que precisamos é o de desconto. De acordo com esta abordagem, o
agente tenta selecionar ações de modo que a soma das recompensas descontadas que recebe
no futuro seja maximizada. Em particular, escolhe At para maximizar o retorno esperado com
desconto:
Observe que isso funciona para todos os intervalos de tempo t<T, mesmo que o término ocorra em t + 1,
se definirmos GT = 0. Isso geralmente facilita o cálculo dos retornos das sequências de recompensa.
Observe que embora o retorno (3.8) seja a soma de um número infinito de termos, ele ainda será
finito se a recompensa for diferente de zero e constante – se < 1. Por exemplo, se a recompensa for
uma constante +1, então o retorno é
k 1
= . (3.10)
Gt = X1 1
k=0
Exercício 3.5 As equações da Seção 3.1 são para o caso contínuo e precisam ser modificadas (muito
ligeiramente) para serem aplicadas a tarefas episódicas. Mostre que você conhece as modificações
necessárias fornecendo a versão modificada de (3.3). ÿ
Machine Translated by Google
Exercício 3.6 Suponha que você tratou o pole balanceamento como uma tarefa episódica, mas
também usou o desconto, com todas as recompensas zeradas, exceto 1 em caso de falha. Qual
seria então o retorno em cada momento? Como esse retorno difere daquele obtido na formulação
contínua e descontada dessa tarefa? ÿ
Exercício 3.7 Imagine que você está projetando um robô para percorrer um labirinto. Você decide
dar a ele uma recompensa de +1 por escapar do labirinto e uma recompensa de zero em todos os
outros momentos. A tarefa parece dividir-se naturalmente em episódios – as sucessivas corridas
pelo labirinto – então você decide tratá-la como uma tarefa episódica, onde o objetivo é maximizar
a recompensa total esperada (3.7). Depois de executar o agente de aprendizagem por um tempo,
você descobre que ele não apresenta nenhuma melhora na fuga do labirinto. O que está errado?
Você comunicou efetivamente ao agente o que deseja que ele alcance? ÿ
...
episódios diferentes. Quase sempre consideramos um episódio específico ou afirmamos algo que é verdadeiro
para todos os episódios. Assim, na prática, quase sempre abusamos ligeiramente da notação, eliminando a
referência explícita ao número do episódio. Ou seja, escrevemos St para se referir a St,i, e assim por diante.
Precisamos de outra convenção para obter uma notação única que cubra tarefas episódicas
e contínuas. Definimos o retorno como uma soma sobre um número finito de termos num caso
(3.7) e como uma soma sobre um número infinito de termos no outro (3.8). Esses dois podem
ser unificados considerando-se o término do episódio como a entrada em um estado absorvente
especial que transita apenas para si mesmo e que gera apenas recompensas zero. Por
exemplo, considere o diagrama de transição de estado:
R4 = 0
R1 = +1 R2 = +1 R3 = +1
S0 S1 S2 R5 = 0
Quase todos os algoritmos de aprendizagem por reforço envolvem a estimativa de funções de valor –
funções de estados (ou de pares estado-ação) que estimam quão bom é para o agente estar em um
determinado estado (ou quão bom é realizar uma determinada ação em um determinado estado).
estado). A noção de “quão bom” aqui é definida em termos de recompensas futuras que podem ser
esperadas, ou, para ser mais preciso, em termos de retorno esperado. É claro que as recompensas
que o agente pode esperar receber no futuro dependem das ações que ele tomará. Conseqüentemente,
as funções de valor são definidas com relação a formas específicas de agir, chamadas políticas.
Formalmente, uma política é um mapeamento dos estados para as probabilidades de seleção
de cada ação possível. Se o agente estiver seguindo a política ÿ no tempo t, então ÿ(a|s) é a
probabilidade de que At = a se St = s. Assim como p, ÿ é uma função comum; o “|” no meio de
ÿ(a|s) apenas lembra que define uma distribuição de probabilidade sobre a 2 A(s) para cada s 2 S.
Os métodos de aprendizagem por reforço especificam como a política do agente é alterada como resultado
de sua experiência.
Exercício 3.11 Se o estado atual é St e as ações são selecionadas de acordo com a política estocástica
ÿ, então qual é a expectativa de Rt+1 em termos de ÿ e da função de quatro argumentos p (3.2)? ÿ A
função de valor de um estado s sob uma política ÿ, denotada por vÿ(s), é o retorno esperado ao iniciar
em s e seguir ÿ depois disso. Para MDPs, podemos definir vÿ formalmente por
onde Eÿ[·] denota o valor esperado de uma variável aleatória dado que o agente segue a política ÿ, e t é
qualquer intervalo de tempo. Observe que o valor do estado terminal, se houver, é sempre zero.
Chamamos a função vÿ de função de valor de estado para política ÿ.
Da mesma forma, definimos o valor de tomar a ação a no estado s sob uma política ÿ,
denotado qÿ(s, a), como o retorno esperado começando em s, tomando a ação a, e depois
seguindo a política ÿ:
Esses tipos de métodos são apresentados no Capítulo 5. É claro que, se houver muitos estados, talvez não
seja prático manter médias separadas para cada estado individualmente.
Em vez disso, o agente teria que manter vÿ e qÿ como funções parametrizadas (com menos
parâmetros que estados) e ajustar os parâmetros para melhor corresponder aos retornos
observados. Isto também pode produzir estimativas precisas, embora muito dependa da
natureza do aproximador da função parametrizada. Essas possibilidades são discutidas na
Parte II do livro.
Uma propriedade fundamental das funções de valor utilizadas na aprendizagem por
reforço e na programação dinâmica é que elas satisfazem relações recursivas semelhantes
às que já estabelecemos para o retorno (3.9). Para qualquer política ÿ e qualquer estado s,
a seguinte condição de consistência é válida entre o valor de s e o valor de seus possíveis
estados sucessores:
vÿ(s) =
. Eÿ[Gt | St =s]
= Eÿ[Rt+1 + Gt+1 | St =s] (por (3.9))
onde está implícito que as ações, a, são retiradas do conjunto A(s), que os próximos estados, s0 ,
são, retirados do conjunto S (ou de S+ no caso de um problema episódico), e que as recompensas,
r, são retirados do conjunto R. Observe também como na última equação fundimos as duas somas,
uma sobre todos os valores de s0 e a outra sobre todos os valores de r, em uma soma sobre todos
os valores possíveis de ambos. . Usamos frequentemente esse tipo de soma mesclada para
simplificar fórmulas. Observe como a expressão final pode ser lida facilmente como um valor
esperado. Na verdade, é uma soma de todos os valores das três variáveis,,a, s0 e r. Para cada triplo,
calculamos sua probabilidade, ÿ(a|s)p(s0 , r|s, a), ponderamos a quantidade entre colchetes por essa
probabilidade e, em seguida, somamos todas as possibilidades para obter um valor esperado.
A equação (3.14) é a equação de Bellman para vÿ. Expressa uma
é
relação entre o valor de um estado e os valores dos seus estados
sucessores. Pense em olhar de um estado para seus possíveis estados ÿ
(a) (b)
Figura 3.2: Exemplo do Gridworld: dinâmica de recompensa excepcional (esquerda) e função de valor de
estado para a política aleatória equiprovável (direita).
Figura 3.5: Exemplo de grade: (a) dinâmica de recompensa excepcional; (b) valor-estado Suponha
estados.que o agente
Função selecione
da Figura todasa as
3.2 para quatro
política ações com igual probabilidade em todos os
aleatória
equiprovável. (à direita) mostra a função de valor, vÿ, para esta política, para o caso de
recompensa com desconto com = 0,9. Esta função valor foi calculada resolvendo o sistema
de equações lineares (3.14). Observe os valores negativos próximos à borda inferior; estes
são o resultado da alta probabilidade de atingir o limite da grade sob a política aleatória. O
estado A é o melhor estado para se estar sob esta política, mas o seu retorno esperado é
inferior a 10, a sua recompensa imediata, porque de, A o agente é levado para A0 , de onde
é provável que esbarre no limite da rede. Já o estado B tem valor superior a 5, sua
recompensa imediata, pois de B o agente, é levado para B0 que tem valor positivo. A partir
de B0, a penalidade esperada (recompensa negativa) por possivelmente tropeçar em A ou B
é mais do que compensada pelo ganho esperado por possivelmente tropeçar em A ou B.
Exercício 3.14 A equação de Bellman (3.14) deve ser válida para cada estado da função valor
vÿ mostrada na Figura 3.2 (direita) do Exemplo 3.5. Mostre numericamente que esta equação
é válida para o estado central, avaliado em +0,7, em relação aos seus quatro estados vizinhos,
avaliados em +2,3, +0,4, 0,4 e +0,7. (Esses números têm precisão de apenas uma casa
decimal.) ÿ Exercício 3.15 No exemplo do mundo em grade, as recompensas são positivas
para metas, negativas para correr até o fim do mundo e zero no resto do tempo. São os sinais destes
Machine Translated by Google
as recompensas são importantes ou apenas os intervalos entre elas? Prove, usando (3.8), que adicionar
uma constante c a todas as recompensas adiciona uma constante, vc, aos valores de todos os estados
e, portanto, não afeta os valores relativos de quaisquer estados sob quaisquer políticas. O que é vc em
termos de c e ? ÿ
Exercício 3.16 Agora considere adicionar uma constante c a todas as recompensas em uma
tarefa episódica, como correr em um labirinto. Isso teria algum efeito ou deixaria a tarefa
inalterada como na tarefa contínua acima? Por que ou por que não? Dê um exemplo. ÿ
Exemplo 3.6: Golfe Para formular jogar um buraco de golfe como uma tarefa de aprendizagem
por reforço, contamos uma penalidade (recompensa negativa) de 1 para cada tacada até
acertarmos a bola no buraco. O estado é a localização da bola. O valor de um estado é o
negativo do número de tacadas no buraco daquele local. Nossas ações são como miramos e
golpeamos a bola, é claro, e qual clube selecionamos. Tomemos o primeiro como dado e
consideremos apenas a escolha do taco, que assumimos ser um putter ou um driver. A parte
superior da Figura 3.3 mostra uma possível função de valor de estado, vputt(s), para a política
que sempre utiliza o putter. O estado
terminal no buraco tem o valor 0. De !4 !
vputt
Vputt 3
qualquer lugar no green, assumimos que areia !"
podemos dar uma tacada leve; esses estados têm valor 1.
Oÿ o verde não conseguimos chegar ao buraco !2
!1 !2
seja, para qÿ? Deve fornecer o valor da ação qÿ(s, a) em termos dos p R
valores da ação, qÿ(s0 , a0 ), de possíveis sucessores do par estado-ação (s, a). s0
Dica: o diagrama de backup à direita corresponde a esta equação.
ÿ
Mostre a sequência de equações análoga a (3.14), mas para valores de ação. ÿ
a0
qÿ diagrama de backup
Machine Translated by Google
Exercício 3.18 O valor de um estado depende dos valores das ações possíveis nesse estado
e da probabilidade de cada ação ser tomada no âmbito da política atual. Podemos pensar
nisso em termos de um pequeno diagrama de backup enraizado no estado e considerando
cada ação possível:
é vÿ(s)
tomado com
probabilidade ÿ(a|s)
qÿ(s, uma)
a1 a2 a3
Forneça a equação correspondente a esta intuição e o diagrama para o valor no nó raiz, vÿ(s),
em termos do valor no nó folha esperado, qÿ(s, a), dado St = s. Esta equação deve incluir uma
expectativa condicionada ao cumprimento da política, ÿ. Em seguida, forneça uma segunda
equação na qual o valor esperado seja escrito explicitamente em termos de ÿ(a|s) de modo que
nenhuma notação de valor esperado apareça na equação. ÿ Exercício 3.19 O valor de uma
ação, qÿ(s, a), depende da próxima recompensa esperada e da soma esperada das recompensas
restantes. Novamente, podemos pensar nisso em termos de um pequeno diagrama de backup,
este enraizado em uma ação (par estado-ação) e ramificando-se para os próximos estados
possíveis:
recompensas
é, um qÿ(s, uma)
esperadas
r1 r2 r3
vÿ(s0 )
s01 0s
2_
s03
Forneça a equação correspondente a esta intuição e o diagrama para o valor da ação, qÿ(s, a), em termos da
próxima recompensa esperada, Rt+1, e do próximo valor esperado do estado, vÿ(St+1), dado que St =s e At =a.
Esta equação deve incluir uma expectativa, mas não uma expectativa condicionada ao cumprimento da política.
Em seguida, forneça uma segunda equação, escrevendo o valor esperado explicitamente em termos de p(s0 , r|s,
a) definido por (3.2), de modo que nenhuma notação de valor esperado apareça na equação.
ÿ
Resolver uma tarefa de aprendizagem por reforço significa, grosso modo, encontrar uma política que obtenha
muitas recompensas no longo prazo. Para MDPs finitos, podemos definir com precisão uma política ótima da
seguinte maneira. As funções de valor definem uma ordem parcial sobre as políticas. Uma política ÿ é definida
como melhor ou igual a uma política ÿ0 se seu retorno esperado for maior ou igual ao de ÿ0 para todos os estados.
Em outras palavras, ÿ ÿ0 se e somente se vÿ(s) vÿ0 (s) para todo s 2 S. Sempre há pelo menos uma política que é
melhor ou igual a todas as outras políticas. Esta é uma política ideal. Embora possa haver mais de uma, denotamos
todas as políticas ótimas por ÿÿ. Eles compartilham a mesma função de valor de estado, chamada de função de
valor de estado ideal, denotada por vÿ, e definida como
para todo s 2 S.
Machine Translated by Google
As políticas ótimas também compartilham a mesma função valor-ação ótima, denotada qÿ, e
definida como
para todo s 2 S e a 2 A(s). Para o par estado-ação (s, a), esta função fornece o retorno esperado
para a ação a no estado s e, posteriormente, seguir uma política ótima.
Assim, podemos escrever qÿ em termos de vÿ da seguinte forma:
Exemplo 3.7: Funções de valor ótimo para golfe A parte inferior da Figura 3.3 mostra os contornos
de uma possível função de valor de ação ótima qÿ(s, driver). Estes são os valores de cada estado
se primeiro jogarmos uma tacada com o driver e depois selecionarmos o driver ou o putter, o que
for melhor. O driver nos permite acertar a bola mais longe, mas com menos precisão. Só podemos
chegar ao buraco de uma só vez usando o driver se já estivermos muito perto; assim, o contorno 1
para qÿ(s, driver) cobre apenas uma pequena parte do verde. Se tivermos dois traços, entretanto,
poderemos alcançar o buraco muito mais longe, como mostra o contorno 2. Neste caso não temos
de conduzir até ao pequeno contorno 1, mas apenas até qualquer ponto do green; a partir daí
podemos usar o taco. A função de valor de ação ideal fornece os valores após o comprometimento
com uma primeira ação específica, neste caso, para o motorista, mas depois usando as ações que
forem melhores. O contorno 3 está ainda mais afastado e inclui o tee inicial. A partir do tee, a
melhor sequência de ações são dois drives e um putt, afundando a bola em três tacadas.
Como vÿ é a função de valor para uma política, ela deve satisfazer a condição de
autoconsistência dada pela equação de Bellman para valores de estado (3.14). Contudo, por
ser a função de valor ideal, a condição de consistência de vÿ pode ser escrita de uma forma
especial, sem referência a qualquer política específica. Esta é a equação de Bellman para vÿ,
ou a equação de otimalidade de Bellman. Intuitivamente, a equação de otimalidade de Bellman
expressa o fato de que o valor de um estado sob uma política ótima deve ser igual ao retorno
esperado para a melhor ação desse estado:
As duas últimas equações são duas formas da equação de otimalidade de Bellman para vÿ. A
equação de otimalidade de Bellman para qÿ é
=X h + max qÿ(s0 ,
a0 ) eu.
(3.20)
a0
s0,r
Machine Translated by Google
é é, um
(vÿ) (qÿ)
máx. R
a s0
R máx.
s0 a0
Para MDPs finitos, a equação de otimalidade de Bellman para vÿ (3.19) tem uma solução única
independente da política. A equação de otimalidade de Bellman é na verdade um sistema de
equações, uma para cada estado, portanto, se houver n estados, então haverá n equações em n
incógnitas. Se a dinâmica p do ambiente for conhecida, então, em princípio, pode-se resolver este
sistema de equações para vÿ usando qualquer um de uma variedade de métodos para resolver
sistemas de equações não lineares. Pode-se resolver um conjunto relacionado de equações para qÿ.
Uma vez obtido vÿ, é relativamente fácil determinar uma política ótima. Para cada estado s, haverá
uma ou mais ações nas quais o máximo é obtido na equação de otimalidade de Bellman. Qualquer
política que atribua probabilidade diferente de zero apenas a estas ações é uma política ótima. Você
pode pensar nisso como uma pesquisa em uma etapa. Se você tiver a função de valor ideal, vÿ,
então as ações que aparecem melhor após uma pesquisa em uma etapa serão ações ideais. Outra
forma de dizer isto é que qualquer política que seja gananciosa no que diz respeito à função de
avaliação ótima vÿ é uma política ótima. O termo ganancioso é usado na ciência da computação para
descrever qualquer procedimento de busca ou decisão que seleciona alternativas com base apenas
em considerações locais ou imediatas, sem considerar a possibilidade de que tal seleção possa
impedir o acesso futuro a alternativas ainda melhores. Consequentemente, descreve políticas que
selecionam ações com base apenas nas suas consequências a curto prazo. A beleza de vÿ é que se
for usado para avaliar as consequências de curto prazo das ações – especificamente, as
consequências de uma etapa – então uma política gananciosa é na verdade ótima no sentido de
longo prazo em que estamos interessados, porque vÿ já leva em consideração as consequências de
recompensa de todos os comportamentos futuros possíveis. Por meio de vÿ, o retorno ótimo esperado
de longo prazo é transformado em uma quantidade que está local e imediatamente disponível para
cada estado. Conseqüentemente, uma busca um passo à frente produz as ações ideais de longo prazo.
Ter qÿ torna a escolha das ações ideais ainda mais fácil. Com qÿ, o agente nem precisa fazer
uma busca um passo à frente: para qualquer estado s, ele pode simplesmente encontrar qualquer
ação que maximize qÿ(s, a). A função de valor de ação armazena efetivamente em cache os
resultados de todas as pesquisas um passo à frente. Fornece o retorno óptimo esperado a longo
prazo como um valor que está local e imediatamente disponível para cada par estado-acção. Assim, ao custo de
Machine Translated by Google
representando uma função de pares estado-ação, em vez de apenas estados, a função ótima
ação-valor permite que ações ótimas sejam selecionadas sem a necessidade de saber nada
sobre possíveis estados sucessores e seus valores, isto é, sem precisar saber nada
sobre a dinâmica do ambiente.
Exemplo 3.8: Resolvendo o Gridworld Suponha que resolvamos a equação de Bellman para vÿ
para a tarefa de grade simples introduzida no Exemplo 3.5 e mostrada novamente na Figura 3.5 (esquerda).
Lembre-se de que o estado A é seguido por uma recompensa de +10 e uma transição para o estado A0 , enquanto estado
B é seguido por uma recompensa de +5 e transição para o estado B0 . A Figura 3.5 (meio) mostra o
função de valor ideal, e a Figura 3.5 (à direita) mostra as políticas ótimas correspondentes.
Onde houver diversas setas em uma célula, todas as ações correspondentes serão ideais.
a) Mundo
mundo emGrid
grade b) vÿ
V*
v* c)ÿÿ
!*ÿ*
Figura 3.5: Soluções ótimas para o exemplo do gridworld.
p(h|h,
vÿ(h) = máx ÿ p(h|h, w)[r(h,
s)[r(h, s, w,
h) h) + vÿ(h)]+ +p(l|h,
+ vÿ(h)] p(l|h,s)[r(h,
w)[r(h,s,w,l) l)+ +vÿ(eu)],
vÿ(l)]
1[rw
= máx ÿ ÿ[rs + vÿ(h)]+ +(10[rw
+ vÿ(h)] ÿ)[rs+ +vÿ(l)]
vÿ(l)],
.
= máx ÿ rsrw
+ +[ÿvÿ(h)
vÿ(h) + (1 ÿ)vÿ(l)],
Seguindo o mesmo procedimento para vÿ(l) produz a equação
8 rs 3(1 ) + [(1 )vÿ(h) + vÿ(l)], 9
vÿ(l) = máx. < rw + vÿ(l), .
=
: vÿ(h) ;
Para qualquer escolha de rs, rw, ÿ, , e com 0, ÿ < 1, 0 ÿ ÿ, ÿ 1, há exatamente
um par de números, vÿ(h) e vÿ(l), que satisfazem simultaneamente esses dois não lineares
equações.
Machine Translated by Google
Exercício 3.20 Desenhe ou descreva a função valor-estado ótima para o exemplo do golfe. ÿ
Exercício 3.21 Desenhe ou descreva os contornos da função valor de ação ótima para
putting, qÿ(s, putter), para o exemplo do golfe. ÿ
Exercício 3.24 A Figura 3.5 fornece o valor ideal do melhor estado do gridworld como
24,4, com uma casa decimal. Use seu conhecimento da política ótima e (3.8) para expressar
esse valor simbolicamente e depois calculá-lo com três casas decimais. ÿ
Exercício 3.26 Forneça uma equação para qÿ em termos de vÿ e dos quatro argumentos p. ÿ
Machine Translated by Google
Exercício 3.29 Reescreva as quatro equações de Bellman para as quatro funções de valor (vÿ,
vÿ, qÿ e qÿ) em termos da função de três argumentos p (3.4) e da função de dois argumentos r
(3.5). ÿ
A memória disponível também é uma restrição importante. Freqüentemente, é necessária uma grande
quantidade de memória para construir aproximações de funções, políticas e modelos de valor.
Em tarefas com conjuntos de estados pequenos e finitos, é possível formar essas aproximações usando arrays ou
tabelas com uma entrada para cada estado (ou par estado-ação). Chamamos isso de caso tabular, e os métodos
correspondentes chamamos de métodos tabulares. Em muitos casos de interesse prático, contudo, há muito mais
estados do que poderiam ser entradas numa tabela. Nestes casos as funções devem ser aproximadas, utilizando
algum tipo de representação de função parametrizada mais compacta.
Nosso enquadramento do problema de aprendizagem por reforço nos obriga a nos contentar com
aproximações. No entanto, também nos apresenta algumas oportunidades únicas para alcançar
aproximações úteis. Por exemplo, ao aproximar o comportamento ideal, pode haver muitos estados que o
agente enfrenta com uma probabilidade tão baixa que a seleção de ações subótimas para eles tenha pouco
impacto na quantidade de recompensa que o agente recebe. O jogador de gamão de Tesauro , por exemplo,
joga com habilidade excepcional, embora possa tomar decisões muito erradas em configurações de
tabuleiro que nunca ocorrem em jogos contra especialistas. Na verdade, é possível que o TD-Gammon
tome decisões erradas em uma grande fração do conjunto de estados do jogo. A natureza online da
aprendizagem por reforço torna possível aproximar políticas óptimas de forma a colocar mais esforço na
aprendizagem para tomar boas decisões para estados frequentemente encontrados, à custa de menos
esforço para estados raramente encontrados. Esta é uma propriedade chave que distingue a aprendizagem
por reforço de outras abordagens para resolver aproximadamente MDPs.
Machine Translated by Google
3.8 Resumo
Vamos resumir os elementos do problema de aprendizagem por reforço que apresentamos
neste capítulo. A aprendizagem por reforço consiste em aprender, por meio da interação, como
se comportar para atingir um objetivo. O agente de aprendizagem por reforço e seu ambiente
interagem em uma sequência de passos de tempo discretos. A especificação da sua interface
define uma tarefa particular: as ações são as escolhas feitas pelo agente; os estados são a
base para fazer as escolhas; e as recompensas são a base para avaliar as escolhas. Tudo
dentro do agente é completamente conhecido e controlável pelo agente; tudo o que está fora é
incompletamente controlável, mas pode ou não ser completamente conhecido. Uma política é
uma regra estocástica pela qual o agente seleciona ações em função dos estados. O objetivo
do agente é maximizar a quantidade de recompensa que recebe ao longo do tempo.
Quando a configuração de aprendizagem por reforço descrita acima é formulada com
probabilidades de transição bem definidas, constitui um processo de decisão de Markov (MDP). Um
MDP finito é um MDP com estado finito, ação e (conforme formulamos aqui) conjuntos de
recompensa. Grande parte da teoria atual de aprendizagem por reforço está restrita a MDPs finitos,
mas os métodos e ideias se aplicam de forma mais geral.
O retorno é função das recompensas futuras que o agente busca maximizar (em valor
esperado). Tem várias definições diferentes dependendo da natureza da tarefa e se se deseja
descontar a recompensa atrasada. A formulação não descontada é apropriada para tarefas
episódicas, nas quais a interação agente-ambiente se divide naturalmente em episódios; a
formulação descontada é apropriada para tarefas contínuas, nas quais a interação não se divide
naturalmente em episódios, mas continua sem limite.
Tentamos definir os retornos para os dois tipos de tarefas de modo que um conjunto de equações possa ser
aplicado tanto aos casos episódicos quanto aos contínuos.
As funções de valor de uma política atribuem a cada estado, ou par estado-ação, o retorno
esperado desse estado, ou par estado-ação, dado que o agente usa a política. As funções de valor
ótimo atribuem a cada estado, ou par estado-ação, o maior retorno esperado alcançável por qualquer
política. Uma política cujas funções de valor são ótimas é uma política ótima.
Embora as funções de valor óptimas para estados e pares estado-acção sejam únicas para um
determinado MDP, pode haver muitas políticas óptimas. Qualquer política gananciosa no que diz
respeito às funções de valor óptimas deve ser uma política óptima. As equações de otimalidade de
Bellman são condições especiais de consistência que as funções de valor ótimo devem satisfazer e
que podem, em princípio, ser resolvidas para as funções de valor ótimo, a partir das quais uma
política ótima pode ser determinada com relativa facilidade.
Um problema de aprendizagem por reforço pode ser colocado de várias maneiras diferentes, dependendo
das suposições sobre o nível de conhecimento inicialmente disponível para o agente. Em problemas de
conhecimento completo, o agente possui um modelo completo e preciso da dinâmica do ambiente. Se o
ambiente for um MDP, então tal modelo consiste na função dinâmica completa de quatro argumentos p
(3.2). Em problemas de conhecimento incompleto, não está disponível um modelo completo e perfeito do
ambiente.
Mesmo que o agente tenha um modelo de ambiente completo e preciso, normalmente ele
não consegue realizar cálculos suficientes por intervalo de tempo para utilizá-lo totalmente. A
memória disponível também é uma restrição importante. Pode ser necessária memória para construir
Machine Translated by Google
obter aproximações precisas de funções, políticas e modelos de valor. Na maioria dos casos de
interesse prático, há muito mais estados do que poderiam existir entradas numa tabela, e devem
ser feitas aproximações.
Uma noção bem definida de otimização organiza a abordagem de aprendizagem que descrevemos
neste livro e fornece uma maneira de compreender as propriedades teóricas de vários algoritmos de
aprendizagem, mas é um ideal que os agentes de aprendizagem por reforço só podem aproximar em
graus variados. Na aprendizagem por reforço estamos muito preocupados com os casos em que as
soluções óptimas não podem ser encontradas, mas devem ser aproximadas de alguma forma.
3.1 Nossa caracterização da dinâmica de um MDP em termos de p(s0 , r|s, a) é um pouco incomum.
É mais comum na literatura do MDP descrever a dinâmica em termos das probabilidades
de transição de estado p(s0 |s, a) e das próximas recompensas esperadas r(s, a). No
entanto, na aprendizagem por reforço, temos mais frequentemente que nos referir a
recompensas individuais reais ou amostrais (em vez de apenas aos seus valores
esperados). Nossa notação também deixa mais claro que St e Rt são em geral
determinados conjuntamente e, portanto, devem ter o mesmo índice de tempo. Ao ensinar
aprendizagem por reforço, descobrimos que nossa notação é mais direta conceitualmente
e mais fácil de entender.
Para uma boa discussão intuitiva do conceito de Estado na teoria sistêmica, ver Minsky
(1967).
O exemplo do biorreator é baseado no trabalho de Ungar (1990) e Miller e Williams
(1992). O exemplo do robô reciclador foi inspirado no robô coletor de latas
construído por Jonathan Connell (1989). Kober e Peters (2012) apresentam uma
coleção de aplicações robóticas de aprendizagem por reforço.
3.2 A hipótese da recompensa foi sugerida por Michael Littman (comunicação pessoal ).
3.5–6 Atribuir valor com base no que é bom ou mau no longo prazo tem raízes antigas. Na teoria
de controle, mapear estados para valores numéricos que representam as consequências
de longo prazo das decisões de controle é uma parte fundamental da teoria de controle
ótimo, que foi desenvolvida na década de 1950, estendendo as teorias de função de
estado da mecânica clássica do século XIX (ver, por exemplo, Schultz e Melsa, 1967). Ao
descrever como um computador poderia ser programado para jogar xadrez, Shannon
(1950) sugeriu o uso de uma função de avaliação que levasse em conta as vantagens e
desvantagens de longo prazo das posições no xadrez.
O algoritmo Q-learning de Watkins (1989) para estimar qÿ (Capítulo 6) tornou as funções
de valor-ação uma parte importante da aprendizagem por reforço e, conseqüentemente,
Machine Translated by Google
essas funções são frequentemente chamadas de “funções Q”. Mas a ideia de uma função
valor-ação é muito mais antiga do que isso. Shannon (1950) sugeriu que uma função
h(P,M) poderia ser usada por um programa de jogo de xadrez para decidir se vale a pena
explorar um movimento M na posição P. O sistema MENACE de Michie (1961, 1963) e o
sistema BOXES de Michie e Chambers (1968) podem ser entendidos como estimativas de
funções de valor de ação. Na física clássica, a função principal de Hamilton é uma função
de valor de ação; A dinâmica newtoniana é gananciosa no que diz respeito a esta função
(por exemplo, Goldstein, 1957). As funções de valor-ação também desempenharam um
papel central no tratamento teórico de Denardo (1967) da programação dinâmica em
termos de mapeamentos de contração.
A equação de otimalidade de Bellman (para vÿ) foi popularizada por Richard Bellman
(1957a), que a chamou de “equação funcional básica”. A contrapartida da equação de
otimalidade de Bellman para problemas de tempo e estado contínuos é conhecida como
equação de Hamilton-Jacobi-Bellman (ou muitas vezes apenas a equação de Hamilton-
Jacobi), indicando suas raízes na física clássica (por exemplo, Schultz e Melsa, 1967).
O exemplo do golfe foi sugerido por Chris Watkins.
Machine Translated by Google
Machine Translated by Google
Capítulo 4
Programaçao dinamica
O termo programação dinâmica (DP) refere-se a uma coleção de algoritmos que podem ser usados
para calcular políticas ótimas dado um modelo perfeito do ambiente como um processo de decisão
de Markov (MDP). Os algoritmos DP clássicos são de utilidade limitada na aprendizagem por
reforço, tanto por sua suposição de um modelo perfeito quanto por seu grande custo computacional,
mas ainda são importantes teoricamente. DP fornece uma base essencial para a compreensão
dos métodos apresentados no restante deste livro. Na verdade, todos esses métodos podem ser
vistos como tentativas de alcançar praticamente o mesmo efeito que o DP, apenas com menos
computação e sem assumir um modelo perfeito do ambiente.
Geralmente assumimos que o ambiente é um MDP finito. Ou seja, assumimos que seus
conjuntos de estado, ação e recompensa, S, A e R, são finitos, e que sua dinâmica é dada por um
conjunto de probabilidades p(s0 , r|s, a), para todos s 2 S, a 2 A(s), r 2 R e s0 2 S+ (S+ é S mais
um estado terminal se o problema for episódico). Embora as ideias de DP possam ser aplicadas a
problemas com estados contínuos e espaços de ação, soluções exatas só são possíveis em casos especiais.
Uma maneira comum de obter soluções aproximadas para tarefas com estados e ações contínuas
é quantizar os espaços de estados e ações e então aplicar métodos DP de estados finitos.
Os métodos que exploramos no Capítulo 9 são aplicáveis a problemas contínuos e são uma
extensão significativa dessa abordagem.
A ideia chave da PD, e da aprendizagem por reforço em geral, é a utilização de funções de valor
para organizar e estruturar a procura de boas políticas. Neste capítulo mostramos como DP pode
ser usado para calcular as funções de valor definidas no Capítulo 3. Conforme discutido lá, podemos
facilmente obter políticas ótimas uma vez que tenhamos encontrado as funções de valor ótimas, vÿ
ou qÿ, que satisfazem a otimalidade de Bellman. equações:
73
Machine Translated by Google
para todo s 2 S, a 2 A(s) e s0 2 S+. Como veremos, os algoritmos DP são obtidos transformando
equações de Bellman como estas em atribuições, isto é, em regras de atualização para melhorar
as aproximações das funções de valor desejadas.
onde ÿ(a|s) é a probabilidade de tomar medidas a nos estados sob a política ÿ, e as expectativas são
subscritas por ÿ para indicar que estão condicionadas ao cumprimento de ÿ .
A existência e a unicidade de vÿ são garantidas desde que < 1 ou eventual rescisão seja garantida
em todos os estados sob a política ÿ.
Se a dinâmica do ambiente for completamente conhecida, então (4.4) é um sistema de |S|
equações lineares simultâneas em |S| incógnitas (o vÿ(s), s 2 S). Em princípio, sua solução é um
cálculo simples, embora tedioso. Para nossos propósitos, os métodos de solução iterativos são os
mais adequados. Considere uma sequência de funções de valor aproximado v0, v1, v2,..., cada
uma mapeando S+ para R (os números reais). A aproximação inicial, v0, é escolhida arbitrariamente
(exceto que o estado terminal, se houver, deve receber o valor 0), e cada aproximação sucessiva
é obtida usando a equação de Bellman para vÿ (4.4) como regra de atualização:
para todo s 2 S. Claramente, vk = vÿ é um ponto fixo para esta regra de atualização porque a equação de Bellman para
vÿ nos garante igualdade neste caso. Na verdade, pode-se mostrar que a sequência {vk} em geral converge para vÿ
como k ! 1 nas mesmas condições que garantem a existência de vÿ. Este algoritmo é chamado de avaliação de política
iterativa.
Para produzir cada aproximação sucessiva, vk+1 a partir de vk, a avaliação de política iterativa
aplica a mesma operação a cada estado s: ela substitui o valor antigo de s por um novo valor obtido
a partir dos valores antigos dos estados sucessores de s, e o valor esperado recompensas imediatas ,
juntamente com todas as transições de uma etapa possíveis no âmbito da política que está sendo
avaliada. Chamamos esse tipo de operação de atualização esperada. Cada iteração da avaliação
iterativa da política atualiza o valor de cada estado uma vez para produzir a nova função de valor aproximado.
Machine Translated by Google
vk+1. Existem vários tipos diferentes de atualizações esperadas, dependendo se um estado (como
aqui) ou um par estado-ação está sendo atualizado, e dependendo da maneira precisa como os valores
estimados dos estados sucessores são combinados. Todas as atualizações feitas nos algoritmos DP
são chamadas de atualizações esperadas porque são baseadas em uma expectativa sobre todos os
próximos estados possíveis, e não em uma amostra do próximo estado. A natureza de uma atualização
pode ser expressa em uma equação, como acima, ou em um diagrama de backup como aqueles
apresentados no Capítulo 3. Por exemplo, o diagrama de backup correspondente à atualização
esperada usado na avaliação de política iterativa é mostrado na página 59.
Para escrever um programa de computador sequencial para implementar avaliação de política
iterativa conforme dado por (4.5), você teria que usar dois arrays, um para os valores antigos, vk(s), e
outro para os novos valores, vk+1(s). Com duas matrizes, os novos valores podem ser calculados um
por um a partir dos valores antigos, sem que os valores antigos sejam alterados. É claro que é mais
fácil usar um array e atualizar os valores “no lugar”, ou seja, com cada novo valor substituindo
imediatamente o antigo. Então, dependendo da ordem em que os estados são atualizados, às vezes
novos valores são usados em vez dos antigos no lado direito de (4.5). Este algoritmo local também
converge para vÿ; na verdade, ela geralmente converge mais rápido que a versão de duas matrizes,
como seria de esperar, porque usa novos dados assim que ficam disponíveis. Pensamos nas
atualizações como sendo feitas em uma varredura no espaço de estados. Para o algoritmo in-place, a
ordem em que os estados têm seus valores atualizados durante a varredura tem uma influência
significativa na taxa de convergência. Geralmente temos a versão local em mente quando pensamos
em algoritmos DP.
Uma versão completa da avaliação de política iterativa é mostrada em pseudocódigo na caixa
abaixo. Observe como ele lida com a rescisão. Formalmente, a avaliação iterativa de políticas
converge apenas no limite, mas na prática deve ser interrompida antes disso. O pseudocódigo
testa a quantidade maxs2S |vk+1(s)vk(s)| após cada varredura e para quando é suficientemente
pequeno.
1 2 3
7
Rt r== 1!1 em
45 6
todas as transições
8 9 10 11
ações
12 13 14
Os estados não terminais são S = {1, 2,..., 14}. Existem quatro ações possíveis em cada
estado, A = {cima, baixo, direita, esquerda}, que causam deterministicamente as transições
de estado correspondentes , exceto que as ações que tirariam o agente da grade na verdade
deixam o estado inalterado. Assim, por exemplo, p(6, 1|5, direita) = 1, p(7, 1|7, direita) = 1, e
p(10, r|5, direita) = 0 para todo r 2 R. Esta é uma tarefa episódica não descontada. A
recompensa é 1 em todas as transições até que o estado terminal seja alcançado. O estado
terminal está sombreado na figura (embora seja mostrado em dois lugares, é formalmente um
estado). A função de recompensa esperada é, portanto, r(s, a, s0 ) = 1 para todos os estados
s, s0 e ações a. Suponha que o agente siga a política aleatória equiprovável (todas as ações
são igualmente prováveis). O lado esquerdo da Figura 4.1 mostra a sequência de funções de
valor {vk} calculadas pela avaliação de política iterativa. A estimativa final é de fato vÿ, que
neste caso dá para cada estado a negação do número esperado de passos desse estado até o término.
Exercício 4.1 No Exemplo 4.1, se ÿ é a política aleatória equiprovável, qual é qÿ(11, down)?
O que é qÿ(7, para baixo)? ÿ
Exercício 4.2 No Exemplo 4.1, suponha que um novo estado 15 seja adicionado ao gridworld logo abaixo do
estado 13, e suas ações, esquerda, cima , direita e baixo, levem o agente aos estados 12, 13, 14 e 15,
respectivamente. Suponha que as transições dos estados originais permaneçam inalteradas.
O que é, então, vÿ(15) para a política aleatória equiprovável? Agora suponha que a dinâmica do estado 13
também seja alterada, de modo que a ação abaixo do estado 13 leve o agente para o novo estado 15. O que é
vÿ(15) para a política aleatória equiprovável neste caso? ÿ Exercício 4.3 Quais são as equações análogas a
(4.3), (4.4) e (4.5) para a função valor -ação qÿ e sua aproximação sucessiva por uma sequência de funções
q0, q1, q2,...? ÿ
Vk
vk para a
o Política
gananciosa
política aleatória
Política Aleatória política
gananciosa vk wrt Vk wrt vk
Figura 4.1: Convergência da avaliação iterativa de políticas num pequeno mundo em rede. A coluna da
esquerda é a sequência de aproximações da função valor-estado para a política aleatória (todas as ações são
igualmente prováveis). A coluna da direita é a sequência de políticas gananciosas correspondentes às
estimativas da função de valor (as setas são mostradas para todas as ações que atingem o máximo e os
números mostrados são arredondados para dois dígitos significativos). É garantido que a última política seja
apenas uma melhoria em relação à política aleatória, mas neste caso ela e todas as políticas após a terceira
iteração são ótimas.
Machine Translated by Google
O critério principal é se isso é maior ou menor que vÿ(s). Se for maior - isto é, se for melhor
selecionar a uma vez em s e depois seguir ÿ do que seguir ÿ o tempo todo - então seria de esperar
que fosse melhor ainda selecionar a toda vez que s fosse encontrado , e que a nova política seria
de facto melhor em geral.
Que isto seja verdade é um caso especial de um resultado geral chamado de melhoria da política
teorema. Sejam ÿ e ÿ0 qualquer par de políticas determinísticas tais que, para todo s 2 S,
Então a política ÿ0 deve ser tão boa ou melhor que ÿ. Ou seja, deve obter retorno
esperado maior ou igual de todos os estados s 2 S:
Além disso, se existe uma desigualdade estrita de (4.7) em qualquer estado, então deve haver
uma desigualdade estrita de (4.8) nesse estado. Este resultado aplica-se em particular às duas
políticas que consideramos no parágrafo anterior, uma política determinística original, ÿ, e uma
, é idêntica a ÿ exceto que ÿ0 (s) = a 6= ÿ(s ). Obviamente, (4.7) vale para
política alterada, ÿ0 que
todos os estados exceto s. Assim, se qÿ(s, a) > vÿ(s), então a política alterada é de fato melhor
que ÿ.
A ideia por trás da prova do teorema da melhoria política é fácil de entender.
A partir de (4.7), continuamos expandindo o lado qÿ com (4.6) e reaplicando (4.7) até obtermos
vÿ0 (s):
Até agora vimos como, dada uma política e a sua função de valor, podemos facilmente avaliar uma
mudança na política num único estado para uma acção específica. É uma extensão natural
Machine Translated by Google
considerar mudanças em todos os estados e em todas as ações possíveis, selecionando em cada estado
a ação que parece melhor de acordo com qÿ(s, a). Em outras palavras, para considerar a nova política
gananciosa,ÿ0 , dada por
onde argmaxa denota o valor de a no qual a expressão a seguir é maximizada (com empates
quebrados arbitrariamente). A política gananciosa toma a ação que parece melhor no curto
prazo – após um passo de antecipação – de acordo com vÿ. Por construção, a política
gananciosa satisfaz as condições do teorema de melhoria da política (4.7), pelo que
sabemos que é tão boa ou melhor que a política original. O processo de elaboração de uma
nova política que melhore uma política original, tornando-a gananciosa em relação à função
de valor da política original, é chamado de melhoria de política.
Suponha que a nova política gananciosa, ÿ0 , é tão boa, mas não melhor, que a política antiga ÿ. e de (4.9)
Então vÿ = vÿ0 , segue que para todo s 2 S:
Mas isto é o mesmo que a equação de otimalidade de Bellman (4.1) e, portanto, vÿ0 deve ser vÿ, e tanto
ÿ quanto ÿ0 devem ser políticas ótimas. A melhoria da política deve, portanto, dar-nos uma política
estritamente melhor, excepto quando a política original já é óptima.
Até agora nesta secção considerámos o caso especial das políticas determinísticas.
No caso geral, uma política estocástica ÿ especifica probabilidades, ÿ(a|s), para realizar cada
ação, a, em cada estado, s. Não entraremos em detalhes, mas na verdade todas as ideias desta
secção estendem-se facilmente às políticas estocásticas. Em particular, o teorema da melhoria
da política cumpre o que foi afirmado para o caso estocástico. Além disso, se existirem ligações
nas etapas de melhoria das políticas, como (4.9) – isto é, se existirem várias ações nas quais o
máximo é alcançado – então, no caso estocástico, não precisamos de selecionar uma única ação
entre elas. Em vez disso, a cada ação maximizadora pode ser dada uma parte da probabilidade
de ser selecionada na nova política gananciosa. Qualquer esquema de repartição é permitido,
desde que todas as ações submáximas tenham probabilidade zero.
A última linha da Figura 4.1 mostra um exemplo de melhoria política para políticas estocásticas. Aqui a política
original, ÿ, é a política aleatória equiprovável, e a nova política, ÿ0 é gananciosa em relação a vÿ. A função de valor vÿ
, diagrama inferior esquerdo e o conjunto de possíveis ÿ0 é mostrado no diagrama inferior direito. Os
é mostrada no
estados com múltiplas setas no diagrama ÿ0 são aqueles em que diversas ações atingem o máximo em (4.9); qualquer
distribuição de probabilidade entre essas ações é permitida.
A função de valor de qualquer política desse tipo, vÿ0 (s), pode ser vista por inspeção como sendo 1, 2 ou
3 em todos os estados, s 2 S, enquanto vÿ(s) é no máximo 14. Assim, vÿ0 (s) vÿ(s), para todos
Machine Translated by Google
s 2 S, ilustrando a melhoria das políticas. Embora neste caso a nova política ÿ0 seja ótima, em geral apenas uma
melhoria é garantida.
E E E
E!···
EU EU EU
E
onde ! denota EU
uma avaliação política e ! denota uma melhoria política. Cada política tem a garantia de ser
uma melhoria estrita em relação à anterior (a menos que já seja ideal). Como um MDP finito tem apenas
um número finito de políticas, este processo deve convergir para uma política ótima e uma função de valor
ótima em um número finito de iterações.
Esta forma de encontrar uma política ideal é chamada de iteração de política. Um algoritmo
completo é fornecido na caixa abaixo. Observe que cada avaliação de política, em si um cálculo
iterativo, é iniciada com a função de valor da política anterior. Isto normalmente resulta num
grande aumento na velocidade de convergência da avaliação de políticas (presumivelmente
porque a função de valor muda pouco de uma política para outra).
1. Inicialização V
(s) 2 R e ÿ(s) 2 A(s) arbitrariamente para todos s 2 S
2. Ciclo de avaliação de
políticas:
0
Loop para cada s 2 S: v
V (s)
V (s) P s0,r max(, p(s0 , r|s, ÿ(s))ÿ r + V (s0 ) ÿ
|v V (s)|) até < ÿ (um
pequeno número positivo que determina a precisão da estimativa)
Exemplo 4.2: Jack's Car Rental Jack gerencia duas localidades para um carro nacional
Companhia de aluguel. Todos os dias, um certo número de clientes chega a cada local para alugar carros.
Se Jack tiver um carro disponível, ele o aluga e recebe US$ 10 da empresa nacional.
Se ele estiver sem carros naquele local, o negócio estará perdido. Os carros ficam disponíveis para
alugando no dia seguinte ao seu retorno. Para ajudar a garantir que os carros estejam disponíveis onde
eles são necessários, Jack pode movê-los entre os dois locais durante a noite, a um custo de
$ 2 por carro movido. Assumimos que o número de carros solicitados e devolvidos em cada
localização são variáveis aleatórias de Poisson, o que significa que a probabilidade de o número ser
n
n não! e, onde está o número esperado. Suponha que seja 3 e 4 para solicitações de aluguel em
são o primeiro e o segundo locais e 3 e 2 para retornos. Para simplificar um pouco o problema,
assumimos que não pode haver mais de 20 carros em cada local (quaisquer carros adicionais
são devolvidos à empresa nacional, e assim desaparecem do problema) e um
no máximo cinco carros podem ser transportados de um local para outro em uma noite. Nós levamos
a taxa de desconto seja = 0,9 e formule isso como um MDP finito contínuo, onde
os intervalos de tempo são dias, o estado é o número de carros em cada local no final de
o dia, e as ações são o número líquido de carros movimentados entre os dois locais
durante a noite. A Figura 4.2 mostra a sequência de políticas encontradas pela iteração de política começando
da política que nunca move nenhum carro.
"0
ÿ0 "1
ÿ1 ÿ2
"2
5 5
4
3
21
4
32
0 0
4 1
32
1
0
!1 !1
!2 !2
!3 -4 !3 !4
02
ÿ3
"3 ÿ4
"4
V4
vÿ4
5 5
4 4
32
32 1
1
612
0 0 20
localização
420
irop
#l
n
0
acC
a
primeiro
oãçaarziseirlm
no
!1 !1 #Cars na
0
!2 !2 segunda
0
localização20
!3 !4 !3 !4 #Carros
0 20
#Cars na segunda localização
Figura 4.2: A sequência de políticas encontradas pela iteração de políticas no problema do aluguel de automóveis de Jack,
e a função de valor de estado final. Os primeiros cinco diagramas mostram, para cada número de carros em
cada local no final do dia, o número de carros a serem movidos do primeiro local para
o segundo (os números negativos indicam transferências do segundo local para o primeiro). Cada
a política sucessiva é uma melhoria estrita em relação à política anterior, e a última política é ótima.
Machine Translated by Google
Exercício 4.6 Suponha que você esteja restrito a considerar apenas políticas que sejam “-soft”, o
que significa que a probabilidade de selecionar cada ação em cada estado, s, é pelo menos “/|A(s)|.
Descreva qualitativamente as mudanças que seriam necessárias em cada uma das etapas 3, 2 e 1, nessa
ordem, do algoritmo de iteração de política para vÿ na página 80. ÿ Exercício 4.7 (programação) Escreva um
programa para iteração de política e repita -resolva o problema do aluguel de carro de Jack com as seguintes
alterações. Um dos funcionários de Jack no primeiro local pega um ônibus para casa todas as noites e mora
perto do segundo local. Ela fica feliz em transportar um carro para o segundo local gratuitamente. Cada carro
adicional ainda custa US$ 2, assim como todos os carros movidos na outra direção. Além disso, Jack tem
vagas de estacionamento limitadas em cada local.
Se mais de 10 carros forem mantidos durante a noite em um local (após qualquer movimentação de carros),
então um custo adicional de US$ 4 deverá ser incorrido para usar um segundo estacionamento
(independentemente de quantos carros forem mantidos lá). Esses tipos de não-linearidades e dinâmicas
arbitrárias ocorrem frequentemente em problemas reais e não podem ser facilmente tratadas por métodos de
otimização que não sejam a programação dinâmica. Para verificar seu programa, primeiro replique os
resultados fornecidos para o problema original. ÿ
Uma desvantagem da iteração de políticas é que cada uma de suas iterações envolve avaliação
de políticas, que pode ser uma computação iterativa prolongada que requer múltiplas varreduras
no conjunto de estados. Se a avaliação da política for feita iterativamente, então a convergência
exatamente para vÿ ocorre apenas no limite. Devemos esperar pela convergência exata ou
podemos parar antes disso? O exemplo da Figura 4.1 sugere certamente que poderá ser possível
truncar a avaliação de políticas. Nesse exemplo, as iterações de avaliação de políticas além das
três primeiras não têm efeito sobre a política gananciosa correspondente.
Na verdade, a etapa de avaliação política da iteração política pode ser truncada de várias
maneiras sem perder as garantias de convergência da iteração política. Um especial importante
Machine Translated by Google
O caso é quando a avaliação da política é interrompida após apenas uma varredura (uma atualização de cada estado).
Este algoritmo é chamado de iteração de valor. Pode ser escrito como uma operação de atualização
particularmente simples que combina as etapas de melhoria da política e de avaliação truncada da política:
para todo s 2 S. Para v0 arbitrário, pode-se mostrar que a sequência {vk} converge para vÿ
sob as mesmas condições que garantem a existência de vÿ.
Outra forma de entender a iteração de valor é por referência à equação de otimalidade de Bellman (4.1).
Observe que a iteração de valor é obtida simplesmente transformando a equação de otimalidade de
Bellman em uma regra de atualização. Observe também como a atualização da iteração de valor é idêntica
à atualização da avaliação da política (4.5), exceto que exige que o máximo seja tomado em todas as
ações. Outra forma de ver esta estreita relação é comparar os diagramas de backup para estes algoritmos
na página 59 (avaliação de políticas) e à esquerda da Figura 3.4 (iteração de valores). Essas duas são as
operações naturais de backup para computar vÿ e vÿ.
Finalmente, vamos considerar como termina a iteração de valor. Assim como a avaliação de políticas,
a iteração de valor requer formalmente um número infinito de iterações para convergir exatamente para
vÿ. Na prática, paramos quando a função de valor muda apenas uma pequena quantidade em uma varredura.
A caixa abaixo mostra um algoritmo completo com este tipo de condição de terminação.
Ciclo: |
0
| Loop para cada s 2 S: | v
V (s) |
V(s)máxa P | até < s0,r p(s0 , r|s, a) ÿ r + V (s0 ) ÿ
máx(, |v V(s)|)
ÿ
A iteração de valor combina efetivamente, em cada uma de suas varreduras, uma varredura de avaliação
de políticas e uma varredura de melhoria de políticas. Uma convergência mais rápida é muitas vezes
alcançada através da interposição de múltiplas varreduras de avaliação de políticas entre cada varredura
de melhoria de políticas. Em geral, toda a classe de algoritmos de iteração de políticas truncadas pode ser
pensada como sequências de varreduras, algumas das quais usam atualizações de avaliação de políticas
e outras usam atualizações de iteração de valores. Porque a operação máxima em (4.10) é a única diferença entre
Machine Translated by Google
essas atualizações, isso significa apenas que a operação máxima é adicionada a algumas varreduras de
avaliação de políticas. Todos esses algoritmos convergem para uma política ótima para MDPs finitos com
desconto.
Exemplo 4.3: Problema do Jogador Um jogador tem a oportunidade de fazer apostas nos
resultados de uma sequência de lançamentos de moeda. Se a moeda der cara, ele ganha
tantos dólares quantos apostou naquele lançamento; se der coroa, ele perde a aposta. O
jogo termina quando o jogador ganha ao atingir sua meta de US$ 100 ou perde por ficar sem dinheiro.
Em cada jogada, o jogador deve decidir que parcela do seu capital apostar, em números inteiros
de dólares. Este problema pode ser formulado como um MDP finito, episódico e não descontado.
O estado é o capital do jogador, s 2 {1,
2,..., 99} e as ações são apostas, a 2 {0, 1
20
A Figura 4.3 mostra a mudança na final (aposta)
10
função de valor ao longo de varreduras 1
sucessivas de iteração de valor e a 1 25 50 75 99
Exercício 4.8 Porque é que a política óptima para o problema do jogador tem uma forma tão curiosa?
Em particular, para um capital de 50 aposta tudo numa única jogada, mas para um capital de 51 não o
faz . Por que esta é uma boa política? ÿ
Exercício 4.10 Qual é o análogo da atualização da iteração de valor (4.10) para valores de ação, qk+1(s, a)? ÿ
para determinar os estados aos quais o algoritmo DP aplica suas atualizações. Ao mesmo tempo, as
informações mais recentes sobre valores e políticas do algoritmo DP podem orientar a tomada de
decisão do agente. Por exemplo, podemos aplicar atualizações aos estados à medida que o agente os visita.
Isto torna possível focar as atualizações do algoritmo DP nas partes do conjunto de estados que são
mais relevantes para o agente. Esse tipo de foco é um tema repetido na aprendizagem por reforço.
Na prática, os métodos DP podem ser usados com os computadores atuais para resolver MDPs com
milhões de estados. Tanto a iteração de políticas como a iteração de valores são amplamente utilizadas e
não está claro qual delas é melhor em geral. Na prática, estes métodos geralmente convergem muito mais
rapidamente do que os tempos de execução teóricos do pior caso, particularmente se forem iniciados
Machine Translated by Google
4.8 Resumo
Neste capítulo nos familiarizamos com as ideias e algoritmos básicos da programação dinâmica
relacionados à solução de MDPs finitos. A avaliação de políticas refere-se ao cálculo (normalmente )
iterativo das funções de valor para uma determinada política. A melhoria da política refere-se ao cálculo
de uma política melhorada, dada a função de valor dessa política.
Juntando esses dois cálculos, obtemos a iteração de política e a iteração de valor, os dois métodos de DP
mais populares. Qualquer um deles pode ser usado para calcular de forma confiável políticas ótimas e
funções de valor para MDPs finitos, dado o conhecimento completo do MDP.
Muitos desses métodos podem ser vistos como formas refinadas de GPI.
Finalmente, notamos uma última propriedade especial dos métodos DP. Todos eles atualizam
estimativas dos valores dos estados com base nas estimativas dos valores dos estados sucessores. Ou
seja, atualizam as estimativas com base em outras estimativas. Chamamos essa ideia geral de bootstrapping.
Muitos métodos de aprendizagem por reforço realizam bootstrapping, mesmo aqueles que não
requerem, como o DP exige, um modelo completo e preciso do ambiente. No próximo capítulo,
exploraremos métodos de aprendizagem por reforço que não requerem um modelo e não necessitam
de bootstrap. No capítulo seguinte, exploramos métodos que não requerem um modelo , mas fazem
bootstrap. Estas características e propriedades principais são separáveis, mas podem ser misturadas
em combinações interessantes.
4.1–4 Estas seções descrevem algoritmos DP bem estabelecidos que são abordados em qualquer
uma das referências gerais de DP citadas acima. O teorema de melhoria de políticas e o
algoritmo de iteração de políticas são devidos a Bellman (1957a) e Howard (1960). A nossa
apresentação foi influenciada pela visão local de melhoria das políticas adoptada por
Watkins (1989). Nossa discussão sobre iteração de valor como uma forma de iteração de
política truncada é baseada na abordagem de Puterman e Shin (1978), que apresentaram
uma classe de algoritmos chamada iteração de política modificada, que inclui iteração de
política e iteração de valor como casos especiais. Uma análise que mostra como a iteração
de valor pode ser feita para encontrar uma política ótima em tempo finito é fornecida por Bertsekas (1987).
A avaliação iterativa de políticas é um exemplo de uma aproximação sucessiva clássica
Machine Translated by Google
algoritmo para resolver um sistema de equações lineares. A versão do algoritmo que usa
duas matrizes, uma contendo os valores antigos enquanto a outra é atualizada, é
frequentemente chamada de algoritmo do estilo Jacobi, após o uso clássico desse método por Jacobi.
Às vezes também é chamado de algoritmo síncrono porque o efeito é como se todos os valores
fossem atualizados ao mesmo tempo. A segunda matriz é necessária para simular essa computação
paralela sequencialmente. A versão local do algoritmo é frequentemente chamada de algoritmo do
estilo Gauss-Seidel, em homenagem ao algoritmo clássico de Gauss-Seidel para resolver sistemas
de equações lineares. Além da avaliação iterativa de políticas, outros algoritmos DP podem ser
implementados nessas diferentes versões.
Bertsekas e Tsitsiklis (1989) fornecem uma excelente cobertura dessas variações e de
suas diferenças de desempenho.
4,5 Os algoritmos DP assíncronos são devidos a Bertsekas (1982, 1983), que também os chamou de
algoritmos DP distribuídos. A motivação original para o DP assíncrono foi a sua implementação em
um sistema multiprocessador com atrasos de comunicação entre processadores e sem relógio de
sincronização global. Esses algoritmos são extensivamente discutidos por Bertsekas e Tsitsiklis
(1989). Algoritmos DP estilo Jacobi e estilo Gauss-Seidel são casos especiais da versão assíncrona.
Williams e Baird (1990) apresentaram algoritmos DP que são assíncronos em um nível mais
refinado do que aqueles que discutimos: as próprias operações de atualização são divididas em
etapas que podem ser executadas de forma assíncrona.
4.7 Esta seção, escrita com a ajuda de Michael Littman, é baseada em Littman, Dean e Kaelbling
(1995). A frase “maldição da dimensionalidade” é devida a Bellman (1957a).
capítulo 5
Neste capítulo consideramos nossos primeiros métodos de aprendizagem para estimar funções de valor e
descobrir políticas ótimas. Ao contrário do capítulo anterior, aqui não assumimos um conhecimento completo do
meio ambiente. Os métodos de Monte Carlo requerem apenas experiência – exemplos de sequências de estados,
ações e recompensas de interação real ou simulada com um ambiente. Aprender com a experiência real é
impressionante porque não requer conhecimento prévio da dinâmica do ambiente, mas ainda assim pode atingir
um comportamento ideal. Aprender com a experiência simulada também é poderoso. Embora seja necessário um
modelo, o modelo precisa apenas gerar transições de amostra, não as distribuições de probabilidade completas
de todas as transições possíveis que são necessárias para a programação dinâmica (DP). Em muitos casos
surpreendentes, é fácil gerar experiências amostradas de acordo com as distribuições de probabilidade desejadas,
mas é inviável obter as distribuições de forma explícita.
Os métodos de Monte Carlo são formas de resolver o problema de aprendizagem por reforço com base na
média dos retornos das amostras. Para garantir que retornos bem definidos estejam disponíveis, definimos aqui
métodos de Monte Carlo apenas para tarefas episódicas. Isto é, assumimos que a experiência é dividida em
episódios e que todos os episódios eventualmente terminam, independentemente das ações selecionadas.
Somente após a conclusão de um episódio as estimativas de valor e as políticas são alteradas.
Os métodos de Monte Carlo podem, portanto, ser incrementais no sentido episódio a episódio, mas não
no sentido passo a passo (online). O termo “Monte Carlo” é frequentemente usado de forma mais ampla
para qualquer método de estimativa cuja operação envolva um componente aleatório significativo. Aqui
nós o usamos especificamente para métodos baseados na média dos retornos completos (em oposição
aos métodos que aprendem com os retornos parciais, considerados no próximo capítulo).
Os métodos de Monte Carlo mostram amostras e retornos médios para cada par estado-ação, de forma muito
semelhante aos métodos bandidos que exploramos no Capítulo 2, amostra e recompensas médias para cada ação.
A principal diferença é que agora existem vários estados, cada um agindo como um problema de
bandido diferente (como uma busca associativa ou bandido contextual) e os diferentes problemas
de bandido estão inter-relacionados. Ou seja, o retorno após a realização de uma ação em um
estado depende das ações realizadas em estados posteriores no mesmo episódio. Como todas as
seleções de ação estão em processo de aprendizagem, o problema torna-se não estacionário do
ponto de vista do estado anterior.
91
Machine Translated by Google
Para lidar com a não estacionariedade, adaptamos a ideia de iteração de política geral (GPI)
desenvolvida no Capítulo 4 para DP. Enquanto lá calculamos funções de valor a partir do
conhecimento do MDP, aqui aprendemos funções de valor a partir de retornos de amostra com o
MDP. As funções de valor e as políticas correspondentes ainda interagem para atingir a otimização
essencialmente da mesma maneira (GPI). Tal como no capítulo DP, primeiro consideramos o
problema de previsão (o cálculo de vÿ e qÿ para uma política arbitrária fixa ÿ), depois a melhoria da
política e, finalmente, o problema de controlo e a sua solução por GPI. Cada uma destas ideias
retiradas da DP é estendida ao caso de Monte Carlo, no qual apenas uma experiência exemplar está disponível.
Considere a política que permanece se a soma do jogador for 20 ou 21, e caso contrário acerta. Para
encontrar a função valor-estado para esta política através de uma abordagem de Monte Carlo, simulam-
se muitos jogos de blackjack usando a política e calcula-se a média dos retornos seguindo cada estado.
Desta forma, obtivemos as estimativas da função valor-estado mostrada na Figura 5.1.
As estimativas para estados com um ás utilizável são menos certas e menos regulares porque estes
estados são menos comuns. De qualquer forma, após 500.000 jogos a função valor é muito bem
aproximada.
Machine Translated by Google
Utilizável +1
ás
!1
Não 21
utilizável
ás
Um revendedor jogador
Soma
do
mostrando 12
10
Figura 5.1: Funções de valor de estado aproximadas para a política de blackjack que se mantém apenas em 20
ou 21, calculadas pela avaliação da política de Monte Carlo.
Exercício 5.1 Considere os diagramas à direita da Figura 5.1. Por que a função de valor
estimado salta para as duas últimas linhas no final? Por que ele desaparece em toda a última
linha à esquerda? Por que os valores mais frontais são mais altos nos diagramas superiores
do que nos inferiores? ÿ
Exercício 5.2 Suponha que o MC de cada visita fosse usado em vez do MC da primeira visita na tarefa de
blackjack. Você esperaria que os resultados fossem muito diferentes? Por que ou por que não? ÿ
superfície em um ponto simplesmente calculando a média das alturas limite de muitos passeios iniciados
naquele ponto. Se estivermos interessados apenas no valor de um ponto, ou em qualquer pequeno
conjunto fixo de pontos, então este método de Monte Carlo pode ser muito mais eficiente do que o método
iterativo baseado na consistência local.
Se um modelo não estiver disponível, então é particularmente útil estimar os valores da ação (os
valores dos pares estado-ação) em vez dos valores do estado. Com um modelo, os valores do
Estado por si só são suficientes para determinar uma política; basta olhar um passo adiante e
escolher a ação que leva à melhor combinação de recompensa e próximo estado, como fizemos no
capítulo sobre DP. Sem um modelo, contudo, os valores estatais por si só não são suficientes. É
preciso estimar explicitamente o valor de cada ação para que os valores sejam úteis na sugestão de uma política.
Assim, um dos nossos principais objetivos para os métodos de Monte Carlo é estimar qÿ. Para conseguir
isso, primeiro consideramos o problema de avaliação de políticas para valores de ação.
O problema de avaliação de políticas para valores de ação é estimar qÿ(s, a), o retorno
esperado ao iniciar no estado s, executar a ação a e, posteriormente, seguir a política ÿ. Os
métodos de Monte Carlo para isso são essencialmente os mesmos apresentados para valores
de estado, exceto que agora falamos sobre visitas a um par estado-ação em vez de a um
estado. Diz-se que um par estado-ação s, a é visitado em um episódio se o estado s for visitado
e a ação a for executada nele. O método MC de cada visita estima o valor de um par estado-
ação como a média dos retornos que se seguiram a todas as visitas a ele. O método MC da
primeira visita calcula a média dos retornos após a primeira vez em cada episódio em que o
estado foi visitado e a ação foi selecionada. Esses métodos convergem quadraticamente, como
antes, para os verdadeiros valores esperados à medida que o número de visitas a cada par
estado-ação se aproxima do infinito.
A única complicação é que muitos pares estado-ação podem nunca ser visitados. Se ÿ for uma política
determinística, então ao seguir ÿ observar-se-ão retornos apenas para uma das ações de cada estado.
Sem retornos à média, as estimativas de Monte Carlo das outras acções não melhorarão com a
experiência. Este é um problema sério porque o objetivo de aprender valores de ação é ajudar na escolha
entre as ações disponíveis em cada estado. Para comparar alternativas precisamos estimar o valor de
todas as ações de cada estado, e não apenas daquele que favorecemos atualmente.
considerar apenas políticas estocásticas com probabilidade diferente de zero de selecionar todas as
ações em cada estado. Discutiremos duas variantes importantes dessa abordagem em seções posteriores.
Por enquanto, mantemos a suposição de início da exploração e completamos a apresentação de um
método de controle de Monte Carlo completo.
Exercício 5.3 Qual é o diagrama de backup para a estimativa de Monte Carlo de qÿ? ÿ
Para começar, consideremos uma versão Monte Carlo da iteração política clássica.
Neste método, realizamos etapas completas alternadas de avaliação e melhoria de
políticas, começando com uma política arbitrária ÿ0 e terminando com a política ótima e a
função valor de ação ótima:
E EU E EU E EU E
ÿ0 ! qÿ0 ! ÿ1 ! qÿ1 ! ÿ2 !··· ! ÿÿ ! qÿ,
E
onde ! denota EU
uma avaliação política completa e ! denota uma melhoria política completa. A avaliação
da política é feita exactamente como descrito na secção anterior.
Muitos episódios são vivenciados, com a função valor-ação aproximada aproximando-se
assintoticamente da função verdadeira. Por enquanto, vamos supor que de fato
observamos um número infinito de episódios e que, além disso, os episódios são gerados
com inícios de exploração. Sob essas suposições, os métodos de Monte Carlo calcularão
cada qÿk exatamente, para ÿk arbitrário.
A melhoria da política é feita tornando a política gananciosa em relação à função de valor atual.
Neste caso temos uma função ação-valor e, portanto, nenhum modelo é necessário para construir a
política gananciosa. Para qualquer função valor-ação q, a política gananciosa correspondente é aquela
que, para cada s 2 S, escolhe deterministicamente uma ação com valor-ação máximo:
A melhoria da política pode então ser feita construindo cada ÿk+1 como a política gananciosa em
relação a qÿk . O teorema de melhoria de política (Seção 4.2) então se aplica a ÿk
Machine Translated by Google
Como discutimos no capítulo anterior, o teorema assegura-nos que cada ÿk+1 é uniformemente melhor que
ÿk, ou tão bom quanto ÿk, caso em que ambas são políticas óptimas. Isto, por sua vez, assegura-nos que o
processo global converge para a política óptima e para a função de valor óptima. Desta forma, os métodos de
Monte Carlo podem ser usados para encontrar políticas óptimas, dados apenas episódios amostrais e nenhum
outro conhecimento da dinâmica do ambiente.
Fizemos duas suposições improváveis acima para obter facilmente esta garantia de convergência
para o método de Monte Carlo. Uma era que os episódios tinham início de exploração e a outra era
que a avaliação política poderia ser feita com um número infinito de episódios. Para obter um
algoritmo prático teremos que remover ambas as suposições. Adiamos a consideração da primeira
suposição para mais adiante neste capítulo.
Por agora centramo-nos no pressuposto de que a avaliação de políticas opera num número infinito
de episódios. Essa suposição é relativamente fácil de remover. Na verdade, a mesma questão surge
mesmo em métodos clássicos de PD, como a avaliação iterativa de políticas, que também convergem
apenas assintoticamente para a função de valor verdadeiro. Tanto no caso DP como no caso Monte
Carlo existem duas maneiras de resolver o problema. Uma delas é manter-se firme na ideia de
aproximar qÿk em cada avaliação de política. São feitas medições e pressupostos para obter limites
de magnitude e probabilidade de erro nas estimativas e, em seguida, são tomadas medidas
suficientes durante cada avaliação de política para garantir que esses limites sejam suficientemente pequenos.
Esta abordagem pode provavelmente ser completamente satisfatória no sentido de garantir uma
convergência correcta até algum nível de aproximação. No entanto, também é provável que exija
demasiados episódios para ser útil na prática em qualquer problema, exceto nos mais pequenos.
Existe uma segunda abordagem para evitar o número infinito de episódios nominalmente
necessários para a avaliação de políticas, na qual desistimos de tentar completar a avaliação de
políticas antes de regressarmos à melhoria das políticas. Em cada etapa de avaliação, movemos a
função de valor em direção a qÿk , mas não esperamos chegar perto, exceto em muitas etapas.
Usamos essa ideia quando introduzimos pela primeira vez a ideia de GPI na Seção 4.6. Uma forma
extrema da ideia é a iteração de valor, na qual apenas uma iteração de avaliação iterativa de
políticas é realizada entre cada etapa de melhoria da política. A versão local da iteração de valor é
ainda mais extrema; lá alternamos entre etapas de melhoria e avaliação para estados individuais.
Para a avaliação de políticas de Monte Carlo é natural alternar entre avaliação e melhoria
episódio a episódio. Após cada episódio, os retornos observados são utilizados para
avaliação da política e, em seguida, a política é melhorada em todos os estados visitados
no episódio. Um algoritmo simples e completo nesse sentido, que chamamos de Monte
Carlo ES, para Monte Carlo com Exploring Starts, é fornecido em pseudocódigo na caixa
da próxima página.
Machine Translated by Google
Inicializar:
ÿ(s) 2 A(s) (arbitrariamente), para todo s 2 S
Q(s, a) 2 R (arbitrariamente), para todo s 2 S, a 2 A(s)
Retorna(s, a) lista vazia, para todos s 2 S, a 2 A(s)
Exercício 5.4 O pseudocódigo para Monte Carlo ES é ineficiente porque, para cada par
estado-ação, mantém uma lista de todos os retornos e calcula repetidamente a sua média.
Seria mais eficiente usar técnicas semelhantes às explicadas na Seção 2.4 para manter
apenas a média e uma contagem (para cada par estado-ação) e atualizá-las de forma incremental.
Descreva como o pseudocódigo seria alterado para conseguir isso. ÿ
Em Monte Carlo ES, todos os retornos de cada par estado-ação são acumulados e calculada a
média, independentemente da política que estava em vigor quando foram observados. É fácil
perceber que Monte Carlo ES não pode convergir para nenhuma política subótima. Se assim fosse,
então a função de valor acabaria por convergir para a função de valor dessa política, e isso, por
sua vez, faria com que a política mudasse. A estabilidade só é alcançada quando tanto a política
como a função de valor são óptimas. A convergência para este ponto fixo ideal parece inevitável à
medida que as mudanças na função valor-ação diminuem ao longo do tempo, mas ainda não foi
formalmente provada. Em nossa opinião, esta é uma das questões teóricas abertas mais
fundamentais na aprendizagem por reforço (para uma solução parcial, ver Tsitsiklis, 2002).
Exemplo 5.3: Resolvendo o Blackjack É simples aplicar Monte Carlo ES ao blackjack. Como os
episódios são todos jogos simulados, é fácil organizar inícios de exploração que incluam todas as
possibilidades. Neste caso, basta escolher as cartas do dealer, a soma do jogador e se o jogador
tem ou não um ás utilizável, tudo aleatoriamente com igual probabilidade. Como política inicial
usamos a política avaliada no exemplo anterior do blackjack, aquela que se mantém apenas em 20
ou 21. A função inicial de valor-ação pode ser zero para todos os pares estado-ação. A Figura 5.2
mostra a política ideal para o blackjack encontrada por Monte Carlo ES. Esta política é igual à
estratégia “básica” de Thorp (1966), com a única excepção do entalhe mais à esquerda na política
para um ás utilizável, que não está presente na estratégia de Thorp. Não temos certeza da razão
desta discrepância, mas estamos confiantes de que o que é mostrado aqui é de facto a política
ideal para a versão de blackjack que descrevemos .
Machine Translated by Google
21
GRUDAR 20
19
Utilizável 18 +1 21
100 17 Capítulo 5: Métodos de Monte Carlo
ás 16
"1
15
BATER 14
13
A
* 12
11
!*
A 2 3 4 5 6 7 8 9 10 v**
V* 12
10
21
21
GRUDAR 20
GRUDAR 19
19
18
18 +1 21
ÁsNão 17
17
utilizável
agoooS
dj
16
16
roadm
15
15
"1
utilizável BATER BATER 14
14
13
13
A jogador
Soma
do
12
12 Exibição
11
11
*!
A 2 3 4 5 6 7 8 9 10
Exibição do revendedor
v*
V*
do revendedor 12
12
10
10
21
21
GRUDAR 20
20
GRUDAR 19
19
18
18 +1 21
ÁsNão 17
17
utilizável
agoooS
dj
utilizável 16
16
roadm
15
15
"1
ás A
BATER BATER 14
14
13
13
A jogador
Soma
do
jogador
Soma
do
12
12 Exibição
Exibição
11
11
AA 22 33 44 55 66 77 88 99 10
10 do
dorevendedor
revendedor 12
12
Exibição do revendedor
10
21
20
Figura 5.2: A política ótima e a funçãoGRUDAR
de valor estatal para o blackjack, encontrada por Monte Carlo No ES. A função de
19
21
18
valor de estado mostrada foi calculada a partir da função de valor de ação encontrada pelo Monte Carlo ES utilizável . ás
17
agoooS
dj
16
roadm
15
BATER 14
13
A jogador
Soma
do
12 Exibição
11
A 2 3 4 5 6 7 8 9 10 do revendedor 12
Exibição do revendedor
5.4 Controle Monte Carlo sem Exploração Inicia 10
Como podemos evitar a suposição improvável de que a exploração comece? A única maneira geral
de garantir que todas as ações sejam selecionadas com uma frequência infinita é o agente continuar
a selecioná- las. Existem duas abordagens para garantir isso, resultando no que chamamos de
métodos dentro da política e métodos fora da política. Os métodos dentro da política tentam avaliar
ou melhorar a política usada para tomar decisões, enquanto os métodos fora da política avaliam ou
melhoram uma política diferente daquela usada para gerar os dados. O método Monte Carlo ES
desenvolvido acima é um exemplo de método baseado em políticas. Nesta secção mostramos como
pode ser concebido um método de controlo de Monte Carlo dentro da política que não utilize a
suposição irrealista de inícios de exploração. Os métodos de política Oÿ são considerados na próxima seção.
Nos métodos de controle sob política, a política é geralmente suave, o que significa que ÿ(a|s) >
0 para todos s 2 S e todos a 2 A(s), mas gradualmente se aproxima cada vez mais de uma política
ótima determinística. Muitos dos métodos discutidos no Capítulo 2 fornecem mecanismos para isso.
O método on-policy que apresentamos nesta seção usa “políticas gananciosas, o que significa que
na maioria das vezes eles escolhem uma ação que tem valor de ação estimado máximo, mas com
probabilidade ” eles selecionam uma ação aleatoriamente. Ou seja, todas as ações não gananciosas
recebem a probabilidade mínima de seleção e o volume restante "de |A(s)| , a probabilidade, 1 " + é
dada
à ação gananciosa. As políticas" "-gananciosos
|A(s)| , são para todos os estados e
exemplos de "políticas suaves, definidas como políticas para as quais ÿ(a|s) "
|A(s)|
ações, para alguns "> 0. Entre as políticas "soft", as políticas gananciosas são, em certo sentido, aquelas
Machine Translated by Google
A ideia geral do controlo de Monte Carlo dentro da política ainda é a do GPI. Tal como em
Monte Carlo ES, utilizamos métodos de CM de primeira visita para estimar a função valor-ação
para a política atual. Sem a suposição de que a exploração começa, contudo, não podemos
simplesmente melhorar a política, tornando-a gananciosa em relação à função de valor actual,
porque isso impediria uma maior exploração de acções não gananciosas. Felizmente, o GPI
não exige que a política seja levada até uma política gananciosa, apenas que seja movida
para uma política gananciosa. Em nosso método on-policy, iremos movê-lo apenas para uma
política "-ganancioso . Para qualquer política "-soft, ÿ, qualquer política "-ganancioso em
relação a qÿ é garantidamente melhor ou igual a ÿ. O completo algoritmo é fornecido na caixa abaixo.
"/|A(St)|se a = Aÿ
ÿ(a|St) ÿ 1 " + "/|A(St)| se uma 6= UMAÿ
(a soma é uma média ponderada com pesos não negativos somando 1 e, como tal,
Machine Translated by Google
= vÿ(s).
Assim, pelo teorema de melhoria de política, ÿ0 ÿ (ou seja, vÿ0 (s) vÿ(s), para todo s 2 S).
Provamos agora que a igualdade só pode ser mantida quando ambos ÿ0 e ÿ são ótimos entre
as políticas “-soft” , isto é, quando são melhores ou iguais a todas as outras “políticas-soft”.
Considere um novo ambiente que seja exatamente igual ao ambiente original, exceto com o
requisito de que as políticas sejam "-soft" movidas para dentro do ambiente. O novo ambiente
tem a mesma ação e estado definidos como o original e se comporta da seguinte forma. Se
estiver no estado s e realizando a ação a, então com probabilidade 1 " o novo ambiente se
comporta exatamente como o ambiente antigo. Com probabilidade " ele retoma a ação
aleatoriamente, com probabilidades iguais, e então se comporta como o ambiente antigo com a nova ação aleat
O melhor que se pode fazer neste novo ambiente com políticas gerais é o mesmo que se
pode fazer no ambiente original com "políticas suaves. Deixemos veÿ e qeÿ denotarem
as funções de valor ideais para o novo ambiente. Então, uma política ÿ é ideal entre
"políticas suaves se e somente se vÿ = veÿ. Pela definição de veÿ sabemos que é a única
solução para
"
|A(s)|a)X
veÿ(s) = (1 ") maxa qeÿ(s, a) + qeÿ(s,
a
Quando a igualdade se mantém e a “política branda ÿ não é mais melhorada, então também sabemos, a
partir de (5.2), que
"
a) X
vÿ(s) = (1 ") maxa qÿ(s, a) + qÿ(s,|A(s)|
a
Porém, esta equação é igual à anterior, exceto pela substituição de vÿ por veÿ. Como veÿ
é a única solução, deve ser que vÿ = veÿ.
Em essência, mostramos nas últimas páginas que a iteração política funciona para políticas
"-soft ". Usando a noção natural de política gananciosa para políticas "-soft, temos a garantia
de melhoria em cada etapa, exceto quando a melhor política tiver sido encontrada entre as "
políticas suaves. Esta análise é independente de como as funções de valor de ação são
determinadas em cada estágio, mas pressupõe que elas sejam calculadas com exatidão. Isso nos leva a
Machine Translated by Google
estimar valores esperados sob uma distribuição, dadas amostras de outra. Aplicamos a amostragem
de importância à aprendizagem fora da política, ponderando os retornos de acordo com a
probabilidade relativa de suas trajetórias ocorrerem sob as políticas de metas e de comportamento,
chamada razão de amostragem de importância. Dado um estado inicial St, a probabilidade da
trajetória estado-ação subsequente, At, St+1, At+1,...,ST , ocorrer sob qualquer política ÿ é
onde p aqui é a função de probabilidade de transição de estado definida por (3.4). Assim, a
probabilidade relativa da trajetória sob as políticas de meta e comportamento (a razão importância-
amostragem) é
T
. QTk=t1 ÿ(Ak|Sk)p(Sk+1 |Sk, Ak)
ÿt:T 1 = = A1 ÿ(Ak|Sk) . (5.3)
QTk=t1 b(Ak|Sk)p(Sk+1 |Sk, Ak) k=t b(Ak|Sk)
Agora estamos prontos para fornecer um algoritmo de Monte Carlo que calcula a média dos retornos
de um lote de episódios observados seguindo a política b para estimar vÿ(s). É conveniente aqui numerar
os passos de tempo de uma forma que aumente através dos limites do episódio. Isto é, se o primeiro
episódio do lote termina em um estado terminal no tempo 100, então o próximo episódio começa no tempo
t = 101. Isso nos permite usar números de intervalo de tempo para nos referirmos a etapas específicas
em episódios específicos. Em particular, podemos definir o conjunto de todos os intervalos de tempo em
que o estado s é visitado, denotado por T(s). Isto é para um método de cada visita; para um método de
primeira visita, T(s) incluiria apenas intervalos de tempo que fossem as primeiras visitas a s dentro de
seus episódios. Além disso, deixe T(t) denotar o primeiro tempo de término após o tempo t, e Gt denotar
são
o retorno após t até T(t). Então {Gt}t2T(s) são os retornos que pertencem ao estado s, e ÿt:T(t)1
t2T(s) as taxas de amostragem de importância correspondentes. Para estimar vÿ(s), simplesmente
dimensionamos os retornos pelas proporções e calculamos a média dos resultados:
P t2T(s) ÿt:T(t)1Gt
V(s) . = . (5.5)
|T(s)|
Machine Translated by Google
Quando a amostragem por importância é feita como uma média simples desta forma, ela é chamada de amostragem
por importância ordinária.
Uma alternativa importante é a amostragem por importância ponderada, que utiliza uma
média, definida como
P t2T(s) ÿt:T(t)1Gt
V(s) . = , (5.6)
P t2T(s) ÿt:T(t)1
ou zero se o denominador for zero. Para compreender essas duas variedades de amostragem
de importância, considere as estimativas de seus métodos de primeira visita após observar
um único retorno dos estados . Na estimativa da média ponderada, o rácio ÿt:T(t)1 para o
retorno único anula-se no numerador e no denominador, de modo que a estimativa é igual ao
retorno observado independentemente do rácio (assumindo que o rácio é diferente de zero).
Dado que este retorno foi o único observado, esta é uma estimativa razoável, mas a sua
expectativa é vb(s) em vez de vÿ(s), e neste sentido estatístico é tendenciosa. Em contraste,
a versão de primeira visita do estimador de amostragem de importância comum (5.5) é
sempre vÿ(s) na expectativa (é imparcial), mas pode ser extrema. Suponhamos que o rácio
fosse dez, indicando que a trajetória observada é dez vezes mais provável sob a política-alvo
do que sob a política comportamental. Neste caso, a estimativa normal da amostragem por
importância seria dez vezes o retorno observado. Ou seja, estaria bastante distante do retorno
observado, embora a trajetória do episódio seja considerada muito representativa da política-alvo.
Formalmente, a diferença entre os métodos de primeira visita dos dois tipos de amostragem
de importância é expressa em seus vieses e variâncias. A amostragem de importância comum
é imparcial, enquanto a amostragem de importância ponderada é tendenciosa (embora o viés
convirja assintoticamente para zero). Por outro lado, a variância da amostragem de importância
ordinária é em geral ilimitada porque a variância dos rácios pode ser ilimitada, enquanto no
estimador ponderado o maior peso em qualquer retorno único é um. Na verdade, assumindo
retornos limitados, a variância do estimador de amostragem de importância ponderada
converge para zero mesmo que a variância dos próprios rácios seja infinita (Precup, Sutton e
Dasgupta 2001). Na prática, o estimador ponderado geralmente tem uma variância
dramaticamente menor e é fortemente preferido. No entanto, não abandonaremos totalmente
a amostragem de importância ordinária, pois é mais fácil estendê-la aos métodos aproximados
usando a aproximação de função que exploramos na segunda parte deste livro.
Os métodos de cada visita para amostragem de importância ordinária e ponderada são ambos
tendenciosos, embora, novamente, o viés caia assintoticamente para zero à medida que o número de amostras aumenta.
Na prática, os métodos de cada visita são frequentemente preferidos porque eliminam a necessidade
de registar quais os estados que foram visitados e porque são muito mais fáceis de estender a
aproximações. Um algoritmo MC completo para cada visita para avaliação de políticas fora da política
usando amostragem de importância ponderada é fornecido na próxima seção na página 110.
Exercício 5.5 Considere um MDP com um único estado não-terminal e uma única ação que transita
de volta para o estado não-terminal com probabilidade p e transiciona para o estado terminal com
probabilidade 1p. Deixe a recompensa ser +1 em todas as transições e seja = 1. Suponha que você
observe um episódio que dura 10 etapas, com um retorno de 10. Quais são os estimadores de
primeira visita e de cada visita do valor do estado não terminal? ÿ
Machine Translated by Google
Amostragem
Significar de importância
comum
erro
quadrado (média
superior a 100 execuções)
0
0 10 100 1000 10.000
Episódios (escala logarítmica)
Figura 5.3: A amostragem por importância ponderada produz estimativas de erro mais baixas do valor de um único
estado de blackjack a partir de episódios de política externa.
para s seguido de rescisão com recompensa e retorno de +1. Assim, o valor de s na política-alvo
é 1 (= 1). Suponha que estejamos estimando esse valor a partir de dados de política oÿ usando a
política de comportamento que seleciona direita e esquerda com igual probabilidade.
R = +1
ÿ(esquerda|s)=1
0,1
esquerda
certo
é 1
0,9 R=0
b(esquerda|s) =
2
R=0
2
Estimativa de
Monte-Carlo de
vÿ(s) com
amostragem
de importância 1
ordinária
(dez execuções)
0
1 10 100 1000 10.000 100.000 1.000.000 10.000.000 100.000.000
Figura 5.4: A amostragem de importância comum produz estimativas surpreendentemente instáveis no MDP de um estado
mostrado no detalhe (Exemplo 5.5). A estimativa correta aqui é 1 ( = 1) e, embora este seja o valor esperado de um retorno
amostral (após amostragem de importância), a variância das amostras é infinita e as estimativas não convergem para este
valor. Estes resultados são para CM de primeira visita fora da política.
A parte inferior da Figura 5.4 mostra dez execuções independentes do algoritmo MC de primeira
visita usando amostragem de importância ordinária. Mesmo depois de milhões de episódios, as
estimativas não conseguem convergir para o valor correcto de 1. Em contraste, o algoritmo de
amostragem de importância ponderada daria uma estimativa de exactamente 1 para sempre após o
primeiro episódio que terminou com a acção à esquerda. Todos os retornos diferentes de 1 (ou seja,
terminando com a ação correta) seriam inconsistentes com a política-alvo e, portanto, teriam um
ÿt:T(t)1 igual a zero e não contribuiriam nem para o numerador nem para o denominador de (5.6). .
O algoritmo de amostragem por importância ponderada produz uma média ponderada apenas dos
retornos consistentes com a política alvo, e todos estes seriam exactamente 1.
Podemos verificar que a variância dos retornos em escala de amostragem de importância é infinita
neste exemplo por meio de um cálculo simples. A variância de qualquer variável aleatória X é o valor
esperado do desvio de sua média X¯, que pode ser escrito
Assim, se a média for finita, como é no nosso caso, a variância é infinita se e somente se a
Machine Translated by Google
a expectativa do quadrado da variável aleatória é infinita. Assim, precisamos apenas mostrar que o
quadrado esperado do retorno em escala de amostragem de importância é infinito:
T
2 ÿ(Em|St)
Eb A1 b(Em|St)
4 t=0 G0 !235.
Para calcular essa expectativa, nós a dividimos em casos com base na duração e no término do
episódio. Em primeiro lugar, note que, para qualquer episódio que termine com a acção correcta, o
rácio de amostragem de importância é zero, porque a política alvo nunca executaria esta acção;
esses episódios, portanto, não contribuem em nada para a expectativa (a quantidade entre
parênteses será zero) e podem ser ignorados. Precisamos apenas considerar episódios que
envolvem algum número (possivelmente zero) de ações à esquerda que transitam de volta ao
estado não-terminal, seguidas por uma ação à esquerda que transita para a terminação. Todos
esses episódios têm retorno 1, portanto o fator G0 pode ser ignorado. Para obter o quadrado
esperado, precisamos apenas considerar cada duração do episódio, multiplicando a probabilidade
de ocorrência do episódio pelo quadrado de sua razão importância-amostragem, e somar:
1
= (a duração de 1 episódio)
2 •2 · 0,10,5
1 1 · 0,9 · + 1
22 (a duração do episódio 2)
ÿ 1 · 0,1 ÿ0,5
1 0,5
1 1 · 0,9 · · 1 1 1
0,9 · + 2 2 2 (a duração do episódio 3)
•2 · 0,10,5
ÿ 10,5 0,5 •2
+ ···
Exercício 5.6 Qual é a equação análoga a (5.6) para valores de ação Q(s, a) em vez de valores
de estado V(s), novamente dados os retornos gerados usando b? ÿ
Exercício 5.7 Em curvas de aprendizagem como as mostradas na Figura 5.3, o erro geralmente diminui
com o treinamento, como de fato aconteceu com o método comum de amostragem por importância. Mas
para o método de amostragem por importância ponderada, o erro primeiro aumentou e depois diminuiu.
Por que você acha que isso aconteceu? ÿ
Exercício 5.8 Os resultados do Exemplo 5.5 e mostrados na Figura 5.4 usaram um método MC de primeira
visita . Suponha que, em vez disso, um método MC de cada visita tenha sido usado no mesmo problema.
A variância do estimador ainda seria infinita? Por que ou por que não? ÿ
Machine Translated by Google
k = 1 Semana
Pn1
Vn .= , número 2, (5.7)
Pn1
k=1 Semana
e mantê-lo atualizado pois obtemos um único retorno adicional Gn. Além de acompanhar Vn,
devemos manter para cada estado a soma cumulativa Cn dos pesos dados aos primeiros n
retornos. A regra de atualização para Vn é
Wn
Vn+1 .= Vn + número 1, (5.8)
Cn h Gn Vn eu ,
Cn+1 .= Cn + Wn+1,
página contém
= 0 (e V1 é arbitrário e, portanto, não precisa ser especificado). A caixa no where C0 . a próxima
um algoritmo incremental completo episódio por episódio para avaliação de políticas de Monte Carlo. O algoritmo
é nominalmente para o caso de política oÿ, usando amostragem de importância ponderada, mas também se
aplica ao caso de política apenas escolhendo as políticas alvo e de comportamento iguais (nesse caso (ÿ = b ) ,
W é sempre 1). A aproximação Q converge para qÿ (para todos os pares estado-ação encontrados) enquanto as
ações são selecionadas de acordo com uma política potencialmente diferente, b.
Exercício 5.9 Modifique o algoritmo para avaliação de políticas de CM na primeira visita (Seção
5.1) para usar a implementação incremental para médias amostrais descrita na Seção 2.4. ÿ
Exercício 5.10 Derive a regra de atualização da média ponderada (5.8) de (5.7). Siga o padrão
de derivação da regra não ponderada (2.3). ÿ
Machine Translated by Google
b(Em|St)
Agora estamos prontos para apresentar um exemplo da segunda classe de métodos de controle de
aprendizagem que consideramos neste livro: métodos de política oÿ. Lembre-se de que a característica
distintiva dos métodos baseados em políticas é que eles estimam o valor de uma política enquanto a utilizam para controle.
Nos métodos de política oÿ, essas duas funções são separadas. A política usada para gerar comportamento,
chamada de política de comportamento, pode na verdade não estar relacionada com a política que é avaliada
e melhorada, chamada de política alvo. Uma vantagem desta separação é que a política alvo pode ser
determinística (por exemplo, gananciosa), enquanto a política comportamental pode continuar a amostrar
todas as ações possíveis.
Os métodos de controle Monte Carlo da política Oÿ usam uma das técnicas apresentadas nas duas seções
anteriores. Eles seguem a política de comportamento enquanto aprendem e melhoram a política-alvo. Estas
técnicas exigem que a política comportamental tenha uma probabilidade diferente de zero de selecionar todas
as ações que possam ser selecionadas pela política alvo (cobertura). Para explorar todas as possibilidades,
exigimos que a política comportamental seja suave (ou seja, que selecione todas as ações em todos os
estados com probabilidade diferente de zero).
A caixa na próxima página mostra um método de controle de Monte Carlo fora da política, baseado em GPI
e amostragem de importância ponderada, para estimar ÿÿ e qÿ. A política alvo ÿ ÿ ÿÿ é a política gananciosa
em relação a Q, que é uma estimativa de qÿ. A política comportamental b pode ser qualquer coisa, mas para
garantir a convergência de ÿ para a política ótima, um número infinito de retornos deve ser obtido para cada
par de estado e ação. Isso pode ser garantido escolhendo b como "-soft. A política ÿ converge para o ideal em
todos os estados encontrados, mesmo que as ações sejam selecionadas de acordo com uma política suave b
diferente, que pode mudar entre ou mesmo dentro dos episódios.
Machine Translated by Google
Um problema potencial é que esse método aprende apenas com o final dos episódios, quando todas as
ações restantes no episódio são gananciosas. Se ações não gananciosas forem comuns, o aprendizado será
lento, especialmente para estados que aparecem nas primeiras partes de episódios longos. Potencialmente,
isso poderia retardar muito o aprendizado. Não tem havido experiência suficiente com métodos de Monte
Carlo fora das políticas para avaliar a gravidade deste problema. Se for sério, a maneira mais importante de
abordá-lo é provavelmente incorporando a aprendizagem por diferença temporal, a ideia algorítmica
desenvolvida no próximo capítulo. Alternativamente, se for menor que 1, então a ideia desenvolvida na
próxima seção também poderá ajudar significativamente.
Exercício 5.11 No algoritmo in a box para controle MC de política oÿ, você poderia esperar que a
atualização W envolvesse a razão de amostragem de importância ÿ(At|St), mas
b(Em|St) ,
1
em vez disso, envolve ÿ
b(Em|St) . Por que isso é, no entanto, correto?
Exercício 5.12: Pista de corrida (programação) Considere dirigir um carro de corrida em uma curva
como as mostradas na Figura 5.5. Você quer ir o mais rápido possível, mas não tão rápido a ponto
de sair da pista. Em nossa pista simplificada, o carro está em uma posição de um conjunto discreto
de posições no grid, as células do diagrama. A velocidade também é discreta, um número de células
da grade movidas horizontal e verticalmente por intervalo de tempo. As ações são incrementos nos
componentes da velocidade. Cada uma pode ser alterada em +1, 1 ou 0 em cada etapa, totalizando
nove (3 ÿ 3) ações. Ambas as componentes da velocidade estão restritas a serem não negativas e
menores que 5, e ambas não podem ser zero, exceto na linha de partida. Cada episódio começa em
um dos estados iniciais selecionados aleatoriamente com ambas as componentes de velocidade
zero e termina quando o carro cruza a linha de chegada. As recompensas são 1 para cada etapa
até o carro cruzar a linha de chegada. Se o carro atingir o limite da pista, ele será movido de volta
para uma posição aleatória na linha de partida, ambas as componentes da velocidade serão reduzidas a zero e o
Machine Translated by Google
Terminar
linha
Terminar
linha
o episódio continua. Antes de atualizar a localização do carro a cada passo de tempo, verifique se
o caminho projetado do carro cruza o limite da pista. Se cruzar a linha de chegada,
o episódio termina; se cruzar com qualquer outro lugar, considera-se que o carro atingiu a pista
limite e é enviado de volta à linha de partida. Para tornar a tarefa mais desafiadora, com
probabilidade 0,1 em cada passo de tempo os incrementos de velocidade são ambos zero, independentemente de
os incrementos pretendidos. Aplique um método de controle de Monte Carlo a esta tarefa para calcular
a política ótima de cada estado inicial. Exiba diversas trajetórias seguindo o
política ideal (mas desligue o ruídoÿ para essas trajetórias). ÿ
variação infinita. Consideremos agora uma ideia para evitar esta grande variação estranha.
A essência da ideia é pensar no desconto como uma determinação de uma probabilidade de
rescisão ou, equivalentemente, de um grau de rescisão parcial. Para qualquer 2 [0, 1), podemos pensar
no retorno G0 como terminando parcialmente em uma etapa, no grau 1, produzindo um retorno apenas
da primeira recompensa, R1, e terminando parcialmente após duas etapas, no grau (1), produzindo
um retorno de R1 + R2, e assim por diante. O último grau corresponde a terminar no segundo degrau,
1, e ainda não ter terminado no primeiro degrau, . ,O grau de terminação na terceira etapa é, portanto,
(1 )2, refletindo que a terminação não ocorreu em nenhuma das duas primeiras etapas. Os retornos 2
parciais aqui são chamados de retornos parciais planos:
t2T(s) ÿ (1 ) PT(t)1
h=t+1 ht1ÿt:h1G¯t:h + T(t)t1ÿt:T(t)1G¯t:T(t) ÿ
PV(s)=. , (5.9)
|T(s)|
e um estimador de amostragem de importância ponderada, análogo a (5.6), como
P t2T(s) ÿ ) PT(t)1
h=t+1 ht1ÿt:h1G¯t:h + T(t)t1ÿt:T(t)1G¯t:T(t) ÿ ht1ÿt:h1
V(s) . = . (5.10)
P (1 t2T(s) ÿ (1 ) PT(t)1
h=t+1 + T(t)t1ÿt:T(t)1 ÿ
Chamamos esses dois estimadores de estimadores de amostragem de importância com reconhecimento
de desconto. Eles levam em conta a taxa de desconto, mas não têm efeito (são iguais aos estimadores
de política externa da Seção 5.5) se = 1.
Machine Translated by Google
Os estimadores oÿ-política baseiam-se nos valores esperados destes termos, que podem ser escritos de
uma forma mais simples. Observe que cada subtermo de (5.11) é um produto de uma recompensa aleatória
e uma razão aleatória de amostragem de importância. Por exemplo, o primeiro subtermo pode ser escrito,
usando (5.3), como
De todos estes factores, pode-se suspeitar que apenas o primeiro e o último (a recompensa) estão
relacionados; todos os outros são para eventos que ocorreram após a recompensa. Além disso, o
valor esperado de todos esses outros fatores é um:
. ÿ(a|Sk)
= X = XSk)
b(a|Sk) ÿ(a|Sk)=1. b(a| (5.13)
b(Ak|Sk)
E ÿ ÿ(Ak|Sk)
a a
Com mais alguns passos, pode-se mostrar que, como se suspeita, todos esses outros fatores não têm
efeito na expectativa, em outras palavras, que
Segue-se então que a expectativa do nosso termo original (5.11) pode ser escrita
onde
T
G˜t = ÿt:tRt+1 + ÿt:t+1Rt+2 + 2ÿt:t+2Rt+3 + ··· + t1ÿt:T 1RT .
Chamamos essa ideia de amostragem de importância por decisão. Segue-se imediatamente que existe
um estimador de amostragem de importância alternativo, com a mesma expectativa imparcial (no caso
da primeira visita) que o estimador de amostragem de importância ordinária (5.5), usando G˜t:
V(s) . = , (5.15)
|T(s)|
Machine Translated by Google
5.10 Resumo
Os métodos de Monte Carlo apresentados neste capítulo aprendem funções de valor e políticas
ótimas a partir da experiência na forma de episódios de amostra. Isto lhes dá pelo menos três tipos
de vantagens sobre os métodos DP. Primeiro, eles podem ser usados para aprender o comportamento
ideal diretamente da interação com o ambiente, sem nenhum modelo da dinâmica do ambiente . Em
segundo lugar, eles podem ser usados com modelos de simulação ou de amostra. Surpreendentemente,
para muitas aplicações é fácil simular episódios amostrais, embora seja difícil construir o tipo de
modelo explícito de probabilidades de transição exigido pelos métodos DP.
Terceiro, é fácil e eficiente concentrar os métodos de Monte Carlo num pequeno subconjunto de estados.
Uma região de interesse especial pode ser avaliada com precisão sem o custo de avaliar com
precisão o resto do conjunto de estados (exploraremos isso mais detalhadamente no Capítulo 8).
Uma quarta vantagem dos métodos de Monte Carlo, que discutiremos mais adiante neste livro, é que
eles podem ser menos prejudicados por violações da propriedade de Markov. Isto acontece porque não
atualizam as suas estimativas de valor com base nas estimativas de valor dos estados sucessores.
Em outras palavras, é porque eles não inicializam.
Ao conceber métodos de controlo de Monte Carlo, seguimos o esquema geral de iteração política
generalizada (GPI) apresentado no Capítulo 4. A GPI envolve processos interactivos de avaliação e
melhoria de políticas. Os métodos de Monte Carlo proporcionam um processo alternativo de avaliação
de políticas. Em vez de usar um modelo para calcular o valor de cada estado, eles simplesmente
calculam a média de muitos retornos que começam no estado. Como o valor de um estado é o
retorno esperado, esta média pode tornar-se uma boa aproximação ao valor. Nos métodos de controlo
estamos particularmente interessados em aproximar funções de valor de acção, porque estas podem
ser utilizadas para melhorar a política sem necessitar de um modelo da dinâmica de transição do
ambiente. Os métodos de Monte Carlo misturam etapas de avaliação e melhoria de políticas, episódio
por episódio, e podem ser implementados de forma incremental, episódio por episódio.
Manter a exploração suficiente é um problema nos métodos de controle de Monte Carlo. Não
basta apenas seleccionar as acções actualmente estimadas como sendo as melhores, porque então
não serão obtidos retornos para acções alternativas e poderá nunca se saber que são realmente
melhores. Uma abordagem é ignorar este problema, assumindo que os episódios começam com
pares estado-ação selecionados aleatoriamente para cobrir todas as possibilidades. Tais inícios de
exploração podem, por vezes, ser organizados em aplicações com episódios simulados, mas são
improváveis na aprendizagem a partir de experiências reais. Nos métodos on-policy, o agente se compromete a semp
Machine Translated by Google
explorando e tenta encontrar a melhor política que ainda explora. Nos métodos oÿ-política, o agente
também explora, mas aprende uma política ótima determinística que pode não estar relacionada
com a política seguida.
A previsão da política Oÿ refere-se ao aprendizado da função de valor de uma política alvo a partir
de dados gerados por uma política de comportamento diferente. Tais métodos de aprendizagem baseiam-
se numa forma de amostragem por importância, ou seja, na ponderação dos retornos pelo rácio das
probabilidades de realização das acções observadas no âmbito das duas políticas, transformando assim
as suas expectativas da política comportamental para a política alvo. A amostragem de importância
ordinária utiliza uma média simples dos retornos ponderados, enquanto a amostragem de importância
ponderada utiliza uma média ponderada. A amostragem de importância ordinária produz estimativas
imparciais, mas tem variância maior, possivelmente infinita, enquanto a amostragem de importância
ponderada sempre tem variância finita e é preferida na prática. Apesar da sua simplicidade conceptual,
os métodos de Monte Carlo fora da política, tanto para previsão como para controlo, permanecem
incertos e são objecto de investigação contínua.
Os métodos de Monte Carlo tratados neste capítulo diferem dos métodos DP tratados no capítulo
anterior em dois aspectos principais. Primeiro, eles operam com base na experiência de amostra e,
portanto, podem ser usados para aprendizagem direta sem modelo. Em segundo lugar, eles não inicializam.
Ou seja, não atualizam as suas estimativas de valor com base em outras estimativas de valor.
Estas duas diferenças não estão intimamente ligadas e podem ser separadas. No próximo capítulo
consideraremos métodos que aprendem com a experiência, como os métodos de Monte Carlo, mas
também bootstrap, como os métodos DP.
5.1–2 Singh e Sutton (1996) distinguiram entre métodos MC de cada visita e de primeira visita e
provaram resultados relacionando esses métodos a algoritmos de aprendizagem por reforço.
O exemplo do blackjack é baseado em um exemplo usado por Widrow, Gupta e Maitra (1973).
O exemplo da bolha de sabão é um problema clássico de Dirichlet cuja solução de Monte
Carlo foi proposta pela primeira vez por Kakutani (1945; ver Hersh e Griego, 1969; Doyle e
Snell, 1984).
Barto e Duÿ (1994) discutiram a avaliação de políticas no contexto dos algoritmos clássicos
de Monte Carlo para resolução de sistemas de equações lineares. Eles usaram a análise de
Curtiss (1954) para apontar as vantagens computacionais da avaliação de políticas de Monte
Carlo para grandes problemas.
5.3–4 Monte Carlo ES foi apresentado na edição de 1998 deste livro. Essa pode ter sido a primeira
ligação explícita entre a estimativa de Monte Carlo e os métodos de controlo baseados na
iteração de políticas. Um dos primeiros usos dos métodos de Monte Carlo para estimar valores
de ação em um contexto de aprendizagem por reforço foi feito por Michie e
Machine Translated by Google
Câmaras (1968). No balanceamento de pólos (página 56), eles usaram médias de durações
de episódios para avaliar o valor (equilíbrio “vida” esperado) de cada ação possível em cada
estado e, em seguida, usaram essas avaliações para controlar as seleções de ação. Seu
método é semelhante em espírito ao Monte Carlo ES, com estimativas de MC para cada visita.
Narendra e Wheeler (1986) estudaram um método de Monte Carlo para cadeias de Markov
finitas ergódicas que usavam o retorno acumulado entre visitas sucessivas ao mesmo estado
como recompensa pelo ajuste das probabilidades de ação de um autômato de aprendizagem.
5.5 A aprendizagem eficiente sobre políticas foi reconhecida como um desafio importante que surge
em vários domínios. Por exemplo, está intimamente relacionado com a ideia de “intervenções”
e “contrafactuais” em modelos gráficos probabalísticos (bayesianos) (por exemplo, Pearl,
1995; Balke e Pearl, 1994). Os métodos de política Oÿ que utilizam amostragem por
importância têm uma longa história e ainda não são bem compreendidos. A amostragem de
importância ponderada, que às vezes também é chamada de amostragem de importância
normalizada (por exemplo, Koller e Friedman, 2009), é discutida por Rubinstein (1981),
Hesterberg (1988), Shelton (2001) e Liu (2001), entre outros.
A política-alvo na aprendizagem de políticas externas é por vezes referida na literatura
como a política de “estimativa”, como foi o caso na primeira edição deste livro.
5.9 A amostragem por importância por decisão foi introduzida por Precup, Sutton e Singh (2000).
Eles também combinaram a aprendizagem fora da política com a aprendizagem da diferença
temporal, traços de elegibilidade e métodos de aproximação, introduzindo questões sutis que
consideraremos em capítulos posteriores.
Machine Translated by Google
Machine Translated by Google
Capítulo 6
Se fosse necessário identificar uma ideia como central e nova para a aprendizagem por reforço,
seria, sem dúvida, a aprendizagem por diferença temporal (DT). A aprendizagem TD é uma
combinação de ideias de Monte Carlo e ideias de programação dinâmica (DP). Tal como os
métodos de Monte Carlo, os métodos TD podem aprender diretamente a partir da experiência
bruta, sem um modelo da dinâmica do ambiente. Assim como o DP, os métodos TD atualizam
as estimativas com base, em parte, em outras estimativas aprendidas, sem esperar por um
resultado final (eles são inicializados). A relação entre os métodos TD, DP e Monte Carlo é um
tema recorrente na teoria da aprendizagem por reforço; este capítulo é o início de nossa
exploração dele. Antes de terminarmos, veremos que essas ideias e métodos se misturam e
podem ser combinados de várias maneiras. Em particular, no Capítulo 7 apresentamos algoritmos
de n etapas, que fornecem uma ponte entre os métodos TD e Monte Carlo, e no Capítulo 12
apresentamos o algoritmo TD(), que os unifica perfeitamente .
Como sempre, começamos focando no problema de avaliação ou previsão de políticas, o
problema de estimar a função de valor vÿ para uma determinada política ÿ. Para o problema de
controle (encontrar uma política ótima), os métodos DP, TD e Monte Carlo usam alguma variação
de iteração de política generalizada (GPI). As diferenças nos métodos são principalmente
diferenças em suas abordagens para o problema de previsão.
6.1 Previsão de TD
Os métodos TD e Monte Carlo usam a experiência para resolver o problema de previsão. Dada
alguma experiência seguindo uma política ÿ, ambos os métodos atualizam sua estimativa V de vÿ
para os estados não-terminais St que ocorrem naquela experiência. Grosso modo, os métodos de
Monte Carlo esperam até que o retorno após a visita seja conhecido e então usam esse retorno
como alvo para V (St). Um método Monte Carlo simples para cada visita, adequado para ambientes
não estacionários, é
onde Gt é o retorno real após o tempo t, e ÿ é um parâmetro de tamanho de passo constante (cf.
Equação 2.4). Vamos chamar esse método de constante-ÿ MC. Enquanto os métodos de Monte
Carlo devem esperar até o final do episódio para determinar o incremento em V (St) (só então Gt
é conhecido), os métodos TD precisam esperar apenas até o próximo passo de tempo. No tempo
t + 1 eles formam imediatamente um alvo e fazem uma atualização útil usando a recompensa
observada Rt+1 e a estimativa V (St+1). O método TD mais simples faz a atualização
imediatamente na transição para St+1 e recebendo Rt+1. Com efeito, o alvo para a atualização
de Monte Carlo é Gt, enquanto o alvo para a atualização de TD é Rt+1 + V (St+1). Este
método TD é chamado TD(0), ou TD de uma etapa, porque é um caso especial dos métodos
TD() e TD de n etapas desenvolvidos no Capítulo 12 e no Capítulo 7. A caixa abaixo especifica
TD(0) completamente na forma processual.
Como TD(0) baseia sua atualização em parte em uma estimativa existente, dizemos que é um
método de bootstrapping, como DP. Sabemos pelo Capítulo 3 que
Grosso modo, os métodos de Monte Carlo usam uma estimativa de (6.3) como meta, enquanto os
métodos DP usam uma estimativa de (6.4) como meta. A meta de Monte Carlo é uma estimativa
porque o valor esperado em (6.3) não é conhecido; um retorno amostral é usado no lugar do retorno
real esperado. A meta DP é uma estimativa não por causa dos valores esperados, que são assumidos
como totalmente fornecidos por um modelo do ambiente, mas porque vÿ(St+1) não é conhecido e a
estimativa atual, V (St+1) , é usado em seu lugar. O alvo TD é uma estimativa por ambos os motivos:
ele amostra os valores esperados em (6.4) e usa a estimativa atual V em vez do verdadeiro vÿ.
Assim, os métodos TD combinam a amostragem de
Machine Translated by Google
Monte Carlo com o bootstrapping do DP. Como veremos, com cuidado e imaginação
isso pode nos levar um longo caminho para obter as vantagens de Monte Carlo e
Métodos DP.
À direita é mostrado o diagrama de backup para TD(0) tabular. O valor que
estimativa para o nó de estado no topo do diagrama de backup é atualizada em
com base na transição de uma amostra dele para o imediatamente seguinte
estado. Referimo-nos às atualizações TD e Monte Carlo como amostras de atualizações porque
eles envolvem olhar adiante para um estado sucessor de amostra (ou par estado-ação),
usando o valor do sucessor e a recompensa ao longo do caminho para calcular um
valor de backup e, em seguida, atualizando o valor do estado original (ou estado– DT(0)
par de ações) adequadamente. Amostras de atualizações diferem das atualizações esperadas
dos métodos DP, na medida em que são baseados em um único sucessor de amostra, e não em um
distribuição completa de todos os possíveis sucessores.
Finalmente, observe que a quantidade entre colchetes na atualização TD(0) é uma espécie de erro,
medindo a diferença entre o valor estimado de St e a melhor estimativa
Rt+1 + V (St+1). Esta quantidade, chamada de erro TD, surge de várias formas ao longo do tempo.
aprendizagem por reforço:
.
t
= Rt+1 + V (St+1) V (St). (6.5)
Observe que o erro TD em cada momento é o erro da estimativa feita naquele momento.
Como o erro TD depende do próximo estado e da próxima recompensa, na verdade não é
disponível até um passo depois. Ou seja, t t + 1. é o erro em V (St), disponível no tempo
Observe também que se a matriz V não mudar durante o episódio (como não acontece em
Métodos de Monte Carlo), então o erro de Monte Carlo pode ser escrito como uma soma de erros TD:
Esta identidade não é exata se V for atualizado durante o episódio (como é em TD(0)), mas se o
o tamanho do passo é pequeno, então ainda pode aguentar aproximadamente. Generalizações desta identidade
desempenham um papel importante na teoria e nos algoritmos de aprendizagem por diferença temporal.
Exercício 6.1 Se V muda durante o episódio, então (6.6) é válido apenas aproximadamente; o que
a diferença seria entre os dois lados? Deixe Vt denotar a matriz de valores de estado
usado no tempo t no erro TD (6.5) e na atualização TD (6.2). Refaça a derivação
acima para determinar o valor adicional que deve ser adicionado à soma dos erros de TD
para igualar o erro de Monte Carlo. ÿ
Machine Translated by Google
Exemplo 6.1: Dirigindo para casa Todos os dias, ao voltar do trabalho para casa, você tenta
prever quanto tempo levará para chegar em casa. Quando você sai do seu escritório, você anota a hora,
o dia da semana, o clima e qualquer outra coisa que possa ser relevante. Diga sobre isso
Sexta-feira você sai exatamente às 6 horas e estima que levará 30 minutos
para chegar em casa. Quando você chega ao seu carro, são 6h05 e você percebe que está começando a chover. Trac
geralmente é mais lento na chuva, então você reestima que levará 35 minutos a partir de então, ou um
total de 40 minutos. Quinze minutos depois você completou a parte da rodovia
sua jornada em tempo útil. Ao sair para uma estrada secundária, você reduz sua estimativa de
tempo total de viagem para 35 minutos. Infelizmente, neste ponto você fica preso atrás de um lento
caminhão, e a estrada é estreita demais para passar. Você acaba tendo que seguir o caminhão até
você entra na rua lateral onde mora às 6h40. Três minutos depois você está em casa.
A sequência de estados, tempos e previsões é a seguinte:
As recompensas neste exemplo são os tempos decorridos em cada trecho da jornada.1 Estamos
sem descontar ( = 1) e, portanto, o retorno para cada estado é o tempo real para ir de
esse estado. O valor de cada estado é o tempo esperado para ir. A segunda coluna de
números fornece o valor estimado atual para cada estado encontrado.
Uma maneira simples de visualizar a operação dos métodos de Monte Carlo é traçar o valor previsto
tempo total (a última coluna) ao longo da sequência, como na Figura 6.1 (esquerda). As setas vermelhas
mostram as mudanças nas previsões recomendadas pelo método MC constante (6.1), para
ÿ = 1. Esses são exatamente os erros entre o valor estimado (tempo previsto para ir)
em cada estado e o retorno real (tempo real para ir). Por exemplo, quando você saiu
estrada você pensou que levaria apenas mais 15 minutos para chegar em casa, mas na verdade
demorou 23 minutos. A Equação 6.1 se aplica neste ponto e determina um incremento no
estimativa de tempo a percorrer após sair da rodovia. O erro, Gt V (St), neste momento é
oito minutos. Suponha que o parâmetro de tamanho do passo, ÿ, seja 1/2. Então o tempo previsto para ir
após sair da rodovia seria revisado para cima em quatro minutos como resultado desta
experiência. Esta é provavelmente uma mudança muito grande neste caso; o caminhão provavelmente estava apenas
uma pausa infeliz. Em qualquer hipótese, a alteração só poderá ser feita off-line, ou seja, após você
chegaram em casa. Somente neste ponto você conhece algum dos retornos reais.
É necessário esperar até que o resultado final seja conhecido antes de a aprendizagem poder começar?
Suponha que em outro dia você estime novamente, ao sair do seu escritório, que levará 30
minutos para voltar para casa, mas então você fica preso em um enorme engarrafamento. Vinte e cinco
minutos depois de sair do escritório, você ainda está parado na estrada. Você agora
1Se este fosse um problema de controle com o objetivo de minimizar o tempo de viagem, então, é claro,
torne as recompensas o negativo do tempo decorrido. Mas porque estamos preocupados aqui apenas com
previsão (avaliação de políticas), podemos simplificar as coisas usando números positivos.
Machine Translated by Google
45 45
resultado real
resultado real
40 40
Tempo total Tempo total
de de
viagem viagem
35 35
previsto previsto
30 30
saindo do carro de saindo do 2º ano para casa chega estrada rua saindo do alcançar saindo da segunda casa chega rodovia estrada
escritório alcance casa rodovia escritório carro rua casa
Situação Situação
Figura 6.1: Alterações recomendadas no exemplo de condução para casa pelos métodos de Monte Carlo
(esquerda) e métodos TD (direita).
estime que levará mais 25 minutos para chegar em casa, num total de 50 minutos. Enquanto
espera no trac, você já sabe que sua estimativa inicial de 30 minutos foi otimista demais.
Você deve esperar até chegar em casa antes de aumentar sua estimativa para o estado
inicial? De acordo com a abordagem de Monte Carlo, você deve fazê-lo, porque ainda não
conhece o verdadeiro retorno.
De acordo com uma abordagem TD, por outro lado, você aprenderia imediatamente,
mudando sua estimativa inicial de 30 para 50 minutos. Na verdade, cada estimativa seria
deslocada em direção à estimativa que a segue imediatamente. Voltando ao nosso primeiro
dia de condução, a Figura 6.1 (à direita) mostra as alterações nas previsões recomendadas
pela regra TD (6.2) (estas são as alterações feitas pela regra se ÿ = 1). Cada erro é
proporcional à mudança ao longo do tempo da previsão, ou seja, às diferenças temporais nas previsões.
Além de lhe dar algo para fazer enquanto espera no trac, há diversas razões
computacionais pelas quais é vantajoso aprender com base em suas previsões atuais, em
vez de esperar até o término quando você sabe o retorno real. Discutiremos brevemente
alguns deles na próxima seção.
Exercício 6.2 Este é um exercício para ajudar a desenvolver a sua intuição sobre por que os métodos
TD são frequentemente mais eficientes que os métodos de Monte Carlo. Consideremos o exemplo do
caminho para casa e como ele é abordado pelos métodos TD e Monte Carlo. Você consegue imaginar
um cenário em que uma atualização de TD seria, em média, melhor do que uma atualização de Monte
Carlo? Dê um exemplo de cenário – uma descrição da experiência passada e um estado atual – no
qual você esperaria que a atualização do DT fosse melhor. Aqui vai uma dica: suponha que você tenha
muita experiência dirigindo do trabalho para casa. Então você se muda para um novo prédio e um novo
estacionamento (mas ainda entra na rodovia no mesmo local). Agora você está começando a aprender
as previsões para o novo edifício. Você consegue ver por que as atualizações do TD provavelmente
serão muito melhores, pelo menos inicialmente, neste caso? Poderia o mesmo tipo de coisa acontecer
no cenário original? ÿ
Machine Translated by Google
0
MC
Estimado 1 Erro RMS, 0,15
ÿ = 0,02
valor 0,4
média ÿ = 0,04
0,2
0,05
DT ÿ = 0,1
ÿ = 0,05
0 0
A B C D E 0 25 50 75 100
Estado Caminhadas / Episódios
O gráfico esquerdo acima mostra os valores aprendidos após vários números de episódios
em uma única execução de TD(0). As estimativas após 100 episódios são tão próximas quanto
eles sempre chegam aos valores verdadeiros - com um parâmetro de tamanho de passo constante (ÿ = 0,1
neste exemplo), os valores flutuam indefinidamente em resposta aos resultados
dos episódios mais recentes. O gráfico da direita mostra curvas de aprendizado para os dois
métodos para vários valores de ÿ. A medida de desempenho mostrada é a raiz
erro quadrático médio (RMS) entre a função de valor aprendida e o valor verdadeiro
função, calculada a média dos cinco estados e, em seguida, calculada a média de 100 execuções. Em todos os casos o
função de valor aproximado foi inicializada para o valor intermediário V (s)=0,5, para
tudo S. O método TD foi consistentemente melhor que o método MC nesta tarefa.
Machine Translated by Google
Exercício 6.3 A partir dos resultados mostrados no gráfico esquerdo do exemplo do passeio aleatório,
parece que o primeiro episódio resulta em alteração apenas em V (A). O que isso diz a você
sobre o que aconteceu no primeiro episódio? Por que apenas a estimativa para este estado foi
mudado? Exatamente em quanto foi alterado? ÿ
Exercício 6.4 Os resultados específicos mostrados no gráfico direito do exemplo do passeio aleatório
dependem do valor do parâmetro de tamanho do passo, ÿ. Você acha que as conclusões
sobre qual algoritmo é melhor seria afetado se uma faixa mais ampla de valores ÿ fosse usada?
Existe um valor fixo diferente de ÿ no qual qualquer um dos algoritmos teria executado
significativamente melhor do que o mostrado? Por que ou por que não? ÿ
ÿ
Exercício 6.5 No gráfico da direita do exemplo do passeio aleatório, o erro RMS do
O método TD parece cair e subir novamente, especialmente em ÿ altos. O que poderia
causaram isso? Você acha que isso sempre ocorre ou pode ser uma função de como o
a função de valor aproximado foi inicializada? ÿ
Exercício 6.6 No Exemplo 6.2 afirmamos que os valores verdadeiros para o exemplo do passeio aleatório
são 1 2 3 4 5
e6, 6, para os estados de A a E. Descreva pelo menos duas maneiras diferentes de
6,6,6,
estes poderiam ter sido calculados. Qual você acha que realmente usamos? Por que? ÿ
as curvas de aprendizado mostradas na Figura 6.2. Observe que o método TD em lote foi consistentemente
melhor que o método de Monte Carlo em lote.
A, 0, B, 0 B, 1
B, 1 B, 1
B, 1 B, 1
B, 1 B, 0
Isso significa que o primeiro episódio começou no estado A, transitou para B com uma recompensa de
0, e então encerrado em B com uma recompensa de 0. Os outros sete episódios foram pares
mais curto, começando em B e terminando imediatamente. Dado esse lote de dados, o que
você diria que são as previsões ótimas, os melhores valores para as estimativas V (A) e
3
V (B)? Todos provavelmente concordariam que o valor ideal para V (B) é porque seis
4 , das oito vezes no estado B o processo terminou imediatamente com um retorno de 1,
e nas outras duas vezes em B o processo terminou imediatamente com retorno 0.
Mas qual é o valor ideal para a estimativa V (A) dados esses dados? Aqui há
duas respostas razoáveis. Uma delas é observar que 100% dos
vezes em que o processo estava no estado A, ele passou imediatamente para
B (com recompensa 0); e porque já decidimos r=1
3 portanto A deve ter valor
que B também tem valor. 3 75%
4, 4 r=0
Uma maneira de ver esta resposta é que ela se baseia primeiro A 100% B
modelando o processo de Markov, neste caso conforme mostrado ao r=0
25%
certo e, em seguida, calcular as estimativas corretas, dadas as
3
modelo, que de fato neste caso dá V (A) = 4 . Isso é
Machine Translated by Google