Bowen Baker

Universidade Estadual do Maranhão –UEMA
Aluno: Arthur Felipe Galvão Rocha

Prof.: Roberto Veloso
Disciplina: Metodologia Científica
Pré-treinamento de vídeo: Aprendendo a agir observando vídeos online não

rotulados
Arthur Galvão, Roberto Veloso

(Graduação em Engenharia de Computação - UEMA, email: jonas_sala@live.com)
(Docente do Departamento de Zootecnia – UEMA, email: rrvelosojr@yahoo.com.br)
• Resumo
O pré-treinamento em conjuntos de dados em escala da internet tem sido amplamente estudado

como uma técnica para treinar modelos com capacidades amplas e gerais para texto, imagens e
outras modalidades1-6. No entanto, para muitos domínios de decisão sequencial, os dados
disponíveis publicamente não contêm os rótulos necessários para treinar prioridades
comportamentais da mesma maneira. Estendemos o paradigma de pré-treinamento para
domínios de decisão sequenciais por meio de aprendizado por imitação semi-supervisionado,
no qual os agentes aprendem a agir observando vídeos não rotulados online. Especificamente,
mostramos que, com uma pequena quantidade de dados rotulados, podemos treinar um modelo
de dinâmica inversa preciso o suficiente para rotular uma enorme fonte não rotulada de dados
online a partir dos quais podemos então treinar uma prioridade comportamental geral.
Mostramos que essa prioridade comportamental possui capacidades significativas de "zero-
shot" e que ela pode ser ajustada, para tarefas de exploração difícil que são impossíveis de
aprender do zero por meio de aprendizado por reforço. Para muitas tarefas, nossos modelos
exibem desempenho comparável ao humano, e somos os primeiros a relatar agentes de
computador que podem criar ferramentas de diamante, algo que leva humanos competentes
mais de 20 minutos de jogo para realizar.
• Introdução
O trabalho nos últimos anos tem demonstrado a eficácia do pré-treinamento de modelos de
fundação grandes15 e gerais em conjuntos de dados ruidosos em escala da internet para uso em
tarefas secundárias em linguagem natural e visão computacional. Para domínios de decisão
sequencial (por exemplo, robótica, jogos e uso de computador) nos quais os agentes devem agir
repetidamente dentro de um ambiente, também existe uma grande quantidade de dados na web.
No entanto, a maioria desses dados está na forma de vídeos não rotulados (ou seja, sem as ações
tomadas em cada quadro), o que torna muito menos direto treinar uma prioridade
comportamental nesses domínios do que é, por exemplo, na linguagem natural. Em alguns
poucos cenários raros, como xadrez, Go e StarCraft, já existem grandes conjuntos de dados com
rótulos de ações de várias plataformas online que os pesquisadores têm usado para aprendizado
por imitação. Quando grandes conjuntos de dados rotulados não existem, a estratégia canônica
para treinar agentes capazes é o aprendizado por reforço (RL), que pode ser ineficiente em
termos de amostras e caro para problemas de exploração difícil. Muitas tarefas virtuais, como
navegar em sites, usar o Photoshop, reservar voos, etc., podem ser muito difíceis de aprender
com RL e não possuem fontes grandes e comuns de dados rotulados disponíveis. Neste artigo,
buscamos estender o paradigma de treinar modelos de fundação grandes e de propósito geral
para domínios de decisão sequencial, utilizando conjuntos de dados de vídeos não rotulados em
escala da internet, livremente disponíveis, com um método simples de aprendizado por imitação
semi-supervisionado. Chamamos esse método de Pré-Treinamento de Vídeo (VPT) e
demonstramos sua eficácia no domínio do Minecraft.
Métodos existentes de aprendizado por imitação semi-supervisionado visam aprender com
poucos ou nenhum rótulo explícito de ação; no entanto, geralmente dependem da capacidade
da política de explorar o ambiente durante o treinamento, tornando-os suscetíveis a gargalos de
exploração. Além disso, a maioria dos trabalhos anteriores de aprendizado por imitação semi-
supervisionado foi testada em um regime de dados relativamente baixo; como experimentamos
com muito mais dados (cerca de 70.000 horas de vídeo não rotulado), hipotetizamos que
podemos alcançar bom desempenho com um método muito mais simples, uma tendência que
se mostrou verdadeira para o pré-treinamento em outras modalidades, como texto. Em
particular, dado um conjunto de dados grande, mas não rotulado, propomos gerar
pseudorrótulos coletando uma pequena quantidade de dados rotulados para treinar um modelo
de dinâmica inversa (IDM) que prevê a ação tomada em cada passo de tempo em um vídeo. A
clonagem comportamental (BC) pode exigir uma grande quantidade de dados, porque o modelo
deve aprender a inferir intenções e a distribuição de comportamentos futuros apenas a partir de
observações passadas. Em contraste, a tarefa de modelagem de dinâmica inversa é mais simples
porque é não causal, ou seja, pode analisar tanto frames passados quanto futuros para inferir
ações. Na maioria das situações, a mecânica do ambiente é muito mais simples do que a
amplitude do comportamento humano que pode ocorrer dentro do ambiente, sugerindo que os
IDMs não causais podem exigir muito menos dados para treinar do que os modelos de clonagem
comportamental causais. Usando pseudorrótulos gerados a partir do IDM, em seguida,
treinamos um modelo para imitar a distribuição de comportamento no conjunto de dados
previamente não rotulado com clonagem comportamental padrão em escala, o que não requer
nenhuma simulação do modelo e, portanto, não sofre de potenciais gargalos de exploração no
ambiente. Finalmente, mostramos que podemos ajustar esse modelo para tarefas secundárias
com clonagem comportamental ou aprendizado por reforço.
Escolhemos testar nosso método no Minecraft porque (a) é um dos jogos mais jogados do
mundo e, portanto, possui uma grande quantidade de dados de vídeo disponíveis online, (b) é
um jogo de mundo aberto com uma ampla variedade de coisas a fazer, construir e coletar,
tornando nossos resultados mais aplicáveis a aplicações do mundo real, como uso de
computador, que também tende a ser variado e aberto, e (c) já despertou interesse na
comunidade de aprendizado por reforço como um domínio de pesquisa devido à sua
complexidade e aos desafios de exploração correspondentes. Neste trabalho, usamos a interface
humana nativa do Minecraft para que possamos (1) modelar com mais precisão a distribuição
de comportamento humano e reduzir a diferença de domínio entre os dados de vídeo e o
ambiente, (2) facilitar a coleta de dados permitindo que nossos contratados humanos joguem o
jogo sem modificações, e (3) eliminar a necessidade de projetar manualmente uma interface
personalizada para os modelos interagirem com o ambiente. Essa escolha significa que nossos
modelos jogam a 20 quadros por segundo e devem usar uma interface de mouse e teclado para
interagir com interfaces gráficas do usuário humanas para criação, fundição, negociação, etc.,
incluindo arrastar itens para slots específicos ou navegar no livro de receitas com o cursor do
mouse. Em comparação com trabalhos anteriores no Minecraft que usam uma taxa de quadros
mais baixa e criam macros para criação e ataque, o uso da interface humana nativa aumenta
drasticamente a dificuldade de exploração do ambiente, tornando a maioria das tarefas simples
quase impossíveis de serem aprendidas do zero com RL. Mesmo a simples tarefa de coletar um
único tronco de madeira enquanto se está de frente para uma árvore requer 60 ações de ataque
consecutivas com a interface humana, o que significa que a chance de sucesso de uma política
aleatória ingênua é de 1/260. Embora este artigo mostre resultados apenas no Minecraft, o
método VPT é geral e pode ser aplicado a qualquer domínio.
• Material e métodos
Modelos de Dinâmica Inversa (IDM):
VPT exige que primeiro coletemos uma pequena quantidade de dados rotulados de contratantes
para treinar um modelo de dinâmica inversa pIDM(at|o1...T), que busca minimizar a log-
verossimilhança negativa de uma ação no instante de tempo t, dado uma trajetória de T
observações ot: t ∈ [1...T]. Ao contrário de uma política de aprendizado por imitação, o IDM
pode ser não causal, ou seja, sua previsão para at pode ser uma função tanto de eventos passados
quanto futuros, ou seja, ot<0>t. Comparado ao objetivo de clonagem comportamental de
modelar a distribuição de intenção humana apenas com base em frames passados, hipotetizamos
que inverter a dinâmica do ambiente é mais fácil e eficiente em termos de dados para aprender.
Esse IDM pode ser usado para rotular vídeos online, fornecendo a grande quantidade de dados
necessária para a tarefa mais difícil de clonagem comportamental.
Filtragem de Dados:
Coletaremos um grande conjunto de dados de vídeos do Minecraft pesquisando na web por
palavras-chave relacionadas. Os vídeos online frequentemente (1) incluem artefatos
sobrepostos, como uma transmissão de vídeo do rosto do jogador, logotipos de canais, marcas
d'água, etc., (2) são coletados de plataformas diferentes de um computador com jogabilidade
diferente, ou (3) são de modos de jogo diferentes, por exemplo, no Minecraft, queremos apenas
o "modo sobrevivência", onde os jogadores começam do zero e devem coletar ou criar todos os
seus itens. Chamamos os dados de "limpos" se eles não contêm artefatos visuais e são do modo
de sobrevivência, e chamamos todos os outros dados de "não limpos". Com dados suficientes,
um modelo de BC (clonagem comportamental) treinado em vídeos não limpos e limpos tem a
possibilidade de obter um bom desempenho em um ambiente limpo do Minecraft. No entanto,
por simplicidade e eficiência no treinamento, optaremos por filtrar segmentos de vídeo não
limpos (observe que um vídeo pode conter segmentos limpos e não limpos). Faremos isso
treinando um modelo para filtrar segmentos não limpos usando um pequeno conjunto de dados
(8800) de imagens amostradas de vídeos online rotulados por contratantes como limpos ou não
limpos.
Modelo de Fundação VPT:
Treinaremos um modelo de fundação com clonagem comportamental padrão, ou seja,
minimizando a log-verossimilhança negativa das ações previstas pelo IDM em dados limpos.
• Resultados e discussão
1 - Desempenho do Modelo de Dinâmica Inversa
Figura 1: (Esquerda) Precisão das teclas e R2 do movimento do mouse ( Robert George Douglas
Steel, James Hiram Torrie, et al. Principles and procedures of statistics. Principles and
procedures of statistics ., 1960.) do IDM em função do tamanho do conjunto de dados. (Direita)
Eficiência dos dados do IDM em comparação com a clonagem comportamental.
A arquitetura IDM é composta principalmente por uma camada de convolução temporal, uma
pilha de processamento de imagens ResNet (Kaiming He et al. Deep residual learning for
image recognition. In Proceedings of the IEEE conference on computer vision and pattern
recognition, pages 770–778, 2016.) e camadas de atenção residual não mascaradas, a partir das
quais o IDM prevê simultaneamente pressionamentos de teclas e movimentos do mouse. Uma
das principais hipóteses por trás do nosso trabalho é que os IDMs podem ser treinados com uma
quantidade relativamente pequena de dados rotulados. Embora mais dados melhorem tanto as
previsões de movimentos do mouse quanto de pressionamentos de teclas, nosso melhor
desempenho é alcançado com apenas 1962 horas de treinamento (em comparação com as
∼70.000 horas de dados limpos que coletamos da internet) e obtém 90,6% de precisão nos
pressionamentos de teclas e um R2 de 0,97 para movimentos do mouse avaliados em um
conjunto de validação separado de dados rotulados por contratantes.
A Figura 1 valida nossa hipótese de que os IDMs são muito mais eficientes em termos de dados
do que os modelos de clonagem comportamental (BC), provavelmente porque inverter a
mecânica do ambiente é muito mais fácil do que modelar toda a distribuição do comportamento
humano. O IDM é duas ordens de magnitude mais eficiente em termos de dados do que um
modelo BC treinado nos mesmos dados e melhora mais rapidamente com mais dados. Essas
evidências apoiam a hipótese de que é mais eficaz usar dados de contratantes dentro do pipeline
VPT treinando um IDM do que treinar um modelo base diretamente com dados de contratantes.
2 - Treinamento do Modelo Base do VPT e Desempenho sem Treinamento
Figura 2: (Esquerda) Perda de treinamento e validação no conjunto de dados web_clean da internet com
pseudorótulos do IDM e perda no conjunto de dados principal do contratante do IDM, que possui rótulos reais,
mas está fora da distribuição (consulte o texto). (Direita) Quantidade de itens coletados por episódio em média ao
longo de 2500 episódios de sobrevivência de 60 minutos, em função da época de treinamento, sombreado com o
erro padrão da média. A mineração básica refere-se à coleta de terra, cascalho ou areia (todos os materiais que
podem ser obtidos sem ferramentas). Os troncos são obtidos ao bater repetidamente em árvores por três segundos,
uma tarefa difícil para um agente de RL, como mostramos na seção 4.4. As tábuas podem ser fabricadas a partir
dos troncos, e mesas de criação podem ser feitas a partir das tábuas. A criação requer o uso de interfaces de criação
do jogo, e humanos proficientes levam uma mediana de 50 segundos (970 ações consecutivas) para fazer uma
mesa de criação.
Agora exploramos o comportamento emergente aprendido por uma política de clonagem

comportamental treinada em um conjunto de dados extremamente grande, mas ruidoso, da
internet, rotulado com o nosso IDM. Para coletar o conjunto de dados da internet não rotulado,
procuramos por vídeos disponíveis publicamente de jogos de Minecraft usando termos de
pesquisa como "Minecraft survival para iniciantes". Essas buscas resultaram em
aproximadamente 270 mil horas de vídeo, que filtramos para segmentos de vídeo "limpos",
resultando em um conjunto de dados não rotulado de aproximadamente 70 mil horas, que
chamamos de web_clean. Em seguida, geramos pseudorótulos para o web_clean com o nosso
melhor IDM e, em seguida, treinamos o modelo base do VPT com clonagem comportamental.
Experimentos preliminares sugeriram que nosso modelo poderia se beneficiar de 30 épocas de
treinamento e que um modelo com 0,5 bilhão de parâmetros era necessário para permanecer no
regime eficiente de aprendizado (Jared Kaplan et al. Scaling laws for neural language models.
2020.) durante essa duração do treinamento, que levou cerca de 9 dias em 720 GPUs V100.
Avaliamos nossos modelos medindo a perda de validação (Figura 2, à esquerda) e testando-os
no ambiente do Minecraft. A menos que indicado de outra forma, em todas as avaliações do
ambiente, nós fazemos com que os agentes sejam gerados em um jogo de modo sobrevivência
padrão, onde jogam por 60 minutos, ou seja, 72.000 ações consecutivas, e plotamos a média e
sombreamos o erro padrão da média para várias estatísticas do jogo, como taxas de criação e
coleta (Figura 2, à direita). O modelo base do VPT rapidamente aprende a derrubar árvores para
coletar troncos, uma tarefa que descobrimos ser quase impossível para um agente de RL realizar
com a interface humana nativa. Ele também aprende a fabricar esses troncos em tábuas de
madeira e depois usar essas tábuas para criar uma mesa de criação, que é necessária para
desbloquear a maioria das outras tecnologias do jogo e leva um humano proficiente em
Minecraft aproximadamente 50 segundos (970 ações consecutivas) para fazer. Embora esses
comportamentos sejam bastante complexos no espaço de ação humano nativo, o modelo base
do VPT fabrica esses itens a uma taxa muito inferior à dos nossos contratantes proficientes, por
exemplo, em média, nossos contratantes fabricam 5,44 mesas de criação em 60 minutos de
jogo, em comparação com 0,19 para o modelo base. O modelo também fabrica uma quantidade
não negligenciável de paus de madeira, necessários para fazer ferramentas de madeira; coleta
várias flores e fabrica corantes a partir delas; mata zumbis que aparecem durante a noite; caça
animais selvagens; coleta várias bagas e cogumelos e os come; e encontra aldeias geradas pelo
jogo para coletar vários itens raros de baús. O modelo também aprendeu a navegar em terrenos
irregulares, nadar e pular em pilares, o que envolve o agente pulando repetidamente e
rapidamente colocando um bloco abaixo de si mesmo para subir.
Embora a perda de treinamento e validação diminua de forma saudável durante o treinamento
(Figura 2, à esquerda), a perda em nosso conjunto de dados de contratantes (no qual o modelo
VPT não é treinado) começa a aumentar após 7 épocas. Os dados dos contratantes podem estar
fora da distribuição porque nossos contratantes podem ter uma distribuição de jogo diferente
ou porque há uma mudança de domínio visual impactante em comparação com os vídeos da
web. Embora se pudesse esperar que isso fosse preditivo de um desempenho de avaliação em
declínio, não observamos estatísticas notáveis do jogo nas execuções do modelo base do VPT
(Figura 2, à direita) diminuírem durante o treinamento, e na próxima seção mostraremos que o
desempenho da afinação com clonagem comportamental melhora continuamente à medida que
o modelo base do VPT é treinado.
3 - Afinação com Clonagem Comportamental
Figura 3: (Esquerda) Taxas de coleta e criação para três políticas: o modelo base de zero-shot VPT e o modelo
base VPT afinado com BC para os conjuntos de dados earlygame_keyword e contractor_house. A afinação com
BC para qualquer um dos conjuntos de dados melhora o desempenho, incluindo (para o conjunto de dados
contractor_house) a obtenção de ferramentas de madeira e pedra. Jogadores proficientes de Minecraft levam, em
média, 1,2 minutos (1390 ações) para construir ferramentas de madeira e 2,3 minutos (2790 ações) para construir
ferramentas de pedra. (Direita) Taxas de coleta e criação para instantâneos do modelo base VPT ao longo do
treinamento após a afinação com BC para o conjunto de dados contractor_house. Em geral, os comportamentos
relacionados à criação aumentam durante todo o treinamento do modelo base. A Figura 2 define os outros termos
das tarefas (toras, tábuas, mesas de criação e criação total).
Os modelos fundamentais são projetados para ter um perfil de comportamento amplo e serem
geralmente capazes em uma ampla variedade de tarefas. Para incorporar novos conhecimentos
ou permitir que eles se especializem em uma distribuição de tarefas mais estreita, é prática
comum afinar desses modelos para conjuntos de dados menores e mais específicos. O modelo
base VPT treinado no amplo conjunto de dados web_clean teve um desempenho significativo
de zero-shot; ele foi capaz de criar uma mesa de criação, mas incapaz de avançar além disso na
árvore de tecnologia. Como estudo de caso para a afinação com clonagem comportamental,
tentamos melhorar a capacidade do modelo base VPT de coletar e criar esses itens "iniciais do
jogo" afinando-o para dois conjuntos de dados mais específicos direcionados ao comportamento
do Minecraft nos primeiros minutos dos jogadores em um novo mundo. No primeiro conjunto
de dados, contractor_house, os contratantes têm 10 minutos para construir uma casa básica do
zero, usando principalmente madeira, areia e terra. Coletar dados de contratantes pode ser difícil
e caro, então também construímos um conjunto de dados earlygame_keyword, pesquisando por
vídeos online com descrições que correspondem a palavras-chave como "novo mundo",
"episódio 1 de let's play", etc.; este é um subconjunto de web_clean e é rotulado com o IDM.
A afinação para o conjunto de dados earlygame_keyword resulta em um grande impulso em
comparação com o modelo base de zero-shot: 2,5 vezes mais mesas de criação, 6,1 vezes mais
tábuas, 4,3 vezes mais toras e um aumento geral de 5,5 vezes na criação (Fig. 3). No entanto,
ao afinar para esse conjunto de dados, não vimos novos comportamentos surgirem, apenas um
refinamento das habilidades existentes. Observamos uma melhoria ainda maior ao afinar para
o conjunto de dados contractor_house: 213 vezes mais mesas de criação, 59 vezes mais tábuas
de madeira, 7 vezes mais toras e 59 vezes mais criação no geral. Além disso, vimos o
surgimento da criação de ferramentas de madeira, que requer colocar uma mesa de criação no
chão, abri-la para revelar uma nova interface de criação e, em seguida, usá-la para criar
ferramentas de madeira. Essa sequência completa leva, em média, 1,2 minutos (1390 ações
consecutivas) para ser realizada por um jogador humano proficiente. O modelo vai além e coleta
pedra, que requer uma picareta de madeira para ser extraída, e cria ferramentas de pedra,
exigindo que ele use novamente uma mesa de criação; isso leva, em média, 2,3 minutos (2790
ações consecutivas) para ser realizado por um jogador humano proficiente. Também
observamos que esse modelo com mais frequência saqueia aldeias que aparecem aleatoriamente
no jogo, caça animais em busca de comida, além de muitos outros comportamentos que vimos
executados pelo modelo base.
Apesar do desempenho do modelo base no rollout de zero-shot atingir um platô após 1/3 do
treinamento (Fig. 2, à direita), o desempenho da afinação continua a aumentar durante todo o
treinamento do modelo base (Fig. 3, à direita). Além disso, há uma diferença acentuada no
desempenho ao treinar a partir do zero em comparação com a afinação a partir do modelo base
VPT (Fig. 3, à direita, comparando os pontos mais à esquerda e à direita).
4 - Afinação com Aprendizado por Reforço
Figura 4: Sequência típica de itens para obter uma picareta de diamante. Abaixo de cada item está o tempo mediano
e o número de ações necessárias para os contratados obterem esse item, e a porcentagem de contratados que
conseguiram obter o item dentro de 10 minutos. O tempo mediano para obter uma picareta de diamante é
desconhecido (exceto que é > 20 minutos) porque os contratados obtiveram esse item em menos de 50% dos
episódios de 20 minutos.
Para demonstrar a eficácia da afinação com RL, escolhemos o desafiador objetivo de obter uma
picareta de diamante em até 10 minutos a partir de um novo mundo de sobrevivência do
Minecraft. Isso envolve adquirir uma sequência de itens difíceis de obter, que requerem
habilidades complexas como mineração, gerenciamento de inventário, criação com e sem uma
mesa de criação, uso de ferramentas, operação de uma fornalha e mineração nas profundezas
mais baixas, onde existem muitos perigos como inimigos e lava (Figura 4). Além disso, é fácil
perder o progresso ao soltar itens, destruí-los ou morrer. Obter uma picareta de diamante na
maioria das vezes leva um jogador proficiente mais de 20 minutos (24.000 ações).
Os agentes são recompensados por cada item obtido na sequência, com recompensas menores
para itens que precisam ser coletados em grande quantidade e recompensas maiores para itens
próximos ao final da sequência. Os agentes são otimizados com o algoritmo de gradiente de
política fásica (Karl W. Cobbe et al. Phasic policy gradient. Proceedings of the 38th
International Conference on Machine Learning, volume 139 of Proceedings of Machine
Learning Research, páginas 2020–2027. PMLR, 18–24 Jul 2021.) de RL para cerca de 1,3
milhão de episódios (aproximadamente 1,4 × 10^10 quadros). Os episódios têm duração de 10
minutos. Devido a restrições computacionais, os experimentos de RL utilizam um modelo VPT
com aproximadamente 248 milhões de parâmetros.
Um grande problema ao fazer afinação com RL é o esquecimento catastrófico 11,12 pois as
habilidades previamente aprendidas podem ser perdidas antes que seu valor seja percebido. Por
exemplo, embora nosso modelo base de VPT nunca exiba a sequência completa de
comportamentos necessários para fundir minério de ferro no zero-shot, ele foi treinado em
exemplos de jogadores fundindo com fornalhas. Portanto, pode ter alguma capacidade latente
de fundir minério de ferro uma vez que os muitos pré-requisitos para o fazer tenham sido
executados. Para combater o esquecimento catastrófico das habilidades latentes, de modo que
elas possam continuar a melhorar a exploração durante a afinação com RL, adicionamos uma
perda auxiliar de divergência Kullback-Leibler (KL) entre o modelo de RL e a política pré-
treinada congelada (Oriol Vinyals et al. Grandmaster level in starcraft ii using multi-agent
reinforcement learning. Nature, 575(7782):350–354, 2019. 10).
Figura 5: Resultados da afinação com RL. (a) RL a partir de um modelo inicializado aleatoriamente falha em obter
quase qualquer recompensa, a afinação com RL a partir do modelo base VPT tem um desempenho
substancialmente melhor, com uma recompensa próxima de 13, e o afinação com RL a partir do modelo de início
de jogo tem o melhor desempenho, com uma recompensa de 25.
Ao treinar o modelo de início de jogo sem uma perda KL em relação à política original (Sem
perda KL), o progresso estagna após 100.000 episódios, sugerindo que as habilidades
necessárias para fazer mais progressos foram esquecidas de forma catastrófica. (b) RL a partir
de um modelo inicializado aleatoriamente ocasionalmente coleta gravetos quebrando folhas
(um método fácil, mas ineficiente de obter gravetos que não requer toras ou tábuas) e nunca
aprende a coletar toras de forma confiável. (c) A afinação com RL a partir do modelo base VPT
aprende tudo no currículo até o minério de ferro e a criação de fornalhas, mas não aprende a
usar a fornalha para fundir barras de ferro. (d) A afinação com RL a partir do modelo de início
de jogo aprende a obter (em nível humano) todos os itens na sequência em direção a uma
picareta de diamante e cria uma picareta de diamante em 2,5% dos episódios.
O treinamento a partir de uma política inicializada aleatoriamente não consegue alcançar quase
nenhuma recompensa, enfatizando o quão difícil é o desafio de exploração da tarefa da picareta
de diamante no espaço de ação humano nativo (Figura 5a). O modelo nunca aprende a coletar
toras de forma confiável, geralmente o primeiro de muitos passos para obter uma picareta de
diamante (Figura 5b). A afinação com RL a partir do modelo base VPT tem um desempenho
substancialmente melhor (Figura 5a), aprendendo tudo até a mineração de minério de ferro e a
criação de fornalhas (Figura 5c). No entanto, esse agente falha em fundir uma barra de ferro, o
próximo item necessário para avançar na árvore tecnológica, provavelmente porque a
probabilidade zero-shot de o modelo base VPT fundir uma barra de ferro é muito baixa, mesmo
quando são fornecidos os materiais pré-requisitos.
Os resultados melhoram ainda mais ao afinar primeiro o modelo base VPT para o conjunto de
dados earlygame_keyword e depois afinar com RL (Figura 5a), o que, em experimentos
preliminares, descobrimos que tem um desempenho melhor do que o afinação primeiro para
contractor_house, seguido de afinação com RL. O treinamento em três fases (pré-treinamento,
afinação com BC e, em seguida, afinação com RL) tem sucesso na aprendizagem de tarefas
extremamente difíceis: alcança mais de 80% de confiabilidade em picaretas de ferro, quase 20%
de confiabilidade na coleta de diamantes e 2,5% de confiabilidade na obtenção de uma picareta
de diamante (Figura 5d). Para comparação, jogadores humanos que recebem o objetivo de obter
uma picareta de diamante coletam esses itens em 57%, 15% e 12% dos episódios,
respectivamente, o que significa que nosso modelo tem um nível humano para a criação de
picaretas de ferro e mineração de diamantes. Outros conseguiram obter diamantes com uma
confiabilidade de aproximadamente 0,1% em 15 minutos, mas sempre com um espaço de ação
simplificado projetado para facilitar a exploração. Até onde sabemos, somos os primeiros a
relatar taxas de sucesso diferentes de zero na criação de uma picareta de diamante.
Qualitativamente, o modelo desenvolveu habilidades úteis para a mineração de diamantes,
como padrões de mineração eficientes, exploração de cavernas, retorno a objetos previamente
colocados como mesas de criação e técnicas avançadas, como o uso de picaretas de madeira
como combustível ao passar para ferramentas de ferro.
Por fim, validamos a importância da perda KL para o modelo pré-treinado durante a afinação
com RL. O tratamento sem a perda KL obtém apenas os itens iniciais da sequência (toras,
tábuas, gravetos e mesas de criação), limitando sua recompensa (Figura 5a). Essa falha em
progredir mais na sequência provavelmente ocorre porque, enquanto as habilidades iniciais de
cortar toras e criar tábuas estão sendo aprendidas com RL, habilidades subsequentes como criar
uma picareta de madeira são perdidas devido ao esquecimento catastrófico.
5 - Propriedades de Escalonamento de Dados do Modelo Base
Figura 6: (Esquerda) Desempenho de rollout sem afinação de modelos de base treinados em quantidades variadas
de dados. Modelos à esquerda da linha preta tracejada (pontos ≤1.000 horas) foram treinados com dados de
contratantes (rótulos de verdade), e modelos à direita foram treinados em subconjuntos pseudo-rotulados do
web_clean usando o modelo IDM. Devido às limitações computacionais, essa análise foi realizada com modelos
menores (71 milhões de parâmetros), exceto pelo último ponto, que é o modelo de base VPT com 0,5 bilhão de
parâmetros. (Direita) O desempenho correspondente de cada modelo após afinação com BC para o conjunto de
dados contractor_house.
Nesta seção, validamos uma hipótese central por trás deste trabalho: que é muito mais eficaz
usar dados rotulados de contratantes para treinar um modelo IDM dentro do método VPT do
que treinar diretamente um modelo de base BC a partir do mesmo conjunto de dados pequeno
de contratantes. Se pudéssemos coletar de forma barata um conjunto de dados rotulados de
contratantes de uma ordem de magnitude semelhante ao web_clean, isso não seria importante;
no entanto, coletar essa quantidade de dados custaria milhões de dólares. A Figura 6 compara
modelos de base treinados em ordens crescentes de magnitude de dados, de 1 hora até o
conjunto de dados completo de aproximadamente 70.000 horas do web_clean. Os modelos de
base treinados até e incluindo 1.000 horas são treinados nos dados de contratantes do modelo
IDM, e aqueles treinados em 5.000 horas ou mais são treinados em subconjuntos do web_clean,
que não contém nenhum dado de contratantes do modelo IDM. Aumentar a escala dos dados
de treinamento aumenta as capacidades de coleta de registros, mineração e criação. O modelo
sem afinação começa a criar mesas de criação apenas com mais de 5.000 horas de dados de
treinamento. Ao afinar cada modelo de base para o conjunto de dados contractor_house,
observamos que as taxas de criação de mesas de criação e ferramentas de madeira aumentam
em ordens de magnitude ao usar o conjunto de dados completo do web_clean, com
aproximadamente 70.000 horas. Além disso, somente vemos o surgimento da criação de
ferramentas de pedra na maior escala de dados.
6 - Efeito da Qualidade do Modelo de Dinâmica Inversa na Clonagem Comportamental
Figura 7: Desempenho sem afinação de modelos de BC treinados do zero no conjunto de dados

earlygame_keyword, rotulados com IDMs que foram treinados em quantidades crescentes de dados de
contratantes.
Esta seção investiga como o desempenho da clonagem comportamental é afetado pela qualidade
do IDM. Treinamos IDMs em conjuntos de dados cada vez maiores e usamos cada um deles
para rotular independentemente o conjunto de dados earlygame_keyword (esse conjunto de
dados menor foi escolhido devido a um orçamento limitado de computação). Em seguida,
treinamos um modelo de clonagem comportamental do zero em cada conjunto de dados e
relatamos estatísticas do jogo para cada modelo em função do tamanho do conjunto de dados
do contratante do IDM (Figura 7).
IDMs treinados com pelo menos 10 horas de dados são necessários para qualquer criação de
itens, e a taxa de criação aumenta rapidamente até 100 horas de dados, após as quais há poucos
ou nenhum ganho e as diferenças provavelmente são devidas ao ruído. Da mesma forma, mesas
de criação são fabricadas apenas após 50 ou mais horas de dados do IDM, e os ganhos também
se estabilizam após 100 horas. Embora em todos os experimentos anteriores tenhamos usado
nosso melhor IDM treinado com 1962 horas de dados, esses resultados sugerem que poderíamos
reduzir esse número para pelo menos 100 horas.
• Conclusões
Os resultados apresentados neste artigo ajudam a pavimentar o caminho para a utilização da

abundância de dados não rotulados na web em domínios de decisão sequenciais. Em
comparação com a modelagem generativa de vídeos ou métodos contrastivos que forneceriam
apenas prioridades representacionais, o VPT oferece a possibilidade emocionante de aprender
a agir diretamente durante o pré-treinamento e usar essas prioridades comportamentais
aprendidas como prioridades de exploração extremamente eficazes para RL. O VPT pode até
ser um método de aprendizado de representação geral melhor, mesmo quando a tarefa
subsequente não é aprender a agir nesse domínio - por exemplo, ajustar para explicar o que está
acontecendo em um vídeo - porque, sem dúvida, as informações mais importantes em qualquer
cena seriam apresentadas em recursos treinados para prever corretamente a distribuição de
ações humanas futuras. Deixamos essa direção intrigante para trabalhos futuros.
Trabalhos futuros poderiam melhorar os resultados com mais dados (estimamos que
poderíamos coletar mais de 1 milhão de horas) e modelos maiores e melhor ajustados. Além
disso, todos os modelos neste trabalho se condicionam apenas a observações passadas; não
podemos pedir ao modelo que execute tarefas específicas. Outra direção futura frutífera seria
investigar a correlação entre várias métricas de treinamento e avaliações subsequentes. Por fim,
embora não antecipemos nenhum impacto negativo direto na sociedade a partir dos modelos
treinados neste trabalho, à medida que o VPT melhora e se expande para outros domínios, será
importante avaliar e mitigar os danos que surgem com outras formas de pré-treinamento em
conjuntos de dados da Internet, como emular comportamentos inadequados (Emily M. Bender
et al. On the dangers of stochastic parrots: Can language models be too big???. In Proceedings
of the 2021 ACM Conference on Fairness, Accountability, and Transparency, páginas 610–
623, 2021.).
Em conclusão, o VPT estende o paradigma de treinar prioridades comportamentais amplas e de
propósito geral a partir de dados disponíveis livremente em escala da Internet para domínios de
decisão sequenciais. Nossos modelos apresentaram um comportamento impressionante de
"zero-shot" e, quando ajustados com RL, alcançaram um resultado inédito de criar uma picareta
de diamante no Minecraft (ainda mais difícil considerando a interface humana). Também
mostramos que os dados dos contratados são muito mais bem utilizados dentro do pipeline do
VPT do que para treinar diretamente um modelo fundamental e que apenas uma pequena
quantidade de dados dos contratados (cerca de $2000 USD) foi necessária para desbloquear
uma quantidade massiva de dados online não rotulados para uso em BC. Por fim, aprender com
a interface de teclado e mouse humano é altamente geral e permite modelar sem perdas toda a
distribuição de comportamento humano.
Embora tenhamos experimentado apenas no Minecraft, acreditamos que o VPT fornece uma
receita geral para treinar prioridades comportamentais em espaços de ação difíceis, mas
genéricos, em qualquer domínio que tenha uma grande quantidade de dados não rotulados
disponíveis gratuitamente, como o uso de computadores.
• Referências Bibliográficas
[1] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla
Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language
models are few-shot learners. Advances in neural information processing systems, 33:1877–
1901, 2020.
[2] Jacob Devlin, Ming-Wei Chang, Kenton Lee, & Kristina Toutanova. Bert: Pre-training of
deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805,
2018.
[3] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy,
Mike Lewis, Luke Zettlemoyer, & Veselin Stoyanov. Roberta: A robustly optimized bert
pretraining approach. arXiv preprint arXiv:1907.11692, 2019.
[4] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael
Matena, Yanqi Zhou, Wei Li, & Peter J Liu. Exploring the limits of transfer learning with a
unified text-to-text transformer. arXiv preprint arXiv:1910.10683, 2019.
[5] Dhruv Mahajan, Ross Girshick, Vignesh Ramanathan, Kaiming He, Manohar Paluri,
Yixuan Li, Ashwin Bharambe, & Laurens Van Der Maaten. Exploring the limits of weakly
supervised pretraining. In Proceedings of the European conference on computer vision
(ECCV), pages 181–196, 2018.
[6] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini
Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning
transferable visual models from natural language supervision. In International Conference on
Machine Learning, pages 8748–8763. PMLR, 2021.
[7] Oriol Vinyals, Igor Babuschkin, Wojciech M Czarnecki, Michaël Mathieu, Andrew Dudzik,
Junyoung Chung, David H Choi, Richard Powell, Timo Ewalds, Petko Georgiev, et al.
Grandmaster level in starcraft ii using multi-agent reinforcement learning. Nature,
575(7782):350–354, 2019. 10
[8] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for
image recognition. In Proceedings of the IEEE conference on computer vision and pattern
recognition, pages 770–778, 2016.
[9] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon
Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural
language models. arXiv preprint arXiv:2001.08361, 2020.
[10] Karl W Cobbe, Jacob Hilton, Oleg Klimov, and John Schulman. Phasic policy gradient.
In Marina Meila and Tong Zhang, editors, Proceedings of the 38th International Conference
on Machine Learning, volume 139 of Proceedings of Machine Learning Research, pages 2020–
2027. PMLR, 18–24 Jul 2021. URL https://proceedings.mlr.press/v139/cobbe21a. html.
[11] Dhireesha Kudithipudi, Mario Aguilar-Simon, Jonathan Babb, Maxim Bazhenov, Douglas
Blackiston, Josh Bongard, Andrew P Brna, Suraj Chakravarthi Raja, Nick Cheney, Jeff Clune,
et al. Biological underpinnings for lifelong learning machines. Nature Machine Intelligence, 4
(3):196–210, 2022.
[12] James Kirkpatrick, Razvan Pascanu, Neil Rabinowitz, Joel Veness, Guillaume Desjardins,
Andrei A Rusu, Kieran Milan, John Quan, Tiago Ramalho, Agnieszka Grabska-Barwinska, et
al. Overcoming catastrophic forgetting in neural networks. Proceedings of the national
academy of sciences, 114(13):3521–3526, 2017.
[13] Emily M Bender, Timnit Gebru, Angelina McMillan-Major, and Shmargaret Shmitchell.
On the dangers of stochastic parrots: Can language models be too big???. In Proceedings of
the 2021 ACM Conference on Fairness, Accountability, and Transparency, pages 610–623,
2021.
[14] Robert George Douglas Steel, James Hiram Torrie, et al. Principles and procedures of
statistics. Principles and procedures of statistics., 1960.
[15] Rishi Bommasani, Drew A Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney
von Arx, Michael S Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, et al. On
the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258, 2021.

Bowen Baker

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Bowen Baker

Enviado por

Direitos autorais:

Formatos disponíveis

Universidade Estadual do Maranhão –UEMA

Aluno: Arthur Felipe Galvão Rocha

Pré-treinamento de vídeo: Aprendendo a agir observando vídeos online não

Arthur Galvão, Roberto Veloso

O pré-treinamento em conjuntos de dados em escala da internet tem sido amplamente estudado

2 - Treinamento do Modelo Base do VPT e Desempenho sem Treinamento

Agora exploramos o comportamento emergente aprendido por uma política de clonagem

3 - Afinação com Clonagem Comportamental

4 - Afinação com Aprendizado por Reforço

5 - Propriedades de Escalonamento de Dados do Modelo Base

6 - Efeito da Qualidade do Modelo de Dinâmica Inversa na Clonagem Comportamental

Figura 7: Desempenho sem afinação de modelos de BC treinados do zero no conjunto de dados

Os resultados apresentados neste artigo ajudam a pavimentar o caminho para a utilização da

Você também pode gostar