Você está na página 1de 10

Machine Translated by Google

Resposta a perguntas sobre memória episódica

Samyak Datta Sameer Dharur Vicente Cartillier Ruta Desai


Tecnologia da Geórgia Tecnologia da Geórgia Tecnologia da Geórgia Pesquisa dos Laboratórios de Meta Realidade

Mukul Khanna Dhruv Batra Devi Parikh


Georgia Tech, Meta AI Research Georgia Tech, Meta AI Research

Abstrato

Dispositivos egocêntricos de realidade aumentada, como óculos


vestíveis, capturam passivamente dados visuais enquanto um usuário
humano percorre um ambiente doméstico. Prevemos um cenário em que o
humano se comunica com um agente de IA alimentando tal dispositivo
fazendo perguntas (por exemplo, “onde você viu minhas chaves pela última
vez?”). Para ter sucesso nessa tarefa, o assistente de IA egocêntrica deve
(1) construir memórias de cena semanticamente ricas e eficientes que
codificam informações espaço-temporais sobre objetos vistos durante o
passeio e (2) possuir a capacidade de entender a pergunta e fundamentar
sua resposta na representação da memória semântica. Para esse fim,
introduzimos (1) uma nova tarefa - Episodic Memory Question Answering
(EMQA), em que um assistente de IA egocêntrico recebe uma sequência
de vídeo (o tour) e uma pergunta como entrada e é solicitado a localizar
sua resposta para o pergunta dentro do passeio, (2) um conjunto de dados
de perguntas fundamentadas projetadas para sondar a compreensão
espaço-temporal do passeio pelo agente e (3) um modelo para a tarefa
Figura 1. (a) Um assistente de IA egocêntrico, presumivelmente
que codifica a cena como um recurso semântico alocêntrico e de cima para funcionando com um par de óculos de realidade aumentada, é levado
baixo mapear e fundamentar a pergunta no mapa para localizar a resposta. em um passeio exploratório guiado em virtude de seu usuário humano
Mostramos que nossa escolha de memória de cena episódica supera se mover dentro do ambiente. (b) O agente registra passivamente um
soluções ingênuas e prontas para a tarefa, bem como uma série de linhas fluxo egocêntrico de mapas RGB-D, (c) constrói uma representação
de base muito competitivas e é robusta para ruído em profundidade, pose de memória episódica interna da cena e (d) explora essa representação
e jitter de câmera. de memória espaço-temporal para responder (múltiplas) perguntas
post-hoc sobre o passeio.

podem atuar como nossos próprios assistentes egocêntricos de IA.

Houve uma rica história de trabalho anterior no treinamento de agentes


1. Introdução de navegação para responder a perguntas fundamentadas em ambientes
Imagine usar um par de óculos de realidade aumentada (AR) de portas - uma tarefa referida como Resposta a perguntas incorporadas
alimentados por IA e andar pela sua casa. Esses óculos inteligentes terão (EQA) na literatura [9, 15, 29 , 32 ] . No entanto, os assistentes egocêntricos
a capacidade de “ver” e capturar passivamente dados visuais egocêntricos de IA diferem dos agentes EQA de várias maneiras importantes. Em
da mesma perspectiva de seu usuário, organizar as informações visuais primeiro lugar, tais sistemas observam passivamente uma sequência de
circundantes em sua memória e usar essas informações codificadas para estruturas visuais egocêntricas como resultado da navegação do usuário
se comunicar com humanos, respondendo a perguntas como , “onde você humano, em vez de realizar ações em um ambiente. Em segundo lugar,
viu minhas chaves pela última vez?”. Em outras palavras, tais dispositivos os sistemas de IA para assistentes egocêntricos seriam necessários para
construir memórias específicas da cena.

19119
Machine Translated by Google

representações teóricas que persistem em diferentes questões. sobre questões de localização temporal.
Isso está em contraste direto com a EQA, onde as abordagens Em quarto lugar, comparamos nossa escolha de representação
contemporâneas trataram cada questão como um episódio de de cena com uma série de linhas de base e mostramos que nosso
navegação em branco. Os agentes de EQA começam a navegar sem modelo proposto supera as linhas de base somente de linguagem em
nenhuma informação prévia sobre a cena (mesmo que a pergunta atual aproximadamente 150%, soluções ingênuas e “prontas para uso” para
seja sobre uma cena que eles já presenciaram). E, terceiro, os agentes a tarefa que depende da criação de quadros. previsões de localização
de EQA respondem às perguntas proferindo linguagem para ken(s). quadro a quadro em 37%, bem como representações de memória de
Responder a uma pergunta como "onde você viu minhas chaves pela trabalhos anteriores que agregam (via média [13], GRU [4], atenção
última vez?" com a resposta - "corredor" não é uma resposta muito útil condicionada ao contexto [14]) buffers de recursos de observação em todo o passeio.
se houver vários corredores na casa. Em contraste, nossa configuração Por fim, além de ambientes internos fotorrealistas [6], também
apresenta um cenário em que um assistente egocêntrico pode testamos a robustez de nossa abordagem em cenários com alta
potencialmente localizar as respostas, ancorando-as no tour do ambiente. fidelidade ao mundo real. Mostramos resultados qualitativos de uma
transferência zero-shot de nossa abordagem para um conjunto de dados
Portanto, como um passo em direção à realização do objetivo de RGB-D do mundo real [26] que apresenta condições significativamente
tais assistentes de IA egocêntricos, apresentamos uma nova tarefa em desafiadoras de profundidade imperfeita, pose e jitter de câmera -
que o assistente de IA é levado em uma visita guiada a um ambiente condições típicas de implantação para assistentes AR egocêntricos.
interno e, em seguida, solicitado a localizar suas respostas para Além disso, rompemos com a suposição irrealista da disponibilidade da
perguntas post-hoc baseadas no tour ambiente (Fig. 1). Este passeio pose do oráculo em ambientes internos [11, 33] e realizamos um estudo
pré-exploratório apresenta uma oportunidade de construir uma memória sistemático do impacto do ruído (de vários tipos e intensidades) na pose
episódica interna da cena. Depois de construído, o assistente de IA do agente. Mostramos que nosso modelo é mais resiliente do que as
pode utilizar essa memória de cena para responder a várias perguntas linhas de base a tais perturbações ruidosas.
de acompanhamento sobre o passeio. Chamamos essa tarefa de
Resposta a Perguntas de Memória Episódica (EMQA).
Mais concretamente, na tarefa EMQA proposta, o sistema recebe 2. Trabalho relacionado
uma sequência pré-gravada de imagens RGB-D com a correspondente Pergunta-Resposta em Ambientes Incorporados. O treinamento de
informação de pose do oráculo (o tour guiado do agente) como entrada. agentes corporificados para responder a perguntas fundamentadas em
Ele usa o tour de entrada para construir uma representação de memória ambientes internos foi objeto de vários trabalhos anteriores.
da cena interna. Em seguida, ele explora a memória da cena para Especificamente, [9, 32] apresenta agentes que podem responder
fundamentar as respostas a várias perguntas de texto. A localização perguntas sobre um único e múltiplos objetos-alvo em cenas simuladas,
das respostas pode ocorrer dentro da sequência de quadros egocêntricos respectivamente. [29] apresenta uma instanciação desta linha de
do passeio ou em um mapa métrico de cima para baixo (como a planta trabalho para cenas fotorrealistas do simulador Matterport3D e nuvem
baixa de uma casa). As duas modalidades de saída são equivalentes, de pontos 3D baseada em puts enquanto [15] apresenta uma extensão
dada a pose do agente. da tarefa que exige que o agente interaja com seu ambiente. Em todos
O artigo traz várias contribuições importantes. Em primeiro lugar, os itens acima, os agentes são configurados para realizar cada episódio
introduzimos a tarefa de responder a uma pergunta de memória de resposta a perguntas com uma “folha limpa”, ou seja, sem meios
episódica. Geramos um conjunto de dados de perguntas com base em para o agente potencialmente reutilizar as informações da cena
passeios de agente pré-gravados que são projetados para sondar a coletadas durante as travessias anteriores da mesma cena. Embora o
compreensão espacial da cena do sistema (“onde você viu a almofada?”), agente em [15] tenha uma memória espacial semântica armazenando
bem como habilidades de raciocínio temporal (“onde você primeiro/ viu informações sobre a semântica do objeto e o espaço livre, ela não é
a almofada pela última vez?”). Em segundo lugar, propomos um persistente em diferentes episódios de perguntas da mesma cena. Além
modelo para a tarefa EMQA que constrói representações semânticas disso, todo o trabalho anterior envolve a geração de uma lista classificada
alocêntricas de cima para baixo da cena (a memória da cena episódica) de tokens de resposta de idioma como previsões.
durante o passeio e aproveita o mesmo para responder a perguntas de
acompanhamento. A fim de construir a memória da cena episódica, Nossa formulação de tarefas permite o compartilhamento de uma
nosso modelo combina as características semânticas extraídas das memória de cena semântica que é persistente nas diferentes perguntas
observações egocêntricas do passeio de maneira geometricamente de uma cena e localiza as respostas às perguntas – uma configuração
consistente em um único mapa de recursos de cima para baixo da de muito mais alta fidelidade para assistentes de IA egocêntricos.
cena testemunhada durante o passeio [5] . Em terceiro lugar, Resposta a perguntas em vídeo. Nosso trabalho também lembra as
estendemos as memórias de cena existentes que modelam as relações tarefas de resposta a perguntas em vídeo (VideoQA). O VideoQA
espaciais entre os objetos [5] (“o que” os objetos foram observados e testemunhou uma rica história de trabalhos anteriores com a introdução
“onde”), aumentando-os com informações temporais (“quando” esses de conjuntos de dados amostrados de domínios de "mundo aberto" (filmes
objetos foram observados), tornando assim a memória acessível por [27], programas de TV [19], receitas culinárias [10, 34]) e tarefas
motivo envolvendo ações de detecção/localização e respondendo

19120
Machine Translated by Google

perguntas sobre eventos que acontecem nos vídeos. Em vez disso, o simulador Habitat [21] usando varreduras Matterport3D [6] (MP3D)
nosso conjunto de dados EMQA é composto por vídeos egocêntricos (malhas 3D reconstruídas de 90 ambientes internos). Para qualquer
gerados a partir de trajetórias de navegação em ambientes internos. cena interna, usamos os caminhos de exploração gravados manualmente
Além da localização na sequência de vídeo de entrada, essa em [5]. Essas trajetórias de navegação em várias salas foram
configuração permite modalidades de saída adicionais, como otimizadas para cobertura, compostas por mapas RGB-D egocêntricos,
aterramento sobre plantas baixas de cena, que são incompatíveis com pose de verdade e têm, em média, 2.500 passos de comprimento.
os domínios VideoQA existentes. Além disso, os conjuntos de dados
existentes do VideoQA são acompanhados por anotações detalhadas Questões Fundamentadas em Percursos Para um determinado
por quadro, como legendas, scripts de plotagem e outros metadados de subeventos.
percurso de exploração através de uma cena interior, descrevemos
Em contraste, o EMQA não assume tais anotações adicionais. [16] é
agora o nosso processo de geração de questões fundamentadas sobre
compatível com nosso trabalho e propõe um conjunto de dados em objetos testemunhados pelo assistente egocêntrico. Seguindo [5], nos
larga escala de vídeos egocêntricos emparelhados com malhas 3D de restringimos a 12 categorias de objetos que ocorrem comumente, como
ambientes nos quais as atividades gravadas ocorreram. sofá, cama, etc. (consulte o Supl. para obter a lista completa).
Localização via Dialog. [12, 17] apresentam uma tarefa em que uma Começamos gerando os mapas de cima para baixo de verdade
entidade que tem acesso à planta baixa de um ambiente precisa rotulados com instâncias de objeto para cada cena por meio de uma
localizar um agente (no mapa de cima para baixo) navegando dentro projeção ortográfica da malha MP3D anotada semanticamente. Esses
de uma cena apenas pela visão em primeira pessoa. mapas gerados contêm informações reais sobre o layout de cima para
Ambos assumem que a planta baixa da cena é fornecida ao agente baixo de todos os objetos em todas as partes de uma cena. Cada célula
como entrada, enquanto nosso modelo constrói a representação do nesses mapas tem uma resolução espacial fixa de 2cm × 2cm e,
mapa a partir do zero a partir das visitas guiadas. portanto, as dimensões espaciais dos mapas dependem do tamanho
Representações da Memória de Cena. Construir representações de das cenas internas. Embora os passeios de exploração tenham sido
cenas para auxiliar agentes em tarefas incorporadas tem uma rica otimizados para cobertura, eles não cobrem todas as partes observáveis
história de trabalhos anteriores com exemplos iniciais adotando o de todas as cenas (deixando de fora algumas áreas de nicho difíceis de
estado oculto de um modelo de navegação LSTM como uma alcançar durante o processo de exploração guiada manualmente).
representação compacta da cena [21, 30 ] . Para superar o poder Portanto, para garantir a relevância das perguntas em nosso conjunto
expressivo limitado de um único vetor de estado representando cenas de dados, a seguir, calculamos o subconjunto de locais “observados”
3D complexas, abordagens mais recentes modelaram memórias de de dentro do mapa semântico de verdade de campo de toda a cena.
cena como um buffer de características egocêntricas observadas [13,
14], grades métricas 2D [1 , 3 , 5 , 7 ], mapas topológicos [24, 31] ou Para fazer isso, projetamos os mapas de profundidade de cada
mapas semânticos 3D em grande escala [8, 23, 28]. etapa do passeio no mapa de cena de cima para baixo, fornecendo a
Armazenar características egocêntricas observadas em um buffer não máscara de etapa por tempo sobre os locais observados localmente
modela explicitamente as relações geométricas e espaciais entre os (Fig. 2, “Inputs”) . Somando todas as etapas de tempo e sobrepondo a
objetos na cena. Gráficos topológicos não são ideais para localização máscara resultante sobre o mapa semântico de verdade, nos dá o
métrica precisa (um desiderato para nossa tarefa). As restrições de subconjunto de objetos e suas localizações observadas durante o
memória envolvidas na construção de representações de cenas 3D passeio. Isso serve como nossa fonte para gerar perguntas.
baseadas em voxel restringem os mapas de recursos propostos em [8, A partir de cada um desses mapas semânticos “observados” de
28] a cenas simples (um punhado de objetos colocados em uma mesa). cima para baixo (representando o passeio), geramos questões modelo
Pelo contrário, nossa tarefa lida com ambientes internos de complexidade que pertencem amplamente às duas categorias a seguir: (1) questões
visual significativamente maior. Nossa memória de cena (mapa de de localização espacial e (2) questões de localização espaço-temporal.
recursos semânticos alocêntrico e de cima para baixo) é mais Para o primeiro, geramos uma pergunta do tipo “onde você viu o <X>?”,
semelhante a [5]. Apresentamos uma nova extensão para as onde <X> é uma categoria de objeto (do vocabulário pré-selecionado
características da cena de [5] incorporando informações temporais de 12 objetos) com no máximo 5 instâncias presenciadas durante o
com as características semânticas (“quando” era “o que” observado e passeio.
“onde”).
Juntamente com cada pergunta, também registramos as informações
sobre (a) os pixels do mapa de cima para baixo correspondentes a
3. Conjunto de dados EMQA: perguntas fundamentadas todas as instâncias da categoria de objeto em questão que servem
em passeios de cena como a resposta de verdade, (b) os passos de tempo do passeio
Agora descrevemos o conjunto de dados para a tarefa. Lembre-se
quando cada um instância de resposta foi observada durante o passeio.
de que a tarefa envolve levar o assistente a um passeio exploratório por Isso é feito calculando a interseção entre a máscara por etapa dos
um ambiente interno e, em seguida, fazer várias perguntas post-hoc locais observados (descritos acima) com o objeto em posição no mapa
sobre o passeio guiado. O modelo EMQA deve localizar respostas para de cima para baixo. Se, em qualquer intervalo de tempo, a máscara
as questões da cena. observada abranger mais do que uma fração determinada
Visitas de Exploração Guiadas Instanciamos a nossa tarefa em heuristicamente (10%) da instância do objeto em questão, então,

19121
Machine Translated by Google

Figura 2. Uma visão geral esquemática de nosso processo de geração de conjunto de dados. Os mapas de cima para baixo são criados a partir da
projeção ortográfica da malha MP3D com rótulos semânticos, por meio de observações egocêntricas RGB + Depth e informações de pose, e filtrados
pelas máscaras observadas por etapa.

considere essa instância como “vista” naquele intervalo de tempo específico de exemplos de treinamento para aprender. Gostaríamos de enfatizar que
do passeio (Fig. 2, “Amostra do conjunto de dados”). nossa tarefa original (e todos os resultados que se seguem) são definidos
nos passeios em escala real.
Da mesma forma, para o subconjunto espaço-temporal, geramos
A Fig. 2 (“Estatísticas do conjunto de dados”) mostra a distribuição do
perguntas com o formato “onde você viu o <X> pela primeira vez/última
número total de cenas e perguntas nas divisões de treinamento, avaliação
vez?” para cada categoria de objeto <X> com pelo menos 2 posições
e teste para passeios “curtos” e “completos”. Usamos cenas mutuamente
avistadas durante o passeio. Para selecionar a primeira (ou, a última)
exclusivas para as divisões train, val e test, avaliando a generalização em
instância visualizada do objeto, consultamos os metadados (descritos
ambientes nunca antes vistos. Também mostramos uma distribuição de
acima) compreendendo as etapas de tempo em que cada instância do
categorias de objetos em todas as perguntas em nosso conjunto de dados.
objeto foi visualizada durante o tour. A instância com o intervalo de tempo
Para exemplos e estatísticas mais qualitativas (análise dos tamanhos e
mais antigo (mais recente) entre os primeiros (últimos) intervalos de tempo
distribuição espacial dos objetos nas cenas), consulte o Supl. documento.
observados de todas as instâncias torna-se a primeira (última) instância
visualizada do objeto. Observe que, em determinadas situações, a primeira
e a última instância vista de um objeto podem coincidir (o percurso
4. Modelos
composto por um “loop” dentro do seu percurso), apresentando um cenário
Qualquer modelo para a tarefa EMQA deve, em termos gerais,
desafiador para o aprendizado.
compreender módulos para as duas subtarefas seguintes: (1) representação
Gerando passeios “curtos” para treinamento Conforme mencionado da memória de cena e (2) resposta a perguntas.
acima, os passeios de exploração no conjunto de dados EMQA têm, em O primeiro leva o tour da cena (sequência de quadros de vídeo RGB-D e

média, 2.500 passos de comprimento. Para tornar tratáveis os requisitos pose de terreno associada) como uma entrada e gera uma representação
de memória e a velocidade durante o treinamento, seguimos o protocolo compacta da cena que codifica idealmente informações sobre objetos,
estabelecido em [5] e consideramos segmentos de passeio “curtos” de 20 seus arranjos espaciais relativos e quando eles foram vistos durante o
etapas amostrados aleatoriamente dos passeios “completos” originalmente passeio.
curados. Os mapas de cima para baixo abrangendo a área coberta por O último toma a pergunta como entrada, opera nessa memória de cena
esses subconjuntos de passeios de 20 etapas são de dimensões espaciais episódica e gera sua resposta prevista como saída. Nesta seção,
fixas de 250 × 250 células em todos os passeios "curtos" (em comparação descrevemos nossas escolhas em relação às instanciações específicas
com dimensões espaciais variáveis, dependendo do tamanho do ambiente dos dois módulos.
para passeios "completos" ). Usamos o mesmo mecanismo de geração de Representação da Memória de Cena. Como nossa escolha preferida de
perguntas (descrito na subseção anterior) para gerar perguntas representação de cena, usamos recursos semânticos alocêntricos, 2D, de
correspondentes às divisões de dados do passeio “curtas”. Além de facilitar cima para baixo [5]. Essas representações são calculadas por meio da
os requisitos de velocidade e memória durante o treinamento, isso projeção de características visuais egocêntricas em uma planta baixa
também aumenta muito o número alocêntrica de cima para baixo do ambiente usando o conhecimento

19122
Machine Translated by Google

Figura 3. Um diagrama esquemático de nosso agente EMQA proposto. Nosso agente primeiro constrói uma representação de memória episódica do passeio e,
em seguida, fundamenta as respostas para as perguntas na planta baixa da cena usando um modelo de resposta baseado em LingUNet.

borda da pose da câmera e profundidade. tensão às representações de cena de [5] aumentando as informações sobre

Mais especificamente, conforme mostrado na Fig. 3 (SMNet), em cada quando cada célula métrica na representação foi observada durante o

etapa do tour, primeiro extraímos recursos convolucionais do quadro de vídeo passeio. Conforme mostrado na Fig. 3 (memória espaço-temporal), isso é

RGB-D de entrada por meio de um modelo RedNet [ 18] que foi treinado para feito por um empilhamento canal a canal das máscaras por passo sobre os

segmentação semântica egocêntrica em ambientes internos cenas do conjunto locais “observados” (da Seção 3). Consulte o Sup. para mais detalhes.

de dados SUN-RGBD [25] e, em seguida, ajustadas em quadros egocêntricos


de Matterport3D. Em seguida, esses recursos semânticos egocêntricos por Pergunta-Resposta. Adotamos a arquitetura LingUNet [3] para fundamentar
etapa são projetados na planta baixa de cima para baixo da cena. O mapa de as respostas às perguntas de entrada, explorando a memória de cena
recursos resultante tem uma resolução fixa – cada “célula” no mapa construída (Fig. 3 (LingUNet)). Lin gUNet é uma arquitetura de codificador-
corresponde a um espaço métrico fixo de 2 cm × 2 cm no mundo real e codifica decodificador com conexões de salto condicionadas ao idioma. Trabalhos
informações semânticas sobre os objetos presentes nesse espaço (visto de anteriores [1, 3, 17] demonstraram que é uma arquitetura de alto desempenho
cima para baixo). . Esses recursos projetados locais, por etapa, de cada etapa para tarefas como fundamentação de locais de objetivo especificados por
de tempo são acumulados usando um GRU em um tensor de memória espacial linguagem em mapas de cima para baixo de cenas para navegação de agente.
consolidado que serve como uma “representação de memória episódica” do
passeio. A GRU é pré-treinada para decodificar a segmentação semântica de
As perguntas de entrada são codificadas usando um LSTM de camada
cima para baixo do tensor de memória de cena [5] com o mapa semântico de
única de 64 dim. Nosso modelo de resposta a perguntas baseado em
cima para baixo da verdade absoluta para o passeio sendo calculado a partir
LingUNet de 3 camadas usa os recursos de memória de cena construídos e
da malha semântica Matterport3D anotada, conforme descrito na Seção 3. 3.
a incorporação LSTM da pergunta como entradas e gera um mapa de recursos
espaciais sobre a planta baixa 2D (consulte o Supl. para obter os detalhes
arquitetônicos em camadas do modelo LingUNet). O mapa de recursos
espaciais é posteriormente processado por um bloco convolucional para gerar
Por conta de como esses recursos de cena 2D são derivados, eles têm a distribuição espacial das pontuações de previsões de resposta. Este
maior capacidade expressiva, modelam melhor as relações espaciais entre “heatmap” previsto representa a crença do agente com relação à localização
objetos (devido a projeções de recursos pin-hole geometricamente consistentes) do objeto alvo em questão sobre a planta baixa da cena de cima para baixo.
e não sofrem restrições de memória de representações baseadas em voxel. Tanto o LSTM do codificador de perguntas quanto os modelos LingUNet são
treinados de ponta a ponta com gradientes da perda de resposta à pergunta.

Memória espaço-temporal. Embora a opção acima seja uma escolha sensata


para representar objetos em cenas, ela não codifica informações temporais
sobre o passeio (quando os objetos foram observados?). Portanto, neste Detalhes do treinamento O codificador visual (RedNet) é treinado primeiro
trabalho, apresentamos um romance ex para realizar a segmentação semântica egocêntrica via

19123
Machine Translated by Google

Espaço de saída do mapa de cima para baixo Espaço de saída de pixel egocêntrico

Método IoU Lembrar Precisão IoU Lembrar Precisão

LangOnly 4,75 ± 0,14 14,41 ± 0,62 6,98 ± 0,18 22,89 5,26 ± 0,18 14,57 ± 0,62 7,86 ± 0,19 23,42
EgoSemSeg ± 0,69 35,85 ± 1,06 38,45 ± 1,07 26,92 ± 1,12 ± 0,73 36,06 ± 1,06 40,13 ± 1,15 27,13 ± 1,12
SMNetDecoder 43,86 ± 1,25 40,95 ± 1,26 0,07 ± 0,01 0,37 ± 43,39 ± 1,58 41,96 ± 1,22 0,11 ± 0,01 0,40 ±
EgoBuffer-Avg [13] 0,06 0,24 ± 0,03 0,01 ± 0,00 0,01 ± 0,00 0,06 0,34 ± 0,03 0,01 ± 0,00 0,01 ± 0,00
EgoBuffer-GRU [2] 0,02 ± 0,00 0,12 ± 0,02 0,16 ± 0,02 0,85 ± 0,04 ± 0,00 0,14 ± 0,03 0,17 ± 0,03 1,01 ±
EgoBuffer-Attn [14] 0,15 0,17
Nosso 27,42 ± 0,64 60,81 ± 1,28 31,94 ± 0,60 28,04 ± 0,94 60,96 ± 1,41 32,83 ± 0,96
Nosso (+temporal) 29,11 ± 0,44 62,27 ± 1,13 33,39 ± 0,51 29,78 ± 0,59 62,68 ± 1,08 34,36 ± 0,73

Tabela 1. Resultados do EMQA para nosso modelo proposto e linhas de base no espaço de saída “mapa de cima para baixo” e “pixel egocêntrico”.

perda de CE em pixels em quadros egocêntricos. Os recursos desse abordagem). Em seguida, extraímos o subconjunto das previsões
RedNet pré-treinado e congelado são usados pelo codificador de do modelo correspondente ao objeto em questão e que serve como
memória de cena para gerar nossa memória episódica (via perda CE previsão final para esta linha de base.
pixel a pixel em mapas semânticos de cima para baixo). Finalmente, Decodificação de rótulos semânticos de cima para baixo
as memórias episódicas do codificador de cena pré-treinado e (SMNetDecoder). Nesta linha de base, usamos a seção de
congelado são usadas para treinar o modelo de resposta a perguntas. decodificação da rede que foi usada para pré-treinar nossos recursos
Para fazer isso, usamos as respostas da verdade básica (conforme de memória de cena e prever diretamente a segmentação semântica
descrito na Seção 3) e treinamos usando uma perda de entropia de cima para baixo da planta baixa conforme visto durante o tour.
cruzada binária por pixel que incentiva o modelo a classificar Seguimos com a mesma etapa acima: extrair o subconjunto de
corretamente cada "célula" no mapa de cima para baixo como pixels de previsão de cima para baixo correspondentes ao objeto em
pertencente ao categoria de resposta ou não. Como o processo de questão para obter a previsão de resposta para essa linha de base.
otimização em nosso caso está lidando com um grave problema de Observe que ambas as linhas de base EgoSemSeg e SMNetDecoder
desequilíbrio de classe (apenas algumas centenas de pixels são não têm acesso aos recursos temporais.
longos para a classe de resposta entre várias dezenas de milhares
Buffer de características egocêntricas como memória de cena.
de pixels de “fundo”), aproveitamos as propriedades de ponderação
Para essa família de linhas de base, armazenamos um buffer de
dinâmica de Perda focal [ 20] que ajusta a contribuição dos pixels de
recursos visuais extraídos dos quadros RGB-D egocêntricos do passeio.
“fundo” facilmente classificados para a perda geral, a fim de
Esses recursos são extraídos por meio do mesmo modelo Red Net
estabilizar o treinamento para nosso modelo. Em nossos experimentos,
pré-treinado usado em nossa abordagem, bem como as linhas de
também descobrimos que definir o viés da última camada para a
base EgoSem Seg e SMNetDecoder. Em seguida, condensamos os
razão entre o número de amostras positivas e negativas e usar o truque de normalização de [20] ajuda.
recursos por etapa no buffer usando as seguintes técnicas diferentes
para dar origem a instanciações específicas de linhas de base de
5. Baselines
trabalhos anteriores: (a) média [13] (EgoBuffer-Avg), (b)
Nesta seção, apresentamos detalhes de uma série de concorrentes GRU [2] (EgoBuffer-GRU) e (c) atenção condicionada por questão,
linhas de base com as quais comparamos nossa abordagem. escalonada, produto ponto [14] (EgoBuffer-Attn).
Somente idioma (LangOnly). Avaliamos linhas de base que Tendo gerado o vetor de incorporação de cena 1-D usando
respondem a perguntas apenas da entrada de idioma para EMQA. qualquer uma das abordagens acima, usamos uma rede de camadas
Essas linhas de base demonstraram demonstrar desempenho de convolução para gerar uma previsão de “mapa de calor” 2D de
competitivo para tarefas de resposta a perguntas incorporadas [9,29]. cima para baixo da resposta do agente. Para obter mais detalhes
Especificamente, descartamos os recursos de memória de cena sobre a arquitetura dessas linhas de base, consulte o material
episódica (enquanto mantemos os recursos temporais) de nossas suplementar. Observe que essas linhas de base convertem
entradas e treinamos o modelo de resposta a perguntas para prever implicitamente a incorporação de cena derivada de observações
a resposta à pergunta de entrada. O desempenho dessa linha de egocêntricas em um mapa de resposta alocêntrico de cima para
base é uma indicação dos vieses espaciais presentes no conjunto de baixo (através das camadas de convolução). Pelo contrário, nosso
dados (os leitos estão quase sempre presentes no mesmo canto do mapa?).modelo tem essa transformação explicitamente embutida por meio
Segmentação semântica egocêntrica (EgoSemSeg). Essa linha de projeções geometricamente consistentes de características egocêntricas.
de base serve como uma solução ingênua e “pronta para uso” para a
tarefa de EMQA. Realizamos a segmentação semântica em cada um 6. Métricas de resultados
dos quadros RGB egocêntricos que compõem o tour da cena (usando experimentais. Nossos modelos geram um mapa de segmentação
o mesmo modelo RedNet pré-treinado usado em nosso ap binário (pixels de “resposta” v/s “background”) como saída.

19124
Machine Translated by Google

Figura 4. (a) Exemplos qualitativos das saídas do modelo no espaço de saída do mapa top-down da divisão de teste. (b) A melhora no desempenho devido
a características temporais. (c) Resultados qualitativos da generalização zero-shot do nosso modelo para o conjunto de dados RGB-D do mundo real [26].

Portanto, reportamos a partir do conjunto de métricas de segmentação para Os recursos do quadro D como memórias de cena falham espetacularmente na
avaliar a localização da resposta de saída. Especificamente, para cada ponto tarefa. Isso confirma ainda mais a hipótese de que representações comprimidas
de dados (passeio+pergunta+resposta), calculamos: a precisão, a rechamada e 1-D de cenas são lamentavelmente inadequadas para tarefas como a nossa.
e a interseção sobre a união (IoU) entre os mapas de resposta binários previstos Codificar o conhecimento espacial de como os objetos são dispostos em cenas
e GT para a pergunta. Relatamos as métricas mencionadas acima, calculadas e informações temporais sobre quando eles foram observados durante um
em média nas divisões de teste de nosso conjunto de dados de passeios. passeio em tais representações e, em seguida, decodificar localizações precisas
de respostas de tais memórias de cena é um problema extremamente
desafiador. Nossas descobertas invalidam que tais representações de memória
Resultados Quantitativos. Relatamos os resultados das previsões do nosso
sejam usadas para nossa tarefa.
modelo tanto no mapa de cima para baixo quanto nas modalidades de saída
do tour egocêntrico na guia. 1. Conforme indicado na Sec. 1, uma fundamentação
de respostas na planta baixa de cima para baixo é equivalente a uma Na Fig. 4, também mostramos qualitativamente que nosso agente aprende

localização dentro dos pixels egocêntricos do tour do agente – simplesmente a distinguir todas as primeiras e últimas instâncias de tabelas vistas dentro de

retroprojetamos as previsões de pixels do mapa de cima para baixo no quadro uma determinada cena (consulte o Supl. para mais exemplos qualitativos).

de referência egocêntrico do agente.


Portanto, para simplificar, discutimos as tendências no espaço do mapa de Recursos temporais ajudam. Conforme afirmado no art. 4, ter conhecimento
cima para baixo no texto subsequente. de quando os objetos foram observados durante o passeio é fundamental para
Superamos a linha de base do SMNetDecoder [5] com ganhos de 8,2% e responder a questões de localização temporal. Para elucidar ainda mais essa
42% em IoU, recall, respectivamente. Isso se deve à combinação de dois afirmação, dividimos o desempenho de ambas as variantes de nosso modelo
fatores: a linha de base do SMNetDecoder não codifica o conhecimento sobre (Ours v/s Ours(+temporal) na Tab. 1) por tipos de pergunta (espacial e espaço-
as informações temporais dos passeios e nosso modelo proposto oferece um temporal). Conforme mostrado na Fig. 4 (b), vemos uma melhoria relativa de
mecanismo melhor para fundamentar a semântica das perguntas nos recursos 24% em IoU para questões de localização espaço-temporal com a adição de
do mapa de cima para baixo por meio dos recursos mais expressivo modelo de características temporais. Não há impacto significativo nas métricas para
resposta a perguntas baseado em LingUNet. Para isolar os ganhos devido à questões espaciais.
disponibilidade de recursos temporais, também treinamos uma variante do
nosso modelo sem o mesmo. Vemos que, mesmo na ausência de recursos
Sim2Real Robustez. Indo além da simulação, analisamos a robustez de
temporais, somos capazes de superar o SMNetDecoder (recall de 60,81 v/s
nossos modelos para fontes típicas de ruído que podem surgir da implantação
43,86, IoU de 27,42 v/s 26,92). Além disso, a linha de base EgoSemSeg tem
de tais sistemas no mundo real. Primeiro, testamos nosso modelo EMQA
desempenho pior do que a linha de base SMNetDecoder (e, por associação,
treinado em simulação [6] em sequências de vídeo brutas capturadas no mundo
nosso modelo). Isso demonstra empiricamente a superioridade de nossa
real. Usamos as observações RGB-D + poses de câmera do benchmark RGB-
abordagem proposta sobre soluções ingênuas e “prontas para uso” para a
D SLAM em [26] , que apresenta um banco de teste significativamente
tarefa. Isso é consistente com observações feitas por trabalhos anteriores [5].
desafiador com condições de alta fidelidade para aplicações AR egocêntricas:
profundidade ruidosa + pose e jitter de câmera na cabeça . Apesar desses
desafios, nossa abordagem fornece resultados promissores com geração zero-
shot
Todas as linhas de base que dependem de um buffer de RGB egocêntrico

19125
Machine Translated by Google

Figura 5. Amostras de passeios ruidosos obtidos pela adição de (a) ruído amostrado do LoCoBot [22] e (b) usando um modelo de odometria visual [33]. (c)
Avaliação quantitativa de nossos modelos sob essas configurações de pose ruidosa (d) Exemplos qualitativos de previsões de mapas semânticos ruidosos.

tização (4 (c)). Sem qualquer ajuste fino, o agente é capaz de ções sobre objetos (como itens de mobília) cujas posições na cena
fundamentar as respostas às perguntas e distinguir razoavelmente permanecem em grande parte fixas. Uma maneira de superar isso é
entre a primeira e a última instâncias vistas de objetos. atualizar os mapas de cena (através da reamostragem dos passeios
Em segundo lugar, seguindo trabalhos anteriores [11, 33], do agente) com frequência suficiente para que os mapas de cena
removemos a suposição de localização interna do oráculo e construídos se aproximem mais do estado atual do ambiente.
investigamos nossos modelos sob condições de pose ruidosa. Assistentes egocêntricos de IA que residem em dispositivos
Especificamente, perturbamos a sequência de poses de verdade do vestíveis estão sempre no estado “ligado” (capturando dados
nosso conjunto de dados de duas maneiras. Primeiro, adicionamos constantemente). Além disso, nosso modelo proposto explicitamente
ruído (independentemente, a cada passo) de uma distribuição estimada constrói e armazena representações detalhadas de objetos e suas
com amostras coletadas por um LoCoBot [22] (Fig. 5 (a)). Em segundo localizações nas casas. Reconhecemos que, juntas, essas situações
lugar, prevemos a mudança de pose relativa entre duas etapas têm o potencial de gerar sérias preocupações com a privacidade.
sucessivas por meio de um modelo de odometria visual de última
geração [33] e integramos essas estimativas ao longo da trajetória
para manter uma estimativa ruidosa da pose atual (Fig. 5 (b) ). O 7. Conclusão
último é mais realista, pois leva em consideração o desvio nas
Estudamos a tarefa de responder a perguntas em ambientes 3D
estimativas de pose do agente devido a erros em cascata ao longo da trajetória.
com o objetivo de assistentes de IA pessoais egocêntricos.
Como esperado, quando modelos EMQA treinados com entradas
Para tanto, propomos um modelo que constrói representações
de localização de oráculo são avaliados com pose ruidosa, a
semânticas de cenas como sua memória episódica.
qualidade das representações de cena (Fig. 5 (d)) e as métricas de
Mostramos que a exploração de tais representações de cena de
tarefa (Fig. 5 (c)) caem proporcionalmente à gravidade e natureza
gargalo pode permitir que o agente responda efetivamente a perguntas
(independente v/s cumulativa) do ruído adicionado.
sobre a cena e demonstre sua superioridade sobre linhas de base
Descobrimos que o IoU de nosso modelo proposto cai 29%, em
fortes. Nossas investigações sobre a robustez de tal sistema para
comparação com uma queda de 36% para nossa linha de base de
diferentes formas de ruído em suas entradas apresentam evidências
melhor desempenho, indicando que nosso modelo é mais resiliente
promissoras para pesquisas futuras para a implantação de tais agentes
ao ruído adicional. Por fim, também mostramos que treinar novamente
em dispositivos de AR egocêntricos para o mundo real.
nossos modelos (tanto o codificador de cena SMNet quanto o módulo
de resposta a perguntas LingUNet) nas configurações ruidosas nos Agradecimentos: O esforço da Georgia Tech foi apoiado em parte
permite recuperar parte desse desempenho perdido (aumento em pela NSF, ONR YIP e ARO PECASE. As opiniões e conclusões aqui
IoU e precisão em todos os três modelos de ruído) em Fig. 5 (c). contidas são dos autores e não devem ser interpretadas como
Consulte Supl. para mais detalhes. representando necessariamente as políticas ou endossos oficiais,
Limitações e Impacto Ético. Nossa abordagem envolve a construção expressos ou implícitos, do governo dos EUA ou de qualquer
de mapas de cena estáticos que restringem a configuração a questões patrocinador.

19126
Machine Translated by Google

Referências resposta a perguntas em ambientes interativos, 2018. 1, 2

[1] Peter Anderson, Ayush Shrivastava, Devi Parikh, Dhruv Batra e Stefan Lee.
[16] Kristen Grauman, Andrew Westbury, Eugene Byrne, Zachary Chavis,
Perseguindo fantasmas: Instrução seguindo como rastreamento de estado
Antonino Furnari, Rohit Girdhar, Jackson Hamburger, Hao Jiang, Miao Liu,
bayesiano. Em NeurIPS, 2019. 3, 5 [2] Bram Bakker.
Xingyu Liu, et al. Ego4d: Volta ao mundo em 3.000 horas de vídeo
Aprendizagem por reforço com memória de longo prazo. In NIPS, páginas 1475–
egocêntrico. arXiv preprint arXiv:2110.07058, 2021. 3 [17] Meera Hahn,
1482, 2001. 6 [3] Valts Blukis, Dipendra Misra, Ross A
Jacob Krantz, Dhruv Batra, Devi Parikh,
Knepper e Yoav Artzi. Mapeamento de instruções de navegação para ações de James Rehg, Stefan Lee e Peter Anderson. Onde você está? localização a partir
controle contínuo com previsão de visita de posição. Em Conference on
do diálogo incorporado. Em Proceedings of the 2020 Conference on
Robot Learning, páginas 505–518. PMLR, 2018. 3, 5
Empirical Methods in Natural Language Processing (EMNLP), páginas 806–
ÿ ` 822, 2020. 3, 5 [18] Jindong Jiang, Lunan Zheng, Fei Luo e Zhijun Zhang.
[4] Catÿ alina Cangea, Eugene Belilovsky, Pietro Li o, and AaronCourville.
Videonavqa: Bridging the gap between visual and incorporado question
answering, 2019. 2 [5] Vincent Cartillier, Zhile Rednet: Residual encoder-decoder network for indoor rgb-d semantic
Ren, Neha Jain, Stefan Lee, Irfan Essa e Dhruv Batra. Mapnet semântico: segmentation, 2018. 5
construindo mapas semânticos alocêntricos e representações a partir de [19] Jie Lei, Licheng Yu, Mohit Bansal e Tamara L Berg.
visões egocêntricas, 2017. 2, 3, 4, 5, 7 [6] Angel Chang, Angela Dai, Tvqa: Respostas de perguntas em vídeo composicionais localizadas.
Thomas Funkhouser, Maciej In EMNLP, 2018. 2
Halber, Matthias Niessner, Manolis Savva, Shuran Song, Andy Zeng e Yinda [20] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He e Piotr Dollar. Perda
Zhang. Matterport3d: aprendendo com dados rgb d em ambientes internos. focal para detecção de objetos densos. In Pro ceedings of the IEEE
Conferência Internacional sobre Visão 3D (3DV), 2017. 2, 3, 7 International Conference on Computer Vision (ICCV), outubro de 2017. 6
[21] Manolis Savva*, Abhishek
Kadian*, Oleksandr Maksymets*, Yili Zhao, Erik Wijmans, Bhavana Jain, Julian
[7] Devendra Singh Chaplot, Dhiraj Prakashchand Gandhi, Ab hinav Gupta e Straub, Jia Liu, Vladlen Koltun, Jitendra Malik, Devi Parikh e Dhruv Batra.
Russ R Salakhutdinov. Navegação de meta de objeto usando exploração Habitat: uma plataforma para pesquisa de IA incorporada. In Proceedings
semântica orientada a meta. Advances in Neural Information Processing of the IEEE/CVF International Conference on Computer Vision (ICCV),
Systems, 33, 2020. 3 [8] Ricson Cheng, Ziyan Wang e Katerina 2019. 3
Fragkiadaki.
Redes neurais recorrentes com reconhecimento de geometria para [22] Adithyavairavan Murali, Tao Chen, Kalyan Vasudev Alwala, Dhiraj Gandhi,
reconhecimento visual ativo. In NeurIPS, 2018. 3 Lerrel Pinto, Saurabh Gupta e Abhinav Gupta. Pyrobot: Uma estrutura de
[9] Abhishek Das, Samyak Datta, Georgia Gkioxari, Stefan Lee, Devi Parikh e robótica de código aberto para pesquisa e benchmarking. pré-impressão
Dhruv Batra. Resposta a perguntas incorporadas, 2017. 1, 2, 6 arXiv arXiv:1906.08236, 2019. 8

[10] P. Das, C. Xu, RF Doell e Corso JJ Mil quadros em apenas algumas palavras: [23] Mihir Prabhudesai, Hsiao-Yu Tung, Syed Ashar Javed, Max imilian Sieb,
descrição lingual de vídeos por meio de tópicos latentes e costura esparsa Adam W Harley e Katerina Fragkiadaki.
de objetos. In Proceedings of IEEE Conference on Computer Vision and Fundamento da linguagem incorporada com representações implícitas de
Pattern Recogni tion, 2013. 2 recursos visuais em 3D. CVPR, 2020. 3 [24]
Nikolay Savinov, Alexey Dosovitskiy e Vladlen Koltun.
[11] Samyak Datta, Oleksandr Maksymets, Judy Hoffman, Stefan Lee, Dhruv Memória topológica semi-paramétrica para navegação. In International
Batra e Devi Parikh. Integração de localização egocêntrica para agentes Conference on Learning Representations (ICLR), 2018. 3
de navegação de ponto-objetivo mais realistas.
In CoRL, 2020. 2, 8 [12] [25] Shuran Song, Samuel P. Lichtenberg e Jianxiong Xiao.
Harm De Vries, Kurt Shuster, Dhruv Batra, Devi Parikh, Ja son Weston e Douwe Sun rgb-d: Um conjunto de benchmarks para entendimento de cena rgb-d.
Kiela. Talk the Walk: Navegando na cidade de Nova York por meio do Em 2015 IEEE Conference on Computer Vision and Pattern Recognition
diálogo fundamentado. arXiv preprint arXiv:1807.03367, 2018. 3 [13] SM (CVPR), páginas 567–576, 2015. 5 [26] Jurgen Sturm,
¨
Ali Eslami, Danilo Jimenez Nikolas Engelhard, Felix Endres, Wolfram Burgard e Daniel Cremers. Uma
Rezende, Frederic Besse, Fabio Viola, Ari S Morcos, Marta Garnelo, Avraham Ru referência para a avaliação de sistemas rgb-d slam. Em 2012 IEEE/RSJ
derman, Andrei A Rusu, Ivo Danihelka, Karol Gregor, et al. Representação International Conference on Intelligent Robots and Systems, páginas 573–
e renderização de cenas neurais. Science, 360(6394):1204–1210, 2018. 2, 580. IEEE, 2012. 2, 7 [27] Makarand Tapaswi, Yukun Zhu, Rainer
3, 6 [14] Kuan Fang, Alexander Toshev, Li Fei-Fei e Silvio Savarese. Stiefelhagen, Antonio Torralba,
Transformador de memória de cena para Raquel Urtasun e Sanja Fidler.
agentes incorporados em tarefas de longo horizonte. Em Proceedings of the IEEE/
CVF Conference on Computer Vision and Pattern Recognition, páginas Movieqa: Compreendendo histórias em filmes por meio de respostas a
538–547, 2019. 2, 3, 6 [15] Daniel Gordon, Aniruddha Kembhavi, perguntas. Em Proceedings of the IEEE Conference on Computer Vision
Mohammad Raste gari, Joseph Redmon, Dieter Fox e Ali Farhadi . Iqa: Vi and Pattern Recognization, páginas 4631–4640, 2016. 2

[28] Hsiao-Yu Fish Tung, Ricson Cheng e Katerina Fragki adaki. Aprendendo
senso comum espacial com reconhecimento de geometria

19127
Machine Translated by Google

redes recorrentes. Em Proceedings of the IEEE/CVF Conference on


Computer Vision and Pattern Recognition, páginas 2595–2603, 2019.
3 [29] Erik Wijmans,
Samyak Datta, Oleksandr Maksymets, Ab hishek Das, Georgia Gkioxari,
Stefan Lee, Irfan Essa, Devi Parikh e Dhruv Batra. Resposta a
perguntas incorporadas em ambientes fotorrealistas com percepção
de nuvem de pontos.
In Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition (CVPR), 2019. 1, 2, 6 [30] Erik
Wijmans, Abhishek Kadian, Ari Morcos, Stefan Lee, Irfan Essa, Devi Parikh,
Manolis Savva e Dhruv Batra .
DD-PPO: Aprendendo navegadores pointgoal quase perfeitos a partir
de 2,5 bilhões de quadros. Conferência Internacional sobre
Representações de Aprendizagem (ICLR), 2020. 3
[31] Yi Wu, Yuxin Wu, Aviv Tamar, Stuart Russell, Georgia Gkioxari e
Yuandong Tian. Memória relacional bayesiana para navegação visual
semântica. Em Proceedings of the IEEE/CVF International Conference
on Computer Vision, páginas 2769–2779, 2019. 3 [32] Licheng Yu,
Xinlei Chen, Georgia Gkioxari,
Mohit Bansal, Tamara L Berg e Dhruv Batra. Resposta a perguntas
incorporadas de vários alvos. Em Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition, páginas
6309–6318, 2019. 1, 2 [33] Xiaoming Zhao, Harsh Agrawal, Dhruv Batra
e Alexan der G Schwing.
A surpreendente eficácia das técnicas de odometria visual para a navegação
por pontos incorporados. Em Proceedings of the IEEE/CVF International
Conference on Computer Vision, páginas 16127–16136, 2021. 2, 8

[34] Luowei Zhou, Chenliang Xu e Jason J Corso. Rumo à aprendizagem


automática de procedimentos a partir de vídeos instrucionais na web.
Na Conferência AAAI sobre Inteligência Artificial, 2018. 2

19128

Você também pode gostar