Você está na página 1de 11

Machine Translated by Google

SparseCtrl: Adicionando controles esparsos a modelos de difusão de texto para vídeo

Yuwei Guo1 Ceyuan Yang2† Anyi Rao3 Maneesh Agrawala3 Dahua Lin1,2 Bo Dai2
2 3
1Laboratório de Inteligência Artificial da Universidade Chinesa de Hong Kong, Xangai, Universidade de Stanford

{gy023,dhlin}@ie.cuhk.edu.hk {yangceyuan,daibo}@pjlab.org.cn
{anyirao,maneesh}@cs.stanford.edu

+ Codificador de esboço

storyboard

esboço para vídeo

+ Codificador de profundidade

Condição escassa
Codificador

S-Enc.
renderização guiada por profundidade

= + Codificador de imagem RGB

+
V:C
1v33961.1o1r3b]2m ei2
v3 8rc2
v.Xs0
o
e a[
n
d

Pré-treinado
T2V (congelado) interpolação de quadro-chave

animação de imagem

condicionado

quadro(s)-chave

previsão e geração de vídeo longo

... ...

Figura 1. Apresentamos SparseCtrl, uma rede de codificadores complementares em modelos de difusão de texto para vídeo (T2V) pré-treinados para aceitar
condições temporalmente esparsas para quadros-chave específicos, por exemplo, esboço/profundidade/imagem RGB. Através da integração com vários codificadores de modalidade,
SparseCtrl permite o T2V pré-treinado para várias aplicações, incluindo storyboard, esboço para vídeo, animação de imagem, vídeo longo
geração, etc. Quando combinado com AnimateDiff [18] e backbones de imagem personalizados aprimorados [5, 42], SparseCtrl também alcança
resultados de geração controláveis e de alta qualidade, conforme mostrado nas 2/3/4 linhas.

A comunidade aproveita assim os sinais de estrutura densa, por exemplo,


Abstrato sequências de profundidade/borda por quadro para melhorar a
controlabilidade, cuja coleta aumenta correspondentemente a carga de
O desenvolvimento de texto para vídeo (T2V), ou seja, a geração de inferência. Neste trabalho, apresentamos SparseCtrl para permitir o
vídeos com um determinado prompt de texto, avançou significativamente controle flexível de estruturas com sinais temporalmente esparsos,
nos últimos anos. Contudo, baseando-se apenas exigindo apenas uma ou poucas entradas, conforme mostrado na Figura 1.
em prompts de texto geralmente resulta em composição de quadro Ele incorpora um codificador de condição adicional para processar esses
ambígua devido à incerteza espacial. A pesquisa com- sinais esparsos enquanto deixa o T2V pré-treinado
modelo intocado. A abordagem proposta é compatível
†Autor correspondente.

1
Machine Translated by Google

compatível com várias modalidades, incluindo esboços, profundidade e aplicamos a filosofia do ControlNet [62], que implementa um encoder auxiliar
Imagens RGB, proporcionando controle mais prático para vídeo preservando a integridade do
geração e promoção de aplicativos como storyboard, renderização de o gerador original. Este design nos permite incorporar
profundidade, animação de quadro-chave e interpolação. Experimentos condições adicionais simplesmente treinando a rede do codificador sobre o
extensos demonstram a generalização modelo T2V pré-treinado, eliminando assim a necessidade de um novo
de SparseCtrl em T2V original e personalizado treinamento abrangente do modelo. Além disso, esse design facilita o
geradores. Os códigos e modelos estarão disponíveis publicamente em controle não apenas do original
https://guoyww.github.io/projects/SparseCtrl. T2V, mas também os modelos personalizados derivados quando combinados
com o módulo de movimento plug-and-play do Animate-Diff [18]. Para
1. Introdução conseguir isso, projetamos um codificador de condição
equipado com camadas com reconhecimento temporal que propagam o
Com o avanço da geração de texto para imagem (T2I) [3, 9,
sinais de condição esparsos de quadros-chave condicionados para quadros
17, 27, 31, 33, 41, 54, 57] e texto-vídeo em grande escala emparelhados
não condicionados. Significativamente, descobrimos que purgar o
conjuntos de dados [2], houve uma onda de progresso no
a entrada de amostra com ruído no ControlNet vanilla evita ainda mais a
campo de modelos generativos de texto para vídeo (T2V) [4, 21, 43].
degradação potencial da qualidade em nosso cenário. Além disso, aplicamos
Esses desenvolvimentos permitem que os usuários gerem
estratégias de mascaramento amplamente utilizadas [4, 8, 60, 61]
vídeos por meio de descrições textuais do conteúdo desejado.
durante o treinamento para acomodar vários graus de dispersão
No entanto, as sugestões textuais, sendo expressões inerentemente
e lidar com uma ampla gama de cenários de aplicação.
abstratas, lutam para definir com precisão estruturas estruturais complexas.
Avaliamos SparseCtrl treinando três codificadores
atributos como layouts espaciais, poses e formas. Esse
em esboços, profundidade e imagens RGB. Resultados experimentais
a falta de controle preciso impede sua aplicação prática em
mostram que os usuários podem manipular a estrutura do sintético
contextos mais exigentes e profissionais, como anime
vídeos fornecendo apenas um ou alguns mapas de condições de entrada.
criação e cinema. Consequentemente, os usuários muitas vezes encontram
Estudos abrangentes de ablação são realizados para investigar a
eles mesmos se envolveram em inúmeras rodadas de tentativa e erro
contribuição de cada componente. Nós também
aleatório para alcançar os resultados desejados. Este processo pode
mostram que, ao integrar com backbone de geração de vídeo plug-and-play,
ser demorado, especialmente porque não existe um método direto para
como AniamteDiff [18], nosso método exibe compatibilidade e excelente
guiar os resultados sintéticos na direção esperada durante o processo de
qualidade visual com vários modelos personalizados de texto para imagem.
tentativa iterativo.
Aproveitando isso
Para desbloquear o potencial da geração T2V, foram envidados esforços
abordagem de controle esparso, SparseCtrl permite uma ampla
foi feito para incorporar um controle mais preciso através
gama de aplicações. Por exemplo, o codificador de esboço permite que os
informações estruturais. Por exemplo, os pioneiros Gen-1 [11]
usuários transformem storyboards desenhados à mão em vídeos dinâmicos;
usando mapas de profundidade monoculares como orientação estrutural.
O codificador de profundidade fornece a capacidade de
Video-Composer [51] e DragNUWA [59] investigam o domínio da geração
renderizar vídeos fornecendo um número mínimo de profundidade
de vídeo composicional, empregando diversos
mapas; Além disso, o codificador de imagem RGB unifica múltiplas tarefas,
modalidades como profundidade, esboço e imagem inicial como sinais de
incluindo animação de imagem, interpolação de quadro-chave, previsão de
controle. Além disso, estudos anteriores [18, 26, 65] utilizam
vídeo, etc.
a imagem ControlNet [62] para introduzir vários controles
contribuir para preencher a lacuna entre texto para vídeo
modalidades de geração de vídeo. Ao aproveitar adicionais
processos de pesquisa e criação de conteúdo do mundo real.
sequências estruturais, essas abordagens fornecem melhor
capacidades de controle. No entanto, para um controle de saída preciso,
obras existentes necessitam de mapa estrutural temporalmente denso 2. Trabalhos Relacionados
sequências, o que significa que os usuários precisam fornecer mapas de
condições para cada quadro do vídeo gerado, aumentando assim os custos Modelos de difusão de texto para vídeo. O campo de texto para vídeo
práticos. Além disso, a maioria das abordagens (T2V) geração [1, 6, 15, 16, 19, 23, 25, 37, 50, 64] tem
em direção ao T2V controlável normalmente redesenham a arquitetura do testemunhou uma progressão significativa recentemente, impulsionada por
modelo para acomodar a entrada de condição extra, que avanços nos modelos de difusão [10, 20, 44, 45] e conjuntos de dados
exige um dispendioso treinamento de modelos. Tal prática é ineficiente emparelhados de texto e vídeo em grande escala [2]. As primeiras tentativas neste
quando um modelo T2V bem treinado já está disponível área focada em treinar um modelo T2V do zero. Por exemplo, o Modelo de
ou quando há necessidade de incorporar um novo controle Difusão de Vídeo [22] expande o padrão
modalidade em um gerador pré-treinado. arquitetura de imagem para acomodar dados e trens de vídeo
Neste artigo, apresentamos SparseCtrl, um eficiente em imagem e vídeo juntos. Imagen Video [21] emprega uma estrutura em
abordagem que visa controlar a geração de texto para vídeo cascata para geração T2V de alta resolução, enquanto Make-A-Video [43]
por meio de mapas de condições temporalmente esparsos com um usa uma imagem de texto anterior.
codificador adicional. Mais especificamente, para controlar a síntese, modelo para reduzir a dependência de dados emparelhados de texto-vídeo. Outros-

2
Machine Translated by Google

os profissionais se voltam para construir modelos T2V com base em recursos poderosos de conversão de texto em imagem entrada de condição. A saída do encoder é então reintegrada no
(T2I), como Stable Diffusion [31], incorporando camadas adicionais para o modelo T2I por meio de camadas inicializadas com zero. De forma similar,
modelar movimento e consistência de quadro cruzado [14, 52, 68]. Entre O adaptador T2I [30] utiliza uma estrutura leve para infundir
estes, MagicVideo [68] utiliza um design causal e executa o treinamento em ao controle. Adaptador IP [58], integra a condição de estilo por
um formato compactado. transpondo a imagem de referência para incorporações suplementares, que
espaço latente para mitigar demandas computacionais. Align-Your-Latents são posteriormente concatenadas com o texto
[4] transforma T2I com eficiência em geradores de vídeo incorporações. Nossa abordagem está alinhada com os princípios de
alinhando mapas de ruído amostrados independentemente. O AnimateD-iff essas obras e visa alcançar um controle esparso por meio de um
[18] utiliza um módulo de movimento conectável para permitir a criação de módulo codificador auxiliar.
animação de alta qualidade em backbones de imagens personalizados [12,
27, 38, 39]. Outras contribuições incluem ruído 3. Ctrl esparso
modelagem prévia [14], treinamento em conjuntos de dados de alta qualidade [52],
Para melhorar a controlabilidade de uma conversão de texto para vídeo pré-treinada
e remoção de ruído de espaço híbrido de pixel latente [61], todos levando a
(T2V) modelo com sinais temporalmente esparsos, apresentamos
qualidade de pixel notável. No entanto, os atuais textos condicionados
codificadores esparsos complementares para controlar o processo de
as técnicas de geração de vídeo carecem de controle refinado sobre os
geração de vídeo, deixando o gerador T2V original intacto. Esse
resultados sintéticos. Em resposta a este desafio, a nossa
a seção é assim organizada da seguinte forma: Seç. 3.1 apresenta o
trabalho visa aprimorar o controle de modelos T2V através de um
antecedentes dos modelos de difusão T2V; Seg. 3.2 discutir o
codificador adicional.
projeto de nosso codificador de condição esparsa, seguido pelas modalidades
Geração controlável de texto para vídeo. Considerando que um texto e aplicações suportadas na Seção. 3.3.
prompt muitas vezes pode resultar em orientação ambígua para o vídeo
movimento, conteúdo e estrutura espacial, tais controlabilidades tornam-se 3.1. Modelos de difusão de texto para vídeo
fatores cruciais na geração de T2V. Para controle de movimento de vídeo de
Aproveitando poderosos geradores de texto para imagem. A geração de
alto nível, vários estudos propõem o aprendizado de camadas LoRA [24]
texto para imagem (T2I) foi dramaticamente avançada por
para padrões de movimento específicos [18, 66],
geradores de imagens poderosos como Stable Diffusion [35]. A
enquanto outros empregam trajetórias extraídas [59], vetores de movimento
O caminho prático para tarefas T2V é aproveitar esses poderosos
[51] ou sequência de pose [28]. Para gerenciar quadros-chave sintéticos
Prévios T2I. O modelo T2V recente [4, 14, 61] normalmente estende um
específicos para animação ou interpolação, explorações recentes incluem a
gerador T2I pré-treinado para vídeos, incorporando camadas temporais entre
codificação da imagem separadamente do
as camadas da imagem 2D, conforme ilustrado em
gerador [55], concatenando com a entrada de ruído [8, 51],
a parte inferior da Fig. 2 (a). Este arranjo permite a troca de informações
ou utilizando injeção de recursos multinível [59]. Para um controle de estrutura
entre quadros, modelando efetivamente
espacial refinado, algumas representações de baixo nível são introduzidas.
o movimento cross-frame e a consistência temporal.
Gen-1 [11] é o primeiro a usar sequências de profundidade monoculares
como orientação estrutural. VideoCom-poser [51] codifica sequências de Objetivos de Treinamento. Os objetivos de treinamento dos modelos T2V

esboço e profundidade por meio de um estão geralmente alinhados com seus equivalentes de imagem.

codificador, facilitando combinações flexíveis na inferência. Além disso, Especificamente, o modelo tenta prever a escala de ruído adicionada
1:N com N
algumas abordagens utilizam imagens prontamente disponíveis para o vídeo RGB limpo (ou recursos latentes) z 0

modelos de controle [30, 62] para geração de vídeo controlável [7, 18, 26, quadros, incentivados por uma perda de MSE:

65]. Embora esses métodos alcancem uma controlabilidade refinada, eles 1:N 2
Ez 1:N ,ct,ÿ,t ÿÿ ÿ ÿÿ(ÿtz 0 + ÿtÿ, ct, t)ÿ 2, (1)
necessitam fornecer condições para cada estrutura sintética, o que incorre 0

em custos proibitivos. onde ct são os encaixes da descrição do texto, ÿ é


custos em aplicações práticas. Neste estudo, pretendemos controlar a 1:N
o ruído gaussiano amostrado na mesma forma de z 0,
geração de vídeo através de condições temporalmente esparsas ÿt e ÿt são termos que controlam a intensidade do ruído adicionado,
inserindo apenas alguns mapas de condições, tornando assim o T2V t = 1, ..., N é uma etapa de difusão uniformemente amostrada, T é
mais prático em uma ampla gama de cenários. o número total de etapas. No contexto a seguir, também
Rede complementar para controle adicional. O treinamento de modelos adoptar este objectivo para a formação.
generativos T2I/T2V fundamentais é computacionalmente exigente. Portanto,
3.2. Codificador de condição esparsa
uma abordagem preferida para incorporar
O controle extra para esses modelos é treinar um codificador de condição Para permitir um controle esparso eficiente, introduzimos um complemento
adicional, mantendo a integridade do backbone original [13, 56, 67]. codificador capaz de aceitar mapas de condições esparsas como entradas,
ControlNet [62] foi pioneira na que chamamos de codificadores de condições esparsas. No T2I
potencial de treinamento de codificadores de condição plug-and-play para domínio, ControlNet [62] adiciona com sucesso controle de estrutura
modelos T2I pré-treinados. Envolve a criação de uma duplicata treinável das para o gerador de imagem pré-treinado, replicando parcialmente um
camadas pré-treinadas que acomoda o con- cópia do modelo pré-treinamento e sua entrada e, em seguida, adicionando o

3
Machine Translated by Google

Codificador esparso CS [cs;m]


Camada 2D
zt zero zt zero
Camada temporal T2V
eu
+ +
gato.
camada de
propagação UNet Ao controle- Rede T2V Escasso
CS Codificador Líquido Codificador Codificador
t T2V pré-treinado
extrair + (congeladas) + +
mascaramento esparso
zt pred
UNet Decodificador

Decodificador Rede T2V

pred pred

(a) (b)
Figura 2. (a) Visão geral do pipeline SparseCtrl. (b) Comparação entre o vanilla ControlNet (esquerda) e nosso codificador de condição esparsa
(à direita), onde “zero” significa camadas inicializadas com zero; [·; ·] denota concatenação por canal. Estruturas detalhadas são omitidas para maior clareza.

CS [cs;m] Codificador esparso


Camada 2D
condições e reintegrando a saída de volta ao original poderiam lidar com a escassez de insumos, isso às vezes leva
zt zero zt zero Camada temporal T2V
eu
modelo por meio de camadas inicializadas
+ com zero, conforme mostrado
+ à esquerda à degradação
gato.
da qualidade visual dos vídeos gerados, bem como
da Figura 2 (b). Inspirados pelo seu sucesso, começamos com uma abordagem semelhante mostrado na Seç. 4.4.1. Ao examinar o design do camada de
propagação
UNet Ao controle- Rede T2V Escasso
design para permitir controle esparso na configuração T2V. vanilla ControlNet, descobrimos que simplesmente aplicar o ControlNet em
Codificador Líquido Codificador Codificador CS

Controlabilidade limitada do codificador por quadro. Nós começamos


t
nosso cenário é inadequado devido à cópia do
T2V pré-treinado
(congeladas)
+ + extrair + entradas de amostra com ruído. Concretamente, conforme ilustrado na Fig. 2 (b),
com uma solução simples: treinar um sistema semelhante ao ControlNet mascaramento esparso
zt
o ControlNet pred também a
original copia não apenas o codificador UNet [36] , mas
codificador para incorporar
UNet sinais de condição esparsos. Para este fim,
Decodificador
entrada de amostra com ruído zt. Ou seja, o
construímos um codificador de quadro semelhante aoRede
Decodificador T2V
ControlNet, replicamos
entrada para o encoder ControlNet é a soma entre
através da dimensão temporal
pred e adicionar as condições para
pred
condição (após camadas inicializadas com zero) e a amostra com ruído. Este
os quadros-chave desejados através desta estrutura auxiliar. Para
design estabiliza o treinamento e acelera o
quadros que não estão diretamente condicionados, inserimos um zero
convergência do modelo em seu cenário original. No entanto, em
imagem para o codificador e indica o estado incondicionado
termos dos quadros incondicionados em nosso cenário, a entrada informativa
através de um canal de máscara adicional. No entanto, os resultados
experimentais na Seç. 4.4.1 mostram que tais condições de quadro às vezes do codificador esparso torna-se apenas o ruído
amostra. Isso pode encorajar o codificador esparso a ignorar os mapas de
não conseguem manter a consistência temporal quando
condições e confiar na amostra com ruído zt
usado com condições de entrada esparsas, por exemplo, no cenário de
durante o treinamento, o que contradiz nosso objetivo de melhoria da
animação de imagem onde apenas o primeiro quadro é condicionado. Em
controlabilidade. Assim, como mostrado na Fig. 2 (b), nosso
nesses casos, apenas os quadros-chave reagem à condição, levando
o codificador esparso proposto elimina a entrada de amostra com ruído
a mudanças abruptas de conteúdo entre os quadros condicionados e não
condicionados. e só aceita os mapas de condições [cs,m] após concatenação. Este método
simples, mas eficaz, elimina
Propagação de condições entre quadros. Considerando o a degradação da qualidade observada em nossos experimentos.
esparsidade e relação temporal de determinadas entradas, hipotetizamos que
Unificando a escassez por meio de mascaramento. Na prática, para unificar
o problema acima surge porque o T2V
diferentes esparsidades com um único modelo, usamos zero imagens como
backbone tem dificuldade em inferir a condição intermediária
o espaço reservado de entrada para quadros não condicionados e concatenar
estados para os quadros não condicionados. Para resolver isso, propomos
uma sequência de máscara binária às condições de entrada, que
adicionar camadas temporais (por exemplo, atenção temporal [47]
é uma prática comum em reconstrução e previsão de vídeo [4, 8, 46, 60, 61].
com codificação de posição) para os codificadores de condição esparsa
Como mostrado na Fig. 2 (a), concatenamos uma máscara m ÿ {0, 1}
que permitem que o sinal condicional se propague de quadro para h×w
em termos de canal, além do
quadro. Intuitivamente, embora não idênticos, quadros diferentes
sinais de condição cs em cada quadro para formar a entrada do
dentro de um videoclipe compartilham semelhanças na aparência
codificador esparso. A configuração m = 0 indica o quadro atual
e estrutura. As camadas temporais podem assim propagar tais
é incondicionado e vice-versa. Desta forma, diferentes esparsos
informações implícitas dos quadros-chave condicionados para o
casos de entrada podem ser representados com um formato de entrada unificado.
quadros não condicionados, aumentando assim a consistência. Nosso
experimentos confirmam que este design melhora significativamente 3.3. Múltiplas Modalidades e Aplicações
a robustez e consistência dos resultados gerados.
Neste artigo, implementamos SparseCtrl com três
Degradação da qualidade causada por ruídos latentes manuais. modalidades: esboços, mapas de profundidade e imagens RGB. Notavelmente,
Embora o codificador de condição esparsa com configuração temporal nosso método é potencialmente compatível com outros

4
Machine Translated by Google

modalidades, como esqueleto e mapa de arestas, que deixamos para determinar quantos quadros receberão a condição.
para desenvolvimentos futuros. Posteriormente, desenhamos índices Nc sem repetir de

Geração de esboço para vídeo. Esboços [48, 49] podem servir {1, 2, ..., N} e mantenha as condições para o correspondente

como uma ferramenta de orientação eficiente para T2V devido à sua quadros. Treinamos SparseCtrl no WebVid-10M [2] e

facilidade de criação por usuários não profissionais. Com SparseCtrl, os usuários extraia as condições correspondentes instantaneamente. Mais detalhes
pode fornecer qualquer número de esboços para moldar o conteúdo do pode ser encontrado no material suplementar.

vídeo. Por exemplo, um único esboço pode estabelecer a visão geral


4.2. Resultados principais
layout do vídeo, enquanto os esboços do primeiro, do último e dos quadros
intermediários selecionados podem definir o movimento grosseiro, tornando Apresentamos os resultados qualitativos e aplicações de
o método altamente benéfico para o storyboard. SparseCtrl com três modalidades na Fig. 1, 3, e o
Geração guiada em profundidade. Integrando condições de profundidade material complementar, abrangendo originais e personalizados
com o T2V pré-treinado permite a geração guiada em profundidade. Configurações de T2V. Conforme mostrado na figura, com SparseCtrl,
Conseqüentemente, os usuários podem renderizar um vídeo exportando os vídeos sintéticos aderem estreitamente aos sinais de controle e
diretamente mapas de profundidade esparsos de mecanismos ou manter uma excelente consistência temporal, sendo robusto para
diferentes
representações 3D [29] ou realizar a tradução de vídeo usando a profundidade como um recurso. números de quadros de condicionamento.
representação intermediária. Notavelmente, ao desenhar um único esboço, podemos acionar a
capacidade do modelo T2V pré-treinado de gerar
Animação e transição de imagens; previsão de vídeo e
composições semânticas raras, como um panda em pé
interpolação. No contexto do vídeo RGB, numerosos
uma prancha de surf mostrada na primeira linha da Fig. 3. Em contraste,
tarefas podem ser unificadas em um único problema de geração de vídeo
o modelo T2V pré-treinado se esforça para gerar amostras tão complexas
com condições de imagem RGB. Neste esquema, imagem
usando apenas descrições textuais. Isso sugere
a animação corresponde à geração de vídeo condicionada
que todo o potencial do T2V, pré-treinado em larga escala
o primeiro quadro; A transição é condicionada pela primeira e pela última
conjuntos de dados, podem não ser totalmente desbloqueados apenas
molduras; A previsão de vídeo está condicionada a um pequeno número
com orientação textual. Além disso, mostramos que com conhecimento de
de quadros iniciais; A interpolação está condicionada a quadros-chave
movimento do mundo real bem aprendido, o T2V pré-treinado é capaz de
esparsos uniformemente.
inferindo os estados intermediários com apenas duas condições, conforme

4. Experimentos ilustrado nas 3/5 linhas da Fig.


esse controle temporalmente denso pode não ser necessário.
Nesta seção, avaliamos SparseCtrl sob vários
configurações. Seg. 4.1 apresentam as implementações detalhadas. 4.3. Comparações em tarefas populares
Seg. 4.2 apresenta os resultados e aplicações dadas a um ou
Como é um desafio comparar SparseCtrl com
poucas condições. Seg. 4.3 sugere que SparseCtrl poderia
esforços anteriores em todos os aplicativos que poderíamos habilitar,
alcançar desempenhos comparáveis em tarefas populares escolhidas
escolha duas tarefas populares para avaliação: geração esparsa de
com métodos de linha de base, por exemplo, geração esparsa de
profundidade de vídeo e animação de imagem. Para a primeira tarefa,
profundidade para vídeo e animação de imagem. Seg. 4.4 apresentar abrangente
modo de condição de profundidade densa do VideoComposer (VC) [51]
estudos de ablação e avaliar a resposta do SparseCtrl a
e Text2Video-Zero (Zero) [26] servem como linha de base.
prompts textuais e condições não relacionadas.
Também implementamos uma linha de base combinando AnimateD-iff
4.1. Detalhes de implementação (AD) [18] com ControlNet [62] por meio da aplicação de sinais de controle
de quadro aos quadros-chave condicionados. Para
Gerador de texto para vídeo. Implementamos SparseCtrl animação de imagem, comparamos SparseCtrl com dois
no AnimateDiff [18], que pode servir como um T2V geral linhas de base de animação de imagem de código aberto: DynamiCrafter
gerador quando integrado com seu backbone de imagem de pré- (DC) [55] e modo de quadro inicial do VideoComposer.
treinamento, Stable Diffusion V1.5 [40], ou funciona como um gerador
personalizado quando combinado com imagem personalizada
4.3.1 Geração de profundidade para vídeo esparsa
backbones como RealisticVision [42] e ToonYou [5].
Testamos com ambas as configurações e apresentamos os resultados. Fornecendo uma sequência de profundidade densa para geração de vídeo
Treinamento. O objetivo de treinamento do SparseCtrl se alinha ajuda a especificar informações estruturais até certo ponto. Nós assim
com a Eq. (1). A única diferença é a integração do avaliar nosso método nesta tarefa com configurações muito mais
codificador de condição esparsa proposto no backbone de texto para vídeo desafiadoras, porém práticas: apenas algumas profundidades são fornecidas para
(T2V) pré-treinado. Para ajudar o codificador de condição a síntese. A fidelidade de controle sob diferentes esparsidades de insumos
aprender controlabilidade robusta, adotamos uma estratégia simples é medida para a comparação quantitativa.
para mascarar as condições durante o treinamento. Em cada iteração, Especificamente, primeiro selecionamos 20 vídeos do conjunto de validação
primeiro amostramos aleatoriamente um número Nc entre 1 e N do WebVid-10M [2] que não são vistos durante o treinamento. Lá-

5
Machine Translated by Google

um panda em cima de uma prancha de surf no oceano.

balões coloridos de ar quente subiram no vale.

uma mulher andando de bicicleta na calçada em frente a um prédio.

um homem está andando na rua, parte superior do corpo, terno, roupas com rendas cruzadas, óculos escuros.

vista aérea de um belo vale, paisagem paisagística, cachoeira.

Entrada noite, foto em preto e branco de casa velha, floresta, tempestade, vento.

Figura 3. Resultados qualitativos com codificadores de condição esparsa de imagem esboço/profundidade/RGB. Vídeos em 4/6 linhas são gerados com backbone
personalizado, RealisticVision [42]. As condições de entrada são mostradas à esquerda; os quadros-chave condicionados são indicados por uma borda azul .

Tabela 1. Avaliação da fidelidade do controle esparso. "errar." apoia de rmask = 0 para VideoComposer e Text2Video-Zero,
Erro MAE; “contras.” significa consistência temporal. Todos os números onde os controles para cada quadro são fornecidos. Como mostrado
são ampliados em 100×.
na tabela, como a dispersão de controle, ou seja, a taxa de mascaramento
máscara 1/2 3/4 7/8 rmask, aumenta, nosso método mantém uma taxa de erro comparável com
errar. contras. errar. contras. errar. contras.
0 errei. (ÿ) contras. (ÿ) linhas de base de controle densas. Em contrapartida, o erro
VC [51] 8.26 96.02 - - - - - -
- - - - - -
do AnimateDiff com ControlNet por quadro aumenta, indicando que esse
Zero [26] 8.24 97,05
DC [18, 62] 8.37 96,82 9,25 96,68 12,38 93,35 14,84 94,66 método de linha de base tende a ignorar os sinais de condição quando o
Nosso 8,92 96,54 8,09 96,75 7,30 96,48 7,40 95,56
controle se torna mais esparso.

4.3.2 Animação de imagem


depois, estimamos as sequências de profundidade correspondentes com
o modelo MiDaS [34] pronto para uso , mascara uniformemente alguns Ao fornecer a imagem RGB como a primeira condição do quadro,
deles com uma proporção rmask e use a profundidade restante SparseCtrl pode lidar com a tarefa de animação de imagens. Para
mapas como condições para gerar vídeos. Estimamos então o validar a eficácia do nosso método, nós o comparamos ainda mais
mapas de profundidade dos quadros-chave condicionados gerados com duas linhas de base neste domínio. Coletamos oito imagens selvagens
vídeos e, seguindo as métricas do trabalho anterior, realizamos o e as animamos usando os três métodos para
realinhamento da mudança de escala e calculamos a média absoluta gerar 24 amostras no total. Semelhante na Seç. 4.3.1, nossas métricas
erro (MAE) em relação aos mapas de profundidade extraídos dos vídeos residem em dois aspectos: o primeiro quadro fidelidade à entrada
originais. Por outro lado, para evitar que o modelo imagem medida por LPIPS [63] e consistência temporal
aprender um corte de cena controlando apenas os quadros-chave e medido pela similaridade CLIP. Além disso, convidamos 20
ignorando a consistência temporal, também relatamos cross-frame usuários classifiquem os resultados individualmente em termos de fidelidade
Similaridade do CLIP [32] seguindo trabalhos anteriores [26, 53]. à imagem fornecida e à preferência geral de qualidade. Nós
Os resultados quantitativos são apresentados na Tab. 1. Para ficar obteve 160 resultados de classificação para cada aspecto. Usamos a
próximo da implementação original, reportamos apenas resultados classificação humana média (AHR) como métrica de preferência e relatório

6
Machine Translated by Google

(a)

(b)

Entrada Entrada

(c)

Figura 4. Estudo de ablação no desenho da rede. Esquerda: os resultados da animação de imagem selvagem com T2V pré-treinado; Certo: os resultados do domínio
animação de imagem com backbone T2I personalizado ToonYou [5], onde a imagem de entrada é gerada pelo modelo de imagem correspondente.
As condições de entrada são mostradas à esquerda; os quadros-chave condicionados são indicados por uma borda azul .

Tabela 2. Avaliação da animação de imagens. configuração de geração personalizada, não consegue propagar o controle para
os quadros incondicionados (1ª linha, direita), levando à inconsistência
LPIPS (ÿ) CLIP (ÿ) fidelidade(usuário) (ÿ) preferência(usuário) (ÿ)
0,5346 98,49 2,137 2.310 temporal onde os detalhes do personagem (por exemplo,
CD [55]
VC [51] 0,3346 91,90 1,815 1.696 cabelo e cor das roupas) mudam com o tempo. No T2V pré-treinado, o
Nosso 0,1467 95,25 2,048 1.994
codificador com camadas de propagação, conforme indicado
na seg. 3.2, sofre degradação de qualidade (2ª linha, esquerda), e
os resultados na Tab. 2. O resultado mostra que nosso método pode levantamos a hipótese de que isso ocorre porque a entrada da amostra
com ruído para o codificador fornece informações enganosas para o
alcançar desempenho comparável com design específico
tarefas de condição. Finalmente, com camadas de propagação e
pipelines de animação enquanto são favorecidos em termos de fidelidade
para o primeiro quadro. eliminando a entrada de amostra com ruído, nosso modelo completo funciona bem
nas duas configurações (3ª linha), mantendo a fidelidade
4.4. Estudo Ablativo condicionar e consistência temporal.

4.4.1 Projeto de codificador esparso


4.4.2 Condições Não Relacionadas
Removemos a arquitetura do codificador esparso para verificar nossa
escolha. Especificamente, experimentamos quatro designs: (1) Além dos usos comuns, experimentamos um caso extremo onde as
codificador de condição quadro a quadro, onde repetimos o 2D condições de entrada não estão relacionadas ou são contraditas. Com
ControlNet [62] ao longo do eixo temporal e codificar o relação a isso, inserimos duas imagens não relacionadas para
sinais de controle para os quadros-chave, conforme descrito na Seç. 3.2; o codificador de imagem RGB e exige que o modelo interpole entre eles,
(2) codificador de condição com camadas de propagação, onde como mostrado na primeira linha da Fig. 5. Surpreendentemente, o
adicione camadas temporais em (1) para propagar condições através codificador esparso ainda pode ajudar a gerar imagens suaves.
quadros, conforme discutido na Seç. 3.2; (3) nosso modelo completo, onde transições entre as imagens de entrada, o que verifica ainda mais
eliminamos ainda a entrada de amostra com ruído para o codificador de a robustez do SparseCtrl e mostra potencial em
condição em (2). Para comparar melhor a eficácia síntese de efeitos visuais.
destas três escolhas, consideramos o caso mais desafiador,
ou seja, as condições da imagem RGB, porque comparadas com outras
4.4.3 Resposta ao prompt textual
modalidades abstratas, aqui os resultados sintéticos precisam demonstrar
fielmente os detalhes refinados da condição Outra questão interessante é, com as informações adicionais fornecidas
sinal e propagá-lo para outros quadros não condicionados para pelo codificador de condição esparsa, até que ponto
garantir consistência temporal. Com AnimateDiff [18], nós Até que ponto o resultado final gerado responde à descrição do texto de
além disso, mostra o resultado em uma imagem personalizada, o que nos entrada? Para responder a isso, experimentamos
ajuda ainda mais a distinguir os méritos diferentes prompts textuais com a mesma entrada e demonstram os
e deficiências de diferentes escolhas. resultados na Fig. 5. Na configuração de animação de imagem,
Na Figura 4 mostramos os resultados qualitativos da animação da comparamos o prompt que descreve fielmente a imagem
imagem. De acordo com a figura, com todas as três variações, o conteúdo (2ª linha) e o prompt que descreve um pouco
primeiro quadro nos vídeos gerados é a fidelidade à entrada conteúdo diferente (3ª linha). Os resultados mostram que os prompts de
controle de imagem. O codificador frame-wise, sob a responsabilidade pessoal texto de entrada influenciam o resultado, levando o

7
Machine Translated by Google

Entrada vista aérea, bela floresta, outono.

montanhas nevadas ao pôr do sol, céu laranja, nuvens, paisagem paisagística.

Entrada

montanhas nevadas à noite, noite estrelada, aurora no céu, melhor qualidade.

(aviso insuficiente) um vídeo excelente, melhor qualidade, obras-primas.

Entrada
(aviso incompleto) mar, luz solar, melhor qualidade, obras-primas.

(instrução preenchida) um veleiro branco navega no mar, luz solar, melhor qualidade, obras-primas.

Figura 5. Estudo de ablação em condições não relacionadas e resposta à solicitação textual. A primeira linha demonstra como o modelo lida com
condições não relacionadas; As cinco linhas inferiores mostram como o modelo reage a diferentes solicitações textuais. As condições de entrada são mostradas no
esquerda; os quadros-chave condicionados são indicados por uma borda azul .

conteúdo em direção às direções correspondentes. eficácia e generalização do método em geradores de texto para vídeo
No cenário de esboço para vídeo, construímos três tipos de originais e personalizados, tornando-o um
prompts: (1) prompt insuficiente sem informações úteis ferramenta promissora para uso no mundo real.
(4ª linha), por exemplo, “um excelente vídeo, melhor qualidade, obras-
primas”; (2) prompt incompleto que descreve parcialmente o Limitações. Embora com SparseCtrl, a qualidade visual, a capacidade
conteúdo desejado (5ª linha), por exemplo, “mar, luz solar, ...”, ignorando de composição semântica e o domínio dos resultados gerados sejam
o objeto central “veleiro”; (3) prompt preenchido que descreve cada limitados pelo backbone T2V pré-treinado
conteúdo (6ª linha). Como mostrado na Fig. 5, com e os dados de treinamento. Em experimentos, descobrimos que
a condição do esboço, o conteúdo pode ser gerado corretamente casos de falha vêm principalmente de entradas fora do domínio, como
somente quando o prompt for concluído, mostrando que o texto como animação de imagens de anime, uma vez que tais dados são escassos em

a entrada ainda desempenha um papel significativo quando a condição o T2V e o conjunto de dados de pré-treinamento do codificador esparso
fornecida é altamente abstrata e insuficiente para inferir o conteúdo. WebVid-10M [2], cujo conteúdo são principalmente vídeos do mundo
real. Possíveis soluções para melhorar a generalização poderiam ser
melhorando a diversidade de domínio do conjunto de dados de
5. Discussão e Conclusão
treinamento e utilizando algum backbone específico de domínio, como a integração
Apresentamos SparseCtrl, uma abordagem unificada de adição SparseCtrl com AnimateDiff [18].
controles temporariamente esparsos para geradores de texto para vídeo pré-
treinados por meio de uma rede de codificadores complementares. Ele pode acomodar Reconhecimento. O projeto é apoiado pela
diversas modalidades, incluindo profundidade, esboços e imagens RGB, Laboratório de Inteligência Artificial de Xangai (P23KN00601,
melhorando muito o controle prático para geração de vídeo. Essa P23KS00020, 2022ZD0160201), CUHK Interdisciplinar
flexibilidade é inestimável em diversas aplicações, como esboço para AI Research Institute e o Center for Perceptual and Interactive Intelligence
vídeo, animação de imagem, quadro-chave (CPIl) Ltd no âmbito da Inovação e
interpolação, etc. Experimentos extensos validaram InnoHK da Comissão de Tecnologia (ITC).

8
Machine Translated by Google

Referências [14] Songwei Ge, Seungjun Nah, Guilin Liu, Tyler Poon, Andrew
Tao, Bryan Catanzaro, David Jacobs, Jia-Bin Huang, Ming-Yu Liu e
[1] Jie An, Songyang Zhang, Harry Yang, Sonal Gupta, Jia-Bin
Yogesh Balaji. Preserve sua própria correlação:
Huang, Jiebo Luo e Xi Yin. Mudança latente: difusão latente com mudança
Um ruído anterior para modelos de difusão de vídeo. Em Processo
temporal para geração eficiente de texto para vídeo. Pré-impressão do
da Conferência Internacional IEEE/CVF sobre Visão Computacional,
arXiv arXiv:2304.08477, 2023. 2
¨ páginas 22930–22941, 2023.3
[2] Max Bain, Arsha Nagrani, Gul Varol e Andrew Zisserman. Congelado no
[15] Rohit Girdhar, Mannat Singh, Andrew Brown, Quentin Du-val, Samaneh
tempo: um codificador conjunto de vídeo e imagem para Azadi, Sai Saketh Rambhatla, Akbar Shah, Xi
recuperação de ponta a ponta. Em Anais da Conferência Internacional Yin, Devi Parikh e Ishan Misra. Vídeo Emu: Fatorando a geração de texto
IEEE/CVF sobre Visão Computacional, páginas 1728–1738,
para vídeo por condicionamento explícito de imagem.
2021. 2, 5, 8
Pré-impressão arXiv arXiv:2311.10709, 2023. 2
[3] Yogesh Balaji, Seungjun Nah, Xun Huang, Arash Vahdat,
[16] Jiaxi Gu, Shicong Wang, Haoyu Zhao, Tianyi Lu, Xing
Jiaming Song, Karsten Kreis, Miika Aittala, Timo Aila,
Zhang, Zuxuan Wu, Songcen Xu, Wei Zhang, Yu-Gang
Samuli Laine, Bryan Catanzaro e outros. ediffi: Texto para imagem
Jiang e Hang Xu. Reutilizar e difundir: Iterativo
modelos de difusão com um conjunto de denoisers especializados. arXiv
remoção de ruído para geração de texto para vídeo. Pré-impressão arXiv
pré-impressão arXiv:2211.01324, 2022. 2 arXiv:2309.03549, 2023. 2
[4] Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dock-horn, Seung [17] Shuyang Gu, Dong Chen, Jianmin Bao, Fang Wen, Bo
Wook Kim, Sanja Fidler e Karsten Kreis. Zhang, Dongdong Chen, Lu Yuan e Baining Guo. Modelo de difusão
Alinhe suas latentes: síntese de vídeo de alta resolução com modelos de quantizada vetorial para síntese de texto para imagem. Em
difusão latente. Em Anais da Conferência IEEE/CVF sobre Visão Anais da Conferência IEEE/CVF sobre Visão Computacional e
Computacional e Reconhecimento de Padrões, páginas Reconhecimento de Padrões, páginas 10696–10706, 2022. 2
22563–22575, 2023. 2, 3, 4
[18] Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu
[5] Bradcatt. Toonyou, https://civitai.com/models/ Qiao, Dahua Lin e Bo Dai. Animatediff: anime seu
30240/toonyvocê, 2023. 1, 5, 7 modelos personalizados de difusão de texto para imagem sem
[6] Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, sintonia. pré-impressão arXiv arXiv:2307.04725, 2023. 1, 2, 3, 5, 6,
Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, 7, 8
Qifeng Chen, Xintao Wang, Chao Weng e Ying Shan. [19] Yingqing He, Tianyu Yang, Yong Zhang, Ying Shan e
Videocrafter1: Modelos de difusão aberta para vídeo de alta qualidade Qi Feng Chen. Modelos de difusão de vídeo latente para alta fidelidade
geração, 2023. 2 geração de vídeo com comprimentos arbitrários. Pré-impressão arXiv
[7] Weifeng Chen, Jie Wu, Pan Xie, Hefeng Wu, Jiashi Li, arXiv:2211.13221, 2022. 2
Xin Xia, Xuefeng Xiao e Liang Lin. Controle um vídeo: [20] Jonathan Ho, Ajay Jain e Pieter Abbeel. Modelos probabilísticos de difusão
Geração controlável de texto para vídeo com modelos de difusão. com eliminação de ruído. Avanços na informação neural
Pré-impressão do arXiv arXiv:2305.13840, 2023.3 Sistemas de Processamento, 33:6840–6851, 2020. 2
[8] Xinyuan Chen, Yaohui Wang, Lingjun Zhang, Shaobin [21] Jonathan Ho, William Chan, Chitwan Saharia, Jay Whang,
Zhuang, Xin Ma, Jiashuo Yu, Yali Wang, Dahua Lin, Yu Ruiqi Gao, Alexey Gritsenko, Diederik P Kingma, Ben
Qiao e Ziwei Liu. Sena: difusão de vídeo curto a longo Poole, Mohammad Norouzi, David J Fleet, et al. Imagem
modelo para transição generativa e previsão, 2023. 2, 3, 4 video: Geração de vídeo em alta definição com modelos de difusão. Pré-
[9] Xiaoliang Dai, Ji Hou, Chih-Yao Ma, Sam Tsai, Jialiang impressão do arXiv arXiv:2210.02303, 2022. 2
Wang, Rui Wang, Peizhao Zhang, Simon Vandenhende, Xi-aofang Wang, [22] Jonathan Ho, Tim Salimans, Alexey Gritsenko, William
Abhimanyu Dubey, et al. Emu: Aprimorando modelos de geração de Chan, Mohammad Norouzi e David J Fleet. Modelos de difusão de vídeo.
imagens usando agulhas fotogênicas em um Pré-impressão arXiv arXiv:2204.03458, 2022. 2
palheiro. Pré-impressão do arXiv arXiv:2309.15807, 2023. 2 [23] Wenyi Hong, Ming Ding, Wendi Zheng, Xinghan Liu,
[10] Prafulla Dhariwal e Alexander Nichol. Modelos de difusão e Jie Tang. Cogvideo: Pré-treinamento em larga escala para
vencer gans na síntese de imagens. Avanços em sistemas de geração de texto para vídeo por meio de transformadores. Pré-impressão arXiv
processamento de informações neurais, 34:8780–8794, 2021. 2 arXiv:2205.15868, 2022. 2
[11] Patrick Esser, Johnathan Chiu, Parmida Atighehchian, [24] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li,
Jonathan Granskog e Anastase Germanidis. Estrutura Shean Wang, Lu Wang e Weizhu Chen.
e síntese de vídeo guiada por conteúdo com modelos de difusão. Lora: Adaptação de baixo nível de grandes modelos de linguagem. arXiv
Pré-impressão arXiv arXiv:2302.03011, 2023. 2, 3 pré-impressão arXiv:2106.09685, 2021.3
[12] Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patash-nik, Amit H Bermano, Gal [25] Johanna Karras, Aleksander Holynski, Ting-Chun Wang,
Chechik e Daniel Cohen-Or. Uma imagem vale uma palavra: e Ira Kemelmacher-Shlizerman. Pose de sonho: moda
Personalização da geração de texto para imagem usando inversão síntese de vídeo com difusão estável. Em Anais do
textual. Pré-impressão arXiv Conferência Internacional IEEE/CVF sobre Visão Computacional,
arXiv:2208.01618, 2022.3 páginas 22680–22690, 2023. 2
[13] Rinon Gal, Moab Arar, Yuval Atzmon, Amit H Bermano, [26] Levon Khachatryan, Andranik Movsisyan, Vahram Tade-vosyan, Roberto
Gal Chechik e Daniel Cohen-Or. Domínio baseado em codificador Henschel, Zhangyang Wang, Shant
ajuste para personalização rápida de modelos de texto para imagem. ACM Navasardyan e Humphrey Shi. Text2video-zero: Os modelos de difusão
Transações em Gráficos (TOG), 42(4):1–13, 2023. 3 de texto para imagem são geradores de vídeo de disparo zero. IEEE

9
Machine Translated by Google

Conferência Internacional sobre Visão Computacional (ICCV), 2023. geração. Em Anais da Conferência IEEE/CVF sobre Visão
2, 3, 5, 6 Computacional e Reconhecimento de Padrões, páginas 22500–
[27] Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman e 22510, 2023. 3
Jun-Yan Zhu. Personalização multiconceito de difusão de texto [39] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Wei Wei, Tingbo
para imagem. Em Anais da Conferência IEEE/CVF sobre Visão Hou, Yael Pritch, Neal Wadhwa, Michael Rubinstein, e Kfir
Computacional e Reconhecimento de Padrões, páginas 1931– Aberman. Hyperdreambooth: Hiperredes para personalização
1941, 2023. 2, 3 rápida de modelos de texto para imagem. pré-impressão arXiv
[28] Yue Ma, Yingqing He, Xiaodong Cun, Xintao Wang, Ying Shan, arXiv:2307.06949, 2023. 3
Xiu Li e Qifeng Chen. Siga sua pose: geração de texto para [40] runwayml. Difusão estável v1.5, https: //huggingface.
vídeo guiada por pose usando vídeos sem pose. Pré-impressão co / runwayml / estável - difusão-v1-5, 2022. 5
arXiv arXiv:2304.01186, 2023. 3 [29] Ben
Mildenhall, Pratul P Srinivasan, Matthew Tancik, Jonathan T Barron, [41] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay
Ravi Ramamoorthi e Ren Ng. Nerf: Representando cenas como Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo
campos de radiação neural para síntese de visualização. Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Modelos
Comunicações da ACM, 65(1):99–106, 2021. 5 fotorrealistas de difusão de texto para imagem com profundo
entendimento da linguagem. Advances in Neural Information
Processing Systems, 35:36479–36494, 2022. 2
[30] Chong Mou, Xintao Wang, Liangbin Xie, Jian Zhang, Zhon-gang
[42] SG 161222. Visão realista v5.1, https://civitai. com / modelos /
Qi, Ying Shan e Xiaohu Qie. Adaptador T2i: Adaptadores de
4201 / realista - visão - v51, 2023. 1, 5, 6
aprendizagem para obter capacidade mais controlável para
modelos de difusão de texto para imagem. Pré-impressão arXiv
[43] Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An,
arXiv:2302.08453, 2023. 3 [31] Dustin Podell, Zion English, Kyle Lacey,
¨ Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran
Andreas Blattmann, Tim Dockhorn, Jonas Muller, Joe Penna e
Gafni, et al. Make-a-video: geração de texto para vídeo sem
Robin Rombach. Sdxl: melhorando modelos de difusão latente
dados de texto-vídeo. Pré-impressão do arXiv arXiv:2209.14792,
para síntese de imagens de alta resolução. Pré-impressão arXiv
2022. 2
arXiv:2307.01952, 2023. 2, 3
[44] Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan e
[32] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh,
Surya Ganguli. Aprendizagem profunda não supervisionada
Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell,
usando termodinâmica de não-equilíbrio. Na conferência
Pamela Mishkin, Jack Clark, e outros. Aprendendo modelos
internacional sobre aprendizado de máquina, páginas 2256–
visuais transferíveis a partir da supervisão de linguagem natural. 2265. PMLR, 2015. 2
Na conferência internacional sobre aprendizado de máquina,
[45] Jiaming Song, Chenlin Meng e Stefano Ermon.
páginas 8748–8763. PMLR, 2021. 6
Modelos implícitos de difusão de eliminação de ruído. Pré-
[33] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu e Mark impressão arXiv
Chen. Geração hierárquica de imagem condicional em texto
arXiv:2010.02502, 2020. 2 [46] Zhan Tong, Yibing Song, Jue Wang e Limin Wang.
com latentes de clipe. Pré-impressão arXiv arXiv:2204.06125, 1 Videomae: Autoencoders mascarados são alunos eficientes em termos de dados
(2):3, 2022. 2
' para pré-treinamento de vídeo auto-supervisionado. Avanços em
[34] Rene Ranftl, Katrin Lasinger, David Hafner, Konrad Schindler e sistemas de processamento de informações neurais, 35: 10078–
Vladlen Koltun. Rumo a uma estimativa robusta de profundidade
10093, 2022. 4 [47] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszko-
monocular: Mistura de conjuntos de dados para transferência de reit, Llion Jones, Aidan N Gomez, ÿukasz Kaiser e Illia Polosukhin.
conjuntos de dados cruzados de disparo zero. Transações IEEE
Atenção é tudo que você precisa. Avanços em sistemas de
sobre análise de padrões e inteligência
processamento de informações neurais, 30,
de máquina, 44(3):1623–1637, 2020. 6 [35] Robin Rombach, Andreas 2017. 4 [48] Yael Vinker, Yuval Alaluf, Daniel Cohen-Or e Ariel Shamir.
¨
Blattmann, Dominik Lorenz, Patrick Esser e Bjorn Ommer. Clipascene: Esboço de cena com diferentes tipos e níveis de
Síntese de imagens de alta resolução com modelos de difusão abstração. Em Anais da Conferência Internacional IEEE/CVF
latente. Em Proceedings of the IEEE/CVF Conference on sobre Visão Computacional, páginas 4146–4156, 2023.5 [ 49]
Computer Vision and Pattern Recognition, Andrey Voynov,
páginas 10684–10695, 2022. 3 [36] Olaf Ronneberger, Philipp Fischer Kfir Aberman e Daniel Cohen-Or.
e Thomas Brox. U-net: Redes convolucionais para segmentação Modelos de difusão de texto para imagem guiados por esboço. Em
de imagens biomédicas, 2015. 4 ACM SIG-GRAPH 2023 Conference Proceedings, páginas 1–11,
[37] Ludan Ruan, Yiyang Ma, Huan Yang, Huiguo He, Bei Liu, Jianlong 2023. 5
Fu, Nicholas Jing Yuan, Qin Jin e Baining Guo. Difusão Mm: [50] Jiuniu Wang, Hangjie Yuan, Dayou Chen, Yingya Zhang, Xiang
Aprendizagem de modelos de difusão multimodais para geração Wang e Shiwei Zhang. Relatório técnico de texto para vídeo do
conjunta de áudio e vídeo. Em Proceedings of the IEEE/CVF Modelscope. Pré-impressão arXiv arXiv:2308.06571, 2023. 2
Conference on Computer Vision and Pattern Recognition, [51] Xiang Wang, Hangjie Yuan, Shiwei Zhang, Dayou Chen, Jiuniu
páginas 10219–10228, 2023. 2 [38] Nataniel Wang, Yingya Zhang, Yujun Shen, Deli Zhao e Jingren Zhou.
Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein e Videocomposer: Síntese de vídeo composicional com
Kfir Aberman. Dreambooth: ajuste fino de modelos de difusão de controlabilidade de movimento. Pré-impressão arXiv
texto para imagem para arXiv:2306.02018, 2023. 2, 3, 5, 6, 7

10
Machine Translated by Google

[52] Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Conferência IEEE sobre visão computacional e reconhecimento de
Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing padrões, páginas 586–595, 2018.6
Yang, Yuwei Guo, Tianxing Wu, Chenyang Si, Yum-ing Jiang, [64] Shiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie
Cunjian Chen, Chen Change Loy, Bo Dai, Dahua Lin, Yu Qiao Yuan, Zhiwu Qin, Xiang Wang, Deli Zhao e Jingren Zhou.
e Ziwei Liu. Lavie: Geração de vídeo de alta qualidade com I2vgen-xl: Síntese de imagem para vídeo de alta qualidade por
modelos de difusão latente em cascata, 2023. 3 [53] Jay meio de modelos de difusão em cascata. Pré-impressão arXiv
Zhangjie Wu, Yixiao Ge, Xintao Wang, Stan Weixian Lei, Yuchao Gu, arXiv:2311.04145, 2023. 2
Yufei Shi, Wynne Hsu, Ying Shan, Xiaohu Qie, e Mike Zheng [65] Yabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang,
Shou. Tune-a-video: Ajuste único de modelos de difusão de Wangmeng Zuo e Qi Tian. Controlvideo: geração controlável
imagem para geração de texto para vídeo. Em Proceedings of de texto para vídeo sem treinamento. Pré-impressão arXiv
the IEEE/CVF International Conference on Computer Vision, arXiv:2305.13077, 2023. 2, 3
páginas 7623–7633, 2023. 6 [54] Qiucheng [66] Rui Zhao, Yuchao Gu, Jay Zhangjie Wu, David Junhao Zhang,
Wu, Yujian Liu, Handong Zhao, Trung Bui, Zhe Lin, Yang Zhang e Jiawei Liu, Weijia Wu, Jussi Keppo e Mike Zheng Shou.
Shiyu Chang. Aproveitando a atenção espaço-temporal dos Motiondirector: Personalização de movimento de texto para
modelos de difusão para síntese de texto para imagem de alta modelos de difusão de vídeo. Pré-impressão do arXiv arXiv:2310.08465,
fidelidade. Em Anais da Conferência Internacional IEEE/CVF 2023.3
sobre Visão Computacional, páginas 7766–7776, 2023. 2 [67] Shihao Zhao, Dongdong Chen, Yen-Chun Chen, Jianmin Bao,
Shaozhe Hao, Lu Yuan e Kwan-Yee K Wong.
[55] Jinbo Xing, Menghan Xia, Yong Zhang, Haoxin Chen, Xin-tao Uni-controlnet: Controle completo para modelos de difusão de texto
Wang, Tien-Tsin Wong e Ying Shan. Dynamicrafter: Animação para imagem. Pré-impressão do arXiv arXiv:2305.16322, 2023.3
de imagens de domínio aberto com prévias de difusão de [68] Daquan Zhou, Weimin Wang, Hanshu Yan, Weiwei Lv, Yizhe
vídeo. Pré-impressão arXiv arXiv:2310.12190, Zhu e Jiashi Feng. Magicvideo: Geração eficiente de vídeo com
2023. 3, 5, 7 [56] Xingqian Xu, Jiayi Guo, Zhangyang Wang, Gao modelos de difusão latente. Pré-impressão do arXiv
Huang, Ir-fan Essa e Humphrey Shi. Difusão sem aviso: arXiv:2211.11018, 2022.3
Retirando “texto” dos modelos de difusão de texto para imagem.
Pré-impressão arXiv
arXiv:2305.16223, 2023. 3 [57] Xingqian Xu, Zhangyang Wang, Gong
Zhang, Kai Wang e Humphrey Shi. Difusão versátil: Texto,
imagens e variações em um único modelo de difusão. Em
Anais da Conferência Internacional IEEE/CVF sobre Visão
Computacional, páginas
7754–7765, 2023. 2 [58] Hu Ye, Jun Zhang, Sibo Liu, Xiao Han e
Wei Yang. Adaptador IP: Adaptador de prompt de imagem
compatível com texto para modelos de difusão de texto para
imagem. Pré-impressão do arXiv arXiv:2308.06721, 2023.3
[59] Shengming Yin, Chenfei Wu, Jian Liang, Jie Shi, Houqiang Li,
Gong Ming e Nan Duan. Dragnuwa: Controle refinado na
geração de vídeo integrando texto, imagem e trajetória. Pré-
impressão arXiv arXiv:2308.08089, 2023. 2, 3 [60] Lijun
'
Yu, Yong Cheng, Kihyuk Sohn, Jose Lezama, Han Zhang, Huiwen
Chang, Alexander G Hauptmann, Ming-Hsuan Yang, Yuan
Hao, Irfan Essa, et al. Magvit:
Transformador de vídeo generativo mascarado. Em Anais da
Conferência IEEE/CVF sobre Visão Computacional e
Reconhecimento de Padrões, páginas 10459–
10469, 2023. 2, 4 [61] David Junhao Zhang, Jay Zhangjie Wu, Jia-
Wei Liu, Rui Zhao, Lingmin Ran, Yuchao Gu, Difei Gao e Mike
Zheng Shou. Show-1: Casando modelos de pixel e difusão
latente para geração de texto para vídeo. Pré-impressão arXiv
arXiv:2309.15818, 2023. 2, 3, 4
[62] Lvmin Zhang, Anyi Rao e Maneesh Agrawala. Adicionando
controle condicional a modelos de difusão de texto para
imagem. Em Anais da Conferência Internacional IEEE/CVF
sobre Visão Computacional, páginas 3836–3847, 2023.
2, 3, 5, 6, 7 [63] Richard Zhang, Phillip Isola, Alexei A Efros, Eli
Shecht-man e Oliver Wang . A eficácia irracional de recursos
profundos como métrica perceptual. Em Anais do

11

Você também pode gostar