Escolar Documentos
Profissional Documentos
Cultura Documentos
Yuwei Guo1 Ceyuan Yang2† Anyi Rao3 Maneesh Agrawala3 Dahua Lin1,2 Bo Dai2
2 3
1Laboratório de Inteligência Artificial da Universidade Chinesa de Hong Kong, Xangai, Universidade de Stanford
{gy023,dhlin}@ie.cuhk.edu.hk {yangceyuan,daibo}@pjlab.org.cn
{anyirao,maneesh}@cs.stanford.edu
+ Codificador de esboço
storyboard
+ Codificador de profundidade
Condição escassa
Codificador
S-Enc.
renderização guiada por profundidade
+
V:C
1v33961.1o1r3b]2m ei2
v3 8rc2
v.Xs0
o
e a[
n
d
Pré-treinado
T2V (congelado) interpolação de quadro-chave
animação de imagem
condicionado
quadro(s)-chave
... ...
Figura 1. Apresentamos SparseCtrl, uma rede de codificadores complementares em modelos de difusão de texto para vídeo (T2V) pré-treinados para aceitar
condições temporalmente esparsas para quadros-chave específicos, por exemplo, esboço/profundidade/imagem RGB. Através da integração com vários codificadores de modalidade,
SparseCtrl permite o T2V pré-treinado para várias aplicações, incluindo storyboard, esboço para vídeo, animação de imagem, vídeo longo
geração, etc. Quando combinado com AnimateDiff [18] e backbones de imagem personalizados aprimorados [5, 42], SparseCtrl também alcança
resultados de geração controláveis e de alta qualidade, conforme mostrado nas 2/3/4 linhas.
1
Machine Translated by Google
compatível com várias modalidades, incluindo esboços, profundidade e aplicamos a filosofia do ControlNet [62], que implementa um encoder auxiliar
Imagens RGB, proporcionando controle mais prático para vídeo preservando a integridade do
geração e promoção de aplicativos como storyboard, renderização de o gerador original. Este design nos permite incorporar
profundidade, animação de quadro-chave e interpolação. Experimentos condições adicionais simplesmente treinando a rede do codificador sobre o
extensos demonstram a generalização modelo T2V pré-treinado, eliminando assim a necessidade de um novo
de SparseCtrl em T2V original e personalizado treinamento abrangente do modelo. Além disso, esse design facilita o
geradores. Os códigos e modelos estarão disponíveis publicamente em controle não apenas do original
https://guoyww.github.io/projects/SparseCtrl. T2V, mas também os modelos personalizados derivados quando combinados
com o módulo de movimento plug-and-play do Animate-Diff [18]. Para
1. Introdução conseguir isso, projetamos um codificador de condição
equipado com camadas com reconhecimento temporal que propagam o
Com o avanço da geração de texto para imagem (T2I) [3, 9,
sinais de condição esparsos de quadros-chave condicionados para quadros
17, 27, 31, 33, 41, 54, 57] e texto-vídeo em grande escala emparelhados
não condicionados. Significativamente, descobrimos que purgar o
conjuntos de dados [2], houve uma onda de progresso no
a entrada de amostra com ruído no ControlNet vanilla evita ainda mais a
campo de modelos generativos de texto para vídeo (T2V) [4, 21, 43].
degradação potencial da qualidade em nosso cenário. Além disso, aplicamos
Esses desenvolvimentos permitem que os usuários gerem
estratégias de mascaramento amplamente utilizadas [4, 8, 60, 61]
vídeos por meio de descrições textuais do conteúdo desejado.
durante o treinamento para acomodar vários graus de dispersão
No entanto, as sugestões textuais, sendo expressões inerentemente
e lidar com uma ampla gama de cenários de aplicação.
abstratas, lutam para definir com precisão estruturas estruturais complexas.
Avaliamos SparseCtrl treinando três codificadores
atributos como layouts espaciais, poses e formas. Esse
em esboços, profundidade e imagens RGB. Resultados experimentais
a falta de controle preciso impede sua aplicação prática em
mostram que os usuários podem manipular a estrutura do sintético
contextos mais exigentes e profissionais, como anime
vídeos fornecendo apenas um ou alguns mapas de condições de entrada.
criação e cinema. Consequentemente, os usuários muitas vezes encontram
Estudos abrangentes de ablação são realizados para investigar a
eles mesmos se envolveram em inúmeras rodadas de tentativa e erro
contribuição de cada componente. Nós também
aleatório para alcançar os resultados desejados. Este processo pode
mostram que, ao integrar com backbone de geração de vídeo plug-and-play,
ser demorado, especialmente porque não existe um método direto para
como AniamteDiff [18], nosso método exibe compatibilidade e excelente
guiar os resultados sintéticos na direção esperada durante o processo de
qualidade visual com vários modelos personalizados de texto para imagem.
tentativa iterativo.
Aproveitando isso
Para desbloquear o potencial da geração T2V, foram envidados esforços
abordagem de controle esparso, SparseCtrl permite uma ampla
foi feito para incorporar um controle mais preciso através
gama de aplicações. Por exemplo, o codificador de esboço permite que os
informações estruturais. Por exemplo, os pioneiros Gen-1 [11]
usuários transformem storyboards desenhados à mão em vídeos dinâmicos;
usando mapas de profundidade monoculares como orientação estrutural.
O codificador de profundidade fornece a capacidade de
Video-Composer [51] e DragNUWA [59] investigam o domínio da geração
renderizar vídeos fornecendo um número mínimo de profundidade
de vídeo composicional, empregando diversos
mapas; Além disso, o codificador de imagem RGB unifica múltiplas tarefas,
modalidades como profundidade, esboço e imagem inicial como sinais de
incluindo animação de imagem, interpolação de quadro-chave, previsão de
controle. Além disso, estudos anteriores [18, 26, 65] utilizam
vídeo, etc.
a imagem ControlNet [62] para introduzir vários controles
contribuir para preencher a lacuna entre texto para vídeo
modalidades de geração de vídeo. Ao aproveitar adicionais
processos de pesquisa e criação de conteúdo do mundo real.
sequências estruturais, essas abordagens fornecem melhor
capacidades de controle. No entanto, para um controle de saída preciso,
obras existentes necessitam de mapa estrutural temporalmente denso 2. Trabalhos Relacionados
sequências, o que significa que os usuários precisam fornecer mapas de
condições para cada quadro do vídeo gerado, aumentando assim os custos Modelos de difusão de texto para vídeo. O campo de texto para vídeo
práticos. Além disso, a maioria das abordagens (T2V) geração [1, 6, 15, 16, 19, 23, 25, 37, 50, 64] tem
em direção ao T2V controlável normalmente redesenham a arquitetura do testemunhou uma progressão significativa recentemente, impulsionada por
modelo para acomodar a entrada de condição extra, que avanços nos modelos de difusão [10, 20, 44, 45] e conjuntos de dados
exige um dispendioso treinamento de modelos. Tal prática é ineficiente emparelhados de texto e vídeo em grande escala [2]. As primeiras tentativas neste
quando um modelo T2V bem treinado já está disponível área focada em treinar um modelo T2V do zero. Por exemplo, o Modelo de
ou quando há necessidade de incorporar um novo controle Difusão de Vídeo [22] expande o padrão
modalidade em um gerador pré-treinado. arquitetura de imagem para acomodar dados e trens de vídeo
Neste artigo, apresentamos SparseCtrl, um eficiente em imagem e vídeo juntos. Imagen Video [21] emprega uma estrutura em
abordagem que visa controlar a geração de texto para vídeo cascata para geração T2V de alta resolução, enquanto Make-A-Video [43]
por meio de mapas de condições temporalmente esparsos com um usa uma imagem de texto anterior.
codificador adicional. Mais especificamente, para controlar a síntese, modelo para reduzir a dependência de dados emparelhados de texto-vídeo. Outros-
2
Machine Translated by Google
os profissionais se voltam para construir modelos T2V com base em recursos poderosos de conversão de texto em imagem entrada de condição. A saída do encoder é então reintegrada no
(T2I), como Stable Diffusion [31], incorporando camadas adicionais para o modelo T2I por meio de camadas inicializadas com zero. De forma similar,
modelar movimento e consistência de quadro cruzado [14, 52, 68]. Entre O adaptador T2I [30] utiliza uma estrutura leve para infundir
estes, MagicVideo [68] utiliza um design causal e executa o treinamento em ao controle. Adaptador IP [58], integra a condição de estilo por
um formato compactado. transpondo a imagem de referência para incorporações suplementares, que
espaço latente para mitigar demandas computacionais. Align-Your-Latents são posteriormente concatenadas com o texto
[4] transforma T2I com eficiência em geradores de vídeo incorporações. Nossa abordagem está alinhada com os princípios de
alinhando mapas de ruído amostrados independentemente. O AnimateD-iff essas obras e visa alcançar um controle esparso por meio de um
[18] utiliza um módulo de movimento conectável para permitir a criação de módulo codificador auxiliar.
animação de alta qualidade em backbones de imagens personalizados [12,
27, 38, 39]. Outras contribuições incluem ruído 3. Ctrl esparso
modelagem prévia [14], treinamento em conjuntos de dados de alta qualidade [52],
Para melhorar a controlabilidade de uma conversão de texto para vídeo pré-treinada
e remoção de ruído de espaço híbrido de pixel latente [61], todos levando a
(T2V) modelo com sinais temporalmente esparsos, apresentamos
qualidade de pixel notável. No entanto, os atuais textos condicionados
codificadores esparsos complementares para controlar o processo de
as técnicas de geração de vídeo carecem de controle refinado sobre os
geração de vídeo, deixando o gerador T2V original intacto. Esse
resultados sintéticos. Em resposta a este desafio, a nossa
a seção é assim organizada da seguinte forma: Seç. 3.1 apresenta o
trabalho visa aprimorar o controle de modelos T2V através de um
antecedentes dos modelos de difusão T2V; Seg. 3.2 discutir o
codificador adicional.
projeto de nosso codificador de condição esparsa, seguido pelas modalidades
Geração controlável de texto para vídeo. Considerando que um texto e aplicações suportadas na Seção. 3.3.
prompt muitas vezes pode resultar em orientação ambígua para o vídeo
movimento, conteúdo e estrutura espacial, tais controlabilidades tornam-se 3.1. Modelos de difusão de texto para vídeo
fatores cruciais na geração de T2V. Para controle de movimento de vídeo de
Aproveitando poderosos geradores de texto para imagem. A geração de
alto nível, vários estudos propõem o aprendizado de camadas LoRA [24]
texto para imagem (T2I) foi dramaticamente avançada por
para padrões de movimento específicos [18, 66],
geradores de imagens poderosos como Stable Diffusion [35]. A
enquanto outros empregam trajetórias extraídas [59], vetores de movimento
O caminho prático para tarefas T2V é aproveitar esses poderosos
[51] ou sequência de pose [28]. Para gerenciar quadros-chave sintéticos
Prévios T2I. O modelo T2V recente [4, 14, 61] normalmente estende um
específicos para animação ou interpolação, explorações recentes incluem a
gerador T2I pré-treinado para vídeos, incorporando camadas temporais entre
codificação da imagem separadamente do
as camadas da imagem 2D, conforme ilustrado em
gerador [55], concatenando com a entrada de ruído [8, 51],
a parte inferior da Fig. 2 (a). Este arranjo permite a troca de informações
ou utilizando injeção de recursos multinível [59]. Para um controle de estrutura
entre quadros, modelando efetivamente
espacial refinado, algumas representações de baixo nível são introduzidas.
o movimento cross-frame e a consistência temporal.
Gen-1 [11] é o primeiro a usar sequências de profundidade monoculares
como orientação estrutural. VideoCom-poser [51] codifica sequências de Objetivos de Treinamento. Os objetivos de treinamento dos modelos T2V
esboço e profundidade por meio de um estão geralmente alinhados com seus equivalentes de imagem.
codificador, facilitando combinações flexíveis na inferência. Além disso, Especificamente, o modelo tenta prever a escala de ruído adicionada
1:N com N
algumas abordagens utilizam imagens prontamente disponíveis para o vídeo RGB limpo (ou recursos latentes) z 0
modelos de controle [30, 62] para geração de vídeo controlável [7, 18, 26, quadros, incentivados por uma perda de MSE:
65]. Embora esses métodos alcancem uma controlabilidade refinada, eles 1:N 2
Ez 1:N ,ct,ÿ,t ÿÿ ÿ ÿÿ(ÿtz 0 + ÿtÿ, ct, t)ÿ 2, (1)
necessitam fornecer condições para cada estrutura sintética, o que incorre 0
3
Machine Translated by Google
pred pred
(a) (b)
Figura 2. (a) Visão geral do pipeline SparseCtrl. (b) Comparação entre o vanilla ControlNet (esquerda) e nosso codificador de condição esparsa
(à direita), onde “zero” significa camadas inicializadas com zero; [·; ·] denota concatenação por canal. Estruturas detalhadas são omitidas para maior clareza.
4
Machine Translated by Google
modalidades, como esqueleto e mapa de arestas, que deixamos para determinar quantos quadros receberão a condição.
para desenvolvimentos futuros. Posteriormente, desenhamos índices Nc sem repetir de
Geração de esboço para vídeo. Esboços [48, 49] podem servir {1, 2, ..., N} e mantenha as condições para o correspondente
como uma ferramenta de orientação eficiente para T2V devido à sua quadros. Treinamos SparseCtrl no WebVid-10M [2] e
facilidade de criação por usuários não profissionais. Com SparseCtrl, os usuários extraia as condições correspondentes instantaneamente. Mais detalhes
pode fornecer qualquer número de esboços para moldar o conteúdo do pode ser encontrado no material suplementar.
5
Machine Translated by Google
um homem está andando na rua, parte superior do corpo, terno, roupas com rendas cruzadas, óculos escuros.
Entrada noite, foto em preto e branco de casa velha, floresta, tempestade, vento.
Figura 3. Resultados qualitativos com codificadores de condição esparsa de imagem esboço/profundidade/RGB. Vídeos em 4/6 linhas são gerados com backbone
personalizado, RealisticVision [42]. As condições de entrada são mostradas à esquerda; os quadros-chave condicionados são indicados por uma borda azul .
Tabela 1. Avaliação da fidelidade do controle esparso. "errar." apoia de rmask = 0 para VideoComposer e Text2Video-Zero,
Erro MAE; “contras.” significa consistência temporal. Todos os números onde os controles para cada quadro são fornecidos. Como mostrado
são ampliados em 100×.
na tabela, como a dispersão de controle, ou seja, a taxa de mascaramento
máscara 1/2 3/4 7/8 rmask, aumenta, nosso método mantém uma taxa de erro comparável com
errar. contras. errar. contras. errar. contras.
0 errei. (ÿ) contras. (ÿ) linhas de base de controle densas. Em contrapartida, o erro
VC [51] 8.26 96.02 - - - - - -
- - - - - -
do AnimateDiff com ControlNet por quadro aumenta, indicando que esse
Zero [26] 8.24 97,05
DC [18, 62] 8.37 96,82 9,25 96,68 12,38 93,35 14,84 94,66 método de linha de base tende a ignorar os sinais de condição quando o
Nosso 8,92 96,54 8,09 96,75 7,30 96,48 7,40 95,56
controle se torna mais esparso.
6
Machine Translated by Google
(a)
(b)
Entrada Entrada
(c)
Figura 4. Estudo de ablação no desenho da rede. Esquerda: os resultados da animação de imagem selvagem com T2V pré-treinado; Certo: os resultados do domínio
animação de imagem com backbone T2I personalizado ToonYou [5], onde a imagem de entrada é gerada pelo modelo de imagem correspondente.
As condições de entrada são mostradas à esquerda; os quadros-chave condicionados são indicados por uma borda azul .
Tabela 2. Avaliação da animação de imagens. configuração de geração personalizada, não consegue propagar o controle para
os quadros incondicionados (1ª linha, direita), levando à inconsistência
LPIPS (ÿ) CLIP (ÿ) fidelidade(usuário) (ÿ) preferência(usuário) (ÿ)
0,5346 98,49 2,137 2.310 temporal onde os detalhes do personagem (por exemplo,
CD [55]
VC [51] 0,3346 91,90 1,815 1.696 cabelo e cor das roupas) mudam com o tempo. No T2V pré-treinado, o
Nosso 0,1467 95,25 2,048 1.994
codificador com camadas de propagação, conforme indicado
na seg. 3.2, sofre degradação de qualidade (2ª linha, esquerda), e
os resultados na Tab. 2. O resultado mostra que nosso método pode levantamos a hipótese de que isso ocorre porque a entrada da amostra
com ruído para o codificador fornece informações enganosas para o
alcançar desempenho comparável com design específico
tarefas de condição. Finalmente, com camadas de propagação e
pipelines de animação enquanto são favorecidos em termos de fidelidade
para o primeiro quadro. eliminando a entrada de amostra com ruído, nosso modelo completo funciona bem
nas duas configurações (3ª linha), mantendo a fidelidade
4.4. Estudo Ablativo condicionar e consistência temporal.
7
Machine Translated by Google
Entrada
Entrada
(aviso incompleto) mar, luz solar, melhor qualidade, obras-primas.
(instrução preenchida) um veleiro branco navega no mar, luz solar, melhor qualidade, obras-primas.
Figura 5. Estudo de ablação em condições não relacionadas e resposta à solicitação textual. A primeira linha demonstra como o modelo lida com
condições não relacionadas; As cinco linhas inferiores mostram como o modelo reage a diferentes solicitações textuais. As condições de entrada são mostradas no
esquerda; os quadros-chave condicionados são indicados por uma borda azul .
conteúdo em direção às direções correspondentes. eficácia e generalização do método em geradores de texto para vídeo
No cenário de esboço para vídeo, construímos três tipos de originais e personalizados, tornando-o um
prompts: (1) prompt insuficiente sem informações úteis ferramenta promissora para uso no mundo real.
(4ª linha), por exemplo, “um excelente vídeo, melhor qualidade, obras-
primas”; (2) prompt incompleto que descreve parcialmente o Limitações. Embora com SparseCtrl, a qualidade visual, a capacidade
conteúdo desejado (5ª linha), por exemplo, “mar, luz solar, ...”, ignorando de composição semântica e o domínio dos resultados gerados sejam
o objeto central “veleiro”; (3) prompt preenchido que descreve cada limitados pelo backbone T2V pré-treinado
conteúdo (6ª linha). Como mostrado na Fig. 5, com e os dados de treinamento. Em experimentos, descobrimos que
a condição do esboço, o conteúdo pode ser gerado corretamente casos de falha vêm principalmente de entradas fora do domínio, como
somente quando o prompt for concluído, mostrando que o texto como animação de imagens de anime, uma vez que tais dados são escassos em
a entrada ainda desempenha um papel significativo quando a condição o T2V e o conjunto de dados de pré-treinamento do codificador esparso
fornecida é altamente abstrata e insuficiente para inferir o conteúdo. WebVid-10M [2], cujo conteúdo são principalmente vídeos do mundo
real. Possíveis soluções para melhorar a generalização poderiam ser
melhorando a diversidade de domínio do conjunto de dados de
5. Discussão e Conclusão
treinamento e utilizando algum backbone específico de domínio, como a integração
Apresentamos SparseCtrl, uma abordagem unificada de adição SparseCtrl com AnimateDiff [18].
controles temporariamente esparsos para geradores de texto para vídeo pré-
treinados por meio de uma rede de codificadores complementares. Ele pode acomodar Reconhecimento. O projeto é apoiado pela
diversas modalidades, incluindo profundidade, esboços e imagens RGB, Laboratório de Inteligência Artificial de Xangai (P23KN00601,
melhorando muito o controle prático para geração de vídeo. Essa P23KS00020, 2022ZD0160201), CUHK Interdisciplinar
flexibilidade é inestimável em diversas aplicações, como esboço para AI Research Institute e o Center for Perceptual and Interactive Intelligence
vídeo, animação de imagem, quadro-chave (CPIl) Ltd no âmbito da Inovação e
interpolação, etc. Experimentos extensos validaram InnoHK da Comissão de Tecnologia (ITC).
8
Machine Translated by Google
Referências [14] Songwei Ge, Seungjun Nah, Guilin Liu, Tyler Poon, Andrew
Tao, Bryan Catanzaro, David Jacobs, Jia-Bin Huang, Ming-Yu Liu e
[1] Jie An, Songyang Zhang, Harry Yang, Sonal Gupta, Jia-Bin
Yogesh Balaji. Preserve sua própria correlação:
Huang, Jiebo Luo e Xi Yin. Mudança latente: difusão latente com mudança
Um ruído anterior para modelos de difusão de vídeo. Em Processo
temporal para geração eficiente de texto para vídeo. Pré-impressão do
da Conferência Internacional IEEE/CVF sobre Visão Computacional,
arXiv arXiv:2304.08477, 2023. 2
¨ páginas 22930–22941, 2023.3
[2] Max Bain, Arsha Nagrani, Gul Varol e Andrew Zisserman. Congelado no
[15] Rohit Girdhar, Mannat Singh, Andrew Brown, Quentin Du-val, Samaneh
tempo: um codificador conjunto de vídeo e imagem para Azadi, Sai Saketh Rambhatla, Akbar Shah, Xi
recuperação de ponta a ponta. Em Anais da Conferência Internacional Yin, Devi Parikh e Ishan Misra. Vídeo Emu: Fatorando a geração de texto
IEEE/CVF sobre Visão Computacional, páginas 1728–1738,
para vídeo por condicionamento explícito de imagem.
2021. 2, 5, 8
Pré-impressão arXiv arXiv:2311.10709, 2023. 2
[3] Yogesh Balaji, Seungjun Nah, Xun Huang, Arash Vahdat,
[16] Jiaxi Gu, Shicong Wang, Haoyu Zhao, Tianyi Lu, Xing
Jiaming Song, Karsten Kreis, Miika Aittala, Timo Aila,
Zhang, Zuxuan Wu, Songcen Xu, Wei Zhang, Yu-Gang
Samuli Laine, Bryan Catanzaro e outros. ediffi: Texto para imagem
Jiang e Hang Xu. Reutilizar e difundir: Iterativo
modelos de difusão com um conjunto de denoisers especializados. arXiv
remoção de ruído para geração de texto para vídeo. Pré-impressão arXiv
pré-impressão arXiv:2211.01324, 2022. 2 arXiv:2309.03549, 2023. 2
[4] Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dock-horn, Seung [17] Shuyang Gu, Dong Chen, Jianmin Bao, Fang Wen, Bo
Wook Kim, Sanja Fidler e Karsten Kreis. Zhang, Dongdong Chen, Lu Yuan e Baining Guo. Modelo de difusão
Alinhe suas latentes: síntese de vídeo de alta resolução com modelos de quantizada vetorial para síntese de texto para imagem. Em
difusão latente. Em Anais da Conferência IEEE/CVF sobre Visão Anais da Conferência IEEE/CVF sobre Visão Computacional e
Computacional e Reconhecimento de Padrões, páginas Reconhecimento de Padrões, páginas 10696–10706, 2022. 2
22563–22575, 2023. 2, 3, 4
[18] Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu
[5] Bradcatt. Toonyou, https://civitai.com/models/ Qiao, Dahua Lin e Bo Dai. Animatediff: anime seu
30240/toonyvocê, 2023. 1, 5, 7 modelos personalizados de difusão de texto para imagem sem
[6] Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, sintonia. pré-impressão arXiv arXiv:2307.04725, 2023. 1, 2, 3, 5, 6,
Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, 7, 8
Qifeng Chen, Xintao Wang, Chao Weng e Ying Shan. [19] Yingqing He, Tianyu Yang, Yong Zhang, Ying Shan e
Videocrafter1: Modelos de difusão aberta para vídeo de alta qualidade Qi Feng Chen. Modelos de difusão de vídeo latente para alta fidelidade
geração, 2023. 2 geração de vídeo com comprimentos arbitrários. Pré-impressão arXiv
[7] Weifeng Chen, Jie Wu, Pan Xie, Hefeng Wu, Jiashi Li, arXiv:2211.13221, 2022. 2
Xin Xia, Xuefeng Xiao e Liang Lin. Controle um vídeo: [20] Jonathan Ho, Ajay Jain e Pieter Abbeel. Modelos probabilísticos de difusão
Geração controlável de texto para vídeo com modelos de difusão. com eliminação de ruído. Avanços na informação neural
Pré-impressão do arXiv arXiv:2305.13840, 2023.3 Sistemas de Processamento, 33:6840–6851, 2020. 2
[8] Xinyuan Chen, Yaohui Wang, Lingjun Zhang, Shaobin [21] Jonathan Ho, William Chan, Chitwan Saharia, Jay Whang,
Zhuang, Xin Ma, Jiashuo Yu, Yali Wang, Dahua Lin, Yu Ruiqi Gao, Alexey Gritsenko, Diederik P Kingma, Ben
Qiao e Ziwei Liu. Sena: difusão de vídeo curto a longo Poole, Mohammad Norouzi, David J Fleet, et al. Imagem
modelo para transição generativa e previsão, 2023. 2, 3, 4 video: Geração de vídeo em alta definição com modelos de difusão. Pré-
[9] Xiaoliang Dai, Ji Hou, Chih-Yao Ma, Sam Tsai, Jialiang impressão do arXiv arXiv:2210.02303, 2022. 2
Wang, Rui Wang, Peizhao Zhang, Simon Vandenhende, Xi-aofang Wang, [22] Jonathan Ho, Tim Salimans, Alexey Gritsenko, William
Abhimanyu Dubey, et al. Emu: Aprimorando modelos de geração de Chan, Mohammad Norouzi e David J Fleet. Modelos de difusão de vídeo.
imagens usando agulhas fotogênicas em um Pré-impressão arXiv arXiv:2204.03458, 2022. 2
palheiro. Pré-impressão do arXiv arXiv:2309.15807, 2023. 2 [23] Wenyi Hong, Ming Ding, Wendi Zheng, Xinghan Liu,
[10] Prafulla Dhariwal e Alexander Nichol. Modelos de difusão e Jie Tang. Cogvideo: Pré-treinamento em larga escala para
vencer gans na síntese de imagens. Avanços em sistemas de geração de texto para vídeo por meio de transformadores. Pré-impressão arXiv
processamento de informações neurais, 34:8780–8794, 2021. 2 arXiv:2205.15868, 2022. 2
[11] Patrick Esser, Johnathan Chiu, Parmida Atighehchian, [24] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li,
Jonathan Granskog e Anastase Germanidis. Estrutura Shean Wang, Lu Wang e Weizhu Chen.
e síntese de vídeo guiada por conteúdo com modelos de difusão. Lora: Adaptação de baixo nível de grandes modelos de linguagem. arXiv
Pré-impressão arXiv arXiv:2302.03011, 2023. 2, 3 pré-impressão arXiv:2106.09685, 2021.3
[12] Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patash-nik, Amit H Bermano, Gal [25] Johanna Karras, Aleksander Holynski, Ting-Chun Wang,
Chechik e Daniel Cohen-Or. Uma imagem vale uma palavra: e Ira Kemelmacher-Shlizerman. Pose de sonho: moda
Personalização da geração de texto para imagem usando inversão síntese de vídeo com difusão estável. Em Anais do
textual. Pré-impressão arXiv Conferência Internacional IEEE/CVF sobre Visão Computacional,
arXiv:2208.01618, 2022.3 páginas 22680–22690, 2023. 2
[13] Rinon Gal, Moab Arar, Yuval Atzmon, Amit H Bermano, [26] Levon Khachatryan, Andranik Movsisyan, Vahram Tade-vosyan, Roberto
Gal Chechik e Daniel Cohen-Or. Domínio baseado em codificador Henschel, Zhangyang Wang, Shant
ajuste para personalização rápida de modelos de texto para imagem. ACM Navasardyan e Humphrey Shi. Text2video-zero: Os modelos de difusão
Transações em Gráficos (TOG), 42(4):1–13, 2023. 3 de texto para imagem são geradores de vídeo de disparo zero. IEEE
9
Machine Translated by Google
Conferência Internacional sobre Visão Computacional (ICCV), 2023. geração. Em Anais da Conferência IEEE/CVF sobre Visão
2, 3, 5, 6 Computacional e Reconhecimento de Padrões, páginas 22500–
[27] Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman e 22510, 2023. 3
Jun-Yan Zhu. Personalização multiconceito de difusão de texto [39] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Wei Wei, Tingbo
para imagem. Em Anais da Conferência IEEE/CVF sobre Visão Hou, Yael Pritch, Neal Wadhwa, Michael Rubinstein, e Kfir
Computacional e Reconhecimento de Padrões, páginas 1931– Aberman. Hyperdreambooth: Hiperredes para personalização
1941, 2023. 2, 3 rápida de modelos de texto para imagem. pré-impressão arXiv
[28] Yue Ma, Yingqing He, Xiaodong Cun, Xintao Wang, Ying Shan, arXiv:2307.06949, 2023. 3
Xiu Li e Qifeng Chen. Siga sua pose: geração de texto para [40] runwayml. Difusão estável v1.5, https: //huggingface.
vídeo guiada por pose usando vídeos sem pose. Pré-impressão co / runwayml / estável - difusão-v1-5, 2022. 5
arXiv arXiv:2304.01186, 2023. 3 [29] Ben
Mildenhall, Pratul P Srinivasan, Matthew Tancik, Jonathan T Barron, [41] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay
Ravi Ramamoorthi e Ren Ng. Nerf: Representando cenas como Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo
campos de radiação neural para síntese de visualização. Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Modelos
Comunicações da ACM, 65(1):99–106, 2021. 5 fotorrealistas de difusão de texto para imagem com profundo
entendimento da linguagem. Advances in Neural Information
Processing Systems, 35:36479–36494, 2022. 2
[30] Chong Mou, Xintao Wang, Liangbin Xie, Jian Zhang, Zhon-gang
[42] SG 161222. Visão realista v5.1, https://civitai. com / modelos /
Qi, Ying Shan e Xiaohu Qie. Adaptador T2i: Adaptadores de
4201 / realista - visão - v51, 2023. 1, 5, 6
aprendizagem para obter capacidade mais controlável para
modelos de difusão de texto para imagem. Pré-impressão arXiv
[43] Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An,
arXiv:2302.08453, 2023. 3 [31] Dustin Podell, Zion English, Kyle Lacey,
¨ Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran
Andreas Blattmann, Tim Dockhorn, Jonas Muller, Joe Penna e
Gafni, et al. Make-a-video: geração de texto para vídeo sem
Robin Rombach. Sdxl: melhorando modelos de difusão latente
dados de texto-vídeo. Pré-impressão do arXiv arXiv:2209.14792,
para síntese de imagens de alta resolução. Pré-impressão arXiv
2022. 2
arXiv:2307.01952, 2023. 2, 3
[44] Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan e
[32] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh,
Surya Ganguli. Aprendizagem profunda não supervisionada
Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell,
usando termodinâmica de não-equilíbrio. Na conferência
Pamela Mishkin, Jack Clark, e outros. Aprendendo modelos
internacional sobre aprendizado de máquina, páginas 2256–
visuais transferíveis a partir da supervisão de linguagem natural. 2265. PMLR, 2015. 2
Na conferência internacional sobre aprendizado de máquina,
[45] Jiaming Song, Chenlin Meng e Stefano Ermon.
páginas 8748–8763. PMLR, 2021. 6
Modelos implícitos de difusão de eliminação de ruído. Pré-
[33] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu e Mark impressão arXiv
Chen. Geração hierárquica de imagem condicional em texto
arXiv:2010.02502, 2020. 2 [46] Zhan Tong, Yibing Song, Jue Wang e Limin Wang.
com latentes de clipe. Pré-impressão arXiv arXiv:2204.06125, 1 Videomae: Autoencoders mascarados são alunos eficientes em termos de dados
(2):3, 2022. 2
' para pré-treinamento de vídeo auto-supervisionado. Avanços em
[34] Rene Ranftl, Katrin Lasinger, David Hafner, Konrad Schindler e sistemas de processamento de informações neurais, 35: 10078–
Vladlen Koltun. Rumo a uma estimativa robusta de profundidade
10093, 2022. 4 [47] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszko-
monocular: Mistura de conjuntos de dados para transferência de reit, Llion Jones, Aidan N Gomez, ÿukasz Kaiser e Illia Polosukhin.
conjuntos de dados cruzados de disparo zero. Transações IEEE
Atenção é tudo que você precisa. Avanços em sistemas de
sobre análise de padrões e inteligência
processamento de informações neurais, 30,
de máquina, 44(3):1623–1637, 2020. 6 [35] Robin Rombach, Andreas 2017. 4 [48] Yael Vinker, Yuval Alaluf, Daniel Cohen-Or e Ariel Shamir.
¨
Blattmann, Dominik Lorenz, Patrick Esser e Bjorn Ommer. Clipascene: Esboço de cena com diferentes tipos e níveis de
Síntese de imagens de alta resolução com modelos de difusão abstração. Em Anais da Conferência Internacional IEEE/CVF
latente. Em Proceedings of the IEEE/CVF Conference on sobre Visão Computacional, páginas 4146–4156, 2023.5 [ 49]
Computer Vision and Pattern Recognition, Andrey Voynov,
páginas 10684–10695, 2022. 3 [36] Olaf Ronneberger, Philipp Fischer Kfir Aberman e Daniel Cohen-Or.
e Thomas Brox. U-net: Redes convolucionais para segmentação Modelos de difusão de texto para imagem guiados por esboço. Em
de imagens biomédicas, 2015. 4 ACM SIG-GRAPH 2023 Conference Proceedings, páginas 1–11,
[37] Ludan Ruan, Yiyang Ma, Huan Yang, Huiguo He, Bei Liu, Jianlong 2023. 5
Fu, Nicholas Jing Yuan, Qin Jin e Baining Guo. Difusão Mm: [50] Jiuniu Wang, Hangjie Yuan, Dayou Chen, Yingya Zhang, Xiang
Aprendizagem de modelos de difusão multimodais para geração Wang e Shiwei Zhang. Relatório técnico de texto para vídeo do
conjunta de áudio e vídeo. Em Proceedings of the IEEE/CVF Modelscope. Pré-impressão arXiv arXiv:2308.06571, 2023. 2
Conference on Computer Vision and Pattern Recognition, [51] Xiang Wang, Hangjie Yuan, Shiwei Zhang, Dayou Chen, Jiuniu
páginas 10219–10228, 2023. 2 [38] Nataniel Wang, Yingya Zhang, Yujun Shen, Deli Zhao e Jingren Zhou.
Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein e Videocomposer: Síntese de vídeo composicional com
Kfir Aberman. Dreambooth: ajuste fino de modelos de difusão de controlabilidade de movimento. Pré-impressão arXiv
texto para imagem para arXiv:2306.02018, 2023. 2, 3, 5, 6, 7
10
Machine Translated by Google
[52] Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Conferência IEEE sobre visão computacional e reconhecimento de
Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing padrões, páginas 586–595, 2018.6
Yang, Yuwei Guo, Tianxing Wu, Chenyang Si, Yum-ing Jiang, [64] Shiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie
Cunjian Chen, Chen Change Loy, Bo Dai, Dahua Lin, Yu Qiao Yuan, Zhiwu Qin, Xiang Wang, Deli Zhao e Jingren Zhou.
e Ziwei Liu. Lavie: Geração de vídeo de alta qualidade com I2vgen-xl: Síntese de imagem para vídeo de alta qualidade por
modelos de difusão latente em cascata, 2023. 3 [53] Jay meio de modelos de difusão em cascata. Pré-impressão arXiv
Zhangjie Wu, Yixiao Ge, Xintao Wang, Stan Weixian Lei, Yuchao Gu, arXiv:2311.04145, 2023. 2
Yufei Shi, Wynne Hsu, Ying Shan, Xiaohu Qie, e Mike Zheng [65] Yabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang,
Shou. Tune-a-video: Ajuste único de modelos de difusão de Wangmeng Zuo e Qi Tian. Controlvideo: geração controlável
imagem para geração de texto para vídeo. Em Proceedings of de texto para vídeo sem treinamento. Pré-impressão arXiv
the IEEE/CVF International Conference on Computer Vision, arXiv:2305.13077, 2023. 2, 3
páginas 7623–7633, 2023. 6 [54] Qiucheng [66] Rui Zhao, Yuchao Gu, Jay Zhangjie Wu, David Junhao Zhang,
Wu, Yujian Liu, Handong Zhao, Trung Bui, Zhe Lin, Yang Zhang e Jiawei Liu, Weijia Wu, Jussi Keppo e Mike Zheng Shou.
Shiyu Chang. Aproveitando a atenção espaço-temporal dos Motiondirector: Personalização de movimento de texto para
modelos de difusão para síntese de texto para imagem de alta modelos de difusão de vídeo. Pré-impressão do arXiv arXiv:2310.08465,
fidelidade. Em Anais da Conferência Internacional IEEE/CVF 2023.3
sobre Visão Computacional, páginas 7766–7776, 2023. 2 [67] Shihao Zhao, Dongdong Chen, Yen-Chun Chen, Jianmin Bao,
Shaozhe Hao, Lu Yuan e Kwan-Yee K Wong.
[55] Jinbo Xing, Menghan Xia, Yong Zhang, Haoxin Chen, Xin-tao Uni-controlnet: Controle completo para modelos de difusão de texto
Wang, Tien-Tsin Wong e Ying Shan. Dynamicrafter: Animação para imagem. Pré-impressão do arXiv arXiv:2305.16322, 2023.3
de imagens de domínio aberto com prévias de difusão de [68] Daquan Zhou, Weimin Wang, Hanshu Yan, Weiwei Lv, Yizhe
vídeo. Pré-impressão arXiv arXiv:2310.12190, Zhu e Jiashi Feng. Magicvideo: Geração eficiente de vídeo com
2023. 3, 5, 7 [56] Xingqian Xu, Jiayi Guo, Zhangyang Wang, Gao modelos de difusão latente. Pré-impressão do arXiv
Huang, Ir-fan Essa e Humphrey Shi. Difusão sem aviso: arXiv:2211.11018, 2022.3
Retirando “texto” dos modelos de difusão de texto para imagem.
Pré-impressão arXiv
arXiv:2305.16223, 2023. 3 [57] Xingqian Xu, Zhangyang Wang, Gong
Zhang, Kai Wang e Humphrey Shi. Difusão versátil: Texto,
imagens e variações em um único modelo de difusão. Em
Anais da Conferência Internacional IEEE/CVF sobre Visão
Computacional, páginas
7754–7765, 2023. 2 [58] Hu Ye, Jun Zhang, Sibo Liu, Xiao Han e
Wei Yang. Adaptador IP: Adaptador de prompt de imagem
compatível com texto para modelos de difusão de texto para
imagem. Pré-impressão do arXiv arXiv:2308.06721, 2023.3
[59] Shengming Yin, Chenfei Wu, Jian Liang, Jie Shi, Houqiang Li,
Gong Ming e Nan Duan. Dragnuwa: Controle refinado na
geração de vídeo integrando texto, imagem e trajetória. Pré-
impressão arXiv arXiv:2308.08089, 2023. 2, 3 [60] Lijun
'
Yu, Yong Cheng, Kihyuk Sohn, Jose Lezama, Han Zhang, Huiwen
Chang, Alexander G Hauptmann, Ming-Hsuan Yang, Yuan
Hao, Irfan Essa, et al. Magvit:
Transformador de vídeo generativo mascarado. Em Anais da
Conferência IEEE/CVF sobre Visão Computacional e
Reconhecimento de Padrões, páginas 10459–
10469, 2023. 2, 4 [61] David Junhao Zhang, Jay Zhangjie Wu, Jia-
Wei Liu, Rui Zhao, Lingmin Ran, Yuchao Gu, Difei Gao e Mike
Zheng Shou. Show-1: Casando modelos de pixel e difusão
latente para geração de texto para vídeo. Pré-impressão arXiv
arXiv:2309.15818, 2023. 2, 3, 4
[62] Lvmin Zhang, Anyi Rao e Maneesh Agrawala. Adicionando
controle condicional a modelos de difusão de texto para
imagem. Em Anais da Conferência Internacional IEEE/CVF
sobre Visão Computacional, páginas 3836–3847, 2023.
2, 3, 5, 6, 7 [63] Richard Zhang, Phillip Isola, Alexei A Efros, Eli
Shecht-man e Oliver Wang . A eficácia irracional de recursos
profundos como métrica perceptual. Em Anais do
11