Você está na página 1de 5

COLUNISTAS

Um prompt na tela e uma ideia na cabeça


Giselle Beiguelman
Publicado em: 29 de fevereiro de 2024

0:00 / 0:20

Prompt: A câmera gira em torno de uma grande pilha de televisões vintage, todas mostrando programas diferentes – lmes de cção cientí ca dos
anos 50, lmes de terror, noticiários, estática, um sitcom dos anos 70, etc, ambientados dentro de uma grande galeria de um museu em Nova York.

O anúncio do Sora, novo modelo da OpenAi que permite criar vídeos de até 60 segundos a
partir de textos, indica que transformações substanciais na produção audiovisual estão a
caminho. Importante frisar que essa não é a primeira incursão das empresas de tecnologia
nesse campo. O Google também está testando esse tipo de tecnologia text-to-video, com o
Lumiere; e a Runway, outra empresa da área, oferece comercialmente esse serviço há no
mínimo seis meses.

Apesar de tão curtos, como os pré-históricos GIFs animados da aurora da internet, a precisão
dos vídeos que vêm sendo liberados pela OpenAi e o terremoto que a empresa causa com a
eficiência de seus aplicativos, como o ChatGPT, colocaram o assunto definitivamente na pauta
do dia. Há todo um debate sobre como são treinados esses modelos, que necessitam de milhões
de dados para seu desenvolvimento. Mas vou deixar essa discussão de direitos autorais para os
juristas. Não menos relevantes também são as discussões sobre seu impacto no mercado de
trabalho e dos profissionais que poderão eventualmente ser substituídos por IAs mais baratas
que humanos. Essa é sem dúvida uma pauta fundamental, mas que no momento não trago para
esta coluna. O foco agora é: o que modelos de inteligência artificial, do tipo do Sora, anunciam
no contexto da cultura visual da atualidade.

Mais do que ser a novidade da hora, um produto como o Sora é relevante porque impacta
profundamente nossas concepções de audiovisual e marca uma virada tecnológica nada
desprezível. Diferentemente das imagens estáticas, como as que são produzidas em
plataformas como o Midjourney, DALLE e Stable Diffusion, cujos resultados se esgotam em um
quadro único, o vídeo, assim como o cinema, deve levar em consideração a conexão entre os
frames.

Os braços, nos vídeos do Sora, se deformam aleatoriamente porque eles não são nem objetos 3D (Blender) nem partes do ambiente (Unity). Alguns
programadores intuem que o Sora opere por meio de nuvens de ponto.

Dito de maneira formal: se não houver uma transição bem encadeada entre os quadros mais
próximos, não é possível criar filmes, ainda que cada imagem individual seja de boa qualidade.
Esse é o gargalo tecnológico enfrentado pelas empresas desenvolvedoras, além do consumo de
banda de transmissão de dados e o perfil de servidores demandados para processar tanta
informação com rapidez e qualidade. Está claro que vem vindo uma era de concentração de
poder em algumas big techs, muito mais problemática do que as redes sociais trouxeram. Os
problemas de continuidade, ainda presentes no Sora, devem ser superados em breve, pois
investimentos parecem não faltar no universo platinado da tecnologia digital.
Contudo, há algo mais complexo que a questão da continuidade na dinâmica das imagens em
movimento e que atravessa a história da cultura visual desde o século 19: o modo como a
indústria oscila entre máquinas de percepção, máquinas de visão e máquinas de descrição do
movimento. Essa oscilação, numa perspectiva de arqueologia das mídias, remonta a duas
vertentes investigativas centrais, que desembocaram na invenção do cinema.

0:00 / 0:25

Prompt: Filmagem histórica da Califórnia durante a corrida do ouro.

Por um lado, as pesquisas sobre fisiologia e psicologia experimental, notadamente a Gestalt,


acerca da persistência retiniana. E, por outro, a busca por máquinas para a simulação visual de
movimento. Essas motivações se desdobraram, conforme chamou a atenção o artista e teórico
austríaco Peter Weibel (1944-2023), em uma abordagem do cinema como a arte das máquinas
de visão – daí a definição de “câmera-olho” (Kinoglaz), pelo cineasta soviético Dziga Vertov
(1896-1954). Na outra ponta, isso levou também às máquinas de simulação do movimento,
herdeiras dos estudos pioneiros de Étienne-Jules Marey e Eadweard Muybridge. Nascidos e
falecidos nos mesmos anos (1830-1904), seus estudos deram a tônica para a interpretação
posterior do cinema como motion-pictures (literalmente, fotos em movimento), em detrimento
da experimentação com simuladores de visão (máquinas de percepção).
0:00 / 0:20

Prompt: Arqueólogos descobrem uma cadeira de plástico genérica no deserto, escavando e limpando-a com muito cuidado. Problemas: Neste exemplo,
o Sora falha em modelar a cadeira como um objeto rígido, levando a interações físicas imprecisas.

O advento do text-do-video, a partir do Sora, nos coloca de volta nessa encruzilhada de


possibilidades que o entretenimento de massa do século passado nos roubou. Mas vai além,
pois modelos como o Sora abrem caminhos ainda não trilhados. Entre esses, por exemplo, a
necessidade de revisitar a máxima de Glauber Rocha: “uma câmera na mão e uma ideia na
cabeça” como “um prompt na tela e uma ideia na cabeça”. A mutação não é só retórica, mas
incide especialmente no tipo de relação que temos com as imagens e no papel das matrizes
verbais e textuais na sua elaboração, algo que estamos vivendo desde o lançamento do
Midjourney e do DALLE-2.

Verdade seja dita, esse tópico tem ocupado os semioticistas e mestres da poesia concreta e
visual há décadas. O artista Julio Plaza (1937-2003) definiu, nessa direção, o conceito de
tradução intersemiótica, resultado de sua tese de doutorado no programa de Comunicação e
Semiótica da PUC-SP, onde foi orientado pela Professora Lucia Santaella e aluno de Haroldo de
Campos. O principal de sua tese, publicada em livro pela editora Perspectiva em 1987, é que a
tradução é um processo que não se dá apenas entre línguas, mas entre linguagens, como do
texto à música, da música ao cinema, da palavra à imagem.
0:00 / 0:20

Prompt: Um jovem de cerca de 20 anos sentado em uma nuvem no céu, lendo um livro.

Isso nos mostra que o audiovisual baseado em comandos de texto pode ser uma revolução
muito mais profunda que o virtuosismo técnico implicado no desenvolvimento dos novos
modelos de IA aponta. Contudo, pode implicar um certo achatamento de nossas concepções de
imagens, caso essa abertura intersemiótica não se confirme, redundando num processo de
massificação de imagens puramente ilustrativas, que apenas pretendem dar forma visual a
textos descritivos.Ainda é cedo para dizer qual será a direção que o audiovisual tomará a partir
dessa guinada histórica. Mas uma coisa é certa. Se eu tivesse que dar um conselho para como se
preparar para essa revolução, eu diria: voltem a estudar semiótica. Talvez essa seja a única
disciplina capaz de dar conta do paradoxo que mobiliza nosso fascínio pela imagem audiovisual
e sua “indizível dimensão”, como a descreveu o poeta Vinicius de Moraes, num lindo poema
dedicado ao cineasta Sergei Eisenstein. ///

Giselle Beiguelman é colunista do site da ZUM, artista e professora da FAUUSP. É autora


de Políticas da imagem: vigilância e resistência na dadosfera (2021) e Memória da amnésia:
políticas do esquecimento (2019), entre outros. Site: desvirtual.com.

Tags: IA, Inteligência arti cial, Sora, Texto para vídeo

Você também pode gostar