Escolar Documentos
Profissional Documentos
Cultura Documentos
0:00 / 0:20
Prompt: A câmera gira em torno de uma grande pilha de televisões vintage, todas mostrando programas diferentes – lmes de cção cientí ca dos
anos 50, lmes de terror, noticiários, estática, um sitcom dos anos 70, etc, ambientados dentro de uma grande galeria de um museu em Nova York.
O anúncio do Sora, novo modelo da OpenAi que permite criar vídeos de até 60 segundos a
partir de textos, indica que transformações substanciais na produção audiovisual estão a
caminho. Importante frisar que essa não é a primeira incursão das empresas de tecnologia
nesse campo. O Google também está testando esse tipo de tecnologia text-to-video, com o
Lumiere; e a Runway, outra empresa da área, oferece comercialmente esse serviço há no
mínimo seis meses.
Apesar de tão curtos, como os pré-históricos GIFs animados da aurora da internet, a precisão
dos vídeos que vêm sendo liberados pela OpenAi e o terremoto que a empresa causa com a
eficiência de seus aplicativos, como o ChatGPT, colocaram o assunto definitivamente na pauta
do dia. Há todo um debate sobre como são treinados esses modelos, que necessitam de milhões
de dados para seu desenvolvimento. Mas vou deixar essa discussão de direitos autorais para os
juristas. Não menos relevantes também são as discussões sobre seu impacto no mercado de
trabalho e dos profissionais que poderão eventualmente ser substituídos por IAs mais baratas
que humanos. Essa é sem dúvida uma pauta fundamental, mas que no momento não trago para
esta coluna. O foco agora é: o que modelos de inteligência artificial, do tipo do Sora, anunciam
no contexto da cultura visual da atualidade.
Mais do que ser a novidade da hora, um produto como o Sora é relevante porque impacta
profundamente nossas concepções de audiovisual e marca uma virada tecnológica nada
desprezível. Diferentemente das imagens estáticas, como as que são produzidas em
plataformas como o Midjourney, DALLE e Stable Diffusion, cujos resultados se esgotam em um
quadro único, o vídeo, assim como o cinema, deve levar em consideração a conexão entre os
frames.
Os braços, nos vídeos do Sora, se deformam aleatoriamente porque eles não são nem objetos 3D (Blender) nem partes do ambiente (Unity). Alguns
programadores intuem que o Sora opere por meio de nuvens de ponto.
Dito de maneira formal: se não houver uma transição bem encadeada entre os quadros mais
próximos, não é possível criar filmes, ainda que cada imagem individual seja de boa qualidade.
Esse é o gargalo tecnológico enfrentado pelas empresas desenvolvedoras, além do consumo de
banda de transmissão de dados e o perfil de servidores demandados para processar tanta
informação com rapidez e qualidade. Está claro que vem vindo uma era de concentração de
poder em algumas big techs, muito mais problemática do que as redes sociais trouxeram. Os
problemas de continuidade, ainda presentes no Sora, devem ser superados em breve, pois
investimentos parecem não faltar no universo platinado da tecnologia digital.
Contudo, há algo mais complexo que a questão da continuidade na dinâmica das imagens em
movimento e que atravessa a história da cultura visual desde o século 19: o modo como a
indústria oscila entre máquinas de percepção, máquinas de visão e máquinas de descrição do
movimento. Essa oscilação, numa perspectiva de arqueologia das mídias, remonta a duas
vertentes investigativas centrais, que desembocaram na invenção do cinema.
0:00 / 0:25
Prompt: Arqueólogos descobrem uma cadeira de plástico genérica no deserto, escavando e limpando-a com muito cuidado. Problemas: Neste exemplo,
o Sora falha em modelar a cadeira como um objeto rígido, levando a interações físicas imprecisas.
Verdade seja dita, esse tópico tem ocupado os semioticistas e mestres da poesia concreta e
visual há décadas. O artista Julio Plaza (1937-2003) definiu, nessa direção, o conceito de
tradução intersemiótica, resultado de sua tese de doutorado no programa de Comunicação e
Semiótica da PUC-SP, onde foi orientado pela Professora Lucia Santaella e aluno de Haroldo de
Campos. O principal de sua tese, publicada em livro pela editora Perspectiva em 1987, é que a
tradução é um processo que não se dá apenas entre línguas, mas entre linguagens, como do
texto à música, da música ao cinema, da palavra à imagem.
0:00 / 0:20
Prompt: Um jovem de cerca de 20 anos sentado em uma nuvem no céu, lendo um livro.
Isso nos mostra que o audiovisual baseado em comandos de texto pode ser uma revolução
muito mais profunda que o virtuosismo técnico implicado no desenvolvimento dos novos
modelos de IA aponta. Contudo, pode implicar um certo achatamento de nossas concepções de
imagens, caso essa abertura intersemiótica não se confirme, redundando num processo de
massificação de imagens puramente ilustrativas, que apenas pretendem dar forma visual a
textos descritivos.Ainda é cedo para dizer qual será a direção que o audiovisual tomará a partir
dessa guinada histórica. Mas uma coisa é certa. Se eu tivesse que dar um conselho para como se
preparar para essa revolução, eu diria: voltem a estudar semiótica. Talvez essa seja a única
disciplina capaz de dar conta do paradoxo que mobiliza nosso fascínio pela imagem audiovisual
e sua “indizível dimensão”, como a descreveu o poeta Vinicius de Moraes, num lindo poema
dedicado ao cineasta Sergei Eisenstein. ///