Você está na página 1de 3

O fim da teoria: o dilúvio de dados torna o método

científico obsoleto
Chris Anderson
Traduzido e adaptado de:
https://www.wired.com/2008/06/pb-theory/?fbclid=IwAR1KFlh_5E1h9sRLAByqCmYjIWtuFHNkTP
BICBex0N1osfBA0ePI2gD-CYE

"Todos os modelos são incorretos, mas alguns são úteis."


Assim proclamou o estatístico George Box 30 anos atrás, e ele estava certo. Mas que
escolha teríamos? Apenas os modelos, de equações cosmológicas a teorias do comportamento
humano, pareciam ser capazes de explicar consistentemente, ainda que imperfeitamente, o
mundo ao nosso redor. Até agora. Hoje, empresas como o Google, que cresceram em uma era
de dados massivamente abundantes, não precisam se contentar com modelos incorretos. Na
verdade, eles não precisam se contentar com modelos.
Sessenta anos atrás, os computadores digitais tornaram a informação legível. Vinte
anos atrás, a Internet tornou a informação acessível. Dez anos atrás, os primeiros rastreadores
de mecanismos de busca o transformaram em um banco de dados. Agora, o Google e
empresas afins estão vasculhando e peneirando dados na era mais “metrificada” da história,
tratando esse enorme corpus como um laboratório da condição humana. Eles são os filhos da
Idade dos Petabytes.
A Idade do Petabyte é diferente porque “ter mais” dados faz diferença. Kilobytes
foram armazenados em disquetes. Megabytes foram armazenados em discos rígidos.
Terabytes foram armazenados em matrizes de disco. Petabytes são armazenados na nuvem. À
medida que avançamos nessa progressão, passamos da analogia da pasta para a analogia do
gabinete de arquivos, e então para a analogia da biblioteca -- em petabytes ficamos sem
analogias organizacionais.
Na escala de petabytes, a informação não é uma questão de taxonomias, mas de
estatísticas sem dimensões. Ela exige uma abordagem totalmente diferente, exige que
percamos a noção da rede de dados como algo que pode ser visualizado em sua totalidade.
Isso nos força a ver os dados primeiro matematicamente, e depois estabelecer um contexto
para eles. Por exemplo, o Google conquistou o mundo da publicidade com nada mais do que
matemática aplicada. Ele não fingia saber nada sobre a cultura e as convenções da
publicidade — apenas presumia que dados melhores, com ferramentas analíticas melhores,
venceriam. E o Google estava certo.
A filosofia fundadora do Google é que não sabemos por que esta página é melhor do
que aquela: se as estatísticas de links recebidos dizem que é, isso é bom o suficiente.
Nenhuma análise semântica ou causal é necessária. É por isso que o Google pode traduzir
idiomas sem realmente "conhecê-los" (com dados de corpus iguais, o Google pode traduzir
klingon para farsi com a mesma facilidade com que pode traduzir francês para alemão). E por
que ele pode combinar os anúncios com o conteúdo sem nenhum conhecimento ou suposição
sobre os anúncios ou o conteúdo.
Em fala na O'Reilly Emerging Technology Conference, Peter Norvig, diretor de
pesquisa do Google, atualizou a máxima de George Box: "Todos os modelos estão errados, e
cada vez mais você pode ter sucesso sem eles".
Este é um mundo onde grandes quantidades de dados e matemática aplicada
substituem todas as outras ferramentas que podem ser utilizadas. Esqueça as teorias do
comportamento humano, da linguística à sociologia. Esqueça a taxonomia, a ontologia e a
psicologia. Quem sabe por que as pessoas fazem o que fazem? O ponto é que eles fazem isso,
e podemos rastreá-lo e medi-lo com uma fidelidade sem precedentes. Com dados suficientes,
os números falam por si.
Petabytes nos permitem dizer: "basta a correlação". Podemos parar de procurar
modelos. Podemos analisar os dados sem hipóteses sobre o que eles podem mostrar. Podemos
jogar os números nos maiores clusters de computação que o mundo já viu e deixar que os
algoritmos estatísticos encontrem padrões onde a ciência não consegue.
O melhor exemplo prático disso é o sequenciamento de genes de J. Craig Venter.
Habilitado por sequenciadores e supercomputadores de alta velocidade que analisam
estatisticamente os dados que produzem, Venter passou do sequenciamento de organismos
individuais para o sequenciamento de ecossistemas inteiros. Em 2003, ele começou a
sequenciar grande parte do oceano. E em 2005 começou a sequenciar o ar. No processo,
descobriu milhares de espécies de bactérias e outras formas de vida até então desconhecidas.
Venter não pode dizer quase nada sobre as espécies que encontrou. Ele não sabe como
eles se parecem, como vivem, ou sobre sua morfologia. Ele nem sequer tem o genoma
completo. Tudo o que ele tem é um pontinho estatístico – uma sequência única que, sendo
diferente de qualquer outra sequência no banco de dados, deve representar uma nova espécie.
Essa sequência pode se correlacionar com outras sequências que se assemelham às de
espécies sobre as quais sabemos mais. Nesse caso, Venter pode fazer algumas suposições
sobre os animais – que eles convertem a luz do sol em energia de uma maneira particular, ou
que descendem de um ancestral comum. Mas, além disso, ele não tem um modelo melhor
dessa espécie do que o Meta tem de sua página no Instagram. São apenas dados. Porém, ao
analisá-lo com recursos de computação padrão Google, Venter faz avanços na biologia mais
do que qualquer outra pessoa de sua geração.
Esse tipo de pensamento está prestes a se tornar mainstream. Em fevereiro, a National
Science Foundation anunciou o Cluster Exploratory, um programa que financia pesquisas
projetadas para serem executadas em uma plataforma de computação distribuída em larga
escala desenvolvida pelo Google e pela IBM, em conjunto com seis universidades piloto. O
cluster consistirá de 1.600 processadores, vários terabytes de memória e centenas de terabytes
de armazenamento, juntamente com o software, incluindo o Tivoli da IBM e versões de
código aberto do Google File System e MapReduce. Os primeiros projetos do CluE incluirão
simulações do cérebro e o sistema nervoso e outras pesquisas biológicas que ficam em algum
lugar entre wetware e software.
Aprender a usar um "computador" dessa escala pode ser um desafio. Mas a
oportunidade é grande: a nova disponibilidade de enormes quantidades de dados, juntamente
com as ferramentas estatísticas para processar esses números, oferece uma maneira
totalmente nova de entender o mundo. A correlação substitui a causalidade, e a ciência pode
avançar mesmo sem modelos coerentes, teorias unificadas ou realmente qualquer explicação
mecanicista.
Não há razão para nos apegarmos aos nossos velhos hábitos. É hora de perguntar: o
que a ciência pode aprender com o Google?

———
Comentário do pesquisador Leonardo De Marchi, em post no Facebook:

Sempre achei esse texto um delírio menor de Anderson. No entanto, lendo a obra do
filósofo francês Bernard Stiegler, fiquei impressionado com o horror que Stiegler teve ao ler
o texto. Ele comenta essa breve coluna por parágrafos e parágrafos de alguns de seus livros.
Hoje, entendo que ele tem razão: a economia de dados das plataformas digitais está
intimamente ligada ao fenômeno do negacionismo contemporâneo. Se dialogamos com
algum negacionista, ele/ela dirá: "não preciso da ciência; tenho o Google" ou, ainda, "mas eu
vi isso no grupo do WhatsApp".
É a lógica de Anderson na vida real: para quê fazer ciência se o dilúvio de dados em
que estamos soterrados pode nos entregar a resposta que queremos?
O mesmo poderia ser dito, hoje, da cultura. Com a música produzida por IA em larga
escala, o que assusta é que não há uma estética nova - como ocorreu, por exemplo, com a
música eletrônica, a qual apresentava uma nova maneira de se conceber o que é música. Tudo
é igual ao que já ouvimos. E por quê? Porque é baseado em tudo o que já ouvimos antes, de
fato. O que os super-algoritmos nos oferecem é o fim da criatividade. Ou, para usar um termo
familiar a Stiegler, uma proletarização do pensamento criativo.

Você também pode gostar