IBRI - Aspectos Éticos Da Fake News - in BigData

Big Data
Implicações Epistemológicas e Éticas

Universidade Estadual de Campinas
Reitor: Macelo Knobel
Centro de Lógica, Epistemologia e História da Ciência

Coordenador: Marcelo Esteban Coniglio
Coordenador-Associado: Fábio Maia Bertato
Editora: Itala M. Loffredo D’Ottaviano
Editor Associado: Fabio Maia Bertato
Secretaria Editorial: Adriana Lopes Rodrigues / Fabio Luis Basso
Conselho Editorial: Ana Maria Alfonso Goldfarb (CLE/UNICAMP, PUC-SP);
Atocha Aliseda (Universidad Nacional Autónoma de México); Rodolfo Cristian
Ertola Biraden (CLE/UNICAMP); Otávio Augusto Santos Bueno (University of
Miami); Gregori Chaitin (IBM/New York, UFRJ); Marcelo Esteban Coniglio
(CLE/UNICAMP), Newton Carneiro Affonso da Costa (CLE/UNICAMP, USP,
UFSC); Ubiratan D'Ambrosio (CLE/UNICAMP); Joseph Warren Dauben (City
University of New York); José Ferreirós (Universidad de Sevilla); Steven
Richard Douglas French (University of Leeds); Evandro Luís Gomes (UEM);
Décio Krause (UFSC, CLE/UNICAMP); Zeljko Loparic (CLE/UNICAMP,
PUC-SP); Flavia Marcacci (Pontificia Università Lateranense); Francisco
Miraglia Neto (CLE/UNICAMP, USP); Leandro Oliva Suguitani (UFBA).
Editora FiloCzar
Editores: César Mendes da Costa e Monica Aiub da Costa
Revisão: Edna Alves de Souza
Projeto Gráfico: Editora FiloCzar
Foto de capa: Foto de mahdis mousavi no Unsplash
Conselho Editorial: Alfredo Pereira Junior UNESP); Ana Paula Talin
(UNESP); Anderson Vinícius Romanini (USP); André Leclerc (UnB); Antonio
Sergio da Costa Nunes (UFPA); Carla Mara Hilário (UEL); Guiou Kobayashi
(UFABC); Itala Maria Loffredo D’Ottaviano (UNICAMP); João Antonio de
Moraes (FAJOPA); João Batista Ernesto de Moraes (UNESP); João Teixeira
(UFSCar); José Artur Quilici-Gonzalez (UFABC); Leonardo Lana de Carvalho
(UFVJM); Marcelo Esteban Coniglio (UNICAMP); Max Rogério Vicentini
(UEM); Osvaldo Frota Pessoa Junior (USP); Pedro Geraldo Aparecido Novelli
(UNESP); Rosa San Segundo – Universidad Carlos III de Madrid; Walter
Carnielli (UNICAMP); William Alfred Pickering (UNICAMP).
Edna Alves de Souza
Mariana Claudia Broens
Maria Eunice Quilici Gonzalez
Organizadoras
Big Data
Implicações Epistemológicas e Éticas
Campinas/São Paulo
Volume 89 - 2020
Coleção CLE
CLE-UNICAMP/FiloCzar
Coleção CLE e Editora FiloCzar
ISSN: 0103-3247
Copyright © by Edna Alves de Souza

Editora FiloCzar
Centre for Logic, Epistemology and the FiloCzar

History of Science (CLE) Rua Durval Guerra de Azevedo, 511
Cidade Universitária “Zeferino Vaz” Parque Santo Antônio
C.P. 6133 - CEP 13083-970 São Paulo, SP - CEP: 05852-440
Campinas, SP Tels.: (11) 5512-1110 - 96781-9707
E-mail: clepub@unicamp.br E-mail: cesar@editorafiloczar.com.br
www.cle.unicamp.br www.editorafiloczar.com.br
SUMÁRIO
PREFÁCIO ...................................................................................................... 7
Itala M. Loffredo D’Ottaviano
INTRODUÇÃO ............................................................................................... 9
Maria Eunice Quilici Gonzalez; Edna Alves de Souza; Mariana Claudia Broens
BIG DATA: QUESTÕES ÉTICAS, EPISTEMOLÓGICAS E POLÍTICAS
ASPECTOS ÉTICOS DAS FAKE NEWS E FATOS ALTERNATIVOS:

UMA ABORDAGEM SEMIÓTICO-PRAGMÁTICA ................................. 19
Ivo Assad Ibri
PROBLEMAS ÉTICOS CONCERNENTES À SOCIEDADE DA

INFORMAÇÃO............................................................................................. 33
Reinaldo Sampaio Pereira
BIG MEME: PODEM OS BIG DATA SER A BASE EMPÍRICA DA

MEMÉTICA?................................................................................................. 53
Gustavo Leal-Toledo
BIG DATA, MEMÓRIA E IDENTIDADE PESSOAL.................................. 69

Jonas Gonçalves Coelho
IMPACTOS DAS TECNOLOGIAS DE COMUNICAÇÃO NA VIDA

POLÍTICA ..................................................................................................... 79
Ricardo Monteagudo
BIG DATA: APRENDIZAGEM DE MÁQUINA, COMPLEXIDADE E

EMERGÊNCIA
INTRODUÇÃO A MACHINE LEARNING A PARTIR DE UMA

PERSPECTIVA COMPUTACIONAL ......................................................... 93
Nina S. T. Hirata
A ALGORITMIZAÇÃO A PARTIR DOS ATORES DO ACESSO A
DADOS........................................................................................................ 115
Ricardo César Gonçalves Sant’Ana
EMERGENCE OF COMPLEX DATA FROM SIMPLE LOCAL RULES IN

A NETWORK GAME ................................................................................. 125
Felipe S. Abrahão; Klaus Wehmuth; Artur Ziviani
REFLEXÕES ACERCA DE BIG DATA E COGNIÇÃO
BIG DATA: FAKE NEWS, OPINIÃO PÚBLICA E VIGILÂNCIA ............ 159

João E. Kogler Jr.
QUEM ACREDITA EM FAKE NEWS?...................................................... 161

Marco Aurélio Souza Alves
SMILE TO PAY WITH YOUR FACE: HACKING INTO PROGRAMMED

FACIALITY IN THE AGE OF BIG DATA AND AI .................................. 177
Alexander Matthias Gerner
BIG DATA Y TENDENCIAS EMERGENTES EN LOS ESTUDIOS SOBRE

OPINIÓN PÚBLICA EN LA CIENCIA DE LA INFORMACIÓN ........... 211
Mirelys Puerta-Díaz; María-Antonia Ovalle-Perandones; Daniel Martínez-Ávila
INDUÇÃO ELIMINATIVA E CAUSALIDADE NO CONTEXTO DAS

CIÊNCIAS DIRECIONADAS POR DADOS............................................. 235
Mariana Vitti Rodrigues; Ettore Bresciani Filho
SOBRE AS ORGANIZADORAS................................................................ 255
SOBRE OS AUTORES E AUTORAS ........................................................ 257

PREFÁCIO
Com satisfação escrevo o Prefácio desta coletânea, Big Data:

Implicações Epistemológicas e Éticas, organizada por Edna Alves de
Souza, Mariana Claudia Broens e Maria Eunice Quilici Gonzalez.
O livro corresponde à primeira parte das Atas do “XII
Encontro Brasileiro Internacional de Ciência Cognitiva - EBICC”,
promovido pela Sociedade Brasileira de Ciência Cognitiva, pelo
Departamento de Filosofia e Programa de Pós-Graduação em Filosofia
da UNESP e pelo Centro de Lógica, Epistemologia e História da
Ciência – CLE da Universidade Estadual de Campinas – Unicamp. O
evento, coordenado pela Profa. Maria Eunice Quilici Gonzalez, foi
realizado na Universidade Estadual de Campinas - Unicamp, durante o
período de 19 a 21 de setembro de 2019.
O primeiro EBICC foi realizado no início dos anos 1990, no
Departamento de Filosofia da UNESP, Campus Marília. Desde então, os
encontros têm sido realizados com regularidade e sob perspectiva
interdisciplinar, sempre sobre temas relativos aos impactos da tecnologia
na sociedade, de grande interesse para a comunidade acadêmica e para a
sociedade em geral. E diversos volumes, de qualidade acadêmica, têm sido
publicados com os trabalhos apresentados nos eventos.
Este EBICC, em particular, constituiu parte das atividades do
projeto internacional Understanding opinion and language dynamics
using massive data, financiado no Brasil pela Fundação de Amparo à
Pesquisa do Estado de São Paulo - FAPESP e coordenado pela Prof.
Maria Eunice Quilici Gonzalez, tendo sido selecionado em 2017 pela
chamada Trans-Atlantic Platform – Digging into data challange. Esse
projeto resultou, em grande parte, de pesquisas de longa duração sobre
a dinâmica dos processos de auto-organização e informação em
sistemas complexos, que vêm sendo desenvolvidas desde 1986 pelos
membros do Grupo Interdisciplinar CLE-Auto-Organização do Centro
de Lógica da Unicamp e, posteriormente, também pelos membros do
GAEC – Grupo Acadêmico de Estudos Cognitivos da UNESP,
Campus Marília.
O objetivo central do Encontro consistiu em propiciar aos
participantes diversas perspectivas da influência das Tecnologias da
Informação e Comunicação na dinâmica de opinião e da linguagem, com
7
a discussão de problemas que vêm gerando grandes impactos em hábitos
cognitivos e sociais de longa duração ainda não claramente delineados.
O evento foi precedido, entre 16 e 18 de setembro, pelo Worshop
de Sistemas Complexos e Big-Data: Implicações Éticas para a Cognição
Auto-Organizada, sob a coordenação da Profa. Mariana Claudia Broens.
O Workshop foi realizado no CLE e o EBICC, propriamente dito, na
Faculdade de Engenharia Elétrica e de Computação – FEEC da Unicamp.
Tanto o Workshop, como o Encontro, de excelente qualidade
acadêmica, superaram as expectativas, tendo reunido estudantes de
diversas universidades brasileiras e pesquisadores convidados do Brasil e
de instituições estrangeiras, de áreas diversas do conhecimento, com
destaque para a filosofia, lógica, linguística, computação, direito,
sociologia, ciência da informação e dos sistemas complexos, entre outras.
As conferências plenárias, as mesas redondas e as
comunicações, em geral instigantes e propositivas, versaram sobre os
Big Data e questões éticas, epistemológicas e políticas, e suas
implicações epistemológicas, éticas, políticas, estéticas, educacionais,
técnicas e semióticas, além de questões relativas à aprendizagem de
máquina, complexidade e emergência.
Os 12 capítulos desta coletânea, uma publicação conjunta da
Editora Filoczar e da COLEÇÃO CLE - coleção de livros publicada
pelo Centro de Lógica -, refletem a qualidade das apresentações, das
propostas e das discussões propiciadas durante o evento.
Cumprimento as organizadoras do volume e agradeço a elas,
mais uma vez e em nome da comunidade filosófico-científica brasileira,
pelo exemplar e incansável trabalho que realizam pela formação de
nossos jovens, pela educação e pela universidade brasileira.
Campinas, 07 de novembro de 2020.

Itala M. Loffredo D’Ottaviano
8
INTRODUÇÃO
O que você sentiria ao perceber que suas informações

confidenciais não são, de fato, confidenciais? Que suas imagens
preferidas, guardadas no celular, estão sendo estudadas minuciosamente
por técnicos anônimos que visam encontrar o seu padrão de consumo?
Mesmo ciente do risco de ter sua privacidade constantemente violada,
você resistiria ao fascínio e às vantagens que a tecnologia digital oferece
aos usuários das redes? Quais os possíveis impactos das novas tecnologias
de informação e comunicação, em desenfreado crescimento, na opinião
pública? O que podemos entender por aprendizado de máquina? Essas e
outras questões são discutidas neste volume: Big Data: Implicações
Epistemológicas e Éticas, que reúne resultados de pesquisas apresentados
no XII Encontro Brasileiro Internacional de Ciência Cognitiva - EBICC,
que ocorreu na UNICAMP em setembro de 2019.
Sem a pretensão de esgotar o debate de complexas questões
envolvidas no estudo de implicações éticas, políticas e epistemológicas
do emprego de tecnologias de informação e comunicação (daqui para
frente, TIC) na ciência e na ação cotidiana, presentes na agenda de
filósofos e cientistas, os autores discutem nesta obra os seguintes
temas: I - Big Data: questões éticas, epistemológicas e políticas; II - Big
Data: aprendizagem de máquina, complexidade e emergência; III - Big
Data: fake news, opinião pública e vigilância.
Discussões sobre o tema Big Data: questões éticas,
epistemológicas e políticas estão concentradas nos cinco primeiros
capítulos, que focalizam implicações centrais do uso de Big Data na
Ciência e na ação cotidiana a partir de diferentes perspectivas filosóficas.
O primeiro capítulo, de autoria de Ivo Ibri, é intitulado “Aspectos Éticos
das Fake News e dos Fatos Alternativos – Uma Abordagem Semiótico-
Pragmática”. O autor propõe uma análise, de natureza ética, do que ele
denomina “fenômenos das fake news”, argumentando que outras variações
também atribuídas a esse fenômeno não passariam de erros de
interpretação. Esses erros, argumenta Ibri, estariam ocorrendo na medida
em que possam estar associados a um falibilismo humano, destituídos de
uma falsificação intencional dos fatos. Ainda que condutas equivocadas,
induzidas por falsas representações e interpretações, possam servir,
durante algum tempo, a fins privados de grupos de interesse, Ibri enfatiza
9
que elas acarretam um esgarçamento do tecido social cuja sanidade ética,
fundada no conceito de bem comum, deveria estar idealmente fundada em
valores que não podem prescindir da verdade faticamente ancorada.
No segundo capítulo, intitulado “Problemas éticos concernentes à
sociedade da informação”, Reinaldo Sampaio Pereira analisa possíveis
consequências éticas decorrentes do uso generalizado das tecnologias
informacionais na sociedade contemporânea. Ressaltando que nunca antes
foi possível o acesso a tanta informação como ocorre atualmente por meio
das novas tecnologias de informação e comunicação, especialmente a
internet, o autor ressalta a necessidade de refletir eticamente sobre a
influência que tal volume de informação pode acarretar sobre os processos
de decisão moral. Se aceitarmos que a informação recebida influencia
diretamente nossas tomadas de decisão, então, como argumenta Reinaldo,
faz-se urgente o estudo e a avaliação de implicações éticas do uso do
imenso volume e variedade de informações a que cotidianamente
podemos ter acesso.
No terceiro capítulo, “Big Meme: podem os Big Data ser a base
empírica da Memética?”, Gustavo Leal Toledo explica, inicialmente, a
origem do termo “meme” e como poderia ser caracterizada uma
ciência memética, sendo a falta de um suporte empírico o principal
obstáculo, segundo ele, para sua efetivação. Na sequência, argumenta
Gustavo, as técnicas de análise de Big Data podem vir a oferecer um
tal sustentáculo empírico, devido ao imenso número de dados
resultantes das mais diversas interações sociais humana, dados esses
passíveis de análise por meio de modelos matemáticos rigorosos. O
autor conclui o capítulo apontando, em uma perspectiva crítica, os
problemas éticos envolvidos nas análises de Big Data e suas possíveis
consequências negativas para a privacidade e autonomia humanas.
Refletir sobre a relação entre identidade pessoal, memória e
Big Data é o objetivo central do quarto capítulo, intitulado “Big Data,
Memória e Identidade Pessoal”, de Jonas Gonçalves Coelho.
Inicialmente, o autor apresenta a teoria da memória proposta por
Jacquelyn Burkell, segundo a qual lembrar e esquecer são processos
igualmente fundamentais para a constituição da identidade pessoal,
sendo que a dinâmica entre ambos os processos subjaz na construção
de narrativas autobiográficas. A partir da proposta de Burkell, Jonas G.
Coelho analisa o possível impacto da construção mecânica de
memórias na dinâmica de atualização de narrativas de rastros digitais
indeléveis, facilitada por recursos Big Data, que possibilitam a coleta,
registro e analise de informação autobiográfica, por vezes sem o
10
consentimento dos indivíduos. O autor argumenta que a memória
digital, enquanto um registro detalhado, e muitas vezes completo da
vida pessoal de usuários das tecnologias de redes, contraria o modo
natural de construção maleável da identidade pessoal a partir de
memória seletiva.
Encerrando a primeira parte desta coletânea, o quinto capítulo,
intitulado “Impactos das tecnologias de comunicação na vida política”, de
Ricardo Monteagudo, analisa, na perspectiva da filosofia política,
implicações da adoção generalizada e extremamente rápida das
tecnologias de informação e comunicação dos agentes sociais, muitas
delas consideradas pelo autor como irreversíveis. Um dos indícios de
impactos das TIC nas visões de mundo é a incorporação no vocabulário
cotidiano de termos e expressões tais como: fake news, Big Data, pós-
verdade, Facebook, WhatsApp, Wikipedia, de cunho tecnológico,
referindo-se a novas possibilidades de interação social e comunicação. No
entanto, alerta o autor, nesse mesmo contexto tecnológico emergem
também conceitos de significativa relevância política, mas que evocam
trágicos eventos histórico-políticos, como neo-fascismo, neo-populismo e
neo-totalitarismo. O capítulo finaliza apontando a relevância de considerar
o atual cenário social na perspectiva biopolítica, isto é, investigando as
novas formas de controle dos corpos propiciadas pelas tecnologias
informacionais contemporâneas.
A segunda parte do livro, intitulada “Big Data: aprendizagem de
máquina, complexidade e emergência”, se inicia com o sexto capítulo,
“Introdução a Machine Learning a partir de uma perspectiva
computacional”, de autoria de Nina S. T. Hirata. A autora considera que a
abundância de dados digitais disponíveis através de tecnologias de
informação vem transformando o modo como nos relacionamos com os
próprios dados. Ela ressalta que diversos setores da sociedade, incluindo
grandes corporações, universidades e órgãos governamentais, entendem os
valores que podem ser agregados às suas ações a partir da análise de
massiva quantidade e variedade de dados. Contudo, ela argumenta que
nesse cenário, os métodos e ferramentas tradicionalmente utilizados em
análise de dados se tornaram inadequados para tal análise. Nesse contexto,
os conceitos de Big Data, Inteligência Artificial, Machine Learning e Data
Science, entre outros, têm sido utilizados com entusiasmo, porém, em sua
opinião, eles não são muito bem compreendidos. Buscando esclarecer
alguns desses conceitos, Nina apresenta uma didática introdução temática
à Machine Learning, contribuindo assim para ampliar a compreensão
desse tópico por leitores de áreas multidisciplinares.
11
No sétimo capítulo, “Algoritmização a partir dos atores do acesso
a dados”, Ricardo César Gonçalves Sant’Ana discute a necessidade de
explicitação e divulgação da falta de conhecimento dos diversos atores
sobre o papel por eles desempenhados no acesso a dados, bem como na
participação da dimensão funcional dos processos informacionais,
destacando o crescente protagonismo dos algoritmos nesses processos.
Sant’Ana analisa, de forma didática, fatores como as transduções
informacionais, em diferentes fases de acesso, e o distanciamento de
atores, como os usuários e referenciados, dado o encapsulamento e a
complexidade que permeia as transduções. O autor conclui que o papel
hoje desempenhado pelas máquinas, em atividades que antes requeriam
competências cognitivas predominantemente humanas, suscita a
necessidade de reflexões sobre o que pode emergir da simbiose ser
humano/máquina na formação de novos sistemas híbridos.
“Emergence of complex data from simple local rules in a
network game”, em português, “Emergência de dados complexos de
regras locais simples em um jogo em rede” é o título do oitavo capítulo
desta obra. Os autores, Felipe S. Abrahão, Klaus Wehmuth e Artur
Ziviani, argumentam que a ciência de redes possibilita uma ampla
gama de aplicações para análise e modelagem de redes de eventos e
situações no mundo real. Eles argumentam que propriedades topológicas
das redes podem ser relacionadas a outras propriedades, como aquelas
que envolvem emergência em sistemas complexos, o que as tornam um
tópico de pesquisa relevante, por exemplo, na área de Ciência dos
dados. Para ilustrar essa hipótese, os autores apresentam um modelo
para um jogo de rede, realizado por meio de redes complexas, em que
seus ‘nós’ são sistemas computáveis, ilustrando o fenômeno de
emergência resultante da dinâmica interativa desses nós.
O nono capítulo, intitulado “Relações entre Big Data e
cognição”, de João Kogler, encerra a segunda parte desta coletânea de
artigos. Nesse capitulo, João Kogler examina algumas relações entre
Big Data e cognição, com ênfase na cognição humana, ressaltando que,
como no momento ainda não se dispõe de versões relativamente
consensuais dos termos Big Data e cognição, não é possível ir além da
especulação acerca das relações entre ambos. Nesse sentido, ele se
propõe a indicar características fundamentais de ambos, visando
estabelecer uma visão lógica que relacione os dois conceitos em termos
de tais características.
A terceira parte temática deste livro, denominada “Big Data:
fake news, opinião pública e vigilância”, começa com o décimo capítulo
12
da obra, intitulado “Quem acredita em fake news?”, de Marco Aurelio
Alves. Nele, o autor aborda criticamente o conceito de fake news,
ressaltando suas principais características, e indagando a que se deve o
sucesso de sua aceitação e disseminação, por mais absurdo ou inverossímil
que seja seu conteúdo. O autor discute também a indissociabilidade entre
os conceitos de fake news e o de pós-verdade, apresentando hipóteses
sobre a interdependência desses conceitos. Para ilustrar sua argumentação,
o autor apresenta dois exemplos emblemáticos de fake news que tiveram
vasta repercussão e fortes consequências em processos eleitorais no Brasil
e nos EUA, ressaltando que, a despeito de sua inverossimilhança, eles
influenciaram a opinião pública de modo decisivo.
No décimo primeiro capítulo, “Smile to pay with your face:
Hacking into programmed faciality in the age of Big Data and AI”, em
português, “Sorria para pagar com sua face: invadindo a facialidade
programada na era dos Big Data e IA”, encontra-se a contribuição de
Alexander M. Gerner. Para o autor, a humanidade está enfrentando
uma imersão cada vez maior no mundo digital, tornando-se
“hackeável” em relação a si mesma, a sua pessoalidade e sociabilidade.
Ele argumenta que empresas, e até mesmo os estados, estão engajados
na governança digital do comportamento das pessoas em redes digitais.
Um resultado dessa governança é que dublês digitais e personalidades
corporais estão sendo interconectadas, por meio da elaboração de
perfis, rastreamento, vigilância, tomada de decisão automatizada e Big
Data, redefinindo valores e a própria humanidade. Alexander Gerner
levanta inúmeras questões sobre possíveis perigos dos usos de Big Data
e da IA, como a perda de privacidade, sociabilidade, autonomia e
democracia fundada no determinismo computacional de dados
automaticamente manipulados. Ele sugere que hackear a vigilância
com os próprios dados, via dramaturgias artísticas, estéticas e
estratégias midiáticas, pode abrir caminhos para uma era digital e de
Big Data mais justa e democraticamente participativa.
O capítulo décimo segundo: “Big Data y tendencias emergentes
en los estudios sobre opinión pública en la ciencia de la información”,
em português, “Big Data e tendências emergentes nos estudos sobre a
opinião pública na Ciência da Informação”, de Mirelys Puerta-Díaz,
María-Antonia Ovalle-Perandones e Daniel Martínez-Ávila, tem como
objetivo central apresentar um mapeamento das tendências de
produção científica sobre a dinâmica de formação da opinião pública,
no âmbito das Ciências da Informação. Adotando uma metodologia de
estudo qualitativa e quantitativa, em um escopo descritivo, o capítulo
13
traz uma abordagem na perspectiva dos Estudos Métricos e da
Organização do Conhecimento. O exame de tal produção bibliográfica
é feito pelos autores por meio de diversas ferramentas de análise
automatizada na base de dados Web of Science, sem limitação de
período ou tipo de documento. Os autores destacam que a produção
científica internacional sobre opinião pública em estudos de Ciências
da Informação é emergente e apresenta uma tendência de aumento nos
últimos três anos.
Por fim, Mariana Vitti Rodrigues e Ettore Bresciani Filho em
seu texto “Indução eliminativa e causalidade no contexto das ciências
direcionadas por dados” têm por objetivo discutir a proposta,
elaborada por Wolfgang Pietsch, de que o método de indução
eliminativa possibilitaria clarificar o papel das relações causais no
âmbito das ciências de dados. Para tanto, o décimo terceiro capítulo é
norteado por duas indagações: Qual o papel do método de indução
eliminativa na identificação de estruturas causais a partir da coleta,
tratamento e análise de massiva quantidade de dados nas ciências
direcionadas por dados? Em que medida as técnicas de análise de Big
Data modificariam a ideia de modelagem causal nas ciências
direcionadas por dados e acelerariam o processo de automação da
pesquisa científica? Ao analisar ambas as questões, os autores refletem
acerca do alcance e limites do método de indução eliminativa no
contexto dos Big Data, bem como sobre a possibilidade de automação
da pesquisa científica nas ciências direcionadas por dados.
As organizadoras desta coletânea consideram a discussão sobre as
implicações epistemológicas, éticas, políticas, estéticas, educacionais,
técnicas e semióticas do emprego de análise de Big Data, entre outras, o
primeiro passo rumo a uma sociedade mais esclarecida e menos suscetível
à desinformação e má utilização dos dados. Assim, esperam que a leitura
dos capítulos acima sumarizados possa contribuir para a criação de uma
visão crítica, falibilista e consciente do papel hoje desempenhado pelas
tecnologias de informação e comunicação e pelas técnicas de análise de
Big Data na ciência e na vida cotidiana.
Por fim, por acreditar que a construção do conhecimento,
principalmente no caso de estudos interdisciplinares, é uma atividade
coletiva, gostaríamos de agradecer a todos os que participaram da
organização do XII EBICC e que apresentaram seus trabalhos no evento,
aos membros do GAEC – Grupo Acadêmico de Estudos Cognitivos da
UNESP, do Grupo CLE-Auto-Organização da UNICAMP e aos
membros da equipe do projeto FAPESP Understanding opinion and
14
language dynamics using massive data pelas fundamentais contribuições
para a realização dos trabalhos aqui apresentados. Agradecemos
igualmente aos membros do Conselho Editorial desta coletânea pelo seu
árduo trabalho, rigoroso e desinteressado. Agradecemos, ainda, o apoio
institucional da UNESP e da UNICAMP e o suporte financeiro da
FAPESP, da CAPES e do CNPq.
Marília, 31 de outubro de 2020.

Edna Alves de Souza
15
BIG DATA: QUESTÕES ÉTICAS,
EPISTEMOLÓGICAS E POLÍTICAS
ASPECTOS ÉTICOS DAS FAKE NEWS E FATOS
ALTERNATIVOS: UMA ABORDAGEM
SEMIÓTICO-PRAGMÁTICA
Ivo A. Ibri
CONSIDERAÇÕES SOBRE O TEMA

Pretendo aqui trazer uma análise sobre o fenômeno
socialmente recente das fake news e fatos alternativos à luz de
conceitos trazidos pela Semiótica e pelo Pragmatismo de Peirce,
refletindo sobre suas possíveis consequências de natureza ética, ou
seja, como sua ocorrência poderia afetar a conduta de uma sociedade e
a que fins essa conduta estaria direcionada.
No título deste texto mantenho o termo fake news em língua
inglesa não simplesmente porque isso seria justificável por nela ter tido
origem, mas, essencialmente, porque acabou se popularizando
internacionalmente como tal.
Essa reflexão inclui, igualmente, a distinção entre o que seriam
fake e true news, assim como entre fatos alternativos e simplesmente
fatos, uma vez que este último termo poderia dispensar uma
adjetivação que o retirasse de seu âmbito próprio, a saber, o da genuína
alteridade, aquilo que o caracteriza como sendo outro que não
quaisquer representações que dele se façam.
Assim, fatos, nesse sentido, resultariam do modo como não
apenas nós humanos agimos e nos inserimos em um teatro social, mas,
também, como circunstâncias históricas diversas confluem para definir o
lado duro do que chamamos alteridade. Fatos e representações de fatos
seriam, então, sob este prisma, distinguíveis em um contexto de realidade.
Essa distinção entre representação e realidade pode se valer do
vocabulário da Semiótica e, sob esse prisma, dizer que representações
dos fatos, quando correspondem razoavelmente ao modo como eles se
apresentam à experiência passível de ser objetivamente partilhada, são
consideradas verdadeiras. Semioticamente, dir-se-ia que verdade seria
19
uma condição de correspondência1 entre signos e seus objetos, e essa
condição que se poderia também ser nomeada de aderência entre
ambos. É importante marcar que a noção de verdade sob a filosofia de
Peirce implica, portanto, uma certa capacidade que conceitos, teorias
ou sistema de signos que representam um sequenciamento de fatos de
prever seu curso futuro com algum sucesso.
Não seria a expressão pós-verdade1, termo também
contemporâneo aos conceitos de fake news e fatos alternativos2,
meramente seu simples abandono, assumindo, assim, uma arbitrária
autonomia do discurso, de independência de um possível curso que a
facticidade teria e que legitimaria a verdade? A par de descartar esse
caráter preditivo que as representações verdadeiras da realidade devem
proporcionar, não traria a pós-verdade, em seu bojo, uma espécie de
superação de uma etapa histórica da cultura humana em que
pretensamente se adotava o conceito de verdade como um valor
intocável? Seria, assim, possível descartá-la como algo necessário não
apenas como recurso lógico de uma racionalidade que cumpre sua
função de antecipação da experiência possível, mas também
fundamental à convivência social entre os seres humanos, extensiva às
relações pessoais e privadamente?
Surgem, nesse âmbito, questões sobre que consequências
éticas, ou mais amplamente, que nuances éticas estariam envolvidas no
abandono do compromisso com a possibilidade da verdade assim
concebida como correspondência com os fatos. Por que a verdade seria
uma busca convergente para uma monossemia, enquanto a polissemia
seria apenas eticamente viável no âmbito da arte e do estágio
hipotético da pesquisa científica?
Ainda nessa linha de inquirição, poder-se-ia pensar que
consequências éticas teria uma apropriação indébita da possibilidade
da polissemia dos signos, a serviço de interesses de grupos, nesta época
das mídias digitais e dos Big Data, associada a uma pública circulação
alucinante das informações.
1
Emprego aqui termo correspondência, algumas vezes epistemologicamente
polêmico, apenas sob o sentido estrito de capacidade de previsão do curso dos fatos
pela sua possível representação teórica. Por essa razão, proponho, também e
alternativamente, o termo aderência que, a meu ver, traz de modo mais claro essa
ideia. Certamente, à luz da filosofia de Peirce, ele deve estar isento de quaisquer
pretensões de expressar verdades finais ou exatas.
1
Sobre esse tema, confiram-se McIntyre (2018), Santaella (2018), Farkas J. and
Schou J. (2019).
2
Cooke (2018) busca exibir o nexo conceitual entre ambos esses conceitos.
20
ALGUNS TÓPICOS HISTÓRICOS
Pretendo aqui elencar alguns exemplos históricos que evidenciariam
que o fenômeno das fake news não é uma exclusividade contemporânea.
Há na história abundantes exemplos, como na segunda grande
guerra a propaganda nazista, cuidadosamente articulada para fazer circular
e valer os valores do nacional socialismo do partido hitlerista. Citem-se,
também, e de maneira comprovadamente registrada, a produção de notícias
falsas, associadas à versão de fatos alternativamente elaborados por estados
e sistemas políticos totalitários. Essa prática de uma versão oficial dos fatos
não é exclusiva do momento histórico em que vivemos, senão uma sua
manipulação de acordo com conveniências de natureza política.
É interessante ressaltar que esse predicado da alternatividade,
pode fazer competir interpretações rivais dos fatos ou, simplesmente,
torná-los opacos a uma interpretação que seria potencialmente
verossímil e assim monossêmica. Nesse caso, fatos alternativos seriam
os que simplesmente desviariam a atenção de seus receptores daqueles
que estariam evidentes e abertos a uma interpretação verdadeira.
Se recuarmos na História bem mais que a sua modernidade,
poderíamos considerar a sociedade ateniense na época de vigência da
filosofia sofista em meio ao nascimento do platonismo. O ceticismo
epistemológico da escola sofista, expresso exemplarmente nos
pensamentos de Protágoras e Górgias, descredenciavam a possibilidade
de partilhamento universal da experiência – sua contingência subjetiva
tornava a linguagem apenas um exercício de retórica, de que, a
propósito, eram os sofistas professores, ensinando a arte de convencer
os ouvintes de um discurso mediante uma aparente plausibilidade
lógica nele expresso. O relativismo que singularizava as visões de
mundo em cada indivíduo evidentemente não poderia facultar um
acesso universal à experiência fenomênica e, consequentemente, um
reconhecimento de verdades para além da mera doxa. Evidente se
torna, também, que valores comunitários que balizam e normatizam
uma sociedade não poderiam passar pelo crivo de um acordo de
opiniões, já que o estatuto da verdade enquanto partilhamento de
experiências, uma vez descredenciado, carrearia consigo a
impossibilidade do reconhecimento social do que poderia ser um bem
comum. Esse clima cético de indistinção comunitária entre o falso e o
verdadeiro e consequentemente de infactibilidade de valores
socialmente reconhecíveis à luz do conceito de bem comum foram
fatores marcantes, como se sabe, para o surgimento da filosofia de
21
Sócrates e Platão. O platonismo pode ser lido como uma reação a esse
ceticismo que estaria levando, de certa forma, a sociedade ateniense a
um esgarçamento de valores sociais transformando-os em fins
privativos a serviço de grupos de interesse. Atenas passará nesse
período por uma de suas mais difíceis etapas históricas, plena de
conflitos entre a classe dos aristocratas e a mais pobre da população3 e
por um pernicioso, deletério, clima de descrédito e relativismo de
natureza ética entre os jovens cidadãos atenienses.
Vale ressalvar que não obstante o relativismo epistemológico
da escola sofística tenha acarretado consequências práticas para a
sociedade de então – poder-se-ia dizer, por essa razão, um relativismo
de sentido pragmático – ela não teve origem em uma filosofia
moralmente comprometida com o falso, a saber, genuinamente4
produtora de fake news. É bem verdade, também, que o termo fake
news – literalmente notícias falsas – não se aplica a essa situação
histórica aqui convocada. Contudo, a disseminação de uma ideologia
no sentido de uma teoria política que encerra valores sociais ou
conjunto de ideias que balizam a conduta de um grupo social, estava
vigente e se fazia pela linguagem – então a mídia socialmente ativa e
disponível aos cidadãos atenienses.
Neste sentido e com essa ressalva, nesse período não se poderia
dizer que a utilização da linguagem como mero instrumento de retórica e
não como mediação para o verdadeiro tivesse alguma forma de
venalidade, baseada que estava na convicção da impossibilidade de uma
verdade de caráter objetivamente lastreada. Há aqui uma distinção
importante a ser apreciada sobre a produção e utilização das fake news,
mais detidamente tratada à frente, pela sua importância de natureza ética5.
CLASSES DE FAKE NEWS

Vou considerar nesse pequeno ensaio apenas duas classes de
Fake News à luz de uma análise de natureza ética:
a] As notícias falsas decorrentes de erros de produção, ou seja,
que não tiveram, de origem, a intenção de iludir o receptor com um
supostamente falso estado de coisas;
3
Confira-se o vol. 3, The Sophists, em Guthrie (1977).
4
Sobre esse caráter genuíno discorrerei mais adiante.
5
Conferir Bett (2010) - pp. 181–194.
22
b] As notícias falsas que, contrariamente, foram assim
produzidas, com a finalidade explícita de fazer seu receptor crer num
estado de coisas sem lastro fático ou, mais sutilmente, obnubilando
esse lastro com a vagueza proporcionada pela linguagem que seria
conducente a uma interpretação dirigida aos fins de interesse de seu
produtor. Aqui apareceriam os fatos alternativos, na forma de sua
invenção ou de uma interpretação de fatos que, embora evidentes,
passariam por uma operação de opacidade de significado sob muitas
maneiras sob as quais isto se possa fazer. Uma delas seria subjetivá-
los, atribuindo-lhes intencionalidade ideológica ou associá-los a valores
rejeitáveis pela classe de sujeitos receptores.
À primeira classe de fake news não pode ser atribuída alguma
forma de má fé ou a intenção de se gerar algo falso. Mencione-se,
exemplarmente, as que são erros de procedimento das mídias sociais. Tais
erros de procedimento podem ser e são frequentemente corrigidos pela
agente em questão. Mídias com comprometimento com a verdade, tomada
essa sob o prisma simples de razoável correspondência com os fatos, soem
adotar mecanismos de correção de erros acidentais de divulgação de
notícias falsas. Portanto, malgrado se possa prever que uma notícia não
intencionalmente falsa possa acarretar, também contingentemente,
condutas equivocadas, elas poderão ser em algum momento revistas,
balizadas por um quadro fático que deverá ser corrigido.
Nessa classe de fake news destituídas da intenção de iludir os seus
receptores, pode-se elencar tipos que se valem de mídias diversas, como,
por exemplo, textos jornalísticos e ou videotextos de cunho político que se
valem de ironia, sarcasmo e formas diversas de humor e que podem dar
margem a interpretações diversas, não infrequentemente balizadas por
contextos ideológicos que vedam o acesso aos fatos que estão sob foco
crítico daquelas formas de expressão. Mas aqui, considere-se que a
conduta social e ou de um grupo social não foram intencionalmente
conduzidas a crer em fatos inexistentes ou trazidos por narrativas criadas
para este fim. Haverá, sempre, independentemente do fenômeno recente
trazido pela extraordinária expansão midiática, conflitos de interpretação e
de condutas previamente já orientadas por crenças prévias, como se pode
abundantemente verificar ao longo da história.
Não parece ser profícuo reler esses conflitos de opiniões, crenças,
interpretações, próprios à historicidade da cultura humana, à luz do
conceito de fake news, renomeá-los em classes de distintos tipos de falsas
notícias, apesar da intensidade e amplitudes diferenciadas de que se valem
23
as redes sociais contemporaneamente6. Assim, considerando que condutas
equivocadas integram parte própria de nossa longa história cultural,
concentremo-nos em restringir o interesse no tema das fake news à sua
face marcadamente ética.
SOBRE A DISTINÇÃO SEMIÓTICA ENTRE OBJETO

IMEDIATO E DINÂMICO - REALIDADE E FICÇÃO
Utilizando alguns conceitos da Semiótica de Peirce, vale trazer
à tela a distinção entre objetos imediato e dinâmico7. Para os fins que
aqui se pretende alcançar, entendamos o primeiro como sendo aquele
que se configura como objeto representado. Em outras palavras, o
objeto imediato seria o referente contido nos signos, nas diversas
linguagens que o expressam. De sua vez, o objeto dinâmico é aquele
que permanece independente de sua representação e, por assim ser,
atende o quesito de definição do que seja real segundo Peirce8.
Sob esses conceitos, poderia ser considerado como conceito de
verdade, conquanto de modo aproximado e falível, uma correspondência
entre ambos esses objetos, verificável não simplesmente como aparente
semelhança entre eles, mas pela observação de como ambos se
comportam no tempo. Esse é o quesito peirciano de significação
pragmática de um conceito, dependente sempre de observação futura de
suas consequências: O valor de um símbolo reside em fazer o pensamento
e a conduta racionais e nos permitir prever o futuro (CP 4.448).
Utilizando esse vocabulário, pode-se dizer que falsas
representações dos fatos distanciam o objeto imediato do dinâmico. No
primeiro caso em que não há premeditadamente um plano de
falseamento intencional das news, tornando-as, assim, fakes, a sua fonte
geradora será supostamente direcionada para reaproximar ambos os
objetos. Não haveria, consequentemente, venalidade propositalmente
6
Nesse sentido, veja-se em Santaella (2018), pp. 34 a 36, um levantamento
interessante sobre os possíveis tipos de fake news.
7
Verificar considerações sobre esses conceitos em Silveira (2007).
8
O objeto dinâmico, segundo Peirce, determina seu objeto imediato, tendo com ele
alguma forma de vínculo. Trato aqui apenas daqueles que se associam à realidade dos
fatos, deixando de lado os possivelmente ficcionais, que trazem problemas outros
sobre como essa determinação se daria exclusivamente no plano do imaginário,
prescindindo do predicado de alteridade que, no primeiro caso é ontologicamente
objetivo ao contrário do modo como se processa a criação da ficção. Considerar, por
exemplo, a intencionalidade da criação das fake news um tipo de objeto dinâmico,
introduziria aqui um complicador fora do escopo desse pequeno ensaio.
24
pensada nessa situação. Denominarmos erros, equívocos de
interpretação, próprios do falibilismo humano, genericamente de fake
news, resulta em diluir um conceito cuja análise mais interessante, a meu
ver, deveria estar submetida a uma eticidade indicativa de suas
consequências deletérias para uma sociedade.
As razões pelas quais, contudo, as fake news são intencionalmente
criadas devem estar associadas a fins privativos de grupos de interesse.
Sob esse conceito de interesse podem ser arroladas situações também
diversas, de natureza econômica, ideológica e, talvez, se possam incluir
também fatores de caráter psicanalítico que possivelmente estariam
lastreando tal conduta.
De todo modo, é importante perceber que o conceito de grupo
de interesse está intimamente conectado ao de privativo e, na medida
em que seja assim também predique seus fins, que ele fragmenta e
particulariza em uma sociedade o que deveria ser um bem partilhável.
A atenção para esse ponto faz trazer, a par da ideia de bem comum,
antigos conceitos de democracia e justiça social.
Não à toa, se constatam virem à baila tais conceitos em
recentes discussões que envolvem a análise das fake news, na forma de
como certos valores sociais de caráter coletivo se encontrariam
ameaçados por uma manipulação midiática de falsas notícias, valendo-
se da linguagem em todo o seu potencial de carreamento de sentido
lógico e emocional, conquanto distante de uma faticidade que a
pudesse credenciar como comprometida com o seu objeto dinâmico.
Por que isso assim se daria? Parece lícito elencar razões que,
por um viés, destinam-se a angariar apoio e aprovação de camadas da
sociedade propensas a se identificarem com os fins implicados no
discurso assim produzido, em suas diversas formas midiáticas. Por
outro viés, o de criar uma realidade paralela – fatos alternativos – que
indistinguem realidade de ficção9, direcionadas a induzir condutas que
deverão incidir em fins equivocados, mas que temporariamente
proporcionarão suporte a fins meramente privados dos grupos
geradores dessas fake news. Ambos os casos se identificam quanto a
seus resultados: faccionar a sociedade direcionando grupos de opiniões
e condutas a seus interesses privados.
9
Exponho adiante o aspecto deletério dessa indistinção.
25
UMA PASSAGEM PELA TEORIA DAS CRENÇAS DE
PEIRCE
Considere-se possível entender a distinção entre os tipos de
crenças tais como propostos por Peirce em A Fixação da Crença em
científicas e dogmáticas10.
Crenças de natureza científica caracterizam-se pela interação
sígnica entre os objetos imediato e dinâmico. Essa interação se baliza
por um constante diálogo com a experiência tal como determinada por
um critério de relevância decorrente de uma teoria sobre algum recorte
de mundo. É importante destacar que essa cientificidade da crença não
se confina ao âmbito das práticas científicas exclusivamente, mas à luz
da filosofia de Peirce se estende a toda mente que está disponível para
aprender com a experiência, dispondo-se a alterar seus hábitos de
conduta sempre que ela assim o indicar.
De sua vez, crenças dogmáticas seriam as que se instalariam
sem acesso aos objetos da experiência. Proponho que elas poderiam
ser classificadas como transcendentes e coagidas. As primeiras
definitivamente não têm acesso a seus supostamente objetos dinâmicos
– supostamente porque não pode ser afirmada sua realidade e, em
consequência, não saem do plano de seu conceito, contraditando,
assim, sua própria natureza de alteridade em relação ao objeto
imediato. Peirce as denomina de crenças a priori.
Denomino crenças coagidas aquelas impostas por autoridade.
Elas frequentemente ocorrem em organizações sociais hierarquizadas,
determinando condutas vedadas às razões que a determinaram. Essas
organizações, de seu lado, podem, no plano da autoridade, interagir
com a experiência e determinar assim suas ações – tome-se
exemplarmente como isso ocorre em um exército. Contudo, crenças
transcendentes, sem recurso à experiência, valem-se de modo mais
explícito da autoridade para impor as condutas a elas submetidas.
Por fim, considerem-se as crenças dogmáticas de natureza
tenaz. Elas primam pelo seu confinamento ao objeto imediato,
tornando-o radicalmente apartado do objeto dinâmico em um sentido
em que este poderia eventualmente influenciar aquele. Não é demais
dizer que crenças tenazes se apegam às suas próprias concepções de
mundo e vedam qualquer influência fática que possa fraturá-las.
Parece evidente que os que adotam esse tipo de crença estejam mais
10
Comento a teoria das crenças de Peirce em Ibri (2018).
26
inclinados a crer em narrativas que venham a se harmonizar com a
visão de mundo que possuem e os valores nela implícitos.
Em maior ou menor grau, poder-se-ia afirmar que as crenças
de natureza dogmática estariam mais propensas a recepcionar
acriticamente as fakes news, em face de seu distanciamento de uma
realidade que, ao fim e ao cabo, seria a única âncora para corrigir
condutas equivocadas por elas induzidas. Em maior grau, as crenças
tenazes não se disporiam a mobilizar correção de seus conceitos e, em
consequência, de condutas. Elas apenas se retroalimentam daquilo que
já nelas está conceitualmente cristalizado.
Poder-se-ia perguntar: não seriam os cidadãos afeitos a essa
classe de crenças um foco primordial de direcionamento das fake news?
A FICÇÃO DELETÉRIA DAS FAKE NEWS – A

INDISTINÇÃO ENTRE IMAGINÁRIO E REAL
Um dos aspectos mais importantes da teoria da significação é
trazida pela máxima do pragmatismo de extração peirciana.
Significação pragmática requer algo além de uma semântica
linguística, a saber, o quesito de que algo de natureza fática deva
influenciar a conduta. Tal quesito, em verdade, resume-se a uma
relação entre as categorias de Peirce, em que a ação sob a segunda
categoria, a segundidade, deva exibir o conceito, sob a terceiridade, em
sua forma definida. Isso equivale a dizer que a indeterminação
potencial, a generalidade do conceito, se torne réplica fenomênica
particular, diretamente aberta à experiência de qualquer mente
cognitiva. A conduta, como modo de ser das ações, deve exibir o
conceito que lhe deu forma nutrindo suas diretrizes, proporcionando
definidamente uma inferência sobre seus fins.
É deste modo que o realismo da filosofia peirciana se
manifesta em seu pragmatismo – não basta a simples significação no
plano da linguagem, senão que ela deva estar ligada ao modo como se
está disposto a agir sob sua influência. Longe de ser uma “teoria da
ação”, o pragmatismo tem no agir a instância em que o geral aparece
em sua forma particular e, por assim fazer, integra os personagens
objetuais expostos à observação de outras mentes capazes de cognição.
Pode-se então perguntar a que tipo de conduta as fakes news
conduziriam? Supõe-se que estariam direcionadas àquelas cujas
27
consequências práticas – termo caro ao pragmatismo – poderiam ser de
duas naturezas, a saber:
a] conflituosa com os fatos, uma vez ter sido gerada por
narrativas ficcionais, distantes de uma faticidade observável. Nessa
classe podem-se incluir condutas sem lastro em conceitos
razoavelmente reflexionados na experiência, os quais acabam
incidindo em fins distintos daqueles prometidos pela narrativa que lhe
foi originária. É importante realçar como na filosofia de Peirce essa
distinção entre ficção e realidade se faz sempre frequentemente
presente. Veja-se essa passagem:
A realidade das coisas consiste em persistentemente se forçarem sobre
nossa recognição. Se alguma coisa não possui tal persistência, ela é um
mero sonho. Realidade, então, sua persistência, é regularidade. No caos
original, onde não havia regularidade, não havia existência. Ele era um
completo sonho confuso. Isto podemos supor ter ocorrido em um
passado infinitamente distante. Mas na medida em que as coisas foram
se tornando mais regulares, mais persistentes, tornaram-se assim menos
oníricas e mais reais (CP 1.175).
Pode-se dizer que a ficção não tem o poder de gerar réplicas

fáticas que pretensamente se harmonizariam com as réplicas, ações,
que elas viriam a induzir. Ao contrário, o cenário onde as ações
individuais ou parcialmente coletivas ocorrem deve destoar do que a
narrativa ficcional criou. Lembremos que o significado de um conceito
está não apenas na conduta que ele possa influenciar mas, também, em
sua capacidade de prever o curso futuro dos fatos com os quais essa
conduta deverá coabitar. Tratando-se de ficção, seu poder preditivo da
realidade é simplesmente nulo e, assim, a conduta induzida por ela
estará inserta em uma faticidade alheia à contida na narrativa.
b] indiferente aos fatos e propensas a aceitar o que a narrativa
traz de encontro a sua própria visão de mundo, certamente fechada à
experiência. Crenças dogmáticas, como anteriormente expostas,
tendem a aderir seus fins, imunes à observação e, portanto, a recurso
de retroanálise corretiva, a fins que uma narrativa encerra e que com
eles parecem se harmonizar.
Enquanto condutas da classe ‘a’, malgrado temporariamente
conflitosas com a faticidade em que são lançadas por uma falsa
descrição da realidade, possam ser corrigidas e assim buscar sua
consistência lógica com a experiência, as de classe ‘b’ se encerram no
interior da linguagem, das representações de mundo e tendem a se
28
satisfazer com elas. As razões pelas quais isso assim acontece são
múltiplas e parecem exceder a esfera meramente ideológica. Uma
delas, pode-se apontar, seria de natureza psicológica. No âmbito da
Psicanálise, por exemplo, poderiam ser elencados conflitos de natureza
humana originários de uma indistinção entre realidade e ficção.
Decepções com o curso futuro da experiência certamente decorrem da
adoção de conceitos sem qualquer lastro na realidade para se
pretenderem preditivos. Mas, aqui, fiquemos apenas com o âmbito
ético de análise dos efeitos deletérios das fake news, não obstante suas
consequências se estendam para diversas esferas da vida humana.
CONCLUSÃO
Retomemos que a análise aqui trazida sobre as fake news se
concentrou exclusivamente em seu núcleo ético, deixando de lado
outros prismas que, a meu ver, estão associados a erros de
representação e de conduta, uma vez estarem, em verdade, espraiados
ao longo da história humana, e não, propriamente, implicarem no que
pode ser considerada uma falsificação da realidade, intencionalmente
produzida e vetorizada para criar bolsões de suporte político ou, em
termos mais gerais, de condutas, voltadas para fins particulares de
grupos de interesse.
Mencionou-se de início a polissemia própria à natureza mesma
da arte e da investigação científica em seu estágio hipotético associando-
a ao que se poderia predicar de eticamente sã.
De fato, sob o prisma de análise aqui adotado, uma polissemia
intencionalmente produtora de fatos alternativos estaria inspirada na
intenção de obnubilar uma faticidade genuína capaz de ser reconhecida
como independente de quaisquer representações que dela se possa
fazer. Essa oculta faticidade é, em síntese, o cerne mais simples do
realismo que dá o tom da filosofia de Peirce, ao contrário de outras
posturas filosóficas de cunho nominalista que afirmam ser a realidade
algo que não se distingue de suas representações. Poder-se-ia
plausivelmente dizer que essa posição filosófica dificilmente poderia
expor claramente uma distinção pragmática entre ficção e realidade.
Não por outro motivo, a categoria da segundidade em Peirce
detém o predicado fundamental da alteridade, como aquilo que
potencialmente irá reagir a toda forma de apropriação de sua condição
ontológica, caracterizada pela sua independência em relação a qualquer
representação que dela se possa fazer. Um discurso sem âncora numa
29
ontologicamente pública realidade fragiliza um tecido social que deveria
estar voltado ao bem comum e o fragmenta a serviço de fins particulares.
É bem verdade, também, que as sociedades contemporâneas,
sujeitas a uma avalanche de informações no âmbito dos Big Data e
submetidas a uma circulação desenfreada de signos das mais diversas
naturezas, incluindo, principalmente, as fake news, são constituídas por
indivíduos e grupos em que se divide aquela variedade de crenças aqui
expostas. E em cada um deles, a recepção dos signos se dará de modos
diversos e, possivelmente, alguns deles estarão mais afetados pelos
danos causados pela falsificação da verdade dos fatos.
Incluem-se nesse rol de danos uma publicidade intensamente
midiática, não apenas em sua face muitas vezes enganosa, mas em seu
papel de estimular um consumo supérfluo no fundo do qual se encontram
valores que mascaram outros que, de fato, poderiam genuinamente
conduzir a ação humana na direção do que seria um bem comum.
É então interessante refletir que as fakes news, sob o prisma de
sua afecção deleteriamente ética incidente no esgarçamento do tecido
social11, deveriam ser confrontadas pela mobilização da sociedade em
defesa de seus valores mais caros, na forma de recursos jurídicos e
institucionais nela disponibilizados.
A par dessas medidas, cabe retomar a importância da educação
dos indivíduos, não apenas voltada para uma habilitação tecnológica,
com a importância que lhe é própria, mas e, principalmente, para uma
formação cultural ampla que proporcionasse o reconhecimento e a
adoção de valores necessários a um tecido social voltado ao bem
comum. Ela deveria proporcionar tanto uma visão eticamente crítica
dos mecanismos que movimentam a história social, como a capacidade
de contrapor a valores supérfluos outros que de fato merecem o selo de
genuinamente humanos.
Caminhos errados a que uma sociedade é contingentemente
conduzida pelo falseamento intencional da realidade resultam em
retardamento da História, na proporção mesma em que bem comum, busca
genuína de sentido de vida e desenvolvimento do potencial de cada ser
humano sejam valores factíveis mediante a vigência do que se denomina
verdade, em seu poder de lastrear um acordo possível de opiniões.
Não é demais dizer que caminhos errados, quando ensejam
revisão de conceitos, hábitos de conduta e consequentemente aprendizado,
11
Uma prospectiva possível em uma etapa pós-fake news é desenhada por McBrayer
(2020), principalmente em seus capítulos 8 e 9.
30
são cognitiva e eticamente bem vindos. Todavia os erros intencionalmente
induzidos, uma vez submetidos ao escrutínio crítico, tornam-se apenas
formas perdulárias de se lidar com o Tempo.
Parece ser legítimo valermo-nos de nossa imaginação para
vivermos hiatos necessários em meio à onipresente alteridade da
existência. Nesse sentido, a arte, ao produzir ficção com suas diversas
linguagens, extrai do real um sentido mais amplo que o meramente lógico,
complementando seu conteúdo mais verdadeiro, sem, contraditoriamente,
jamais ser falsa.
Contudo, práticas ficcionais da linguagem que se pretendem
verdadeiras, descrevendo mundos como se ancorados em fatos,
ocultam tão-somente a escusa intenção de submeter a inteligência da
comunidade a crenças dogmáticas, fazendo-as, como já assinalado,
servas de seus interesses.
Não mais que justo é esperar que as por vezes longas pernas
curtas da mentira não retardem em demasia a saga de uma narrativa
verdadeira, tão importante ao lastreamento ético de uma comunidade.
REFERÊNCIAS
BETT, R. Scepticism and Ethics. In Bett (ed.) The Cambridge Companion to
Ancient Scepticism, Cambridge: Cambridge University Press. 2010; pp. 181–194.
COOKE, N. A. Fake News and Alternative Facts: Information Literacy in a
Post-Truth Era. Chicago, ALA Editions, 2018.
FARKAS, J. and SCHOU, J. Post-Truth, Fake News and Democracy:
Mapping the Politics of Falsehood. New York, Routledge, 2019.
GUTHRIE, W. K. C. A History of Greek Philosophy, Cambridge:
Cambridge University Press, 1977 – Vol. 3: The Sophists.
IBRI, Ivo A. “O Crepúsculo da Realidade e a Ironia Melancólica do Sucesso
Brilhante e Duradouro: Reflexões sobre os Interpretantes Emocionais e
Lógicos nos Modos peircianos de Fixação das Crenças”. Porto Alegre,
Veritas - PUCRS, Vol. 63(3). 2018.
MCBRAYER, J. P. Beyond Fake News. New York, Routledge, 2020.
MCINTYRE, Lee. Post-Truth. Cambridge, The MIT Press, 2018.
PEIRCE, Charles S. Collected Papers of Charles Sanders Peirce. Edited by
Charles Hartshorne, Paul Weiss, and Arthur W. Burks. Cam-bridge,
Massachusetts, Harvard University Press, 1931–35/1958. 8 vols. (referências
citadas por CP seguida do volume e parágrafo correspondentes)
SANTAELLA, Lucia. A Pós Verdade é verdadeira ou falsa? Barueri,
Estação das Letras e Cores – Coleção Interrogações, 2018.
SILVEIRA, Lauro F. B. Curso de Semiótica Geral. São Paulo, Quartier
Latin, 2007.
31
PROBLEMAS ÉTICOS CONCERNENTES À
SOCIEDADE DA INFORMAÇÃO
Reinaldo Sampaio Pereira
ALGUMAS OBSERVAÇÕES INICIAIS

Pensar nas implicações éticas de ações de indivíduos em uma
sociedade é algo muito complexo, uma vez que é preciso (dentre tantos
problemas a serem examinados) determinar quais ações podem ser
consideradas boas e por que elas podem assim ser consideradas, e a
História da Filosofia nos apresenta múltiplas possibilidades de
compreensão acerca de quais ações podem ser consideradas propriamente
boas. Isso porque há diversos modos de considerar por que tais ações
seriam consideradas boas, ou seja, a História da Filosofia (mais
especificamente a Ética) nos apresenta múltiplos critérios de determinação
do que seria uma ação moralmente1 boa.
Ademais, outros tantos problemas estão implicados na análise
do comportamento dos indivíduos, especialmente em uma sociedade
na qual a disponibilidade para o recebimento e transmissão de
informações é extremamente ampla em função sobretudo das novas
tecnologias digitais. Neste texto, propomo-nos apresentar quatro desses
problemas: 1) quais as condições necessárias para poder imputar a
responsabilidade de uma ação a um agente moral2, para que sua ação
possa ser considerada boa ou má de um ponto de vista ético?; 2) de que
modo o agente moral apreende coisas e fatos, ou (levando em
consideração que partimos do pressuposto que os sujeitos percipientes
e cognoscentes formam representações de coisas e fatos e não os
apreendem imediatamente, isto é, sem a mediação de representações),
de que modo o agente moral representa coisas e fatos?, modo de
apreensão esse (mediante representações) que em muito influencia as
1
Observemos que aqui não consideramos a moral como objeto da ética ou fazemos
qualquer outro tipo de distinção entre moral e ética. Aqui consideramos os termos
‘moral’ e ‘ética’ como sinônimos, utilizando-os indistintamente.
2
Utilizamos o termo ‘agente moral’ para nos referirmos a indivíduos que realizam
ações que, de algum modo, são relevantes para a sociedade na qual eles estão
inseridos, podendo os mesmos serem responsabilizados por elas.
33
suas escolhas e, consequentemente, o seu modo de agir?; 3) qual a
relevância da análise da capacidade de persuasão para o exame do
modo como as informações veiculadas rapidamente e em grande escala
através das novas tecnologias influenciam as ações dos agente morais?
Em que medida o agente moral pode ser responsabilizado por
persuadir ou ser persuadido (valendo-se das novas tecnologias) a agir
de um certo modo?; 4) podemos afirmar que boas informações são
suficientes para fazer com que um agente moral aja normalmente
bem? Em que medida a promoção de uma boa instrução do agente
moral, com boas informações, pode fazer com que ele aja
regularmente bem?
Dito agora de modo mais específico do que fizemos acima:
neste texto teremos como propósito apresentar tais complexos quatro
problemas de uma perspectiva bem definida, a saber, da perspectiva da
Filosofia, chamando a atenção para aspectos da análise de tais
problemas a partir de questões postas pela Filosofia3. Para tanto,
procuraremos nos apoiar, em certa medida, em alguns autores da
História da Filosofia (sem o propósito de discutir tais autores),
sobretudo em Aristóteles4.
CONDIÇÕES PARA RESPONSABILIZAR O AGENTE

MORAL PELAS SUAS AÇÕES
O aumento exponencial de informações a que estamos sujeitos
sobretudo através da internet exige que coloquemos questões acerca de
como tais informações podem ter influência em nossas vidas e nas
vidas de outras espécies, bem como influenciar a natureza de modo
geral. Alguns desses questionamentos dizem respeito a como tal
aumento de informações pode cotidianamente afetar nossas
deliberações acerca de como agir, com isso afetando nossas escolhas e,
consequentemente, nossas ações e nossos comportamentos. Mas as
3
Este texto é um primeiro de um grupo de textos que pretendemos publicar acerca do
tema. Neste primeiro texto temos como propósito apenas chamar a atenção para alguns
problemas (de natureza filosófica) que necessitam ser examinados acerca do relativamente
novo e complexo problema ético concernente ao grande aumento de informações
adquiridas e transmitidas pelas tecnologias mais recentes, sobretudo pela internet.
4
Observemos que, para nosso propósito neste texto (qual seja, apresentar os quatro graves
problemas apontados que estão implicados na aquisição e uso de uma grande quantidade de
dados na chamada sociedade da informação), iremos nos valer de algumas lições legadas pela
História da Filosofia, sem, contudo, discuti-las em algum autor específico. Nossa intenção aqui é
valermo-nos de tais lições para apresentar os quatro supramencionados problemas.
34
investigações éticas que tal aumento suscita não podem ficar restritas
apenas a como tais informações influenciam as ações para apenas
conhecer o modo como estas são engendradas. O conhecimento acerca
de como são engendradas as ações no agente moral deve ter como
propósito último auxiliar o exame de como ele deveria agir, para
possibilitar a criação de condições necessárias efetivas para que tal
agente moral possa agir do modo como deveria (qual seja este modo,
segundo certa prescrição ou orientação), de maneira que as suas boas
ações possam promover uma boa vida a ele e também possam
promover à sociedade na qual ele vive uma boa organização, para que
seus indivíduos possam viver bem.
O exame de como o agente moral deveria agir apenas faz
sentido quando é possível imputar a ele a responsabilidade das suas
ações. Isso porque só parece fazer sentido responsabilizar o agente
moral pelas suas ações quando realizá-las (ou não) está ao seu alcance,
isto é, quando é possível a ele escolher qual ação realizar, quando duas
ou mais possibilidades de agir a ele se apresentam. Se não é possível
responsabilizar o agente moral pelas suas ações, então não há
necessidade de tentar fazer com que ele as altere, uma vez que não está
ao seu alcance realizar (ou não) tais ações. Se, por outro lado, é
possível responsabilizar o agente moral pelas suas ações, isto é, se está
ao seu alcance realizá-las ou não, então é preciso verificar como fazer
com que ele possa alterar o seu modo de agir quando as suas ações são
percebidas como não sendo no mais das vezes boas, para que ele possa
vir a agir bem e, com isso, ele e a sociedade na qual ele vive se
beneficiarem com tais alterações no modo dele agir. Sendo assim, é
preciso examinar, também do ponto de vista filosófico (e mais
propriamente ético), tais questões, para então podermos analisar de
modo apropriado como a sujeição a uma enorme quantidade de
informações impõe novos problemas acerca de quando e como
podemos responsabilizar eticamente um agente moral pelas suas ações.
Seguindo certa orientação de textos éticos de Aristóteles5,
parece bastante razoável partirmos do pressuposto que só é possível
responsabilizar um agente moral pelas suas ações quando duas condições
5
Aristóteles, em seu mais conhecido e comentado texto ético, a Ética a Nicômaco,
estabelece (já no início do livro III, quando, a partir de EN III, 1, 1110b35, o
Estagirita inicia o exame acerca da distinção entre o voluntário, o involuntário e o
não-voluntário) dois critérios para poder responsabilizar um agente moral pelas suas
ações, os quais adotamos nesse nosso texto.
35
necessariamente a ele se apresentam6: a) um agente moral só pode ser
responsabilizado (de um ponto de vista ético) pelas suas ações quando
reside nele o princípio das mesmas, ou seja, apenas quando ele engendra
suas ações. Se um agente moral é empurrado por alguém e, sem que ele
queira, cai sobre uma criança, machucando-a, neste caso não parece
fazer sentido responsabilizar tal agente moral pela sua ‘ação’ de ter
machucado a criança, se não estava ao seu alcance machucá-la ou não, se
não estava ao seu alcance escolher tal ação, quando foi empurrado e, não
intencionalmente, caiu sobre a criança. Se a ação foi engendrada por
outra pessoa e não pelo indivíduo que caiu sobre a criança, tendo este
apenas sido instrumento na ação de machucá-la, então tal indivíduo (por
apenas ter sido instrumento para que a ação em questão ocorresse) não
pode ser responsabilizado por ter machucado a criança.
Além de apenas poder ser responsabilizado pela sua ação quando
é princípio da mesma, há uma segunda condição necessária para que o
agente moral possa ser responsabilizado: b) é forçoso que o agente moral
tenha consciência das consequências da sua ação ao realizá-la. Sendo
assim, apresentemos aqui, em relação a essa segunda condição para poder
imputar a responsabilidade de uma ação a um agente moral, alguns dos
complicadores potencializados pelas novas tecnologias (ao aumentar muito
a capacidade de rápida divulgação de informações e aumentar também a
capacidade de desfazer e refazer contextos concernentes a ações e outros
eventos, motivados intencionalmente ou não, naturalmente ou não, como
veremos no tópico três deste texto).
Consideremos o seguinte exemplo: se um agente moral é capaz
de persuadir a pessoa ‘x’ sobre um objeto qualquer e ele sabe que assim
fazendo pode prejudicar ‘x’, e ainda assim opta por persuadi-lo, o agente
moral, sendo princípio da sua ação de persuadir ‘x’ e sabendo das
consequências de tal persuasão prejudicá-lo, nessas condições,
dificilmente tal agente moral não poderia ser responsabilizado por ela.
Mas, e em relação (agora não ao que persuade, mas) ao agente moral que
recebe as informações e age mal por receber informações más? Ele pode
6
Notemos que o exame de quais as condições para poder imputar a responsabilidade (de
um ponto de vista ético) de uma ação a um agente moral pode subsidiar a investigação
para o estabelecimento de critérios para poder responsabilizar tal agente moral também de
um ponto de vista jurídico. Dada a enorme influência que o grande volume de
informações disponível na internet pode ter nas ações dos agentes morais, torna-se
necessário examinar a possibilidade de responsabilizar também juridicamente os agentes
morais pelas suas ações cuja motivação foi engendrada, em certa medida, pelas novas
tecnologias. Mas não nos compete aqui realizar tal exame na esfera jurídica.
36
ser responsabilizado pela suas ações ao agir sob influência de persuasivas
informações falsas recebidas (de modo intencional ou não) de outros?
Se a primeira das duas condições supramencionadas foi
atendida na realização de ações por influência de informações
recebidas pela internet, isto é, se o agente moral agiu por si, ele mesmo
engendrou a ação (ainda que a partir de informações recebidas da
internet), então, por este primeiro critério, é possível responsabilizá-lo
por tal ação. Faz-se necessário, então, verificar se o segundo critério
também será atendido em relação a tal ação realizada pelo agente
moral a partir de informações recebidas pela internet.
Aqui reside um grande problema no que concerne à
possibilidade de responsabilização de um agente moral pela sua ação
quando este foi persuadido por informações muitas vezes muito
convincentes recebidas pela internet, uma vez que não raramente é
difícil saber se o agente moral realizou a ação tendo capacidade de
prever as suas consequências. Tal dificuldade ocorre primeiro porque
muitas vezes é difícil ao agente moral conhecer de um modo geral o
repertório de consequências das suas ações. Segundo: como entender
essa ‘capacidade’ na expressão ‘capacidade de prever as consequências
da ação’? Poderíamos talvez compreender essa ‘capacidade’ como a
capacidade que um agente moral possui (de prever as consequências
das suas ações) que é engendrada por um grande volume de
informações recebidas. Mas o que isso pode significar? E na sua forma
negativa, a incapacidade de prever as consequências da sua ação, o que
isso pode significar? Isso poderia significar que o agente moral
necessariamente não seria capaz, de modo algum, de prever tais
consequências? E se for possível, em alguns casos, considerar que tal
agente moral não tinha condições de prever as consequências das suas
ações em um determinado momento por não ter dados suficientes
informativos que tal ação teria tais e tais consequências, mas que ele
poderia e deveria ter recolhido mais informações antes de agir e, assim
fazendo, teria como melhor prever as consequências das suas ações?
Neste caso, poderíamos responsabilizar este agente moral pela
ação realizada, ainda que de modo imediato ele não estava em
condições de prever tais e tais consequências das suas ações? Se
respondermos que não, que, nessas condições, não é possível
responsabilizá-lo do ponto de vista ético, segue-se que muitas vezes
talvez seja permitido ao agente moral alegar que ele não sabia das
consequências da sua ação e não havia como sabê-lo, para não ser por
37
ela responsabilizado, o que poderia ampliar enormemente o número de
ações irresponsáveis e ruins por parte de agentes morais que poderiam
alegar terem agido mal por desconhecimento das consequências das
suas ações e, com isso, não obstante as suas ações poderem gerar
diversos problemas para a sociedade, ele não poderia ser
responsabilizado moralmente por gerar problemas sociais.
Por outro lado, se respondermos que sim, que podemos
responsabilizar o agente moral pela sua ação, ainda que imediatamente
ele não estava em condições de prever as consequências da mesma,
mas estava ao seu alcance e ele podia e tinha o dever de recolher outras
informações antes de agir do modo como agiu, então podemos ter o
seguinte problema: se cabia ao agente moral continuar a buscar
informações antes de agir, então como saber quando as informações
que possui são suficientes para ele poder agir de modo tal que possa vir
a ser responsabilizado pela capacidade de prever (no momento em que
age) as consequências da sua ação? Qual seria o ponto em que o agente
moral poderia ser considerado como detendo informações suficientes
(não necessitando buscar mais informações) para poder prever as
consequências das suas ações e assim poder ser responsabilizado por
ter agido do modo como agiu?
A necessidade da busca de novas informações para o agente
moral ter boas condições de prever as consequências das suas ações,
para então poder agir, não pode se estender ‘ad infinitum’. Se sempre
houver mais informações a serem adquiridas para o agente moral agir
de modo a poder ser responsabilizado pela sua ação, quando seria
possível a ele conhecer suficientemente as consequências das suas
ações e assim poder ser responsabilizado por elas (no caso de a
primeira condição por tal responsabilização ser também atendida, qual
seja, a de residir no agente moral o princípio da sua ação)? Como
estabelecer um princípio racional que determinaria de modo geral
quando a quantidade de informação adquirida pelo agente moral é
suficiente para que ele possa ser responsabilizado pela sua ação?
Se considerarmos que parece razoável sugerir que tal
conhecimento do que deve o agente moral se informar deve variar caso a
caso, de pessoa para pessoa, de contexto para contexto, o problema se
intensifica, pois a possibilidade de responsabilizar ou não o agente moral
ter realizado uma ação dispondo de uma certa quantidade e qualidade de
informação necessariamente variaria caso a caso, contexto a contexto.
Desse problema seguir-se-ia: quem ou o que seria responsável por
38
determinar em cada caso quando o agente moral já adquiriu informações
suficientes para poder agir de modo a ser responsabilizado pelas suas
ações de certo modo resultantes das informações de que dispõe no
momento de agir? À medida que as novas tecnologias aumentam a
capacidade e facilidade de recebimento de informações, tal problema
acerca da possibilidade de responsabilizar o agente moral pelas suas
ações pode se intensificar.
Ademais, não bastasse esse grande problema gerado pelo
aumento exponencial da capacidade de receber e transmitir
informações, é preciso também examinar as consequências de tal
aumento em relação à veracidade da informação recebida pelo agente
moral. Nesse sentido, que responsabilidade pode ser atribuída ao
agente moral pela informação, notícia ou mensagem verdadeira ou
falsa recebida que influenciará as suas escolhas de como agir? Tal
problema se agrava com o aumento da capacidade das novas
tecnologias de forjar informação ou notícias falsas com aparência de
verdadeiras, como quando se cria imagens ou vídeos falsos com
convincente aparência de verdadeiros.
Nesse sentido, observemos que as novas tecnologias de
comunicação permitem potencializar a capacidade de desfazer e
recriar imagens, desfazer e recriar contextos completamente
diferentes, não apenas com informações criadas, mas também com
imagens forjadas, à semelhança do que, de certo modo, a faculdade da
imaginação pode fazer. Mas, no caso do computador (em certa medida,
diferente do caso da imaginação), por exemplo, as imagens podem ser
transmitidas, e em grande quantidade e velocidade, a outras pessoas de
modo muito convincente, persuasivo, o que pode gerar inúmeros
problemas a serem analisados do ponto de vista ético.
Independente do que considerar ser verdade ou falsidade (esse
não é um problema a ser examinado nesse texto), algumas questões de
imediato se apresentam em relação à qualidade da informação recebida
pelo agente moral: se o agente moral recebe informações falsas, não
estando em condições de notar que são falsas e tais informações
afetam as suas escolhas (e, portanto, as suas ações), nesse caso é
possível responsabilizá-lo por tais ações? Se se responde que não,
segue-se que não é possível responsabilizar o agente moral por agir
precipitadamente com apenas poucas informações relevantes para
fazer as suas escolhas de como agir. Se se responde que sim, por que é
possível responsabilizá-lo? Se se responde que é porque ele deveria ter
39
buscado outras informações, então se cai no mesmo problema
apontado anteriormente: até quando é necessário ao agente moral
checar as informações para ter segurança de que elas o conduzirão a
fazer as melhores escolhas e, portanto, agir bem? Certamente tal busca
de novas informações aparentemente verdadeiras não poderá se
estender ‘ad infinitum’. Então o mesmo questionamento (feito em
relação ao problema anterior) se segue: quem ou o que poderá
determinar quando é suficiente ao agente moral as informações de que
dispõe para que o mesmo possa se assegurar de certa veracidade delas
e, assim, poder bem prever as consequências das suas ações e portanto
poder ser responsabilizado por elas? De modo similar ao problema
anterior: o aumento da capacidade de forjar imagens e vídeos falsos
(mas muito convincentes de serem verdadeiros) intensifica a
dificuldade de poder ou não poder imputar ao agente moral a
responsabilidade das suas ações.
O PROBLEMA DA REPRESENTAÇÃO
Para pensar o problema acerca do aumento da capacidade de
criação e divulgação de imagens e de fatos gerados pelas novas
tecnologias de comunicação, convém considerar um outro problema
próprio à Filosofia, qual seja, se o que apreendemos das coisas e dos
fatos são as próprias coisas e fatos ou representações das mesmas e
como são formadas tais representações. Mas deixemos tal discussão
para outro artigo. Neste texto, partimos já de certo posicionamento
acerca de tal problema. Aqui está sendo considerado que o sujeito
percipiente e cognoscente7 não apreende diretamente (sem o intermédio
de representações) coisas e fatos, mas forma representações de coisas e
fatos, isto é, as representações intermediariam a relação sujeito-objeto.
Deste modo, partimos do pressuposto que os agentes morais não
realizam as suas ações segundo como são as coisas, como são os fatos,
mas segundo o modo que eles os representam8, segundo o modo como
7
Assim como estamos utilizando o termo ‘agente moral’ para nos referirmos a um
indivíduo enquanto realizador ou capaz de realizar alguma ação que tem alguma
relevância para a sociedade ou grupo social no qual vive, de certo modo semelhante
nos valemos aqui de ‘sujeito percepiente e cognoscente’ para nos referirmos a um
indivíduo capaz de ter percepções e também conhecimento acerca de coisas e fatos.
8
Na Ética a Nicômaco, bem como na Ética Eudemia (como em EE VII, 2, 1235b26),
Aristóteles distingue o que é bom do que é aparentemente bom, e propõe que os
indivíduos agem em função daquilo que aparenta a eles ser bom.
40
as coisas e os fatos aparecem para eles, embutindo nessas
representações juízos, valores, crenças etc9.
Se um agente moral acredita que um cachorro que está diante
dele é bravo e avançará sobre ele para mordê-lo, a reação de tal agente
moral pode ser de um tipo. Se, em relação ao mesmo contexto, o
agente moral representar que o cachorro é extremamente dócil e irá até
ele para brincar, ou então representar que se trata de um cachorro
medroso que fugirá dele por receio que este poderá machucá-lo, a
reação de tal agente moral poderá ser bem distinta em relação ao
primeiro caso. Não é o modo como é, de fato, o cachorro (se bravo ou
dócil) e a sua ‘intenção’ momentânea (se pretende ou não atacar) que
fará com que o agente moral aja de um certo modo, mas o modo como
tal agente moral acredita como é o cachorro e quais as ‘intenções’
deste. Em termos gerais: o agente moral não age segundo como são as
coisas, mas como ele as representa.
Observemos que a representação que o agente moral faz do
cachorro (se o mesmo é bravo ou não, se pretende atacá-lo ou não)
depende de dados recebidos pelo que aqui chamaremos de percepção
(apreensão de dados pelos sentidos). Mas os sentidos podem não ser
suficientes para a formação de toda a representação de algo, para a
9
Valemos-nos aqui de ‘representação’ de modo similar a como Aristóteles a
considera sobretudo no De Anima. Em DA III, 10, 433b28, por exemplo, o Estagirita
sustenta que os animais são capazes de se moverem por serem capazes de desejar, e
que os mesmos só são capazes de desejar por formarem certa representação dos
objetos do desejo. As representações são apresentadas no De Anima (como em
433b30) como sendo de dois tipos: 1) perceptiva (própria aos animais em geral,
inclusive o homem) ou 2) raciocinativa (própria apenas ao homem). No caso do
homem, ele pode agir em função das representações formadas a partir dos sentidos (a
partir do que Aristóteles chama de perceptíveis próprios e perceptíveis comuns) e
também das representações formadas a partir do raciocínio. Para a discussão neste
texto, interessa-nos que as ações dos homens são realizadas a partir do modo como ele
representa (seja por meio dos sentidos ou de certo raciocínio) as coisas e os fatos e
não do modo como são as coisas e os fatos.
41
formação de certas representações de coisas e fatos10. O apreensível
pelos sentidos, portanto dos dados recolhidos pela percepção, pode ser
interpretado de diversos modos. Os dados apreendidos pelo agente
moral pelos seus sentidos são relevantes para o modo como ele agirá,
mas não são apenas os dados apreendidos pelos sentidos que
influenciam as ações do agente moral, mas também o modo como este
representa tais dados11.
Sendo assim, os dados apreendidos diretamente dos fatos, dos
acontecimentos, mas também os dados transmitidos pela linguagem ou
conjunto de símbolos significativos que dizem respeito aos fatos e
acontecimentos são de grande relevância para o modo como o agente
moral irá representar tais fatos, tais acontecimentos, e isso poderá
influenciar sobremaneira como ele age e, consequentemente, o seu
comportamento. As novas tecnologias de comunicação, à medida que
permitem aos agentes morais a apreensão de grande quantidade de
informações e estas informações apreendidas ajudam a compor as suas
representações, elas têm grande influência nas escolhas e,
10
Não se trata aqui de discutir o que compõe a realidade e, portanto, que tipo de ‘realidade’ é
de possível apreensão pelo sujeito percipiente e cognoscente. Não se trata de examinar aqui se
as coisas são do modo como o sujeito percipiente as percebe ou se as coisas são representações
como uma espécie de composição aos moldes, por exemplo, da proposta kantiana (apresentada
logo no início da Crítica da Razão Pura, na primeira parte da Doutrina Transcendental dos
Elementos, intitulada Estética Transcendental), segundo a qual o fenômeno seria constituído
daquilo que o sujeito percipiente nele coloca (as formas puras sensíveis, isto é, o espaço e o
tempo) e daquilo que tal sujeito apreende das coisas (a matéria bruta sensível). Aqui partimos
do pressuposto que 1) entre os objetos e o sujeito percipiente e cognoscente que apreende os
objetos há a intermediação de representações dos objetos, e que 2) a formação de tais
representações pode ser feita pelos sentidos (como ao apreendermos um cachorro), mas pode
não se esgotar com o apreendido pelos sentidos, podendo estas representações possuírem
também informações de outra natureza, como quando se representa um cachorro como bravo.
Neste caso, é possível apreender pelos sentidos a baba do cachorro, certas feições do mesmo, o
rabo baixo etc, mas não a sua braveza. Esta é posta na representação formada do cachorro pelo
sujeito percipiente e cognoscente.
11
Estamos partindo do pressuposto que: do fato de a representação do objeto não
corresponder necessariamente ao objeto, disso não se segue que a representação seja
em boa medida independente dele. Estamos considerando que a representação, em
alguma medida, se dá a partir do objeto. Salvo por problemas na formação da
representação, não é de se esperar que alguém represente um cachorro como sendo
algo muito diferente do que ele é. Mas é possível que a representação do cachorro
possa ser de um tipo ou de outro, ou então que a representação da sua baba indique
que ele está bravo ou apenas que ele está idoso e com dificuldade para segurar a saliva
na boca. Não estamos também querendo sustentar que a transmissão pela fala de
dados de um objeto não guarde relação com este para que tal fala tenha grande
capacidade de convencimento de que as informações correspondam ao objeto ou
evento em questão.
42
consequentemente, no modo como tais agentes morais se comportam.
Sendo assim, também dessa perspectiva, a perspectiva do modo como
ocorre a formação das representações dos agentes morais, é preciso
estudar as implicações éticas em uma sociedade da informação.
A PERSUASÃO
O modo como o agente moral irá representar algo ou um
acontecimento poderá depender em muito do modo como ele será
persuadido para formar tal representação. É preciso então examinar
cuidadosamente como se dá a persuasão, quais os mecanismos de
persuasão, para tornar possível examinar com o devido cuidado como as
novas tecnologias podem aumentar a capacidade persuasiva. É preciso
investigar também, em relação à persuasão promovida pelas novas
tecnologias, a possibilidade de imputar responsabilidades aos agentes
morais tanto de uma perspectiva ativa como, de certo modo, de uma
perspectiva passiva, isto é, é preciso examinar (de uma perspectiva ativa)
quais os modos eficientes de persuasão de um agente moral ou de um
grupo de agentes morais para saber se é possível e, se for, em quais
circunstâncias é possível responsabilizar o agente moral por valer-se
sobretudo das novas tecnologias para persuadir outros agentes morais.
Mas é preciso também (de uma perspectiva passiva) examinar se é
possível e, se for, em quais circunstâncias, responsabilizar o agente
moral por agir ao ser persuadido pelos diversos expedientes de persuasão
possibilitados pelas novas tecnologias.
Para apenas chamar a atenção à grande relevância da persuasão na
análise das implicações éticas no uso das novas tecnologias, observemos,
por ora, algumas implicações éticas em relação a apenas três estratégias de
persuasão que ganham muita força com as novas tecnologias:
i) o volume de informações acerca de algo pode ser bastante
relevante em relação à capacidade de persuasão, na medida que,
quanto mais uma informação é divulgada, repetida de um certo modo,
pode ser maior a sua capacidade de ser aceita como verdadeira. Nesse
sentido, de modo geral, quanto maior o número de informações acerca
de um mesmo assunto, maiores as chances de persuasão. Um agente
moral, em um período de campanha eleitoral, recebendo grande
volume de informações que o candidato ‘x’ é preferível a outros
candidatos por tais e tais motivos; que o suposto governo do candidato
‘x’ deverá ser melhor que o governo de outros candidatos; que os outros
43
candidatos apresentam tais e tais problemas e, por conta destes, não
poderiam realizar bons governos; enfim, se muitas informações forem
divulgadas sobre como o candidato ‘x’ deverá ser o melhor candidato
em uma eleição, o grande volume de informações dessa natureza pode
fazer com que os indivíduos que recebem tal volume de informações
sejam persuadidos que, de fato, o voto no candidato ‘x’ pode vir a ser a
melhor opção em tal eleição12.
ii) Há um intensificador em relação à capacidade de persuasão
promovida pelo grande volume de informações divulgadas pelas novas
tecnologias, qual seja, o aumento da capacidade de encaminhar
informações de modo direcionado aos indivíduos. O aumento
exponencial da capacidade de encaminhar informações, aliado à
possibilidade de informação segundo análises dos perfis de indivíduos
ou grupos de indivíduos a quem se dirigem as informações, aumenta a
capacidade de persuasão sobre os grupos de indivíduos que recebem
essas informações. Isso é possível porque cada vez mais há a
possibilidade de aquisição de um maior banco de dados de informações
dos indivíduos acerca dos seus gostos, o que pensam sobre um ou outro
assunto, seus valores etc., e também a capacidade de analisar tais dados e
agrupá-los de diversos modos, por exemplo, segundo os perfis das
pessoas sobre as quais os dados estão disponíveis.
A posse de instrumentos capazes de rápidas análises de um
grande volume de informações permite traçar perfis específicos dos
indivíduos, possibilitando direcionar informações de modo mais
persuasivo de acordo com os perfis de cada indivíduo ou grupo de
indivíduos. Isso pode potencializar em muito a capacidade persuasiva
promovida pelas tecnologias de comunicação, com isso intensificando
muito os problemas éticos acerca de quando e como é possível
responsabilizar moralmente aquele que colabora para a persuasão do
agente moral e aquele que age em função de certa persuasão em parte
motivada por informações recebidas através das novas tecnologias.
12
Constatamos este expediente de persuasão na história recente do país, por exemplo,
na eleição de Fernando Collor de Melo em 1989, quando a grande mídia
‘bombardeou’ os eleitores com informações positivas a Collor e negativas a alguns
candidatos no primeiro turno, e particularmente a Lula no segundo turno. Vimos, na
última eleição presidencial, o mesmo ocorrer (mas de modo mais intenso, com maior
volume de informações divulgadas pela internet e por WhatsApp) na eleição de
Bolsonaro, com eleitores sendo constantemente ‘bombardeados’ com informações
(muitas delas falsas) pró-Bolsonaro.
44
iii) As novas tecnologias informacionais ainda possibilitam
outro grande intensificador da capacidade de persuasão: elas
possibilitam, de modo convincente, desmontar e recriar novos contextos,
com fotos falsas, gravações falsas, dados falsos etc.13. Tudo isso com
cada vez maior aparência de veracidade, propiciando o surgimento de
diversos problemas éticos. Apontemos aqui três deles. É possível
responsabilizar um agente moral: a) quando desmonta o contexto de um
dado ou um fato e o remonta de modo bem diferente do contexto
original? Em quais condições?; b) quando se vale de tais montagens para
persuadir e influenciar as ações de outros agentes morais? Em quais
condições?; c) quando age sendo influenciado por tais contextos
remontados? Em quais condições?
A capacidade de recolhimento de dados de um certo tipo e a
transmissão de tais dados com certo recorte, com alteração de conteúdo,
pode atender interesses específicos, beneficiando os que se utilizam de
tais expedientes, podendo prejudicar outros grupos ou pessoas, ao fazer
com que muitos dos que receberão tais dados sejam por eles
influenciados. Mas, se aparentemente parece razoável responsabilizar
moralmente alguém ou um grupo por se valerem de tais expedientes
altamente persuasivos possibilitados pelas novas tecnologias, mesmo em
casos como esses pode haver dificuldades para se responsabilizar os que
se valem de tais expedientes, como a dificuldade de atribuir a
intencionalidade para tal indivíduo ou grupos específicos de indivíduos
que se valem de tais expedientes. Quando é possível determinar que tal
agente moral ou grupo de pessoas é capaz de prever as consequências
das suas ações para se saber que ele agiu intencionalmente, visando tais
fins, portanto podendo ser responsabilizado pelas suas ações?
Sem saber se o agente moral era capaz de prever as
consequências das suas ações, como lhe atribuir intencionalidade de
algumas consequências às quais talvez não estivesse ao seu alcance
13
As novas tecnologias possibilitam, por exemplo, às vezes com relativa facilidade,
retirar uma pessoa de um cenário, de uma foto, de um vídeo em um local ‘x’ e colocá-
la em um local ‘y’ de modo a parecer muito convincente que tal pessoa esteja, de fato,
no local ‘y’. Elas possibilitam ainda transpor o movimento da boca de uma pessoa ‘p’
ao proferir uma fala qualquer e transferir tal movimento da boca para o rosto da
pessoa ‘q’. Neste caso, se for possível imitar a voz de ‘q’, é possível forjar ‘q’ dizendo
algo que ele não disse, isso com grande capacidade de convencimento de que se trata,
de fato, de ‘q’ promovendo tal fala. Uma fala falsa montada como se o indivíduo ‘q’ a
estivesse proferindo, em uma foto ou vídeo montado, pode alterar totalmente um
acontecimento e seu contexto, podendo conferir enorme capacidade de persuasão
àquele que consegue forjar tais dados.
45
prever? Muitas vezes talvez não seja fácil saber a repercussão que uma
montagem de uma imagem, um contexto, uma informação pode
provocar na internet. O agente moral pode realizar tal montagem
esperando um resultado e ser em muito surpreendido com um
resultado bastante distinto do esperado. Nesse caso, como saber sobre a
intenção e a capacidade do agente moral ter previsto as consequências
da sua ação de montar e divulgar tal montagem?
A BOA INFORMAÇÃO NÃO NECESSARIAMENTE

CONDUZ À BOA AÇÃO
Apenas o exame que permite a constatação se o agente moral
agiu bem (ou não), sem que ele possa vir a alterar o seu modo normal
de agir, pouca ou nenhuma validade deve ter do ponto de vista ético. É
forçoso que seja um pressuposto da Ética que o agente moral possa
alterar o seu modo de agir. É preciso que seja possível a ele alterar o
seu comportamento, se julgar necessário. Se as informações
transmitidas pelas novas tecnologias podem influenciar o agente moral,
então faz-se necessário examinar como bem educá-lo, para que ele
possa vir a agir normalmente bem, estando sujeito a uma grande
quantidade de informações.
Nesse sentido, é preciso educar o agente moral de modo que
ele consiga, em boa medida, perceber quais informações são boas e
quais não são, quais informações contribuem para representações que
poderão conduzi-lo a boas ações e quais informações podem fazer com
que ele venha a agir inapropriadamente, pois essas informações
participarão da composição das representações que normalmente o
orientarão acerca de como ele irá agir; de certo modo, elas podem
operar como ‘bússolas’ acerca de como deve agir o agente moral em
cada contexto. A boa educação do agente moral no concernente ao
modo como ele recebe informações para poder realizar boas ações a
partir de boas representações é, neste sentido, fundamental para o
agente moral poder agir bem. Mas, da capacidade para orientar o
agente moral acerca de como deverá agir, segue-se o seguinte
problema: em que medida é possível educar moralmente fornecendo
boas informações a um agente moral?
Diferente de propostas que sobrevalorizam a capacidade da
razão (que aqui talvez possamos chamar de prática) para educar o
agente moral, bem orientando as suas escolhas de como agir, nossa
46
hipótese é que não se resolve o problema ético de como educar o
agente moral focando apenas em sua capacidade de obter boas
informações que podem levá-lo a agir normalmente bem. Se assim
fosse, para bem educar o agente moral, poderia ser suficiente bem
orientar a sua razão (prática) e fornecer a ele boas informações. Se um
agente moral puder discernir bem quais informações são boas, tendo
acesso a um grande volume de boas informações, ainda assim não há
garantia que ele será bem educado moralmente ao recebê-las.
Em consonância com a proposta ética aristotélica apresentada
sobretudo no livro VII da Ética a Nicômaco, parece razoável apostar
que o agente moral nem sempre possui controle de si, ou governo de
suas ações. Se o agente moral é capaz de perceber o que deve ser feito
para agir bem, isto é, se ele é capaz de formar boas representações
acerca do que deve fazer para agir bem, isto ainda não garante que ele
agirá bem. Isto porque parece bastante razoável pressupor que não há
no agente moral uma razão que, por si só, seja capaz de engendrar
ações. A razão (prática) do agente moral pode ser capaz de bem
orientá-lo acerca do que deve fazer para agir bem, mas ela própria, por
si só, não é capaz de fazer com que o agente moral principie uma
ação14. Se a razão, por si só, fosse capaz de engendrar ações no agente
moral, e se a mesma pudesse ser bem instruída de modo a obter boas
representações acerca de como agir em cada contexto, então os
14
Partimos aqui do pressuposto que a razão (prática) não é capaz de, por si, engendrar
ações, como na proposta kantiana, segundo a qual a razão (pura prática),
exclusivamente por respeito ao imperativo categórico, é capaz de engendrar ações.
Nossa proposta aqui é similar à proposta aristotélica: partimos do pressuposto que a
razão pode orientar o agente moral em suas ações, mas certo impulso (o desejo) é
necessário para o engendramento das mesmas. Como escrevemos em um artigo no
qual estabelecemos algumas distinções entre o modelo ético aristotélico e o modelo
ético kantiano (mencionamos este artigo porque, nele, tratamos de algumas distinções
entre a ética aristotélica e a kantiana implicadas neste debate): “[...] em Aristóteles,
diferentemente de um certo modelo intelectualista, é possível a capacidade
calculativa da razão não estar a serviço da boa ação. Certa operação da razão, por si
só, não garante uma boa ação, um bem. Em Aristóteles, nem mesmo há uma razão
que, por si só, seja capaz de engendrar ações. Nesse sentido, em EN VI 1139a35, é
afirmado que “[...] o pensamento, por si só, nada move”. Em Aristóteles, o
engendramento de uma ação pressupõe certa operação do desejo, o qual consiste, na
análise psicológica da sua ética, em móvel das ações, e o desejo é, em boa medida,
engendrado por uma disposição (hexis). É possível ao agente, por um lado, ter boa
capacidade calculativa para agir e, por outro lado, ter disposição viciosa, a qual
faz com que ele tenha normalmente o desejo de agir viciosamente. Assim, a
capacidade racional calculativa não garante o engendramento de boas ações.”
(Pereira, R. S. “Alguns pontos de aproximação entre a ética aristotélica e a kantiana”,
in Trans-form-ação, v. 34 – 3, Marília-SP, 2011, p. 33).
47
problemas acerca de como educar o agente moral de modo a ele agir
normalmente bem poderia em muito ser resolvido com uma boa
orientação da razão, visto ela ser (no hipotético caso considerado), por
si, capaz de engendrar ações.
Ainda que a razão possa auxiliar o agente moral a bem
representar o que seria a boa ação em cada circunstância na qual ele
agiria, pode ser que a inclinação desse agente moral, em muitas
situações, seja a de seguir os seus impulsos não racionais ou não
totalmente racionais e não propriamente a orientação da sua razão, ainda
que a mesma aparente apontar para o melhor a ser feito em determinado
momento, em determinado contexto. Sendo assim, como afirmado
anteriormente, não parece ser possível resolver o problema ético
apelando apenas à boa formação da razão (prática) do agente moral. Se o
seu impulso o inclina para uma ação distinta daquela para a qual aponta a
sua razão (prática), pode ser que o agente moral se deixe inclinar pelo
seu impulso, agindo contrariamente ao que determina a sua razão.
É o caso, por exemplo, de um médico dependente químico.
Muito embora ele possa ter boas informações e bom conhecimento
acerca dos malefícios dos objetos da dependência química para a sua
saúde, pode ser que ele contrarie certa orientação da sua razão e se
deixe inclinar pelos seus impulsos na busca pelo objeto da sua
dependência química. Nesse sentido, o aumento do volume de
informação e de boa informação não necessariamente resolve
problemas éticos do agente moral, assim como não necessariamente
resolve o do médico dependente químico. Muitas vezes um bom
volume de boas informações pode não ser suficiente para inclinar um
agente moral a não agir segundo os seus impulsos, ainda que possa
convencê-lo temporariamente. É preciso, então, na medida que as
novas tecnologias de comunicação permitem a transmissão de um
volume cada vez maior de informações, de modo cada vez mais rápido,
examinar como educar o agente moral para agir, no mais das vezes,
bem. É forçoso pensar como converter um agente moral em bom
agente moral não apenas do ponto de vista da aquisição de boas
informações, mas de como educá-lo de modo tal a ter inclinação para
agir segundo certa orientação da sua razão, a qual pode operar com um
volume a cada dia maior de informações.
48
CONSIDERAÇÕES FINAIS
Admitindo que as novas tecnologias de comunicação
promovem grandes transformações nas sociedades que delas fazem
cada vez maior uso, ressaltamos a urgência em se entender, a partir de
várias perspectivas, como tais transformações ocorrem, visto que elas
impactam a sociedade em variados modos. Uma das perspectivas a ser
estudada acerca das transformações sociais motivadas pelas novas
tecnologias concerne à Ética. Visto que, na Filosofia, diversos são os
modelos éticos, quer nos parecer que o exame dos impactos das novas
tecnologias nas ações e comportamentos dos agentes morais exige,
antes, certa apresentação do modelo ético utilizado para tal exame.
Nesse sentido, apresentamos, nos três primeiros tópicos desse texto,
alguns elementos que mostram de quais perspectivas estamos nos
propondo analisar as implicações éticas dos grandes impactos das
novas tecnologias nas ações de agentes morais, para então, no quarto
tópico, considerar as condições necessárias para bem educar, de uma
perspectiva ética, esses agentes morais.
Em relação ao objeto de análise do primeiro tópico, é forçoso
que pensemos acerca do uso de dados de pessoas em geral por outras
pessoas e grandes empresas para os mais diversos fins. Nesse sentido, é
preciso pensar em estratégias para evitar o mau uso de tais dados,
como a regulamentação para a sua aquisição, posse e emprego. Mas o
debate sobre tal regulamentação deve ser acompanhado do debate
acerca das condições de responsabilização das pessoas que recolhem,
transmitem e usam tais dados de modo a aclarar em que condições é
possível (ou não) responsabilizar moralmente (e também juridicamente)
pessoas e empresas, inclusive para as devidas sanções àqueles que
comprovadamente fazem uso de tais dados gerando conscientemente
prejuízos a outros.
Mas, se é preciso proteger em boa medida os cidadãos com
regulamentação da aquisição, posse e uso de dados, é preciso protegê-
los também de outros modos. É preciso que se examine com muito
cuidado como se dá a apreensão de informações disponíveis e/ou
encaminhadas às pessoas pela internet e outros meios de comunicação.
Nesse sentido, é mister aprofundar os estudos acerca de como os
agentes morais apreendem informações, coisas e fatos.
A investigação sobre como se apreende coisas e fatos é de
extrema relevância também como preparação para o problema que
apresentamos no terceiro tópico, pois, na análise da compreensão de
49
como é possível persuadir agentes morais é exigido o exame acerca de
como estes representam coisas e fatos. Em relação a como os agentes
morais podem ser persuadidos pelas informações disponíveis
sobretudo na internet, apresentamos três dos muito eficientes modos de
persuasão, possibilitados pela manipulação de sons e imagens, e pela
divulgação (muitas vezes direcionada a cada pessoa segundo o seu
perfil) ‘maciça’ de informações de um certo tipo.
A exigência de examinar detalhadamente esses intensificadores
da capacidade de persuasão se torna ainda maior quando se investiga
outros tantos problemas implicados no exame de tais intensificadores.
Por exemplo: como é cada vez mais evidente, em diversos países, as
sociedades estão cada vez mais polarizadas e cada polo sendo cada vez
mais intolerante e nutrindo mais raiva e outras paixões negativas em
relação ao outro polo, como é bastante evidente aqui no Brasil. Os
diversos órgãos divulgadores de informações afetam diretamente nossas
paixões. Algumas vezes sentimos ódio, por exemplo, em relação a uma
pessoa ou um grupo de pessoas por conta de certos tipos de informações
recebidas pela internet e outros meios de divulgação de informações.
Saber como tal e tal informação pode afetar as paixões de um
indivíduo ou de um grupo de indivíduos possibilita a manipulação das
paixões dos mesmos. Como Aristóteles observa na Retórica, as paixões
e emoções podem alterar nossos julgamentos (Ret. II, 1, 1378a20).
Ora, se é possível manipular dados de modo que agentes morais sejam
afetados em suas paixões, em suas emoções, alterando os seus juízos,
tais agentes morais serão também influenciados em suas deliberações
acerca de como agir e, consequentemente, nas escolhas das suas ações.
Em uma palavra: a manipulação das paixões dos agentes morais pode
influenciar diretamente, e muito, as suas ações.
As investigações acerca de como se pode responsabilizar um
agente moral pelas suas ações, de como os indivíduos apreendem
coisas e fatos, e de como se dá a capacidade de persuasão, podem (e
consideramos que devem) estar à serviço de uma certa proteção dos
indivíduos e bem estar dos mesmos. Nesse sentido, a educação dos
indivíduos assume papel fundamental para fazer com que as novas
tecnologias informacionais, sobretudo aquelas disponíveis na internet,
possam criar formas de promover menos malefícios para as sociedades
em geral. É preciso então educar os agentes morais em relação ao que
diz respeito a que tipos de informação buscar, onde fazer tal busca,
como tentar apreender tais informações de modo crítico etc. Mas, se
consideramos que ter boas informações e poder bem analisá-las
50
criticamente não é suficiente para a boa educação do agente moral,
então será preciso ainda voltar a atenção os desejos e as disposições
fortalecidas por emoções.
Para finalizar, observemos que o que procuramos fazer neste
texto foi apresentar balizadores a partir dos quais pretendemos
examinar as implicações éticas das novas tecnologias de comunicação
nas ações e comportamentos dos agentes morais. Cabe agora analisar,
de modo cuidadoso, cada um dos tópicos apresentados. Mas isso ficará
para os próximos artigos (a serem escritos) que deverão tratar de modo
mais detalhado de cada um dos tópicos deste texto.
REFERÊNCIAS
Aristotle. Nicomachean Ethics. Translated by W. D. Ross. In: The complete
works of Aristotle, Princeton University Press, New Jersey, USA, 1995.
Aristotle. Eudemian Ethics. Translated by J. Solomon. In: The complete
works of Aristotle, Princeton University Press, New Jersey, USA, 1995.
Aristotle. On the Soul. Translated by J. A. Smith. In: The basic works of
Aristotle, Modern Library, New York, USA, 2001.
Aristotle. Rhetorica. Translated by Rhys Roberts. In: The basic works of
Aristotle, Modern Library, New York, USA, 2001.
Kant, Immanuel. Crítica da Razão Pura. Fundação Calouste Gulbenkian, 5
edição, Lisboa-Portugal, 2001.
51
BIG MEME: PODEM OS BIG DATA SER A BASE
EMPÍRICA DA MEMÉTICA?
Gustavo Leal Toledo
O termo “meme” tem um significado original desconhecido

por muitos. Desde os primeiros anos da invenção do Facebook, ele
passou a significar frases ou imagens, normalmente com função
cômica/crítica, que se propagam nas redes sociais a partir de
compartilhamento. Mas este termo surgiu dentro de um contexto
científico, em 1976, em um premiado livro de divulgação científica de
Richard Dawkins intitulado “O Gene Egoísta”.
O presente capítulo pretende inicialmente apresentar a origem
deste conceito mostrando o que seria uma ciência dos memes para, em
seguida, abordar algumas das críticas feitas à mesma. Por fim, uma
destas críticas será analisada com mais cuidado, a saber, o problema de
como tal ciência poderia ter base empírica para se desenvolver
enquanto tal. Será levantada então a possibilidade de que as tecnologias
de Big Data, Internet das Coisas e Data Mining podem ser usadas para
dar esta base empírica para a Memética e serão tratadas algumas
implicações que derivam de tal possibilidade.
I
Para entender o que são os memes, é preciso antes
entender o processo de seleção natural dawinista. Nas palavras do
próprio Darwin:
Como nascem muito mais indivíduos de cada espécie e que não
conseguem subsistir; como, por consequência, a luta pela sobrevivência
se renova a cada instante, segue-se que todo o ser que varia, ainda que
pouco, de maneira a tornar-se-lhe aproveitável tal variação, tem maior
probabilidade de sobreviver, este ser torna-se também objeto de seleção
natural. Em virtude do princípio poderoso da hereditariedade, toda
variedade, agente da seleção, tenderá a propagar sua nova forma
modificada (DARWIN, 2004, p. 19-20).
53
Ou seja, se temos uma população de indivíduos que são
variados entre si, que produzem descendentes férteis semelhantes a si e
competem em um determinado ambiente, alguns destes indivíduos
serão mais adaptados para sobreviver a esta competição e produzir
descendentes. Se o que os torna mais adaptado puder ser herdado, seus
descendentes também serão mais aptos e se tornarão, por isso, mais
comuns do que os descendentes dos demais indivíduos (STERELNY &
GRIFFITHS, 1999, p. 41). Tais descendentes mais aptos terão sua
própria prole, que também terá variabilidade interna, sendo possível
que novas características que aumentem a aptidão surjam e assim por
diante. Este processo de acumulação de mutações é o que chamamos
de “evolução”. Já o fato de que indivíduos mais aptos tendem a deixar
mais descendentes do que a média dos indivíduos menos aptos
chamamos de “seleção natural”. Nas palavras de Robert Trivers
“seleção natural se refere ao diferente sucesso reprodutivo na natureza,
onde sucesso reprodutivo é o número de descendentes produzidos que
sobrevivem” (TRIVERS, 1985, p. 15, minha tradução).
Nota-se que tal explicação do processo de evolução por seleção
natural pode ser explicada sem mencionar nada que seja restrito ao mundo
dos seres vivos. É necessário apenas um indivíduo que faça cópias de si e
que entre em competição com outros indivíduos semelhantes. Aquele
melhor adpatado a deixar descendentes nesta competição vai se tornar,
com o tempo, mais comum. Visto assim, podemos dizer que “a seleção
natural não é só a melhor teoria da evolução da vida na terra, mas quase
com certeza é a melhor teoria da evolução da vida em qualquer lugar do
universo” (PINKER, 2006, p. 132. Minha tradução).
No entanto, como nos diz o filósofo Daniel Dennett, “as ideias
de Darwin sobre os poderes da seleção natural também podem ser
retiradas de sua base biológica” (DENNETT, 1998, p. 60). Tal ideia
foi chamada de “Darwinismo Universal” ou “Ultradarwinismo” e
basicamente supõe que o processo de evolução por seleção natural é
um processo neutro em relação ao substrato, um processo algorítmico.
Ou seja, “sempre que surgirem condições nas quais um novo tipo de
replicador possa fazer cópias de si mesmo, os próprios replicadores
tenderão a dominar” (DAWKINS, 2001, p. 215).
Foi tendo esta ideia em vista que o termo “meme” foi
originalmente criado por Richard Dawkins em seu clássico e premiado
livro “O Gene Egoísta”, de 1976. Um meme é um análogo cultural do gene.
Um pedaço de informação passado de pessoa para pessoa para transmissão
cultural. Em sua primeira aparição, o termo foi assim definido:
54
Precisamos de um nome para o novo replicador, um substantivo que
transmita a ideia de uma unidade de transmissão cultural, ou uma
unidade de imitação. ‘Mimeme’ provém de uma raiz grega adequada,
mas quero um monossílabo que soe um pouco como ‘gene’. Espero
que meus amigos helenistas me perdoem se eu abreviar mimeme
para meme. Se servir como consolo, pode-se, alternativamente,
pensar que a palavra está relacionada com ‘memória’, ou à palavra
francesa même (DAWKINS, 2001, p. 214).
A ideia por detrás do termo “meme” é, então, que a cultura

também pode ser tratada como um replicador por conta própria que
passa através de um processo de seleção tendo como resultado sua
evolução (no sentido darwinista de “mudança” e não no sentido
valorativo de “melhora”). Se sabemos que a cultura é passada de pessoa
para pessoa, de modo que podemos dizer que um indivíduo herda a
cultura de vários outros indivíduos através de transmissão cultural
(não-biológica) e se podemos dizer que determinados traços culturais
estarão mais adaptados a uns indivíduos do que a outros, então temos
os ingredientes necessários para um processo de evolução por seleção
natural de memes.
Um exemplo simples pode ser aprender a dançar. Aprendemos
a dançar copiando a dança de outros, mas nem todos os indivíduos têm
igual aptidão para a dança. A aptidão varia não só por questões físicas,
como ter um bom ritmo e uma boa coordenação corporal, mas também
por questões comportamentais, como gostar de músicas dançantes e
estar em ambientes propícios à dança. Se o ambiente daquele
comportamento, daquele meme, lhe for propício, este se fixará lá, ou
seja, a pessoa vai aprender a dançar. Uma vez aprendido, ela pode
ensinar outras pessoas, seja ativamente seja só estimulando outras
pessoas a dançar. Mas elas podem também fazer modificações nos
passos de dança, criando uma nova mutação daquela dança que pode
ou não estar adaptada ao ambiente de outros.
Podemos assim tratar um determinado comportamento como
um “gene-mental” ou um “vírus da mente” que passa de indivíduo para
indivíduo por transmissão social, ou seja, por processos de
aprendizagem. De certo modo, tal ideia já faz parte do nosso cotidiano.
Falamos, por exemplo, que a música é “contagiante” e somos levados a
comprar coisas por conta de “propagandas” (BERGER, 2014). O
próprio termo “cultura” tem uma raiz biológica mais fundamental.
Os memes, então, permitem ver o processo de evolução
cultural a partir do próprio ponto de vista da cultura. Ao invés de uma
55
explicação puramente biológica da cultura que vemos, por exemplo, na
sociobiologia e na psicologia evolutiva, e ao invés também de uma
visão individualista da cultura, onde são os indivíduos que controlam o
processo de transmissão cultural, a visão dos memes nos permite
entender a cultura como sendo algo que, de certo modo, age em
benefício próprio e nós somos o ambiente no qual ela se reproduz. Nas
palavras de Dennett:
O estoque de mentes é limitado, e cada mente tem uma capacidade
limitada de memes, portanto, há uma forte competição entre os memes
para entrar no maior número de mentes possíveis. Esta competição é a
principal força seletiva na memosfera (DENNETT, 1991, p. 206).
Já nas palavras de Dawkins:

O cérebro humano e o corpo por ele controlado não podem fazer
mais do que uma ou algumas coisas de cada vez. Se um meme quiser
dominar a atenção de um cérebro humano, ele deve fazê-lo às custas
de memes ‘rivais’. Outros artigos pelos quais os memes competem
são o tempo de rádio e televisão, espaço para anúncios, espaço de
jornal e espaço de estantes de biblioteca (DAWKINS, 2001, p. 219).
Se analisarmos a cultura deste modo, podemos começar a

vislumbrar uma nova ciência que usaria os modelos da epidemiologia e
da genética de populações para modelar a transmissão cultural. Uma
música de carnaval ou uma gíria, por exemplo, passam por um
processo semelhante ao processo de uma epidemia viral, com uma
curva de contágio que sobe em um ritmo que depende da sua
capacidade de contágio, depois se estabiliza e passa a descer. Se isso
for verdade, então os modelos que utilizamos para prever uma
epidemia viral podem ser calibrados com as variáveis culturais
relevantes para analisar uma epidemia comportamental1.
Esta seria a “Memética”. Mas Dennett e Dawkins nunca
desenvolveram esta ciência e, nas palavras de Dawkins: “Foi Susan
Blackmore, em The Meme Machine [1999], que levou a teoria
memética mais longe” (DAWKINS, 2007, p. 259). Na definição de
Blackmore: “memes são instruções para realizar comportamentos,
1
No momento em que redijo este texto, estamos em plena ascensão da epidemia de
COVID-19 no Brasil, onde curvas epidemiológicas aparecem todo o dia nos jornais e
o termo “achatar a curva” se tornou popular. Mas também vivemos uma epidemia de
fake news em relação à qual, infelizmente, ninguém modela soluções que nos
permitiriam “achatar a curva”.
56
armazenadas no cérebro (ou em outros objetos) e passadas adiante por
imitação” (Blackmore, 1999, p. 17).
II
A ideia de que podemos usar o modelo de evolução por
seleção natural da cultura, embora pareça uma novidade
revolucionária, tem pouco de novidade. Na verdade, ela é tão antiga
quanto o próprio Darwinismo. Darwin publica seu renomado livro em
1859, mas já em 1863 um panfleto intitulado O darwinismo testado
pela ciência da linguagem, ironiza a suposta inovação do darwinismo
(WEEDWOOD, 2002, p. 93). Para os linguistas da época, o modelo
darwinista já tinha sido mais do que testado e provado através do
estudo da evolução histórica da linguagem. Ou seja, de certo modo, os
modelos meméticos na verdade foram anteriores ao modelo biológico!
Mais atualmente podemos encontrar modelos de transmissão
cultural baseados no processo de seleção natural, por exemplo, nos
textos do antropo-geneticista Luigi Luca Cavalli-Sforza (2003) e nos
inúmeros artigos do linguista Russell D. Gray, que aplica modelos
biológicos na evolução da linguagem (CYSOUW, 2013; QUENTIN &
GRAY, 2005; GRAY & QUENTIN & SIMON, 2011). Karl Popper
(1975) também defendia uma epistemologia evolucionária, assim
como o fez Thomas Kuhn mais para o final da sua vida. O próprio
Darwin, na verdade, já tinha notado a relação entre a evolução
biológica e a evolução da linguagem:
Da mesma forma que os seres orgânicos, as linguagens podem ser
classificadas em grupos e subgrupos; e podem ser classificadas tanto
naturalmente, segundo a descendência, como artificialmente,
segundo outros caracteres. As linguagens dominantes e os dialetos se
estendem largamente e levam as outras línguas à gradual extensão.
Da mesma maneira que uma espécie, uma linguagem, uma vez
extinta, conforme observa Sir C. Lyell, não reaparece mais. Uma
mesma linguagem não tem dois lugares de nascimento. Duas
linguagens diversas podem cruzar-se ou mesclar-se. Vemos
variabilidade em toda língua e novas palavras sobrevêm
continuamente; mas, dado que o poder da memória tem um limite, as
palavras tomadas individualmente como as línguas inteiras vêm
gradualmente se extinguindo. Conforme Max Muller muito bem
observou: “A luta pela vida vai constantemente contra as palavras e
as formas gramaticais em toda a língua. As formas melhores, mais
breves e mais fáceis estão constantemente ganhando terreno e devem
57
seu êxito à sua virtude intrínseca”. A estas causas mais importantes
da sobrevivência de certas palavras podem ser acrescentadas simples
novidades e modas; com efeito, na mentalidade do homem existe um
forte amor pelas pequenas mudanças em todas as coisas. A
sobrevivência ou a conservação de certas palavras favorecidas na luta
pela existência é a seleção natural (DARWIN, 2002, p. 112 -13).
No entanto, analisar a cultura como uma unidade de

informação passada de indivíduo para indivíduo através de um
processo análogo à evolução por seleção natural levanta uma
infinidade de problemas como:
Será que a cultura realmente pode ser dividida em unidades de
informação? De que são feitos os memes? Como eles são passados?
Como saber se eles foram realmente passados ou não? O que
determina que um meme vai infectar a mente de uma pessoa e de
outra não? Quem manda no meu comportamento sou eu ou meus
memes? Eu posso escolher quais memes vão me infectar? Utilizar
modelos biológicos para tratar a cultura não seria reducionista e
mecanicista? Isso não nos levaria para uma temida forma de
Darwinismo Social ou Eugenia? Não seria isso determinismo
genético? Qual deve ser o procedimento metodológico da Memética?
Qual é sua base epistemológica? Qual a sua diferença para outras
formas de biologização da cultura? Qual seria o papel das ciências
existentes que já estudam a cultura? (LEAL-TOLEDO, 2017, p. 13).
Todos estes problemas já foram tratados por este autor em

outros lugares (LEAL-TOLEDO, 2009a, 2009b, 2010a, 2010b 2013a,
2013b, 2013c, 2014a, 2014b, 2014c, 2016, 2017). No presente
capítulo pretendemos indicar uma nova sugestão de resposta para a
questão da base empírica da Memética.
Desde o seu surgimento, a Memética se mostrou apenas como
uma promessa de ciência, mas nunca foi efetivamente colocada em
prática. Seu auge, por assim dizer, foi no ano 2000 com uma revista
específica para a área, mas que deixou de existir após algumas poucas
edições. Após 2004, com o surgimento do Facebook, o termo “meme”
mudou gradativamente de sentido2 e, por isso, ainda utilizá-lo hoje dia
com o significado antigo causa confusão. De certo modo a Memética
foi, então, uma ciência abortada. No entanto, como muito bem
ressaltou Oswaldo Chateaubriand em uma conversa pessoal durante a
orientação da minha Tese de Doutorado (PUC-Rio) “a memética ou é
2
O que é um exemplo ótimo de mutação memética, inclusive.
58
uma ciência ou não é nada!”. Se ela não tiver uma fundamentação
empírica, uma estrutura matemática, capacidade experimental e
preditiva, ela simplesmente não interessa. A memética não surgiu para
ser só mais uma teoria interpretativa da cultura.
Podemos dizer, seguindo Thomas Kuhn, que a Memética se
encontra ainda em seu período pré-paradigmático. Período onde seus
fundamentos ainda estão em debate, suas regras e procedimentos não
estão claros e nem mesmo o recorte que fará no mundo tem algum
acordo coletivo. Só uma vez que isso tudo se delimite que surge o
acordo comunitário capaz de gerar uma Ciência Normal.
No entanto, isso não significa que ela seja completamente
desprovida de valor heurístico. Em termos filosóficos, a Memética nos dá
um vislumbre de como seria possível tratar a cultura como um processo
puramente natural e mecânico, partindo do ponto de vista da própria
cultura e sem a necessidade de postular nenhuma ontologia própria ou
separada para a mesma, nem mesmo a necessidade de postular a
existência de indivíduos que dirijam o processo de evolução cultural3.
Mas esta não é a única função heurística que a Memética pode
desenvolver. Quando estamos falando de ciências históricas, que podem
incluir cosmologia, biologia evolutiva, linguística e a própria história,
não existe repetição experimental que permita a metodologia padrão de
confirmação das hipóteses. Tais áreas, então, quando querem ter um
status científico mais forte, privilegiam abordagens multidisciplinares
onde o mesmo fenômeno é abordado de diferentes ângulos
independentes entre si que, neste caso, “tem valor básico similar ao de
uma repetição independente” (CAVALLI-SFORZA, 2003, p. 8). A ideia
central nisso, desenvolvida inicialmente por Whewell (que foi quem
criou o termo “cientista”) é que quando fontes independentes convergem
para uma mesma explicação, uma fonte checa a outra e temos assim algo
próximo de uma repetição experimental (WHEWELL, 1967).
Tendo isso em vista, a Memética permite fazer algo que é
deveras interessante, pois pode servir de “cola conceitual” entre
diferentes teorias que estudam a cultura tendo, na cultura, o mesmo
3
Foi especificamente tal visão, que eu considero absolutamente bela e estonteante,
que me atraiu e que ainda me atrai na Memética. Do mesmo modo que a física de
Newton mostrou que Deus não é necessário para organizar o mundo inanimado e
Darwin mostrou que Ele também não é necessário para explicar a organização do
mundo vivo, a Memética nos permite ver que o ser humano, como um sujeito livre
que determina as suas escolhas, não é necessário para entender o surgimento e
desenvolvimento da cultura. Eu acho isso simplesmente maravilhoso!
59
papel que o darwinismo teve na biologia. Segundo Dawkins “sem a
evolução a biologia se resume a uma miscelânea de fatos
heterogêneos” (DAWKINS, 2005, p. 109), o que é só um outro modo
de falar a famosa frase de Dobzhansky de que “nada faz sentido na
biologia a não ser à luz da evolução”.
Poderíamos dizer, então, que o principal benefício heurístico
da Memética em relação às outras áreas que estudam a cultura não é
substituí-las, mas sim mostrar que estas áreas que se encontram hoje
separadas como distintas podem todas falar uma mesma língua.
História, Economia, Pedagogia, Marketing, Antropologia, Publicidade,
Design, Linguística, Sociologia são apenas alguns dos exemplos de
áreas distintas que, dentro da Memética, estão estudando, em parte, o
mesmo fenômeno. O que um publicitário faz para vender um produto
não é de uma área separada do que um pedagogo faz para ensinar uma
disciplina que, por sua vez, não é possível separar das forças que
movem a história e a economia, por exemplo. As especificidades das
áreas são mantidas, assim como são mantidas dentro da biologia, mas
sem um paradigma unificante o estudo da cultura permanecerá uma
“miscelânea de fatos heterogêneos”.
III
No entanto, como disse anteriormente, a Memética, assim como a
biologia evolutiva, não é apenas um interessante novo ponto de vista sobre
o mundo, mas sim uma ciência ela mesma. Mas estando ainda no período
de ciência pré-paradigmática, ela não pode ser vista como ciência. Tal
período já dura, no mínimo, 20 anos, pois a tentativa de desenvolver uma
ciência dos memes só se deu de fato por volta dos anos 2000. Em tempos
históricos, 20 anos ainda é pouco tempo. Mas a avaliação da Memética
enquanto ciência não deveria se dar enquanto ela não for efetivamente
testada como tal. Nas palavras de David Hull: “A memética deveria ser
avaliada apenas quando um número razoável de pessoas começasse a
desenvolvê-la” (HULL, 2000, p. 51. Minha tradução).
Tal pesquisa nunca surgiu de fato e é possível que nunca surja.
A Memética não parece estar esperando o seu Michelson e Morley,
que refutaram a doutrina do éter, e nem o seu Watson e Crick, que
descobriram a estrutura física dos genes. Ao que tudo indica, ela ainda
espera pelo seu Darwin, ou seja, alguém capaz de coletar uma
quantidade de dados suficiente para apresentar a Memética como um
todo coeso e direcionar o modo como esta área deve trabalhar.
60
Só que neste processo há uma dificuldade adicional com a qual
Darwin nunca teve que se preocupar. A biologia na época de Darwin
era, como já dissemos, um conjunto sem coesão interna. Darwin
viajou o mundo, coletou evidências e propôs sua teoria. Mas ele não
fez só isso, seus estudos de seleção artificial, em especial seus estudos
sobre reprodução de diferentes variedades de pombos, foram de suma
importância para o desenvolvimento de sua teoria.
Neste ponto, a Memética bate contra um muro de concreto.
Como já dissemos, há nas diferentes áreas que estudam a cultura uma
miscelânea de fatos que podem ser ressignificados dentro do paradigma
memético. Mas muito pouco pode ser feito em termos de ter o rigor
experimental que seria necessário para podermos vislumbrar o que seria
uma “ciência humana dura” a partir da Memética. Experimentos com
humanos são muito caros, muito complexos para uma situação
laboratorial e, principalmente, éticamente perigosos. Mesmo que se
pegue o consentimento dos participantes de um determinado
experimento comportamental, como é comum na psicologia, sociologia,
marketing e outros, ainda assim existem limites éticos que não podem ser
ultrapassados. Não podemos, por exemplo, estudar diferentes formas de
luto fazendo nossas “cobaias” realmente acreditarem que um familiar
próximo deles morreu e analisar como se comportam.
Um modo de contornar isso, como já foi dito, é analisar o
fenômeno estudado a partir de ângulos diferentes. Outro modo é
estudar o comportamento de animais. Qualquer animal que tenha
transmissão e evolução cultural tem transmissão memética. Mas aqui
também temos alguns problemas. Em primeiro lugar, temos os
problemas éticos sobre experimentos com animais não humanos.
Alguns podem defender que os problemas éticos aqui são até mais
graves, pois os animais sequer dão seu consentimento como o fazem os
seres humanos. Mas, além disso, a complexidade e especificidade da
cultura humana nos estimula a querer estudar ela própria. Do mesmo
modo que um medicamento que é testado em animais não é aplicado
em humanos sem antes passar por testes em humanos, não podemos
tirar grandes conclusões sobre a cultura humana se estudarmos apenas
a cultura animal.
Uma possível solução, que é o que este capítulo pretende
indicar, é que a Memética pode, já nos dias atuais, se aproveitar das
técnicas de Big Data, Data Mining e, mais futuramente, Internet das
Coisas (IoT), para ter uma abundância de dados nunca antes vista para
rodar seus modelos e testar suas previsões. A quantidade de dados
61
sobre o comportamento humano obtidos através desta técnica não tem
comparação com nada do que já tenha sido feito nas história de todas
as ciências anteriores. Analogamente é como se fosse possível colocar
na nuvem o sequenciamento genético de todos os seres vivos. Seria
uma quantidade de informações sem precedentes e que propiciaria a
realização de análises de grandes dados para testar as mais variadas
hipóteses. É a isso que estamos nos aproximando no mundo da cultura.
Segundo Teixeira:
Com a IoT as empresas terão acesso às listas de compras das pessoas, a
seus carros e a suas camas. Essas empresas poderão saber o que você
come, bebe, por onde anda, quantos passos você dá durante o dia, quem
você encontra, a taxa de seus batimentos cardíacos, seus ciclos
hormonais, a taxa de álcool no seu sangue, a que horas você ligou a
máquina de lavar roupa, quanto tempo você passou no chuveiro, quantas
vezes por semana você usa o aspirador de pó, com qual frequência você
esquece as luzes acesas ao sair de casa, quantas horas você dorme e
quantas vezes se revira na cama. As empresas que controlarem a IoT
saberão todos os seus hábitos e preferências para oferecer mercadorias e
serviços nos momentos mais oportunos. Tudo e todos poderão ser
administrados e otimizados (TEIXEIRA, 2018, p. 110).
A quantidade de dados armazenados de uma pessoa pode vir a

ser tão gigantesca que não é exagerado dizer que se for possível ter
bons modelos de análise destes dados, um modelo saberá mais sobre
você do que você mesmo. Muito mais! Antes mesmo de você chegar
em casa, ele já vai saber dados sobre como foi o seu dia de trabalho e
como são seus padrões, se você vai querer entrar em casa com a luz
acessa ou apagada, com música ou sem, para ir para um banho ou para
cama, comer algo gorduroso ou fit, atender o telefone ou não etc. Vai
saber que filme colocar, qual a luz ambiente perfeita e a qual
temperatura. E isso vai depender do que ele sabe que você quer fazer
em casa. Se quiser dormir, pode abrir a porta e já ver um ambiente de
penumbra, uma música relaxante e um leite quente. Se tiver que
trabalhar mais, pode encontrar a luz bem acesa, um café pronto e uma
pizza já solicitada ao delivery. Se quiser ir para academia, pode chegar
em casa para receber um suco desintoxicante e uma barrinha de cereal.
Tudo isso sem que você diga o que você quer fazer naquele dia, pois o
modelo já sabe. Sabe bem melhor do que você.
62
Por conta desta quantidade absurda de dados que podem ser
coletados sobre cada uma de suas ações, concordamos com Teixeira
(2018) quando ele esclarece:4
Penso que com o BIG DATA as ciências humanas poderiam
recuperar um lugar de destaque, perdido nas últimas décadas. Elas
poderão contar com dados experimentais mais precisos em vez de se
basearem apenas em especulações ou intuições sobre a natureza
humana e depositar na história a esperança de que os dramas e
conflitos humanos se resolvam. O BIG DATA poderia alavancar
novas engenharias sociais, novos programas de combate à fome, à
miséria e estancar as guerras (TEIXEIRA, 2018, p. 136).
Podemos acrescentar a esta citação apenas que com isso os

modelos meméticos poderão finalmente não somente ter dados com os
quais rodar, mas também dados para avaliar se as previsões e análises
de tais modelos são ou não cientificamente relevantes.
IV
No entanto, é claro que há aqui também um conjunto
importante de questões éticas envolvidas. A primeira é o já conhecido
“direito ao esquecimento”, que é o direito a ter seus dados retirados da
rede. Mas isso se torna cada vez mais improvável em um mundo onde
estar na rede é necessário para existir. Há ainda a questão correlata de
que nossos dados são vendidos normalmente sem o nosso pleno
conhecimento e sem sabermos para o que eles serão utilizados.
Mas talvez o mais perigoso seja exatamente o uso de nossos
dados para controlar nosso próprio comportamento em favor do grupo
ou indivíduo capaz de pagar por isso. Vimos algo semelhante
acontecendo no escândalo da Cambridge Analytica, no Brexit, na
eleição de Donald Trump nos Estados Unidos em 2016 e, mais
próximo de nós, nas eleições gerais de 2018 no Brasil. Podemos, é
claro, criticar a moralidade de tais atos e criar leis para impedi-los.
Mas em uma sociedade global, sempre haverá países com leis mais
flexíveis e pessoas dispostas a fazer o que quer que seja. O avanço da
ciência e da tecnologia não é controlável em escala global e em longo
prazo. Tecnologias como esta, mesmo quando ilegais, podem continuar
4
Inclusive fico feliz por ter sido escolhido pelo prof. João de Fernandes Teixeira para
ter sido um dos primeiros e ler este seu livro, bem como um dos primeiros a ter lido
muitos outros. Algo que muito me honra.
63
a ser criadas pelos próprios governos que as proibiram dentro de seus
programas de segurança nacional.
Uma possível solução para isso, baseada inclusive no dilema
natural que acontece entre parasitas e hospedeiros, é incentivar o
desenvolvimento livre de novas tecnologias ao invés de tentar impedi-
lo. Dado que não é possível impedir que este tipo de tecnologia surja,
talvez a melhor coisa a se fazer seja ao menos tentar impedir que um
pequeno grupo de pessoas, governos e empresas sejam os únicos
capazes de usá-las. Infelizmente não se pode garantir que naturalmente
tenhamos proteção cognitiva contra estes métodos de manipulação
comportamental. Um meme falso ou imoral pode ser mais adaptado ao
nosso sistema cognitivo do que memes verdadeiros e conformes à
correção moral. Então tal firewall contra manipulação memética
precisa ser desenvolvido e provavelmente não vai ser criado pelos
mesmos grupos que criam as próprias técnicas de manipulação.
A capacidade de um meme infectar uma mente não tem
relação direta nem com a sua moralidade nem com a sua veracidade.
Seria ideal que memes morais e verdadeiros fossem mais adaptados às
nossas mentes do que memes imorais e falsos. Mas um simples olhar
ao ambiente virtual, repleto de nazismo, fascismo, fake news e pseudo-
ciências mostra que não é o caso. Na verdade, nos dá a impressão de
que o oposto é que é o mais provável. Para que um meme moral e/ou
verdadeiro seja mais provável de se fixar em nossa mente do que um
imoral e/ou falso, seria necessário que nossa mente fosse um ambiente
de um tipo específico onde tais memes teriam maior chance de se fixar
do que outros. Mas não há indícios claros disso.
Um exemplo clássico e bem estudado de como um meme falso
pode ser particularmente infeccioso é o do ensino do criacionismo nas
escolas estadunidenses. Inicialmente ele era ensinado nelas sem
questionamento, mas em 1926 John T. Scopes tentou ensinar a
evolução darwinista e foi processado por isso. Ele perdeu o processo,
mas teve que pagar uma multa tão irrisória que isso foi visto como um
ganho. Só em 1968 a Suprema Corte Norte-Americana considerou
inconstitucional as leis estaduais que barravam o ensino da evolução
por seleção natural. Mas o criacionismo se adaptou ao novo ambiente e
passou a se chamar de “criacionismo científico”. Ele era defendido
como teoria científica rival ao evolucionismo e, por isso, deveria ter
espaço igual nas aulas de biologia. Mas em 1987 a Suprema Corte dos
EUA também barrou esta estratégia.
64
Então, em 1989, surge o livro Of Pandas and People com o
termo “Design Inteligente”. Não se fala mais em Deus nem em criação,
mas sim em evidências naturais de que existe um “projetista” da
natureza por conta de “complexidades irredutíveis” que não poderiam
ter surgido no processo de evolução por seleção natural. Em um
julgamento de 2005 foi, então, provado que o Design Inteligente era só
outro nome para exatamente a mesma teoria criacionista anterior. O
meme criacionista, então, sofreu uma nova adaptação e passou a
defender a “liberdade acadêmica” e a “capacidade crítica”, acusando os
cientistas de serem dogmáticos por ignorarem as “evidências”
contrárias à evolução. O criacionismo foi, deste modo, lentamente se
adaptando até se transformar em exemplo de “defesa da liberdade
acadêmica”, uma verdadeira camuflagem memética. Na natureza,
normalmente espécies inócuas se camuflam de venenosas, mas aqui se
deu bem o oposto. É uma víbora peçonhenta que se camufla de folhas
para dar o seu bote sem que ninguém a veja chegar. Um verdadeiro
meme lobo em pele de meme cordeiro, ou seria melhor dizer o
cordeiro de deus em pele de cientista?
Tal bote venenoso já chegou no Brasil, onde o estudo do
Design Inteligente anda a passos largos em universidades particulares,
sendo o país a residência de um dos expoentes internacionais na área5.
Não existe vacina, não existe antiviral. O que existe é, segundo a
Memética, competição entre memes. Se um meme falso ou imoral se
adapta bem à mente de uma pessoa, não adianta criticá-la, atacá-la,
debochar dela. Apenas em poucos casos tal estratégia pode dar certo. O
melhor é entender o que torna aquela pessoa particularmente adaptável
a este meme e pensar em memes menos nocivos que possam competir
com os mais nocivos. A alternativa mais eficaz não passa pelo
impedimento da Memética, mas pelo seu desenvolvimento. Também
nisso a tecnologia de Big Data pode nos auxiliar.
REFERÊNCIAS
BERGER, J. Contágio: por que as coisas pegam. Rio de Janeiro: Leya, 2014.
BLACKMORE, S. The meme machine. Oxford: Oxford University Press, 1999.
5
Preferimos não mencionar o nome do “pesquisador” e da “Universidade”, pois isso
apenas auxiliaria a replicação memética deles. No entanto, é relevante mencionar que
enquanto este capítulo é redigido, uma das pessoas deste mesmo grupo preside o
órgão de fomento à pós-graduação mais relevante nacionalmente. Órgão este ao qual,
inclusive, agradecemos o fomento que permitiu a publicação deste texto...
65
CAVALLI-SFORZA, L. L. Genes, povos e línguas. São Paulo: Companhia
das Letras, 2003.
CYSOUW, M.D.D. Cultural Evolution of Language. Strüngmann Forum
Reports, (12): 303-332. 2013.
DARWIN, C. A Origem das Espécies. Rio de Janeiro: Ediouro, 2004.
DARWIN, C. A Origem do Homem e a Seleção Sexual. Curitiba: Hemus, 2002.
DAWKINS, R. O gene egoísta. Belo Horizonte: Ed. Itatiaia, 2001.
DAWKINS, R. O Capelão do Diabo. São Paulo: Companhia das Letras, 2005.
DAWKINS, R. Deus, um delírio. São Paulo: Companhia das Letras, 2007.
DENNETT, D. C. Consciousness explained. Boston: Little, Brown and
Company, 1991.
DENNETT, D. C. A Perigosa Idéia de Darwin. Rio de Janeiro: Rocco, 1998.
GRAY, D. R. & QUENTIN D. A. & SIMON J. G. Language evolution and
human history: what a difference a date makes. Phil. Trans. R. Soc. B. (366):
1090–1100, 2011.
HULL, D. Taking memetics seriously: memetics will be what we make it. In:
Aunger, R. Darwinizing Culture. The Status of Memetics as a Science.
Oxford: Oxford University Press, 2000.
LEAL-TOLEDO, G. Controvérsias meméticas: o ultradarwinismo de
Dawkins, Dennet e Blackmore. 467p. Tese (Doutorado em Filosofia) -
Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro. 2009a.
LEAL-TOLEDO, G. Dawkins, Dennett e as tentativas de universalização do
darwinismo. Revista Brasileira de História da Ciência. 1(1):253-258. 2009b.
LEAL-TOLEDO, G. Filosofia da Biologia: problemas de encaixe - o que
mantém as espécies distintas. In: Machado, N.; Segata, J. Filosofias(s). Rio
do Sul: UNIDAVI. pp. 45-61. 2010a. .
LEAL-TOLEDO, G. Neurônios-Espelho e o Representacionalismo. Revista
Aurora, 30(22): 153-177. 2010b.
LEAL-TOLEDO, G. O papel do sujeito na ciência dos memes. Revista
Fundamento. 6(1): 89-104. 2013a.
LEAL-TOLEDO, G. Em busca de uma fundamentação para a Memética.
Trans/Form/Ação, 1(36):187-210. 2013b.
LEAL-TOLEDO, G. Uma Crítica à Memética de Susan Blackmore. Revista
Aurora. 36(25): 155-178. 2013c
LEAL-TOLEDO, G. Naturalizando o Comportamento e a Cultura. Revista
Ciência & Ambiente, 48: 231-243. 2014a.
LEAL-TOLEDO, G. O Nascimento do Homem e do Meme. Revista
Kalagatos, 21(11): 269-288. 2014b.
LEAL-TOLEDO, G. “Antropologia e Memética: um diálogo possível”. In:
Machado, N. et al. Do Homo Sapiens ao Robô Sapiens. Rio do Sul:
UNIDAVI, pp. 137-173. 2014c.
66
LEAL-TOLEDO, G. Até onde vai o Meme: o problema da unidade e o
problema da ontologia. Principia, 20(2): 239–254. 2016.
LEAL-TOLEDO, G. Os Memes e a Memética: o uso de modelos biológicos
na cultura. São Paulo: FiloCzar, 2017.
PINKER, S. Deep Commonalities between Life and Mind. In: Grafen, A. &
Ridley, M. (Org.). Richard Dawkins. How a scientist changed the way we
think. Oxford: Oxford University Press, 2006. p. 130-145.
POPPER, K. R. Conhecimento objetivo: uma abordagem evolucionária.
Belo Horizonte: Ed. Itatiaia, 1975.
QUENTIN, D. A & GRAY, D. R. Curious Parallels and Curious
Connections—Phylogenetic Thinking in Biology and Historical Linguistics.
Syst. Biol. 54(4):513–526. 2005.
STERELNY, K. & GRIFFITHS, Paul E. Sex and death: an introduction to
philosophy of biology. Chicago: The University of Chicago Press, 1999.
TEIXEIRA, J de F. O Pesadelo de Descartes: do mundo mecânico à
Inteligência Artificial. Porto Alegre: Editora Fi, 2018.
TRIVERS, Robert. Social evolution. California: The Benjamin/ Cummings, 1985.
WEEDWOOD, B. História concisa da Lingüística. São Paulo: Ed. Parábola, 2000.
WHEWELL, W. The Philosophy of the Inductive Sciences: founded upon
their history. New York: Johnson Reprint Corporation, 1967.
67
BIG DATA, MEMÓRIA E IDENTIDADE PESSOAL
Jonas Gonçalves Coelho
I
Jacquelyn Burkell, no artigo “Remembering Me: Big Data,
Individual Identity, and the Psychological Necessity of Forgetting”,
publicado em 2016, propõe-se a tratar da questão da identidade pessoal
em tempos de Big Data. Privilegia, como fio condutor principal de sua
reflexão, uma abordagem psicológica da identidade pessoal, na qual a
memória autobiográfica ocupa um lugar de destaque. Três são suas
hipóteses principais. A primeira, é que a identidade de cada um de nós, ou
seja, o modo como nos definimos para nós mesmos, e para os outros, está
intimamente ligada à nossa narrativa pessoal: “[...] uma história que nos
define, que contamos sobre nós mesmos para os nossos mundos interno e
externo” (BURKELL, p. 1). A segunda, é que um “forte sentimento de
identidade” depende da “coerência” de nossa história, ou seja, nossa
narrativa pessoal deve ser “consistente” com “a nossa visão corrente de
‘self’”; depende também de haver “correspondência” em nossa narrativa,
isto é, esta deve refletir “os conteúdos de nossa memória autobiográfica e
o significado de nossas experiências” (BURKELL, p. 1). A terceira, é que
a “coerência” e a “correspondência” dependem de uma maleabilidade da
memória autobiográfica por parte do self, o qual reforça as “memórias
consistentes” com sua “autoimagem”, ao mesmo tempo que tem sua
“autoimagem” reforçada por essas memórias, esquecendo as demais: “um
forte sentimento de self requer que se lembre do que importa, e se esqueça
do que não importa” (BURKELL, p. 1).
Burkell defende que essa maleabilidade da memória,
indispensável a um “forte sentimento de self”, tem sido prejudicada
pela detalhada, crescente e permanente memória biográfica digital, a
qual consiste no registro objetivo dos lugares que frequentamos, do
conteúdo de nossas falas, das pessoas que vemos, das condições de
nossa saúde corporal etc. Argumenta que, diferentemente do passado,
quando “a nossa vida cotidiana raramente gerava registros objetivos”
(BURKELL, p. 2), atualmente, à medida que utilizamos as tecnologias
digitais, deixamos “traços” – “pegadas” – digitais, ao oferecer,
voluntariamente e involuntariamente, informações pessoais sobre nós
69
mesmos e sobre aqueles com quem convivemos. Esses registros
objetivos – “sombras digitais” – “completos e permanentes”,
constituem nossos “perfis digitais”, mais ou menos detalhados: “nome,
data de nascimento, status do relacionamento, preferências, atividades,
fotografias, amigos, parentes etc” (BURKELL, p. 3), acrescidos de
informações e conteúdos a nosso respeito fornecidos por outras
pessoas, às quais estamos digitalmente associados. Não menos
relevantes seriam os traços que deixamos como “subproduto de nossas
ações e interações online” (BURKELL, p. 3), tais como, nossas ações
relacionadas a visitas a websites, nossa localização fornecida pelo
celular, nossa condição de saúde fornecida pelo agendamento de
consultas médicas e resultados de exames etc.
Para Burkell não é apenas a falta de memória que é prejudicial à
identidade, como se observa nos casos de doença de Alzheimer, nos quais
há uma desconstrução e perda do self correlata da perda da memória
autobiográfica. O excesso de memória também é danoso para o self, como
o atestam casos de hipertimesia – síndrome de supermemória –, em que as
memórias, descritas como “tirânicas”, “comprometem a capacidade de
construir e recriar narrativas pessoais integradas que digam a nós, e aos
outros, ‘quem nós somos’” (BURKELL, p. 3). Estes casos revelariam que
o esquecimento é “tão crucial para a identidade quanto o lembrar”
(BURKELL, p. 2). Para Burkell o esquecimento não é apenas
indispensável para a “maleabilidade da memória”, e consequentemente,
para um “forte sentimento de self”; o esquecimento é também
fundamental para a construção contínua da identidade, para um “contínuo
projeto de self”: “não podemos crescer ou mudar se estamos estreitamente
e inabalavelmente presos aos detalhes de nosso passado” (BURKELL, p.
3). Embora os registros digitais não sejam, rigorosamente falando,
memórias, Burkell considera que eles “constituem uma matriz de
memórias potenciais” que ameaçam “as narrativas pessoais
necessariamente baseadas na atenção seletiva a aspectos particulares da
história pessoal” (BURKELL, p. 3), comprometendo “nossas capacidades
de esquecer e de ir em frente” (BURKELL, p. 3). Esse é o modo de ser
natural de nossa memória biológica – uma memória psicológica ancorada
no biológico – a saber, ela é seletiva, ela conserva apenas o que é
relevante, revivido e revisitado: “A memória biológica não é um reflexo
eidético do passado” (BURKELL, p. 3).
70
II
Para Burkell, a “crescente disponibilidade e capacidade de
armazenamento digital tem o potencial de alterar o equilíbrio entre as
memórias biológicas e as externas” (BURKELL, p. 3) em virtude de
algumas características essenciais que as distinguem. Uma dessas
características distintivas é que “as memórias biológicas tendem a ser
‘processadas’, capturando a essência do que é lembrando; em contraste
com as memórias digitais, as quais tipicamente capturam a ‘verdadeira’
representação” (BURKELL, p. 4). Se, como foi dito anteriormente,
esquecer alguns aspectos da história individual é necessário para um
forte sentimento de identidade e para irmos em frente, “a existência
contínua de uma história completa e perfeita poderia desafiar essa
função psicológica necessária se todo detalhe que eu esqueço está
retido num arquivo digital, pronto para me lembrar daquilo que não é
mais relevante para minha identidade” (BURKELL, p. 4).
Outra característica prejudicial à identidade, que distingue a
memória digital e a memória biológica, é que “as sombras digitais não
revelam apenas uma ‘vida inteira’ - elas revelam uma vida inteira composta
por instantes separáveis, os quais podem ser reconfigurados para
reconstruir inumeráveis narrativas de vida” (BURKELL, p. 4). A autora
cita o exemplo de Malte Spitz, um membro do partido verde alemão que,
ao autorizar o acesso aos dados arquivados de seu telefone celular,
possibilitou a criação de um mapa temporal de suas atividades, as quais,
consideradas individualmente, poderiam parecer inofensivas, mas no
conjunto constituíam um perfil, “um quadro claro de seus hábitos e
preferências pessoais” que, contrariamente à visão que Spitz tinha de si
mesmo como “um leal e comprometido ambientalista”, indicava um
quadro oposto baseado “no que poderiam ser exemplos muito limitados de
decisões hostis ao meio ambiente” (BURKELL, p. 4). Daí a conclusão
negativa: “quando uma grande quantidade do que fazemos, onde vamos e o
que pensamos é revelado num arquivo online, nós perdemos controle sobre
as nossas próprias histórias de vida” (BURKELL, p. 4).
Contra o argumento de que os registros externos do self, tais
como, diários e fotografias, sempre existiram, não se constituindo,
portanto, como uma ameaça à nossa identidade, Burkell pondera que
nesses registros, de certa forma subordinados à memória biológica, o
armazenamento e sobrevivência são seletivos, ou seja, “o que é armazenado
(e, desse modo, está disponível para revisão/recordação/interpretação) é
apenas o que importa no momento, e apenas esses “aspectos selecionados de
uma história de vida estarão disponíveis para ruminação e reinterpretação”
71
(BURKELL, p. 5). Diferentemente desses registros tradicionais, os
registros digitais, por serem facilmente criados e armazenados, detalhados,
acessíveis e automaticamente coletados, possibilitam que “tudo na vida”
seja “gravado e arquivado”, o que permite “não apenas que o rico registro
digital possa suportar múltiplas (e inconsistentes) interpretações de uma
vida ao focar em seus diferentes aspectos”, mas também que “o espectro de
que uma vida vivida hoje seja interpretada à luz de padrões, valores e moral
que caracterizarão algum momento futuro” (BURKELL, p. 5). Burkell
resume suas preocupações em relação ao modo como os registros digitais
afetam a identidade pessoal nos seguintes termos:
Nossas sombras digitais são essencialmente bases de dados sobre nós
– algumas sob nosso controle, algumas não, todas acessíveis,
indexáveis e reconfiguráveis. Hayles afirma que narrativas e bases de
dados são ‘simbiontes naturais’ com uma ‘relação mutuamente
benéfica’: uma base de dados ‘pode construir justaposição relacional
embora não a ajude a interpretá-la ou explicá-la’ e,
consequentemente, ‘precisa da narrativa para tornar seus resultados
significativos’. Desse modo, os dados podem ‘gerar’ a história, e a
‘mineração’ de bancos de dados extensos podem revelar verdades de
outro modo irreconhecíveis ou desconhecidas sobre um indivíduo ou
o mundo que o cerca. Assim, as bases de dados têm o potencial para
espalhar uma proliferação de narrativas e, consequentemente, as
bases de dados de uma pessoa tem o potencial para suportar muitas
narrativas de vida em vez de uma única. A preocupação, é claro, é
que as bases de dados, como as estatísticas, poderiam ser usadas para
provar ‘qualquer coisa’ e, com um foco seletivo, contar virtualmente
qualquer história de vida. Nós ficamos com uma profunda e bem
fundada preocupação de que a existência de uma sombra digital
possa ameaçar a integridade da narrativa pessoal” (BURKELL, p. 6).
III
Ao contrário do que poderia parecer à primeira vista, Burkel não
é contra a existência de registros textuais, sonoros, fotográficos e
cinemáticos, incluindo suas versões digitais, os quais a autora considera
que teriam os méritos de ampliar substancialmente a memória humana e
de facilitar o acesso a essa memória, sendo, desse modo, fundamentais
para a história individual e coletiva, à medida que possam fornecer
evidência de eventos históricos para quem não os testemunhou. O que ela
parece defender é que essa memória digital esteja de alguma forma
subordinada ao valor da privacidade, esta, a seu ver, intrinsecamente
72
ligada à construção da identidade pessoal. É nesse sentido que Burkell cita
a definição de privacidade de Mirielle Hildebrandt, segundo a qual a
“privacidade pode ser mais bem entendida como o espaço virtual e real
necessário para a reconstrução contínua do self em face de contextos
sempre em mudança” (BURKELL, p. 6).
Segundo Burkell, Hildebrandt destaca o valor da privacidade e
a importância crítica da autonarrativa para invocar o “direito de
esquecer antes mesmo do que o direito de ser esquecido” (BURKELL,
p. 6), este último protegido por regulamentação nos Estados Unidos e
na União Europeia (BURKELL, p. 6). Para Burkell, diferentemente do
“direito de ser esquecido”, o “direito de esquecer” mais do que uma
questão legal, ou seja, é uma questão de necessidade intrínseca à
construção da identidade pessoal: “uma identidade funcional plena
requer que o passado – pelo menos aqueles aspectos sem importância e
irrelevantes – possam desaparecer” (BURKELL, p. 7). Por entender
que “nossa habilidade de construir e manter nossas próprias
identidades está ameaçada pelos sistemas digitais que ‘relembram’ tudo
sobre nós”, opondo-se desse modo ao “valor e necessidade de esquecer
e ser esquecido” (BURKELL, p. 2), Burkell defende que o “direito ao
esquecimento” seja considerado um valor a ser protegido.
Como garantir o direito ao esquecimento? Assumindo que a
regulamentação, a limitação da produção de informações pessoais, o
ocultamento e eliminação de informações próprias e o monitoramento da
própria presença na internet com vistas ao gerenciamento da reputação
seriam inviáveis, Burkell aponta o caminho que ela considera mais
promissor, a saber, “reintroduzir o esquecimento no arquivo biográfico”
(BURKELL, p. 8), tese central defendida por Mayer-Schonberger no livro
“Delete”, de 2009. A proposta aí apresentada consiste em tornar o
esquecer um pouco mais fácil do que o lembrar, introduzindo uma “data
de validade” para “cada bit de informação arquivada digitalmente; se a
data de validade é alcançada, e não há uma ação adicional, a informação
se torna inacessível” (BURKELL, p. 8).
Como exemplo, Burkell cita Dodge e Kitchen como autores
que propõem uma série de estratégias algorítmicas “tais como, apagar,
enevoar, agregar, inserir ruído, perturbar dados, mascarar, e outras que
poderiam ser usadas para perturbar os registros de vida” (BURKELL,
p. 8). Esta seria uma forma de construir processos de esquecimento
“modelados no esquecimento natural que caracteriza a memória
biológica” (BURKELL, p. 8). Desse modo, redesenhar as tecnologias
para incorporar o esquecer seria uma maneira de “restabelecer o
73
equilíbrio entre o que é lembrado e o que é esquecido, e permitir aos
indivíduos o necessário acesso privilegiado às suas próprias histórias de
vida e, desse modo, às suas próprias identidades” (BURKELL, p. 8).
IV
Como procurei destacar nas seções anteriores, a crítica de
Burkell aos Big Data se baseia na hipótese de que o lembrar e o
esquecer normal são fundamentais para um “forte sentimento de self” e
para a “construção contínua do self”. Daí o foco principal de seu artigo
ser o “direito de esquecer”, em vez do “direito de ser esquecido”; o
primeiro entendido como o direito da pessoa de esquecer fatos de sua
vida e o segundo como o direito da pessoa de que os fatos de sua vida
sejam esquecidos pelos outros. Como se viu na seção anterior, Burkell
não se propõe a discutir o “direito de ser esquecido”, embora se mostre
simpática a ele. É claro que esse é um tema que também merece ampla
discussão, visto envolver não apenas questões legais, mas também
questões éticas, em especial, nas situações em que há conflito entre o
interesse privado e o interesse público, tais como: 1. Um criminoso –
ladrão, assassino, estuprador, pedófilo –, que cumpriu sua pena,
deveria ter o registro de seu crime apagado? 2. Uma pessoa que no
passado defendeu posições racistas e sexistas, as quais alega não
compartilhar no presente, deveria ter seus registros deletados? Embora
essas sejam questões cruciais, elas aparecem, quando muito, como
preocupações de fundo no artigo de Jacquelyn Burkell.
Voltemos então ao “direito de esquecer”, fundamento principal
da argumentação crítica de Burkell aos Big Data. Como dito
anteriormente, as justificativas da crítica de Burkell à memória digital
se baseiam no modo como ela entende o funcionamento da memória
natural – biológica/psicológica, na qual o lembrar e o esquecer normal
seriam fundamentais tanto para o “forte sentimento de self” quanto
para a “mudança contínua do self”. Essas características de um self
normal dependeriam da “maleabilidade da memória”, ou seja, da
seleção de lembranças que são compatíveis com sua autoimagem
presente e do esquecimento das lembranças que são incompatíveis com
essa autoimagem. Seria essa hipótese de Burkell, sobre a relação entre
identidade pessoal e memória natural, suficiente para justificar a sua
defesa de uma tecnologia que viabilize, no domínio digital, o “direito
ao esquecimento”? Destacarei, a seguir, duas características da
memória, as quais, se por um lado reforçam a visão de Burkell segundo
74
a qual a memória natural se subordina à autoimagem presente do self,
por outro problematizam os fundamentos de sua crítica aos Big Data.
A primeira característica é que uma lembrança de um evento
passado pode ser falsa, ou seja, em virtude das disposições presentes –
desejos, emoções etc. – o self pode se lembrar de fatos que não
aconteceram; a lembrança é real, os fatos não. Não são poucos os casos
envolvendo pessoas que testemunharam crimes e que reconheceram o
criminoso baseadas na lembrança de características físicas particulares;
descobriu-se depois se tratar de uma falsa lembrança, construída
posteriormente ao crime testemunhado, a partir de fotos vistas nos
arquivos da polícia ou em jornais. Também são inúmeros, e
controversos, os casos envolvendo tratamentos psicoterapêuticos
durante os quais os pacientes se lembraram de terem sido molestados
na infância por parentes próximos; muitos desses casos levaram aos
tribunais não apenas os acusados de terem molestado as crianças, os
quais juraram inocência, mas também os psicoterapeutas envolvidos,
os quais foram denunciados sob a alegação de terem induzido falsas
lembranças em seus pacientes. Considerando-se que as falsas
lembranças são mais comuns do que se costuma pensar, e devido a
uma característica constitutiva da identidade pessoal apontada por
Burkell, ou seja, o fato de as lembranças estarem frequentemente
subordinadas à autoimagem presente do self, coloca-se a questão do
valor da verdade para o self: em que medida a construção de um “forte
sentimento de self” e o “crescimento e mudança contínua do self”
dependem, e são compatíveis, com a verdade de sua história?
A segunda característica da memória é que a autoimagem
presente do self pode ser constituída não apenas da lembrança real do
que não aconteceu, mas também do esquecimento do que realmente
aconteceu. É o caso da seguinte situação, oposta ao último exemplo do
parágrafo anterior, a saber, a de um paciente que sofre de transtorno de
ansiedade e que não tem nenhuma lembrança do fato de ter sido
molestado na infância; esquecimento de um abuso que realmente
aconteceu. Nesse caso, o esquecimento poderia resultar de um
mecanismo de defesa do self, o qual, embora seja um artifício para
preservar a sua integridade, não é bem-sucedido. Caso o evento
traumático, esquecido pelo paciente, seja a causa de seu transtorno de
ansiedade, a sua lembrança e enfrentamento não seriam o meio mais
eficaz para a construção de um “forte sentimento de self” e da
“mudança e crescimento do self”? No caso, por exemplo de um
veterano de guerra que sofre de transtorno de estresse pós-traumático.
75
Seria mais apropriado o uso de um medicamento – caso existisse –
capaz de apagar a lembrança traumática? Ou seria mais efetivo um tipo
de intervenção psicoterapêutica – caso existisse – que preservasse a
lembrança da situação traumática e propiciasse uma interpretação
dessa de modo a dissociá-la das emoções penosas?
As questões levantadas, no final dos dois parágrafos anteriores,
em relação a essas duas características da memória, as quais
corroboram a tese de Burkell de que na construção natural da
identidade pessoal a memória do passado se subordina à autoimagem
presente do self, deixam entrever alguns problemas relativos aos
fundamentos de sua crítica aos Big Data. O primeiro problema é se
esse modo de funcionamento da memória natural – “ser” de memória –
justifica a tese de que se deve preservar o self de seu passado – “dever
ser” da memória –, qualquer que seja sua forma de registro – memória
natural ou memória digital –, incompatível com sua autoimagem
presente. O segundo problema é se esse ocultamento de fatos passados,
qualquer que seja a sua forma de registro, é condição suficiente e/ou
necessária para “um forte sentimento de self” e um “crescimento
contínuo de self”. Como sugerido nos exemplos do parágrafo anterior,
senão sempre, pelo menos em muitos casos a revelação de fatos
passados, incompatíveis com a autoimagem presente do self, pode
contribuir de forma efetiva para “um forte sentimento de self” e para
“o crescimento contínuo do self”.
O terceiro problema, não mencionado anteriormente, é que ao
tratar da relação entre o self e a memória digital, Burkell superestima o
valor do componente objetivo – registros digitais e subestima o valor
do componente subjetivo – autoimagem presente do self. Parece
razoável supor, seguindo os próprios fundamentos da argumentação de
Burkell, que o mesmo self que compatibiliza – subordina – sua
memória do passado à sua autoimagem presente, também o faria com
os conteúdos da memória digital, ou seja, o self filtraria e interpretaria
os conteúdos dos registros digitais a partir de sua autoimagem presente.
Se, segundo os termos de Burkell, a edição do passado segundo a
autoimagem do presente é uma necessidade para a construção de um
“forte sentimento de self” e de um “crescimento contínuo do self”,
pode-se concluir que o self editaria esse passado qualquer que seja a
forma em que ele se apresente, inclusive a digital.
Em vista dos problemas acima citados, penso que o “direito de
esquecer”, o qual, nos termos defendidos por Jacquelyn Burkell,
privilegia o interesse individual do self, não justifica a “regulamentação
76
da privacidade” defendida pela autora. Entendo que o mais relevante
continua sendo a questão do “direito de ser esquecido”, a qual envolve
uma reflexão sobre o valor da verdade, já apontado nesta seção, que leve
em conta o interesse coletivo dos selves.
REFERÊNCIA
BURKELL, J. Remembering Me: Big Data, Individual Identity, and the
Psychological Necessity of Forgetting. 2016. Disponível em:
https://pdfs.semanticscholar.org/17b1/7cab81a08dbcff063f6323242627517f1
a02.pdf. Acesso em: 22 de junho de 2020.
77
IMPACTOS DAS TECNOLOGIAS DE
COMUNICAÇÃO NA VIDA POLÍTICA
Ricardo Monteagudo
Se observarmos que o computador foi criado em 1946

(ENIAC), o computador pessoal em 1982 (IBM-PC) e a internet se
tornou comercial em 1992, ficaríamos assombrados com a grande
quantidade de mudanças que ocorreram no mundo e nas relações
pessoais e de trabalho e com a dramática rapidez com que tudo isso
aconteceu1. Há um exorbitante descompasso entre o vertiginoso
crescimento tecnológico, sobretudo digital, e nossa capacidade de
compreendê-lo e de nos defender de seu ataque, posto que há, como
demonstraremos, um verdadeiro ataque à nossa privacidade, à nossa
inteligência, à formação de nossas opiniões pessoais e políticas, uma
violenta manipulação de nossas emoções.
Paul Virilio (1996) mostra que ocorre um aceleramento de
todas as relações, uma produção de velocidade que ele chama de
dromologia, cujo objetivo maior é nos impedir de refletir, até mesmo
de perceber decisões que são tomadas em nosso nome, muitas vezes
com um discurso totalmente falseador. As estradas virtuais são tão
velozes que a paisagem desapareceu e o espaço do poder foi assaltado.
Ele chega a dizer que nesta guerra do tempo, o proletariado
desapareceu, tornou-se um batalhão desconhecido da velocidade
(VIRILIO, 1996, p. 95). Justamente, não temos tempo para refletir: se
alguém parar é atropelado pelos que não podem parar – mesmo se o
quisessem. Virilio, contudo, preocupava-se somente com a velocidade.
Há ainda o problema do arquivamento dos dados produzidos. Na vida
real, tudo o que é muito veloz também é rapidamente esquecido, mas
isso não ocorre com os computadores, que podem gravar todos os
dados produzidos por seus usuários. Com isso, a assimilação das
informações que recebemos é deficiente.
1 Há um filme muito interessante que trata destas questões com argúcia e sensibilidade: Lo
and Behold, reveries of the connected world, de Werner Herzog. O título do filme no
Brasil, em má tradução, é Eis os delírios de um mundo conectado. A expressão “lo and
behold” indica justamente algo que acontece de forma repentina, inesperada e decisiva.
79
Em um primeiro momento houve o encanto da velocidade e da
robótica, máquinas produziriam tudo o que é repetitivo ou enfadonho,
as pessoas se dedicariam à criatividade, à arte e à cultura. Novas
oportunidades de negócios surgiram com a tecnologia cibernética e
digital (informática, ou seja, informação automática), muitos trabalhos
simplesmente desapareceram em bancos e fábricas. Pierre Lévy mostra
que agora trabalhar é “aprender, transmitir saberes e produzir
conhecimentos” (LÉVY, 1999, p. 157). Neste contexto, o hipertexto
facilita e favorece o conhecimento e a comunicação, as potencialidades
humanas se ampliam exponencialmente. De fato, há muitas vantagens
a serem comemoradas.
Manuel Castells, por sua vez, aponta que, nesse novo modelo
organizacional das empresas por meio da internet, as tecnologias de
controle se disseminam com os interesses os mais diversos: pela gestão
administrativa para acompanhar o trabalho, pela publicidade na busca
de consumidores e pelo Estado na delimitação da liberdade dos
cidadãos. Ao invés das pessoas vigiarem seu governo, “[...] o que de
fato é um direito delas, já que o povo é soberano”, o que se observa é
uma “crise generalizada de legitimidade” (CASTELLS, 2003, p. 128-
9). Quem controla a informação é que tem poder. Assim, a formação
do espaço político pela mídia tradicional muda inteiramente com a
internet. O controle da informação e dos dados produzidos se torna
crucial para as empresas de todas as áreas, tanto quanto para o poder
político. Além disso, ao mesmo tempo em que a internet contribui para
reduzir o alcance da soberania dos Estados em relação às grandes
corporações internacionais, públicas ou privadas, ela também propicia
formas diversas de chantagem. Surge uma espécie de ciberguerra,
agentes privados (hackers) ou públicos (soldados digitais) ameaçam a
integridade das informações das instituições, dos poderes públicos e
também das grandes empresas e corporações. Com isso, a opinião e o
pensamento não têm mais as mesmas fontes nem as mesmas
características. A esfera pública kantiana ou a ação comunicativa
habermasiana2 se converteram em campo de guerra virtual. O que
deveria ser um lugar de liberdade e de fonte de informações é o lugar
2 Segundo Kant, a discussão pública de opiniões e argumentos em igualdade de
condições propiciaria a melhor expressão da racionalidade humana universal e de um
sentido comum de justiça, conforme, por exemplo, o ensaio O que é o
esclarecimento? (KANT, 1995). Segundo Habermas, a única forma de alcançarmos a
razão é superarmos a subjetividade por meio de ações simbólicas e culturais que
garantam a razoabilidade ética das decisões e ações humanas, conforme, por exemplo,
A ética da discussão e a questão da verdade (HABERMAS, 2004).
80
da ilusão e da mentira, da produção de narrativas ideológicas, de
julgamentos falaciosos e de fabricação de fake news (mentiras
intencionalmente orientadas)3.
Conhecemos as análises de Chomsky sobre a liberdade de
imprensa e manipulação da inteligência. Sabemos também das
denúncias de desrespeito legal, ético e político dos governos apontado
por Julien Assange no Wikileaks – um site de informações sobre
informações sigilosas, sobre guerras e corrupção, geralmente
censuradas ou intencionalmente falseadas pelos governos4. No início
dos anos 2000, tudo isso ainda soava um pouco fantasioso (“teoria da
conspiração”), excessivo, discussão de experts. Um dia de 2014,
contudo, um funcionário do serviço secreto dos EUA, Edward
Snowden, inconformado com as flagrantes mentiras de seu chefe em
declarações oficiais no Congresso de seu país, decidiu revelar os dados
coletados pela agência para provar que tudo, todas as informações
veiculadas na internet eram arquivadas. Aquela desconfiança kafkiana
totalitária apontada por especialistas, que nos recordava a ficção
científica de Isaac Asimov ou a ficção política de George Orwell se
tornou real e concreta com o controle propiciado pela internet.
Segredos políticos e comerciais de tudo o que é mediado na internet
pelas corporações digitais, de todos os países e de todas as corporações
que não têm recursos tecnológicos para escapar deste controle, ou seja,
“tudo” o que passa pela internet fica gravado, arquivado. Isto forma
conjuntos de dados monstruosos, exorbitantes, sequencialmente
acumulados e gravados em equipamentos de altíssima tecnologia,
também conhecidos como Big Data. Tudo isso pode ser recuperado de
formas diversas e com muitos objetivos escusos por aqueles que
dispõem de tecnologias avançadas como inteligência artificial e
algoritmos com alto grau de precisão e especialização, inatingível pelos
sistemas tradicionais.
3 Há um debate bastante acentuado e desenvolvido acerca da noção de fake news.

Indicamos por exemplo uma discussão interessante no artigo “Com avanço
tecnológico, fake news vão entrar em fase nova e preocupante”, publicado na Folha de
São Paulo e na revista IHU-on line http://www.ihu.unisinos.br/78-noticias/577777-
com-avanco-tecnologico-fake-news-vao-entrar-em-fase-nova-e-preocupante,
consultado em 13/09/2019.
4 A home-page da organização afirma: “WikiLeaks se especializa na análise e
publicação de grandes conjuntos de dados censurados ou restritos de matérias oficiais
envolvendo guerra, espionagem e corrupção. Já publicou mais de 10 milhões de
documentos e respectivas análises”. In: https://wikileaks.org/What-is-WikiLeaks.html,
consultado em 13/09/2019.
81
O realismo fantástico de Jorge Luís Borges que nos parece uma
brincadeira romanesca se tornou assustadoramente real: um mapa do
mundo mais fidedigno do que o próprio mundo, sem nenhuma paralaxe,
está simplesmente tudo arquivado (conforme o conto “O rigor na ciência”,
em Ficções). Vivemos uma era em que todos os nossos dados pessoais e de
toda a natureza foram digitalizados, numerizados, num mundo paralelo, em
nuvem, que reproduz o mundo real de forma às vezes mais fidedigna que o
próprio mundo, posto que de acordo com uma linguagem descritiva que
nos permite instrumentalizar os dados de acordo com os interesses de quem
tem a posse destes dados.
Parece um sonho distópico, mas confirmado pelos fatos. A
impactante fuga do agente secreto Edward Snowden e a exposição de
dados digitais coletados massivamente como Big Data foi filmada num
documentário que ganhou um Oscar em 2014: Citizen Four, de Laura
Poitras e Glenn Greenwald. O agente ficou receoso de ser simplesmente
eliminado e convidou a documentarista e um jornalista do The Guardian,
da Inglaterra, para protegê-lo com o espetáculo da denúncia. Apenas 2%
dos dados foram divulgados em complexos acordos de política
internacional. Entre outras muitas reações fulgurosas, Dilma Roussef
manifestou seu protesto na ONU pelo desrespeito à soberania brasileira5.
Isso aconteceu em 2013! Podemos agora imaginar em que ponto estamos
hoje (em 2020), mesmo assim nossa imaginação não será suficiente para
vislumbrar o grau de controle a que estamos submetidos – todos nós, sem
exceção, dentro ou fora da academia, tenhamos ou não perfil no Facebook
ou conta no WhatsApp ou no Instagram6.
Isto implica que, como dizemos jocosamente, o Google nos
conhece melhor do que nós mesmos. Aquele escorregão que alguém
deu há cinco anos, de que quase ninguém soube e que esta pessoa
gostaria de esquecer, o Google “sabe” e não esquece. Todas as
informações e dados que são voluntariamente colocadas na rede de boa
vontade pelas pessoas são gravadas. O Google usa estas informações de
acordo com os seus interesses financeiros, psicológicos e políticos. Isto
ocorre com outras corporações digitais. Ou seja, os processos objetivos
de produção material e subjetivos de interiorização afetiva são
diuturnamente atacados e submetidos sem que tenhamos consciência
5 Pode-se conferir em https://noticias.uol.com.br/internacional/ultimas-
noticias/2013/09/24/na-onu-dilma-chama-espionagem-americana-de-violacao-dos-
direitos-humanos.htm, consultado em 13/09/2019.
6 Embora pareça uma afirmação um pouco forte, trata-se da hipótese que defendemos:
com o Big Data, um novo paradigma político e cognitivo entra em questão.
82
de suas causas e seus efeitos e sobretudo sem que nosso consentimento
tenha sido explicitamente dado. Há uma autorização legal que
concedemos nos contratos de licença de software que assinamos, mas
raramente nos damos conta do aspecto abusivo e ilegítimo, da
armadilha em que entramos quando nos integramos aos bilhões de
usuários do Google, Facebook, Amazon, Microsoft, as quatro grandes
(“the Big Four”, conforme MOROZOV; BRIA, 2019, p. 16).
Usufruímos de bom grado as vantagens dos recursos de
microcomputação e internet, mas não percebemos que nos oferecemos
gratuitamente como mercadorias digitais para as grandes corporações.
Estes dados também podem ter uso político determinante. Os Big Data
se tornaram uma ferramenta totalitária, ou neototalitária.
Em 29 de setembro de 2018, uma semana antes do primeiro turno

das eleições presidenciais no Brasil, meio milhão de pessoas foram às ruas
protestar contra o machismo, a homofobia e o militarismo do candidato de
extrema-direita, Jair Bolsonaro, na tentativa de impedir que ele chegasse
no segundo turno. Foi o dia do #EleNão7. Movimentos de opinião
normalmente são sensíveis a manifestações de massas numerosas nas ruas.
Estes movimentos sociais e políticos qualificam fortemente a política
moderna organizada em torno de instituições. Considerando a dimensão
das manifestações, era de se esperar que as intenções de voto neste
candidato estacionassem ou caíssem, no entanto o que se observou foi o
contrário: um aumento substancial. Como explicar este fenômeno? Há
várias hipóteses: a atuação de igrejas conservadoras neopentecostais,
esgotamento do “politicamente correto”, campanha massiva pelos meios
de comunicação de massa (TV, rádio, mídia impressa), entre outras.
Contudo, a grande novidade desta campanha eleitoral foi o uso
massivo de redes sociais com a divulgação de fake news e a
manipulação intencional de opiniões por meio de pós-verdade,
informações falsas ou absurdas que se tornam admissíveis pela
repetição. Em disputas eleitorais, a mentira, as promessas falsas ou
7 Conforme, por exemplo:

https://brasil.elpais.com/brasil/2018/09/29/politica/1538226863_062834.html,
consultado em 13/09/2019. Há até um verbete na Wikipedia com este assunto:
https://pt.wikipedia.org/wiki/Movimento_Ele_Não, consultado em 13/09/2019.
83
inexequíveis e a manipulação sempre estiveram presentes. Dessa vez,
houve o apoio massivo e organizado de algoritmos de inteligência
artificial a partir de bases de dados pessoais acumulados nos Big Data,
como dissemos acima. Assim, ocorreu a manipulação de opiniões e
afetos quase que individualmente modulados e disparados por robôs
em computadores. Nossa hipótese é de que se trata de uma atuação
biopolítica na medida em que a vida singular de cada indivíduo foi
atingida e direcionada. Com os computadores, a internet e as redes
sociais, praticamente todos os aspectos da vida pessoal se tornaram
objeto de digitalização, informatização e controle. Passamos da
sociedade disciplinar para a sociedade de controle8.
O mesmo fenômeno ocorrera de forma escandalosa no
plebiscito do Brexit na Inglaterra, em junho de 2016, e na eleição de
Donald Trump nos EUA, em novembro do mesmo ano. Houve, por
assim dizer, um envenenamento das opiniões e um direcionamento dos
afetos por meio de algoritmos. Pode-se então observar o alcance e o
poder daquilo que Snowden e Assange já denunciaram muitos anos
antes. Em outras palavras, isto pode significar o fim da democracia
liberal tal como a conhecemos. Quando certos agentes políticos têm
um poder dessa envergadura, a tendência de se sobrepor aos
adversários e impor sua própria visão é uma consequência inevitável.
Esta estrutura cria “democraticamente” políticos autoritários que
destroem a democracia (cf. LEVITSKY; ZIBLATT, 2018, p. 76-98).
Essa estrutura política de autodestruição da democracia já
estava historicamente dada antes dos computadores e da internet, como
a ascensão eleitoral do fascismo na Itália e do nazismo na Alemanha. A
crise da hegemonia geopolítica dos EUA com o fortalecimento
econômico da China favorece a radicalização neoliberal dos mercados
financeiros e certo autoritarismo político para protegê-los, uma espécie
de neofascismo. Ora, este neofascismo, ou neototalitarismo,
poderíamos dizer, é apoiado por algoritmos e inteligência artificial.
Estes algoritmos introduzem uma novidade nos processos políticos,
uma novidade biopolítica. Há uma manipulação afetiva que não é
exatamente unívoca para as massas, é antes o que poderíamos chamar
8 Com o biopoder, o controle se torna singular e isso é favorecido e facilitado pela

internet e pelos Big Data. Essa é nossa hipótese. Sobre a formação da sociedade de
controle, ver DELEUZE, 1992.
84
rizomática9, pois, a exemplo de certas plantas, acontece em diversos
pontos esparsos que engrossam e se transformam, que formam talos
independentes ou raízes e, em seguida, após cumprirem um objetivo
local específico, podem se perder aleatoriamente ou se reconfigurar de
outra forma. Não se trata da massa popular homogênea, mas de
indivíduos singulares, de todos os indivíduos catalogados em Big Data.
Digamos rizomas, grupos, tribos ou campos, são a fragmentação da
massa manipulada por interesses escusos, interesses privados sem
muito apreço pelo bem público, posto que o objetivo no capitalismo é
a competição e o lucro.
O que é preciso considerar é que não se trata de uma
manipulação unívoca de massa, mas de manipulação individualizada,
como se um interlocutor eletrônico nos reconhecesse a cada um de nós,
singularmente, por meio da combinação de 200 fatores e calculasse
diariamente, a cada clique no smartphone, no tablet ou no
microcomputador, a posição pessoal, as emoções e a opinião sobre
vários temas. Em seguida, envia individualmente notícias, boatos,
chistes, imagens (memes), várias vezes por dia ao longo de vários dias,
semanas, meses, anos. Afinal, computadores não cansam. Nós
cansamos, dormimos, mas os algoritmos continuam calculando nossos
sonhos e pesadelos para as mensagens dos dias seguintes.
As empresas de Big Data não oferecem apenas serviços para
consumidores vorazes, mas agora também oferecem serviços de
informações de opinião política e eleitoral para cidadãos incautos e
sobretudo desprotegidos. Algoritmos de inteligência artificial que
disparam notícias ou boatos ou fábulas ou simples mentiras de forma a
causar reações nas pessoas de acordo com os grupos nos quais elas
participam, com os quais elas se identificam. A empresa britânica
Cambridge Analytics foi contratada nos EUA para fazer análises
eleitorais pela equipe de Trump em 2016 e catalogou 200 variáveis de
informação de cada indivíduo, articuladas por meio de algoritmos. Este
número foi reconhecido por Brittany Kaiser, uma analista de sistemas da
empresa que tomou consciência do que a empresa fazia. Podemos
conferir em seu livro Targeted (KAISER, 2019), e no filme Privacidade
hackeada, de 2019. Note-se brevemente uma questão jurídica: uma
empresa inglesa não precisa seguir as leis dos EUA, não se pode
9 Apenas apontamos um aspecto importante de uma polêmica filosófica entre a

modernidade (política capitalista de classe) e a pós-modernidade (biopolítica de
controle individual) que não pode ser adequadamente desenvolvida aqui.
85
processá-la nos EUA. O espaço geográfico e a soberania dos Estados
foram dilacerados no capitalismo digital e na globalização financeira.
Este caso tem muita importância porque é exemplar para
repensar concretamente o controle público dos governos e dos partidos
políticos. Houve pressão da opinião pública especializada na empresa
britânica por parte dos prejudicados nos EUA. A analista de sistemas
não compartilhava com os ideais obscurantistas presentes naquele uso de
Big Data e decidiu compartilhar os métodos no espaço público. Há
muitos cidadãos, politizados ou não, que se incomodam com este tipo de
trabalho na internet. Ora, este risco obriga as corporações a criarem um
ambiente público favorável àquilo pelo qual lucram, entramos assim numa
espiral de ilusões e enganos para justificar cada vez mais ilusões e
enganos. É preciso criar na massa apoio para a manipulação dos
indivíduos. A condição é geral, mas a efetivação é particular. Pois bem,
como sabemos, estes métodos também foram utilizados no Brasil em 2018.
Tomemos como exemplo um ensaio que analisa a presença da
internet em processos eleitorais no Brasil e aponta certa preocupação
da Justiça Eleitoral, contudo insuficiente para impedir sua influência
em 2018. O que chama a atenção é que o Brasil possui meios jurídicos
e elementos penais para combater esta avalanche digital sobre os
processos deliberativos eleitorais, pois o fenômeno da presença da
internet nas eleições já estavam presentes na eleição de Barack Obama
nos EUA em 2012 (CALDAS e CALDAS, 2019, p. 202), em que
houve “uma onda de inovação técnica” com o uso de Big Data. O
objetivo era, manifestamente, “[...] influenciar mudanças de posição e
tomadas de decisão” por meio de personalização e difusão de
mensagens em termos de indivíduo ou grupo específico” (idem). No
Brasil, segundo Caldas e Caldas (2019), houve iniciativas de juízes
para obter interrupção temporária da rede social WhatsApp, o que
mostra uma demanda jurídica que exige “novos conhecimentos e
estratégias”. Segundo eles, mesmo com a criação do Marco Civil da
Internet em 2014, as novidades tecnológicas e o recurso a empresas do
exterior que não podem ser fiscalizadas permitem escapar à legislação.
Estão previstos a inviolabilidade da intimidade e o consentimento
expresso para coleta de dados pessoais no art. 7, inciso I do Marco civil
da Internet (Lei n° 12.965/2014, que regula o uso da Internet no Brasil
por meio da previsão de princípios, garantias, direitos e deveres para
quem usa a rede), também presente no artigo 5, inciso X da Constituição
Federal (“são invioláveis a intimidade, a vida privada, a honra e a
imagem das pessoas”), e novamente regulado pela Lei Geral de Proteção
86
de Dados (Lei nº 13.709/2018, que regula as atividades de tratamento de
dados pessoais). Contudo, a despeito do cuidado do legislador ao incluir
estas exigências na lei magna e na lei que regula a internet, temos o
problema maior de desconhecimento: “[...] não há conhecimento de qual
é a dimensão dos já dados coletados e de como os dados armazenados
nos últimos anos estão sendo utilizados […] principalmente na disputa
eleitoral” (p. 204). Adiante, Caldas e Caldas (2019) reconhecem que
“[...] mesmo um partido com poder econômico para acessar
adequadamente os Big Data, pode não contar com a contribuição das
corporações que são responsáveis pelos Big Data, caso haja divergência
de interesse entre eles” (p. 206). Ora, o partido político de um país (por
mais poderoso e forte que seja) não pode contrariar interesses “de
gigantes como Google e Facebook”. Há, assim, dizem eles, “[...] um
universo novo de problemáticas no campo ético, político e jurídico”
(idem). As grandes corporações condicionam a operação de manipulação
psicológica e biopolítica a seus grandes interesses econômicos e
políticos. Nesse caso, não adianta possuir uma legislação avançada e
adequada se o jogo político impede sua aplicação.
Ressalte-se, então, que a conscientização de cidadãos
combativos, por exemplo, nas universidades, ou por meio de obras
artísticas reflexivas, ou ainda organizados em partidos políticos
especificamente atentos a estas questões, ou em movimentos sociais
massivos, não implica haver força suficiente para conter as
corporações. Por isso, o caso das manifestações do #EleNão são
especialmente ilustrativos. A soberania dos Estados não consegue mais
se impor ou conter as grandes corporações, que operam de acordo com
a lógica do mercado, com a lógica capitalista. Ao mesmo tempo, a
disciplina, o controle ou a vigilância operam diretamente em
indivíduos ou grupos específicos, ou seja, operam diretamente na vida
do indivíduo, por isso são biopolíticas.
Este movimento de vigilância não começou nas eleições, ele já
estava inscrito na genealogia das relações pessoais e sociais desde os
séculos XVII, se seguirmos a construção do conceito de biopolítica
realizada por Michel Foucault no curso Em defesa da sociedade
(FOUCAULT, 2005); ou na concepção de infraestrutura econômica na
crítica de ideologia e na noção de reprodução dos meios de produção
proposta por Althusser em Aparelhos ideológicos de Estado (1970).
Entretanto esse pensamento filosófico, abstrato, não despertou
massivamente os intelectuais para os possíveis usos e abusos da
cibernética na disputa política. Ou antes devemos, como Rousseau no
87
iluminismo, reconhecer que a reflexão sobre o mal somente surge
depois que o mal se manifesta (cf., por exemplo, STAROBINSKI,
2001). Ora, os partidos políticos que se opunham a estes métodos não
conseguiram neutralizá-los antes das eleições. Nesse sentido, apesar do
informado sobre o Brexit e a eleição de Donald Trump, ocorreu o
mesmo no Brasil e em outros lugares.
Por outro lado, as reflexões sobre o abuso da vigilância na
internet já se manifestavam há muito tempo. Mencionamos Snowden e
Assange, mas há antes deles uma professora de negócios em Harvard,
Shoshana Zuboff, que indica as mudanças nas estruturas administrativas
e de trabalho nas empresas com o advento da internet. Ela aponta para as
alterações no organograma dentro das empresas, onde o trabalho
concreto é executado. Em Na era da máquina inteligente, de 1988, e em
A era do capitalismo de vigilância, de 2019, Zuboff trata do impacto dos
computadores e da internet no mundo do trabalho e na política. O que
ela mostra são os caminhos que serão percorridos para a majoração do
lucro, qual o cálculo maquiavélico do capital para elevar os ganhos. Num
primeiro momento ocorreu a globalização, de modo a procurar salários
mais baixos em função da baixa consciência política-sindical dos
trabalhadores e do desequilíbrio monetário dos países, acrescido pelo
grau de controle disciplinar, como dizia Foucault, bem lembrado por
Zuboff em seu livro (1988, p. 319); e num segundo momento, de modo
a inflar o consumo personalizado pela vigilância total de cada potencial
comprador e de cada cidadão, cujo objetivo é a “modificação de seu
comportamento” (2019, p. 351). Pois bem, este tipo de organização
(biopolítica) pela vigilância já foi introjetado pelas empresas e
interiorizado pelas pessoas, é irreversível; precisamos trazê-lo para a
consciência das pessoas, precisamos resgatar a autonomia face a esta
forma tecnológica de vida social, de vida política e biopolítica.
Evgeny Morozov é outro autor que aponta para a morte da política
com a ascensão do capitalismo tecnológico e dos Big Data. Ele mostra que
os interesses do mercado e das grandes corporações substituem a
democracia e a cidadania, o acesso a mercadorias sofisticadas se torna um
dispositivo que ilude e hipnotiza, as pequenas vantagens de curto prazo
custam muito caro a longo prazo, com a potencial escravização biopolítica
(MOROZOV, 2018, p. 138). Da mesma forma, as cidades inteligentes
(smart cities) que incorporam recursos de dados com o Uber ou o Airbnb,
por exemplo, parecem resolver alguns problemas imediatos, mas
comprometem a autonomia das pessoas com o apoio destas pequenas
88
vantagens, que passam a funcionar como estratégia ou dispositivo
biopolítico (MOROZOV; BRIA 2019, p.37).
É preciso por isso estabelecer meios para que as pessoas
obtenham cidadania digital (cf. por exemplo, MOROZOV, 2019) e criar
preocupações específicas de direito ao esquecimento e regulação contra
a exploração de notícias falsas na rede. Há um novo totalitarismo digital
em curso, é preciso contê-lo ou conviver com seus efeitos.
REFERÊNCIAS
ALTHUSSER, Louis. Aparelhos ideológicos de Estado. Rio de Janeiro: Graal, 1970.
ASSANGE, Julien. Cypherpunks. São Paulo: Boitempo, 2013.
BORGES, Joge Luis. Ficções. Porto Alegre: Globo, 1970.
BRUNO, Fernanda; CARDOSO, Bruno; KANASHIRO, Marta; GUILHON,
Luciana; MELGAÇO, Lucas (org.). Tecnopolíticas da vigilância. São Paulo:
Boitempo, 2018.
CALDAS, Camilo Onoda Luiz; CALDAS, Pedro Neris Luiz. Estado,
democracia e tecnologia: conflitos políticos e vulnerabilidade no contexto do
Big Data, das fake news e das shitstorms. In: Perspectivas em ciência da
informação, v.24, n.2, p.196-220, abr/jun 2019.
CASTELLS, Manuel. A galáxia da internet. Rio de Janeiro: Zahar, 2003.
DELEUZE, Gilles. Post-Scriptum sobre as sociedades de controle. In:
Conversações. São Paulo: Editora 34, 1992.
FOUCAULT, Michel. Em defesa da sociedade. São Paulo: Martins-Fontes, 2005.
HABERMAS, Jurgen. A ética da discussão e a questão da verdade. São
Paulo: Martins-Fontes, 2004.
KAISER, Brittany. Targeted. London: Harper, 2019.
KANT, Immanuel. Resposta à pergunta: o que é esclarecimento? In: Textos
seletos. Petrópolis: Vozes, 1995.
LEVITSKY, Steven; ZIBLATT, Daniel. Como as democracias morrem. Rio
de Janeiro: Zahar, 2018.
LÉVY, Pierre. Cibercultura. São Paulo: Editora 34, 1999.
MOROZOV, Evgeny; BRIA, Francesca. A cidade inteligente. São Paulo:
Ubu, 2019.
MOROZOV, Evgeny. Big tech. São Paulo: Ubu, 2019.
VIRILIO, Paul. Velocidade e política. São Paulo: Estação Liberdade, 1996.
STAROBINSKI, Jean. Rousseau e o remédio no mal. In: As máscaras da
civilização. São Paulo: Companhia das Letras, 2001.
ZUBOFF, Shoshana. In the age of the smart machine. NewYork: Basic
books, 1988.
ZUBOFF, Shoshana. The age of surveillance capitalism. NewYork:
Hachette, 2019.
89
FILMOGRAFIA
AMER, Karim & NOUJAIM, Jehane. Privacidade hackeada. EUA, 2019.
HERZOG, Werner (direção). Lo And Behold, Reveries Of The Connected
World - Eis os Delírios do Mundo Conectado. EUA, 2016.
POITRAS, Laura (direção). Citizen Four. EUA, 2014.
STONE, Oliver (direção). Edward Snowden, herói ou traidor? EUA, 2015.
90
BIG DATA: APRENDIZAGEM DE MÁQUINA,
COMPLEXIDADE E EMERGÊNCIA
INTRODUÇÃO A MACHINE LEARNING A
PARTIR DE UMA PERSPECTIVA
COMPUTACIONAL
Nina S. T. Hirata
INTRODUÇÃO
O ato de observar é um processo que está diretamente
relacionado à aquisição de conhecimento. Além da pura observação,
para compreender fenômenos diversos, sejam eles físicos, biológicos,
sociais, econômicos ou outros, recorre-se frequentemente à coleta de
dados para um registro mais detalhado do fenômeno observado. Pode-
se então, a partir da análise dos dados coletados, buscar uma melhor
compreensão sobre o fenômeno observado. Nas últimas décadas, o
desenvolvimento tecnológico, notadamente de sensores diversos e
tecnologias de informação, levou a humanidade a uma extraordinária
capacidade de coletar e armazenar dados. São coletados dados de
diversas naturezas, de micro e macro escalas, referentes a objetos e
fenômenos, nos mais variados contextos. Essas atividades trouxeram à
tona o Big Data, um termo que captura tanto essa abundância de
dados, em formato digital, coletados ou gerados em grande volume e
em alta velocidade, exibindo grande variedade e também variações ao
longo do tempo, como também a incapacidade dos métodos
tradicionais de processá-los. Big Data vem motivando discussões sobre
a importância e efeitos dessa disponibilidade de dados, e os potenciais
de sua exploração estabeleceram o chamado quarto paradigma da
ciência (HEY; TANSLEY; TOLLE, 2009).
Dentre as transformações desencadeadas pelo fenômeno Big
Data, destaca-se a forma com a qual passamos a nos relacionar com dados
e informações. Esses passaram a ocupar uma posição central nas
corporações, governo e sociedade. Diferentes setores perceberam a
importância de se tomar decisões baseadas em dados. Sob o ponto de vista
técnico, primeiramente vieram os desafios relacionados aos aspectos
operacionais tais como a transmissão, armazenamento, organização,
disponibilização e recuperação desses dados. Em seguida, cresceram as
necessidades e expectativas quanto à extração de informações relevantes e
93
úteis a partir desses dados. Um fato importante neste contexto é a
constatação de que as abordagens tradicionais para análise de dados,
muitas vezes dependentes de processamento manual, não são mais
suficientes. Diante deste cenário, vimos a Inteligência Artificial emergir
ou renascer como uma solução inevitável. Em torno dessas duas palavras
estão depositadas várias expectativas e discussões, ultrapassando o escopo
técnico e ocupando espaço em agendas governamentais, empresariais e na
sociedade como um todo (OECD, 2019).
No entanto, a compreensão técnica sobre os termos inteligência
artificial ou inteligência computacional ainda é restrita a um pequeno
grupo. A percepção geral acerca destes termos oscila desde uma visão
puramente técnica até uma visão que tangencia a ficção. O aspecto “caixa-
preta” desta tecnologia desperta preocupações relacionadas à ética,
consequências legais, sociais e econômicas, entre outros (OECD, 2019;
DAVIS). De um ponto de vista mais pragmático, podemos dizer que
muitas das técnicas e ferramentas computacionais que estão sendo de fato
empregadas atualmente encontram-se em um subcampo da Inteligência
Artificial denominado Machine Learning1 (ML, aprendizado de máquina
em português) (ABU-MOSTAFA; LIN; MAGDON-ISMAIL, 2012;
GRON, 2017). As técnicas de ML são utilizadas principalmente para
produzir predições a partir das observações. Por exemplo, podemos
estimar a área de cultivo de algum produto agrícola a partir de imagens de
satélite, ou prever as condições do tempo nos próximos dias a partir das
condições atuais e anteriores ao dia de hoje, ou ainda associar alguma das
categorias pré-estabelecidas a documentos a partir de seu conteúdo. As
possibilidades de aplicações são inúmeras.
Muito embora o tema inteligência computacional possa ser
discutido considerando-se um amplo escopo, neste texto restringimos as
discussões a machine learning. Evitamos deliberadamente associações
com inteligência, cognição ou aprendizagem e adotaremos uma
perspectiva computacional ao discorrer sobre as ideias e conceitos básicos
que sustentam as técnicas de ML. O objetivo deste texto é contribuir para
a construção de uma percepção mais técnica sobre ML e desta forma
ampliar a compreensão e enriquecer as discussões sobre o tema.
1 Neste texto decidimos manter a terminologia em inglês, Machine Learning, em vez de

sua tradução “Aprendizado de Máquina”, por entendermos que a terminologia em
inglês está suficientemente sedimentada em nosso país.
94
1 PROCESSAMENTO DE DADOS E COMPUTAÇÃO
Nesta seção revisitamos alguns conceitos e elementos da
computação e do processamento computacional, pois estes servirão
como pano de fundo para a apresentação de conceitos básicos de ML.
Computadores são máquinas que realizam processamento de dados e,
para que eles realizem os processamentos esperados, um programa de
computador (isto é, uma sequência de instruções de computador)
precisa ser construído para cada processamento específico. Muitos dos
programas implementados no computador podem ser vistos como a
concretização de uma solução computacional para um problema
computacional. Em geral, os problemas computacionais podem ser
caracterizados de forma abstrata por dois espaços de dados, um espaço
de entrada X e um espaço de saída Y, além de uma relação entre
elementos desses dois espaços. Tipicamente, a associação de cada
instância x ∈ X (isto é, um dado de entrada a ser processado) a uma
instância y ∈ Y (isto é, o resultado do processamento desse dado) é
definida por uma relação que estabelece o processamento almejado.
Uma solução computacional, por sua vez, é qualquer procedimento
computacional que realiza o processamento almejado.
Por exemplo, suponha que o processamento almejado seja a
conversão da duração de um evento registrado em termos de horas (h),
minutos (m) e segundos (s) para o total equivalente em termos de segundos
(ts). Assim, uma instância de entrada neste caso consiste de uma tripla x =
(h, m, s), três números inteiros representando horas, minutos e segundos
respectivamente, e a saída consiste de um número inteiro ts, representando
o total em segundos. Neste caso, a relação entre entrada e saída pode ser
descrita pela regra (fórmula matemática) ts = h×3600 + m×60 + s, a qual
pode ser traduzida para uma solução computacional. Note que essa regra
pode ser aplicada para qualquer tripla x = (h, m, s).
Assim, de forma geral, problemas computacionais são
abstrações que acomodam diversas instâncias de um mesmo tipo de
processamento e podem ser caracterizados por entradas, saídas e uma
relação (mapeamento) entre elas. A solução de um problema
computacional envolve escolhas com respeito à estrutura de dados
(organização dos dados no computador) e um algoritmo (a lógica do
processamento, que define como os dados serão efetivamente
manipulados para que o efeito resultante seja o processamento
almejado) (WIRTH, 1978). Os cientistas da computação investigam
formas de abstrair processamentos, modelando-os como problemas
computacionais, e estudam estruturas de dados e algoritmos eficientes
95
para solucionar o problema computacional. Uma solução efetiva deve
processar corretamente qualquer instância do problema. Alguns
exemplos de problemas para os quais há algoritmos bem conhecidos
são: ordenação de um conjunto de itens em ordem crescente,
multiplicação de duas matrizes, busca de ocorrências de uma
determinada palavra dentro de um texto.
Muitos problemas computacionais são, porém, caracterizados por
uma relação entrada-saída complexa ou desconhecida, dificultando ou
impedindo a descrição de uma solução computacional. Por exemplo, em
um problema de reconhecimento de caracteres de um alfabeto,
tipicamente desejamos desenvolver um sistema computacional capaz de
associar à imagem de um caractere a identidade do caractere retratado.
Esta tarefa é trivial para qualquer conhecedor do alfabeto em questão. No
entanto, escrever as regras de processamento computacional para esse tipo
de tarefa não é trivial. Ainda que se possa escrever regras que funcionem
para algumas instâncias, é praticamente certo que elas não funcionarão
adequadamente para outras instâncias com características distintas. Neste
caso, as regras precisarão ser adaptadas ou reescritas. Isto afeta
diretamente o esforço e tempo necessários para o desenvolvimento de
soluções computacionais para esse tipo de problema. Este tipo de situação
sugere soluções automatizadas e, principalmente, reutilizáveis. Neste
sentido, convém observar que nesse problema de reconhecimento de
caracteres e tantos outros, mesmo que a escrita de uma regra de
reconhecimento seja difícil, a enumeração de exemplos de instâncias
entrada-saída é simples. Assim, uma possibilidade interessante seria
contarmos com abordagens que, baseadas apenas em exemplos entrada-
saída, sejam capazes de gerar um programa de computador que realiza o
mapeamento de instâncias de entrada para as respectivas saídas. Uma
significativa parte das técnicas de ML encaixa-se nessa abordagem,
conforme detalhado na próxima seção.
2 MACHINE LEARNING
Para introduzir algumas ideias e conceitos centrais em ML,
consideramos alguns problemas concretos simples. Apresentamos exemplos
de regressão e classificação, os dois tipos de problemas mais comuns em
ML, e em seguida enfatizamos alguns conceitos básicos de ML, fazendo
também a relação com as questões discutidas na seção anterior.
96
2.1 Exemplo de regressão
Consideramos inicialmente o seguinte problema: gostaríamos
de estimar o peso de uma pessoa baseado em sua altura. Neste caso, o
espaço de entrada X é formado por números (altura em centímetros,
possivelmente variando entre algumas dezenas de centímetros até
pouco mais de duas centenas de centímetros) e o espaço de saída Y
também é formado por números (pesos em Kg). Cada instância no
espaço de entrada estará associada a um peso no espaço de saída. Neste
problema em específico, podem existir mais de uma instância com
mesmo valor em X e valores distintos em Y, ou vice-versa. Isto é, duas
pessoas distintas com mesma altura podem ter pesos diferentes e,
analogamente, duas pessoas com pesos iguais podem ter alturas
diferentes. Graficamente, um exemplo entrada-saída (isto é, um par
altura-peso) pode ser representado por um ponto no plano, conforme
ilustrado no gráfico da figura 1.
Figura 1 – Exemplos de pares altura-peso, desenhados como pontos, com destaque ao

par (177,7 ; 85,6).
97
Figura 2 - Uma função linear (desenhada como um segmento de reta) representando a
relação entre altura e peso. Em destaque a diferença |y-ŷ| entre o valor de saída
esperado y e o valor de saída ŷ predito pela função.
O problema de estimar o peso de uma pessoa, dada a altura da

mesma, pode ser visto como um problema de regressão. No exemplo
considerado, supomos que há uma relação linear entre altura e peso,
expressa por uma equação y = w0 + w1x, conforme ilustrado no gráfico
da figura 2. Dada uma altura qualquer x, podemos estimar o peso
associado calculando-se ŷ = w0 + w1x. Esse cálculo é simplesmente a
concretização de uma regra. Gostaríamos então de ajustar os dois
parâmetros desta equação (ou regra), w0 e w1, de forma que a regra
seja a mais correta possível. A noção de mais correta possível é um
tanto vaga e portanto é conveniente que seja definida de forma precisa.
Geralmente definimos uma métrica de erro — por exemplo, a
diferença absoluta entre y (o peso conhecido) e ŷ (o peso estimado pela
regra), i.e., |y − ŷ|. A regra mais correta é então aquela com menor
erro médio. Na figura 2 podemos ver, para a reta dada, a diferença |y
− ŷ| relativa a um dos exemplos em destaque. Se temos N exemplos
(x(i), y(i)), i = 1,...,N, então queremos que o erro médio |y(i) −ŷ(i)|
98
seja o menor possível. Ao se alterar os valores dos parâmetros w0 e w1
que definem a reta, esse erro pode variar para mais ou para menos (já
que ŷ depende desses parâmetros). Queremos encontrar então os
valores para w0 e w1 que correspondam ao menor erro médio possível.
O exemplo acima é um caso de regressão linear simples. Trata-
se de regressão linear pois estamos supondo que a relação entre a
entrada x e a saída y é linear. Usamos aqui o termo simples para nos
referirmos à dimensão do espaço de entrada, que neste caso é um
(apenas uma variável, a altura). Note também que outras métricas de
erro podem ser usadas. No caso de regressão linear, é comum o uso do
erro quadrático (ou quadrado das diferenças, (y − ŷ)2), uma vez que
existe uma solução matemática que permite o cálculo dos valores
ótimos para os parâmetros diretamente a partir dos exemplos (x(i), y(i))
disponíveis (HASTIE; TIBSHIRANI; FRIEDMAN, 2009; ABU-
MOSTAFA; LIN; MAGDON-ISMAIL, 2012). A função que define o
erro a ser minimizado é comumente conhecida por função de perda.
Em casos gerais, o problema de encontrar os parâmetros ótimos pode
ser formulado matematicamente como um problema de otimização,
especificamente de minimização da função de perda, para o qual
existem técnicas diversas que calculam a solução ótima ou uma solução
aproximada (BAZARAA, 2013; SRA; NOWOZIN; WRIGHT, 2011).
2.2 Exemplo de classificação

Consideramos agora um outro problema, um problema de
classificação, usando dados do mesmo contexto. Desta vez, desejamos
determinar o gênero de uma pessoa, feminino ou masculino, baseado
apenas em sua altura. No gráfico da figura 3, é ilustrada uma
distribuição de probabilidade (fictícia) da altura de pessoas dos
gêneros feminino e masculino. Podemos observar que a altura média
de pessoas do gênero feminino está em torno de 162cm enquanto que
das de gênero masculino está em torno de 175cm. Podemos também
ver que, à esquerda de 168,9cm há mais pessoas do gênero feminino e
à direita das de gênero masculino. Assim, uma regra natural para
determinar o gênero baseado em altura poderia simplesmente ser: se a
altura é menor que 168,9cm, então a pessoa é do gênero feminino e
caso contrário é do gênero masculino. Esta regra não é infalível, mas
dentre as regras que utilizam apenas a informação de altura, é a que
tem a menor probabilidade de erro.
99
Figura 3 - Distribuição (fictícia) de pessoas de gêneros feminino e masculino com
respeito à altura. A fronteira indicada em 168,9cm por meio de uma linha vertical
tracejada pode ser usada para classificar (aproximadamente) o gênero das pessoas em
função de suas alturas.
(a) (b)
Figura 4 – Distribuição (fictícia) de pessoas de gêneros feminino e masculino com respeito

à altura e peso. A fronteira indicada por meio de uma linha reta pode ser usada para
classificar (aproximadamente) o gênero das pessoas em função de suas alturas e pesos.
100
Retomando o mesmo problema, supomos desta vez que além
da altura, temos também o peso das pessoas. O gráfico da figura 4
ilustra a distribuição, na qual os elipsoides indicam as curvas de nível da
distribuição. O pico dessas distribuições encontra-se aproximadamente
nos pontos (162, 60) no caso das pessoas de gênero feminino e em (175,
85) no caso das pessoas de gênero masculino. Uma possível regra para
determinar o gênero pode ser baseada no segmento de reta traçado sobre
o gráfico. Essa reta consiste dos pontos (x1, x2) (x1 representando a altura
e x2 representando o peso) que satisfazem a equação w0 + w1x1 + w2x2 = 0,
para alguns valores particulares de w0, w1 e w2 (que não são relevantes
serem especificados neste momento). Os pontos abaixo dessa reta são tais
que w0 +w1x1 +w2x2 < 0 e os pontos acima dela são tais que w0 +w1x1 +w2x2
> 0. Esta reta é denominada fronteira de decisão. Assim, para se
determinar o gênero de uma pessoa baseado em sua altura e peso, basta
calcularmos o valor da expressão w0 + w1x1 + w2x2, que indicará se
estamos de um lado ou outro em relação à fronteira. Note que, no caso
da figura 3, no qual consideramos apenas a variável x1 (altura), uma
expressão similar pode ser escrita: w0 + w1x1 = 0 e, em particular, se
fixarmos w0 = 168,9 e w1 = 1 temos 168,9 + x1 < 0 se, e somente se, x1 <
168,9 (que corresponde à regra discutida acima).
Analogamente, podemos considerar uma situação ampliada na
qual além da altura e peso temos também a idade das pessoas. Neste
caso, cada pessoa seria representada por três variáveis, x1 (altura), x2
(peso) e x3 (idade), e a tripla (x1, x2, x3) seria um ponto no espaço
tridimensional. De forma análoga ao detalhado acima, um plano no
espaço tri-dimensional poderia ser usado para separar de um lado a
maior parte das pessoas do gênero feminino e de outro lado a maior
parte das pessoas do gênero masculino.
Na discussão acima, recorremos a uma inspeção visual da
distribuição dos dados mostrados nos gráficos para elaborar as regras
de decisão. Na prática, além da dificuldade de se visualizar espaços de
dimensão maior que dois, em geral não temos uma caracterização clara
da distribuição dos dados. O que temos são apenas um conjunto de
observações, como os pontos ilustrados na figura 5.
101
Figura 5 – Exemplos gerados por uma distribuição (fictícia) de altura de pessoas de
gêneros feminino e masculino (gráfico superior) e de altura e peso (gráfico inferior).
102
Mesmo sem conhecermos a distribuição associada aos dados,
podemos buscar as fronteiras de decisão levando em consideração
apenas as observações disponíveis. No caso das observações do tipo
(x1, x2), traçamos uma reta de forma similar à ilustrada na figura 4.
Para traçar uma reta dessas, pode-se escolher os coeficientes (ou
parâmetros) w0, w1 e w2 da função linear w0 + w1x1 + w2x2 de tal forma
que o maior número possível das observações fique do lado correto em
relação à reta definida por essa função linear. Um algoritmo,
conhecido por regressão logística, usado em problemas de
classificação, faz exatamente isso. Sua formulação é geral e portanto
ele é capaz de fazer esse ajuste de parâmetros para dados em espaços
de dimensão finita n arbitrária. Enquanto a fronteira de decisão no
espaço de dimensão dois é uma reta, no espaço de dimensão n é um
hiperplano definido por uma função linear w0 + w1x1 + w2x2 + ··· + wnxn,
com n+1 parâmetros. Os parâmetros ótimos desse tipo de função
linear são obtidos minimizando-se uma função de perda denominada
entropia cruzada. Note que existem diferentes retas que separam os
pontos de forma idêntica e que diferentes conjuntos de observações
podem resultar em diferentes retas. O detalhamento sobre essa função
de perda e sobre como esse ajuste é realizado está fora do escopo deste
texto e detalhes podem ser encontrados por exemplo em (ABU-
MOSTAFA; LIN; MAGDON-ISMAIL, 2012).
2.3 Perspectiva computacional

Nos exemplos de regressão e classificação acima, vemos
claramente os espaços de entrada e de saída. Na formulação geral, em
regressão as entradas são pontos em Rn (espaço euclidiano n-
dimensional) e as saídas são pontos em R (reta real); em classificação as
entradas são também pontos em Rn e as saídas são rótulos de classe (no
exemplo visto acima, feminino ou masculino, que podem ser
codificados, por exemplo, por -1 e +1). Não é difícil perceber que
problemas similares de outros contextos, com outros tipos de variáveis e
relações entre entrada e saída, podem ser acomodados nesta mesma
formulação. Por exemplo, a mesma formulação acima para se estimar o
peso das pessoas a partir de suas alturas pode ser facilmente adaptada ao
problema de se estimar o preço de imóveis baseado na área construída
dos mesmos. No entanto, as regras que mapeiam instâncias da entrada
para as respectivas saídas são específicas e em geral não-simples, sendo
altamente dependentes do contexto do problema. Com respeito a esses
103
aspectos, note que nos exemplos acima, em vez de escrever um
algoritmo específico para cada problema, transformamos o problema
inicial para um outro problema. Mais especificamente, no problema de
regressão, a solução considerada buscou ajustar aos dados uma função
linear (a função y = w0 + w1x) e, no problema de classificação, uma
fronteira de decisão w0 + w1x + w2x2 = 0. Desta forma, podemos pensar
que as funções lineares correspondem a um modelo genérico que pode
definir uma vasta gama de processamentos de natureza similar, porém
distintos uns dos outros. Ao fixarmos os valores dos parâmetros do
modelo genérico, obtém-se um modelo específico.
Os algoritmos de ML operam para encontrar esses parâmetros,
fazendo uso dos exemplos (dados) disponíveis, e de tal forma que o erro
com respeito a esses exemplos seja minimizado. Isto, em um primeiro
momento, pode causar uma certa confusão ou estranheza, pois afinal
estamos querendo um programa de computador para processar uma
entrada x para obtermos a saída (o correspondente resultado esperado y).
No entanto, estamos dizendo que o ajuste de parâmetros do modelo
genérico é realizado utilizando-se justamente de um conjunto de
exemplos processados D = {(x(1), y(1)),(x(2), y(2)), . . . ,(x(N), y(N))}. Neste
ponto do texto, convém recordarmos o que afirmamos anteriormente
sobre problemas computacionais para os quais não temos algoritmos mas
para os quais somos capazes de listar exemplos de entrada-saída. O
conjunto de dados D é geralmente construído manualmente. O problema
de reconhecimento de caracteres citado na seção anterior é um desses
problemas; dadas imagens de caracteres, podemos facilmente associar a
identidade correta a elas. Outro exemplo encontra-se na área médica, na
qual algumas doenças só podem ser diagnosticadas por meio de exames
complexos e muitas vezes custosos. Nessas condições, pode-se
questionar se existem formas alternativas para o diagnóstico. Podemos
aproveitar informações sobre sintomas e outros dados clínicos do
paciente e avaliar se os mesmos serviriam para diagnóstico.
Especificamente, supondo que temos um conjunto de pacientes que já
foram diagnosticados (como doente ou saudável) por meio do exame
custoso, podemos usar as outras informações desses pacientes como
dado de entrada e o resultado do diagnóstico como saída em uma
formulação de um problema de classificação. Caso os algoritmos de ML
consigam realizar a classificação de forma correta, isto indicaria que os
dados de entrada utilizados podem ser suficientes para o diagnóstico,
sem a necessidade de exames custosos.
104
A abordagem de adotar um modelo genérico de processamento
e ajustar seus parâmetros de acordo com os dados disponíveis, a ideia
central explorada em ML, tem duas características interessantes: (1)
permite tratar problemas nos quais os algoritmos não são simples de
serem concebidos; (2) abarca uma grande gama de instâncias de
problemas do mesmo tipo, sem restrições sobre a semântica associada
aos dados e também sobre a relação entre entrada e saída. De certa
forma, podemos dizer então que os algoritmos de ML funcionam como
uma espécie de meta-programação, uma vez que eles geram o
equivalente a programas de computador, atendendo assim as
expectativas de automação e reutilização mencionadas na seção anterior.
2.4 Processos de ML
Os exemplos acima, tanto de regressão como de classificação,
ilustram casos de aprendizado supervisionado, no qual os dados
disponíveis são da forma (x, y), com x ∈ Rn correspondendo a uma
instância do espaço de entrada X, e y correspondendo a uma instância
do espaço de saída Y. O termo “supervisionado” refere-se ao fato de
que é conhecida a saída y associada a cada observação x. Os dados
rotulados, isto é, essas observações x com os respectivos valores de
saída y, formam o chamado conjunto de treinamento, usado para
fazer o ajuste dos parâmetros do modelo genérico. Em contraposição
ao aprendizado supervisionado, existem também as técnicas que são
conhecidas por aprendizado não-supervisionado, as quais não serão
abordadas neste texto. Tratam-se de técnicas úteis em situações nas
quais pouco ou nenhum conhecimento sobre o espaço de saída está
disponível. Um exemplo de técnica não-supervisionada bastante
utilizada é o cálculo de aglomerados, útil para uma análise exploratória
de dados (JOHNSON; WICHERN, 1992).
Em um problema de aprendizado supervisionado, partimos de um
problema computacional caracterizado em termos de exemplos de entrada-
saída. Os componentes principais de sua formulação são os seguintes:
• Assume-se que existe uma relação entre as instâncias de entrada
x e as respectivas saídas y e que é plausível que essa relação seja expressa
ou aproximada por um mapeamento (uma função y = h(x)).
• Assume-se que temos um conjunto D = {(x(1), y(1)),(x(2), y(2)),
. . . ,(x(N), y(N))} com N exemplos entrada-saída do processamento
(relação) almejado.
105
• Assume-se um espaço de funções H = {h : X → Y }, que
corresponde a um modelo genérico de mapeamento; no exemplo
discutido acima, H é a família de funções lineares w0 + w1x1 + w2x2 + ···
+ wnxn com parâmetros w0, w1, ... , wn; ao se fixar os valores do
parâmetro, tem-se um mapeamento específico;
• Define-se uma função de perda e com isso para cada h ∈ H
pode-se associar uma perda, que mede a sua habilidade em mapear
instâncias x ∈ D à respectiva saída (especificamente, mede a
discrepância entre a saída estimada ŷ e a saída esperada y).
O diagrama da figura 6 mostra o processo de treinamento e de
predição (ou teste) em ML. Os espaços X e Y correspondem
respectivamente ao universo de possíveis instâncias de entrada e
respectivas saídas, governadas por uma distribuição de probabilidade
conjunta. Um algoritmo de ML faz uso de um conjunto de exemplos D
(observações oriundas do espaço X × Y ), um modelo genérico, e uma
função de perda, para realizar o ajuste de parâmetros do modelo
genérico. Ao final do ajuste, produzirá um modelo treinado, que na
prática é um programa de computador. Esse é o processo conhecido
por treinamento, destacado na figura pelo contorno tracejado. Uma
vez que um modelo treinado esteja disponível, então ele pode ser
utilizado para gerar, para qualquer observação x, uma saída ou
predição ŷ (parte destacada pelo contorno pontilhado).
Figura 6 - Esquema do processo de treinamento e predição (teste) em ML.
106
2.5 Exemplos de algoritmos
Além dos algoritmos brevemente discutidos acima, existem
vários outros. Por exemplo, SVM (CORTES; VAPNIK, 1995) é um
algoritmo que em problemas de classificação busca também encontrar
uma fronteira de decisão linear; a ideia central explorada pelo SVM é
buscar uma fronteira que maximiza a margem (a distância entre a
fronteira de decisão e os pontos do conjunto de treinamento). Além
disso, SVMs podem também produzir fronteiras de decisão não
lineares utilizando-se de uma técnica conhecida por kernel trick
(SCHOLKOPF; SMOLA, 2001). O kernel é um dos parâmetros que
podem ser especificados para o treinamento do SVM.
Outro exemplo de algoritmo bastante utilizado são as redes
neurais (NIELSEN, 2015). As redes neurais são composições de
múltiplas unidades do tipo similares a um classificador logístico,
consistindo de uma sequência de camadas com múltiplos nós cada.
Matematicamente, é a implementação de uma composição múltipla de
funções básicas. Cada uma dessas unidades possui o seu próprio conjunto
de parâmetros, o que confere uma grande flexibilidade ao poder de
expressão das redes neurais. O treinamento de redes neurais é, de certa
forma, similar ao treinamento de um classificador logístico. A diferença
principal entre eles é o fato do classificador logístico consistir de uma
única unidade enquanto uma rede neural consiste de uma composição de
múltiplas unidades. Assim, o ajuste de parâmetros de redes neurais requer
uma computação mais elaborada. Porém, do ponto de vista matemático,
os princípios empregados para a otimização da função de perda em ambos
os casos são os mesmos.
Um terceiro exemplo de algoritmos de ML são as árvores de
decisão (DT, do inglês Decision Tree) (BREIMAN et al., 1984). Árvores de
decisão realizam bipartições sucessivas do espaço Rn, por meio de
hiperplanos ortogonais ao eixo correspondente a uma das variáveis. Um
hiperplano ortogonal a uma variável xj está associado a uma verificação do
tipo “ xj >T ” (T é o ponto no eixo de xj pelo qual passa o hiperplano).
Assim, dada uma instância (um ponto em Rn), pode-se facilmente verificar
se ela está de um lado ou outro em relação a esse hiperplano. Cada um dos
lados é sucessivamente biparticionado, até que as regiões resultantes
contenham instâncias de entrada x suficientemente homogêneas com
respeito aos valores de saída y. O treinamento de uma DT consiste em
construir essa sequência de bipartições, buscando maximizar a
homogeneidade nas regiões resultantes. A predição consiste em percorrer
107
sucessivamente a sequência de verificações, até se atingir uma região
homogênea, que determina o valor da saída. Cada verificação está
associada a uma ramificação que nos leva a um ou outro lado do hiperplano
associado. Por esta razão o algoritmo recebe o nome de árvore de decisão.
2.5.1 Deep learning

Atualmente fala-se bastante em Deep Learning (DL)
(GOODFELLOW; BENGIO; COURVILLE, 2016). Para discorrer sobre a
essência de DL, recorremos novamente ao ponto de vista computacional.
Os algoritmos tradicionais de ML requerem em geral que os dados a serem
processados sejam representados por um ponto x ∈ Rn, cujos componentes
são comumente denominados características. O diagrama da figura 7
ilustra um pipeline de processamento de dados típico que inclui ML, desde
a coleta de dados até a geração do modelo treinado. Note que várias etapas
precedem o treinamento propriamente dito. Os dados coletados muitas
vezes encontram-se em estado bruto e deles precisam ser extraídas as
características e/ou eventualmente selecionadas apenas aquelas que são
relevantes. A extração de características é uma etapa comum quando os
dados de entrada são não estruturados, como é o caso das imagens, áudio,
texto ou vídeo. Se por um lado o desenvolvimento de ML teve como efeito
o alívio no esforço empenhado para o desenho de algoritmos, produziu
como efeito colateral a necessidade de empenhar esforços para encontrar
boas representações dos dados (converter dados brutos em um conjunto de
características representativas). Com o aumento e complexidade dos dados
e do processamento almejado, naturalmente a extração manual de
características em tempo hábil também começou a se tornar inviável.
108
Figura 7 – Etapas em um pipeline de ML, desde a coleta de dados até a geração de um
modelo treinado. As etapas na região contornada pela linha tracejada estão
implicitamente integradas nas técnicas de deep learning, enquanto nas técnicas de ML
tradicional as etapas destacadas por retângulos com borda dupla são executadas
individualmente. As etapas iniciais do pipeline, fora da região de contorno tracejado,
ainda dependem bastante da ação manual.
Deep learning (DL) é uma abordagem mais recente na área de

ML que floresceu neste cenário de abundância de dados e disponibilidade
de maior poder computacional. Essencialmente são redes neurais, muito
maiores em termos de número de parâmetros, com arquiteturas maiores e
mais complexas, possivelmente consistindo de múltiplos módulos. Uma
das características atribuídas a eles é sua capacidade de implicitamente
encontrar representações úteis para o processamento almejado. As várias
camadas das redes podem ser interpretadas como transformações
sucessivas de representação dos dados, desde o formato bruto na entrada,
até a saída esperada ao final da rede. Assim, as camadas iniciais da rede
podem ser interpretadas como um processo de extração de características.
Desta forma, em muitas aplicações as técnicas de deep learning dispensam
a necessidade de extração explícita de características. Com isso, o esforço
do analista de dados passa a ser direcionado para a coleta de dados e o
preparo dos dados de treinamento. A parte de processamento que busca
uma representação adequada dos dados fica a cargo do algoritmo de DL.
Outro aspecto interessante de algoritmos de DL é que a composição de
módulos permite modelar pipelines de processamento mais complexos que
podem ser otimizados conjuntamente e não passo a passo, ampliando as
109
possibilidades de aplicações de ML. Por exemplo, na área de análise de
imagens, as técnicas de deep learning são capazes de processar uma
imagem contendo objetos e gerar na saída a localização e identificação
dos objetos presentes na imagem (ZHAO, 2019). Em processamento de
linguagem natural, as técnicas de DL são capazes de processar frases
inteiras (por exemplo em português) e gerar uma outra frase (por
exemplo, a frase em português vertida para inglês) (POPEL, 2020).
2.6 Aspectos práticos

Um treinamento pode ser considerado um sucesso quando o
modelo treinado é capaz de fazer predições acuradas, com pouco erro,
não somente com respeito aos dados usados no processo de treinamento,
mas também com respeito às demais instâncias de X. Diversos fatores
podem afetar o desempenho do modelo final. A quantidade de
observações disponíveis é um fator crítico; em geral, quanto mais
complexo é o modelo genérico de mapeamento – isto é, quanto maior o
número de parâmetros efetivos a serem ajustados, maior tende a ser a
quantidade de dados necessária para se obter bons resultados. O modelo
genérico H utilizado também pode afetar o desempenho. Por exemplo,
as funções lineares exploradas nos exemplos de classificação acima são
capazes de representar apenas uma fronteira de decisão linear
(hiperplano). No entanto, a distribuição dos exemplos no espaço pode
formar uma geometria mais complexa requerendo fronteiras de decisão
não lineares. Além disso, a determinação dos valores dos parâmetros é
totalmente influenciada pelo conjunto de dados disponíveis. Isto
significa que se outro conjunto de dados for utilizado, outros valores de
parâmetros poderão ser obtidos e portanto o resultado poderá ser
diferente. Enquanto isso pode parecer indesejável, o lado positivo é que
um mesmo algoritmo de ML pode ser empregado em diferentes
contextos, conforme já mencionado anteriormente. Diferentes técnicas e
estratégias existem para treinar modelos genéricos de forma que o
modelo treinado final apresente melhor desempenho com respeito a
dados novos, não utilizados no treinamento (ABU-MOSTAFA; LIN;
MAGDON-ISMAIL, 2012).
De forma geral, empregar ML em processamento de dados
requer a escolha de um algoritmo de ML (SVM, rede neural, árvore de
decisão, entre outros) e frequentemente também a escolha dos chamados
hiperparâmetros do algoritmo. Diferentemente dos parâmetros ajustados
pelo processo de treinamento, hiperparâmetros são configurações do
modelo que precisam ser especificadas pelo usuário. Por exemplo, no
110
caso do SVM, o usuário pode escolher o tipo de kernel a ser utilizado
pelo algoritmo; no caso de redes neurais, o usuário pode escolher a
arquitetura da rede neural (por exemplo, quantas unidades e como elas
serão compostas). Em ambos os casos, pode-se também escolher a
função de perda. Todas essas escolhas podem afetar o desempenho do
modelo final. Desta forma, conhecimentos técnicos sobre esses métodos,
assim como experiência no uso deles, mostram-se importantes para uma
escolha acertada. Em particular, a avaliação de desempenho desses
modelos requer que os algoritmos de ML sejam compreendidos também
sob um ponto de vista estatístico.
Na prática observa-se também que muitas vezes o maior
desafio está na formulação de um problema computacional que possa
ser abordado por técnicas de ML. A formulação de um problema de
ML requer uma definição sobre quais são as entradas e as saídas do
processamento, um mínimo de evidências de que há uma relação entre
elas, e a escolha de algoritmos apropriados. Assim, a compreensão
sobre ML não se resume apenas à compreensão sobre como funcionam
e como ocorre a aplicação de algoritmos de ML, mas inclui também a
capacidade de formulação de problemas computacionais.
Apresentamos uma visão geral e introdutória sobre Machine
Learning a partir de um ponto de vista computacional. O foco da
apresentação foi o aprendizado supervisionado, caso no qual estão
disponíveis exemplos de entrada-saída do processamento almejado.
Argumentamos que, do ponto de vista computacional, ML pode ser
visto como uma forma de meta-programação: em vez de desenhar os
algoritmos e programá-los manualmente, utilizamos algoritmos de ML
que baseiam-se em dados de treinamento para ajustar os parâmetros de
um modelo genérico de processamento para gerar um modelo treinado
que funciona como o programa desejado. O treinamento é realizado de
tal forma que o modelo treinado realize um mapeamento entrada-saída
que seja consistente não só com os exemplos de treinamento, mas
também com respeito a outros exemplos novos. Para avaliar e melhorar
o desempenho dos modelos treinados, o entendimento do processo de
ML de um ponto de vista estatístico, aspecto não abordado neste texto,
é também importante.
O nome ML, Machine Learning, pode induzir a uma falsa
percepção de que as máquinas aprendem algo. Na atual situação, as
111
máquinas podem ser treinadas no sentido descrito neste texto e esse
treinamento depende, além da disponibilidade de dados de treinamento e
escolha de um modelo genérico adequado, do critério de erro a ser
minimizado. A escolha desses componentes ainda depende fortemente da
ação do usuário. De fato, os desafios da aplicação de técnicas de ML não
se restringem a compreender minimamente os conceitos e fundamentos
nos quais elas se apoiam; dependem bastante da habilidade do analista de
dados em identificar problemas computacionais que possam ser
modelados como problemas de ML, e a prática mostra que isso em geral
não é uma tarefa simples pois requer conhecimentos multidisciplinares.
O texto buscou uma apresentação que privilegia a formação e
ampliação de uma visão mais técnica sobre ML, enfatizando ideias e
conceitos básicos matemáticos e computacionais. O processamento
computacional foi utilizado como pano de fundo, uma vez que
acreditamos que a capacidade de identificar problemas computacionais
relevantes em um processo de análise de dados é um dos primeiros
passos para um emprego bem sucedido de técnicas de ML. Vários
aspectos e questões relacionados ao tema Machine Learning sequer
foram mencionados neste texto. Em particular, deixamos de lado
referências a aspectos como inteligência, cognição e aprendizagem,
que são também discussões importantes, porém mais apropriadas em
outra oportunidade. Esperamos que este texto possa contribuir para a
ampliação do interesse e compreensão sobre machine learning.
REFERÊNCIAS
ABU-MOSTAFA, Y. S.; LIN, H.-T.; MAGDON-ISMAIL, M. Learning
From Data. AMLBook, 2012.
BAZARAA, M. S. Nonlinear Programming: Theory and Algorithms. 3rd.
ed. Wiley Publishing, 2013. ISBN 1118857569.
BREIMAN, L. et al. Classification and Regression Trees. Monterey,
Wadsworth and Brooks, 1984.
CORTES, C.; VAPNIK, V. Support-vector networks. Mach. Learn., Kluwer
Academic Publishers, USA, v. 20, n. 3, p. 273–297, 1995. ISSN 0885-6125.
Disponível em: https://doi.org/10.1023/A:1022627411411.
DAVIS, E. Recent Critiques of Big Data: Small Bibliography.
https://cs.nyu.edu/faculty/davise/papers/BigDataBib.html. Acessado em 12 de
Julho de 2020.
GOODFELLOW, I.; BENGIO, Y.; COURVILLE, A. Deep Learning. MIT
Press, 2016. http://www.deeplearningbook.org.
112
GRON, A. Hands-On Machine Learning with Scikit-Learn and
TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems.
1st. ed. O’Reilly Media, Inc., 2017. ISBN 1491962291.
HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. The Elements of Statistical
Learning: Data Mining, Inference, and Prediction. Second. Springer, 2009.
HEY, T.; TANSLEY, S.; TOLLE, K. (Ed.). The Fourth Paradigm: Data-
Intensive Scientific Discovery. Redmond, Washington: Microsoft Research, 2009.
JOHNSON, R. A.; WICHERN, D. W. Applied Multivariate Statistical
Analysis. Prentice-Hall, 1992.
NIELSEN, M. A. Neural Networks and Deep Learning. Determination
Press, 2015.
OECD. Artificial Intelligence in Society, OECD Publishing, Paris, 2019
https://doi.org/10.1787/eedfee77-en
POPEL, M., TOMKOVA, M., TOMEK, J. et al. Transforming machine
translation: a deep learning system reaches news translation quality
comparable to human professionals. Nat Commun 11, 4381 (2020).
https://doi.org/10.1038/s41467-020-18073-9
SCHOLKOPF, B.; SMOLA, A. J. Learning with Kernels: Support Vector
Machines, Regularization, Optimization, and Beyond. Cambridge, MA, USA:
MIT Press, 2001. ISBN 0262194759.
SRA, S.; NOWOZIN, S.; WRIGHT, S. J. Optimization for Machine
Learning. The MIT Press, 2011. ISBN 026201646X.
WIRTH, N. Algorithms + Data Structures = Programs, 1978.
Z. Zhao, P. Zheng, S. Xu and X. Wu. Object Detection With Deep
Learning: A Review, IEEE Transactions on Neural Networks and Learning
Systems, vol. 30, no. 11, pp. 3212-3232, 2019.
113
A ALGORITMIZAÇÃO A PARTIR DOS
ATORES DO ACESSO A DADOS
Ricardo César Gonçalves Sant’Ana
[...] quem intercepta a informação engorda e

enriquece; mas, inversamente, ao pôr em
desordem os hábitos, pode fazer bifurcar sobre
novas formas de vida o par formado por ele e o
hospedeiro, forçando-o a inventar uma simbiose.
(Michel Serres, Hominescências, 2003, p.183)
INTRODUÇÃO
Sentimos, e ainda sentiremos nos próximos anos, os impactos
resultantes de profundas mudanças na forma como se acessa, usa e
compartilha informações. Passamos a ter acesso a imensas quantidades
de dados, nas mais variadas formas e ao alcance de um toque no
dispositivo. Até mesmo esta definição de toque como ação humana na
interface, que já foi uma inovação, começa a ser substituída por um
gesto, uma fala, ampliando, assim, a proximidade homem máquina nos
processos de interação. Os próximos passos podem estar relacionados à
previsão do que viríamos a precisar, antecipando demandas, tornando
as interfaces ainda mais intuitivas e, ao mesmo tempo, mais inscientes
ao usuário. O campo informacional (SANT’ANA, 2019), o qual
estamos submetidos, ganha densidade de forma mais rápida do que
nossa capacidade de fazer uso deste novo cenário.
Ganha relevância crescente, portanto, a necessidade de reflexões
sobre os impactos desse novo cenário de fluxos informacionais e seus
atores no tecido social e no cotidiano de todos nós. Será que é factível o
acompanhamento e controle dos processos de tratamento de dados e a
própria interpretação des conteúdos nos ambientes digitais? Em sendo
possível, a quem caberia e com que grau de confiança e transparência?
Com a mediação da tecnologia no acesso aos conteúdos
informacionais, a participação e a real capacidade de cada ator controlar
ou até mesmo a percepção do volume de processos em que está
115
envolvido passa a ser encapsulada, como forma de convivência, diante
de tamanha complexidade. a situaçao pode ser comparada, de forma
ilustrativa, com a de acelerarmos um automóvel, em que não
precisamos entender como funcionam os mecanismos de alimentação de
combustível para o motor; simplesmente somos conscientes do
dispositivo de interação que nos permite aumentar ou diminuir tal fluxo.
Os suportes digitais contemporâneos, diferente dos anteriores,
exigem várias transformações de conteúdos, que precisam ser
traduzidos em energias, formatos e estruturas próprias para cada
camada de interação. Há um longo percurso da coleta aos dispositivos
de input, passando pelas camadas de comunicação, interação,
tratamento, armazenamento e finalmente chegando a novas camadas de
preparação para disponibilização, comunicação, interação até a entrega
para novos ciclos de acesso aos conteúdos. Essas seguidas
transformações e traduções compõem um conjunto de transduções
informacionais que diminuem a percepção dos atores envolvidos sobre
os detalhes presentes em cada uma delas, encapsulando a
complexidade das transduções, até mesmo para efeito de viabilidade de
uso nas distintas camadas de abstração.
A TRANSDUÇÃO INFORMACIONAL E SUAS

DIMENSÕES: DADOS E FUNCIONALIDADES
Com a participação da mediação tecnológica no acesso aos
conteúdos informacionais, incorporando mecanismos bastante distintos de
coleta, armazenamento e recuperação, emergem requisitos como a
participação de camadas de tradução. Essas camadas transformam os
conteúdos para que possam ser tratados por diferentes processos,
transformações essas que incluem distintas energias e cargas semânticas,
características de cada elemento neste processo. Esses processos de
transdução informacional (SANT’ANA, 2019) encapsulam grande parte
dos detalhes de como os dados são convertidos entre as diferentes camadas.
Mesmo com a necessidade inerente aos dispositivos digitais de
que cada uma de suas operações seja definida de forma explícita e
inequívoca, por meio de comandos claros e diretos, o volume e a
complexidade de tais comandos tornam inviável sua apreensão por
uma perspectiva baseada em recursos cognitivos essencialmente
humanos. As transduções informacionais nos dispositivos tecnológicos,
desde sua gênese, vêm sendo tratadas em duas dimensões
fundamentais, o que facilita sua compreensão e, principalmente, a
116
identificação de fatores e atores envolvidos no processo. A primeira
delas relacionada ao conteúdo e, portanto, aos dados, identifica “o que”
será coletado, armazenado, recuperado e descartado. Já a segunda, se
relaciona com as funções necessárias para lidar com esses conteúdos, é
o “como fazer”, que no caso dos dispositivos deve ser sempre definido
de forma clara e objetiva, explicitando, passo a passo, como será
operacionalizada cada uma das fases do acesso a dados.
Enquanto os dispositivos ainda não tinham capacidade de tratar
conteúdo, o que ocorria fora da mente humana se restringia ao
armazenamento de conteúdos; tratava-se do simples registro para acesso
posterior e todas as funções a serem realizadas sobre esses conteúdos
ficavam a cargo de trabalho humano. Computadores, com grande
capacidade de interpretar os dados, se viam às voltas com massivos
volumes de cálculo para então refazer o registro de dados processados
em novas camadas de informação. Os primeiros dispositivos
desenvolvidos para colaborar nesse processo atendiam a demanda de
cálculo, ou seja, instrumentalizavam a realização de operações
matemáticas básicas e, portanto, atendiam a dimensão função.
Apesar de grandes contribuições na dimensão das
funcionalidades, a busca pelo desenvolvimento de equipamentos que
pudessem auxiliar a realização de cálculos mais complexos teve seu
primeiro grande salto na dimensão dos dados. Tal salto foi dado com a
otimização do processo de registro por meio de técnicas, como a já
utilizada na época em processos repetitivos do setor têxtil, em que
dados eram armazenados em cartões perfurados.
A transposição dessa tecnologia para outros dados, tais como os
obtidos por processos, como o de levantamento censitário estatais, levou
ao desenvolvimento de suporte maquínico, já no final do século XIX,
para grandes volumes de dados. Seu uso ainda se restringia à dimensão
dos dados, mas a contribuição para a coleta e armazenamento de dados
era inegável, apresentando, no entanto, para recuperação funções mais
simples, principalmente aquelas relacionadas à obtenção de resultados
relacionados à seleção e soma a partir de grandes volumes de dados.
Apesar de suas limitações, já em 1890 o censo americano
passava a ser auxiliado por máquinas de cartões perfurados
(KISTERMANN, 1991). O uso desse suporte de dados ganhou
relevância crescente nas décadas seguintes e aplicações passaram a
surgir pelo mundo todo e nas mais diversas áreas, como a gestão de
empresas, logística e políticas públicas.
117
Em meados da década de 40 do século XX, demandas como as
da WWII aceleraram o interesse pela dimensão de funcionalidades,
que passou a ser o alvo dos maiores avanços, com o surgimento de
iniciativas que passavam a focar então, não só o registro mas também,
e principalmente, o tratamento de dados, propiciando o apoio
automatizado do processamento. Essa mudança de foco levou ao
deslocamento do conceito de computação de humano para maquínico,
sendo que a capacidade de processamento aumentou de tal forma que a
pressão por novos desenvolvimentos voltava à dimensão dos dados.
Este processo foi se alternando com fases de predomínio da dimensão
função, principalmente no período entre as décadas de 1940 e 1990, e
fases de predomínio da dimensão dados, entre o final do século XIX
até a década de 1940. Estamos, agora, em uma fase de predomínio da
dimensão dos dados, sendo acelerada, principalmente, no século XXI,
o que vem configurando o fenômeno denominado Big Data. Passamos
a ter, a nossa disposição, grandes Volumes, com ampla Variedade e
com alta Velocidade no acesso : os três Vs que caracterizam a situação
em que tais volumes de dados superam nossa capacidade de uso.
O principal motivo de se resgatar esse percurso histórico aqui é
demonstrar que, pressionada por e excedentes de oferta sem precedentes
de dados, a convergência de esforços tende, agora, a se deslocar de forma
acelerada em direção à dimensão funcional. Para atender a esses novos
requisitos impostos pelo Big Data, este novo balanço do pêndulo tende a
levar ao desenvolvimento de recursos que deverão ultrapassar limites que
antes cabiam exclusivamente a capacidades cognitivas humanas. É a
capacidade de interpretar resultados de grandes quantidades de dados,
devidamente sistematizados e tratados, envolvendo alto grau de abstração,
agora de forma automatizada, algoritmizada, que está em jogo.
A minimização da participação humana no processo de
interpretação, agregada à questão da insciência dos atores, inerente à
transdução informacional envolvendo um número crescente de camadas,
proporcionam um alto grau de encapsulamento da complexidade do
processo de acesso aos dados como um todo. Esse encapsulamento nos
processos de construção de “como” serão coletados, armazenados e
recuperados os “dados” acrescenta maior importância à identificação dos
principais atores envolvidos. Usuários passam a depender da atuação dos
detentores, nem sempre perceptíveis, mas que podem, intencionalmente
ou não, impor vieses aos resultados gerados pelos processos
automatizados de acordo com suas próprias agendas.
118
ATORES NO ACESSO A DADOS
Com o encapsulamento de processos informacionais, a
percepção de quem tem a responsabilidade de definir as diretrizes e
estabelecer quais procedimentos serão realizados (dimensão função)
passa a ser fundamental para que possamos estabelecer uma relação de
confiança com os conteúdos recuperados. Mas quem são os atores
envolvidos nesse processo? E qual o papel de cada um?
De um lado temos aqueles que utilizam o recurso para atender
suas necessidades informacionais e que, interagindo direta ou
indiretamente, não só dependem dele para acesso à informação como
também são aqueles que, conscientes ou não, são fontes de dados aos
sistemas. Podemos denominar esse ator como sendo o “usuário” (vide
figura 1). Ele é o alvo principal de áreas como a Ciência da Informação
e, pelo menos deveria ser, também da Ciência da Computação. Para os
demais atores, podemos considerar como referência a própria legislação
brasileira sobre proteção de dados pessoais (BRASIL, 2018) que
apresenta outros atores nesse processo.
Os dados muitas vezes estão relacionados ao que a legislação
aponta como titular: “pessoa natural a quem se referem os dados
pessoais que são objeto de tratamento” (BRASIL, 2018), que, para
efeito de nossa análise, vamos denominar de “referenciado”. O
referenciado, no âmbito do processo, pode nem mesmo ter ciência de
sua relação com tais dados, pois, diferentemente do usuário, não está
necessariamente em contato com o ciclo de vida de tais dados. O
usuário pode ser também considerado como referenciado, no caso de
haver possibilidade de vinculação de tais dados a ele.
Outro ator fundamental nesse cenário é aqui denominado de
“detentor”, pois é aquele que responde à posse e controle dos recursos
necessários para a instanciação e manutenção dos suportes e sistemas
que irão coletar, armazenar e permitir a recuperação dos dados, e que na
legislação é citado como “controlador: pessoa natural ou jurídica, de
direito público ou privado, a quem competem as decisões referentes ao
tratamento de dados” (BRASIL, 2018). É a ele que cabe o papel de
definir as estratégias e objetivos para os respectivos ciclos de vida dos
dados. Mas, geralmente, por envolver competências muito específicas e
requerer, inclusive, um trabalho interdisciplinar, o responsável pelo
desenvolvimento propriamente dito e pela operacionalização de tais
sistemas é outro ator, denominado aqui como “intermediário”. Ele
corresponde àquele que, na legislação, é definido como “pessoa natural
119
ou jurídica, de direito público ou privado, que realiza o tratamento de
dados pessoais em nome do controlador” e, ainda: “pessoa indicada pelo
controlador e operador para atuar como canal de comunicação entre o
controlador, os titulares dos dados e a Autoridade Nacional de Proteção
de Dados (ANPD)” (BRASIL, 2018).
Figura 1. Atores e o Ciclo de Vida dos Dados

Fonte: Adaptado de Sant’Ana, 2016.
O mais importante nesse cenário, para nossas reflexões neste

texto, é o alcance e controle de cada ator em relação às dimensões
envolvidas. Ao focarmos na dimensão dos dados, percebemos que
podemos ter maior possibilidade de acesso às camadas mais externas,
como a de recuperação, ou seja, às opções de acesso aos dados
disponibilizadas pelos recursos digitais.
Os usuários acabam por ter acesso à fase de coleta, mas com
baixa capacidade de controle, muitas vezes, inclusive, de forma
insciente (AFFONSO & SANT’ANA, 2018). Cabe destaque ao fato de
que os referenciados não precisam, necessariamente, de interação
prévia para que os dados a eles vinculados sejam utilizados. Já o
detentor estabelece uma relação de definição e controle sobre todas as
fases do ciclo de vida dos dados, inclusive por poder estabelecer uma
120
relação de autoridade sobre os intermediários, que acabam por ser
aqueles que realmente desenvolvem, instanciam e operacionalizam
todas as fases.
É na dimensão funcional que a questão da restrição de acesso
se acentua, aqui, até por especificidade das competências necessárias
para essa interação, são os intermediários que respondem totalmente
pela sua construção. Eles respondem aos detentores que, por
consequência, ficam responsáveis pelo estabelecimento de quais serão
os objetivos e diretrizes dos sistemas.
Assim, já não é passível de verificação e validação, por parte
dos demais atores, o real estabelecimento de “como” os dados serão
coletados, tratados, armazenados e disponibilizados. O detentor define;
os intermediários desenvolvem, e “cabe” aos usuários e à sociedade
como um todo, a confiança no que é declarado por eles ou, quando
muito, a validação por meio de busca de indícios a partir da fase de
recuperação (vide figura 1) do que realmente foi feito no ciclo de vida
dos dados.
Figura 2. Impacto da Algoritmização na construção da percepção do usuário sobre

outros atores. Fonte: do Autor
Assim, se considerarmos a presença necessária da camada de

interface nos sistemas envolvidos no ciclo de vida dos dados, em
virtude da necessária transdução informacional (vide figura 2),
podemos apontar que a percepção do que os dados tendem a apresentar
é, em grande parte, influenciada pelo detentor e por suas decisões, já
121
que mesmo os intermediários responderão também a eles. Percebemos,
assim, que o conjunto dos dados fica longe do alcance direto dos
usuários e, ainda mais distante, dos referenciados, o que tende a
dificultar as iniciativas de salvaguarda aos direitos, como aqueles
relacionados à privacidade.
ALGORITMIZAÇÃO
Ao considerar, em conjunto, os efeitos da abundante oferta de
dados, da crescente participação dos algoritmos nos processos que
requerem maior capacidade de abstração na interpretação e do
encapsulamento dos processos envolvidos nas diversas transduções
informacionais, chegamos a um cenário em que um número cada vez
menor de atores têm contato direto com todas as fases do ciclo de vida
dos dados.
Uma tendência crescente de substituição de trabalho humano
por meio do mapeamento de processos em suas respectivas “sequências
de passos” já vinha sendo alvo de esforços desde o advento e
disseminação dos recursos computacionais. Toda tarefa minimamente
repetitiva e passível de explicitação (conhecimento conceitual -> de
conhecimento tácito para conhecimento explícito) (NONAKA &
TAKEUCHI, 1997, p.81) em processos de externalização tenderá a ser
substituída por processos de automatização.
Mesmo a participação dos detentores tende a se deteriorar em
função da dificuldade crescente que tem se apresentado aos
intermediários na compreensão dos complexos e massivos conjuntos
de códigos necessários ao atendimento dos requisitos proporcionados
pelo fenômeno Big Data.
CONCLUSÃO PROVISÓRIA: REFLEXÕES E

PROVOCAÇÕES
Argumentamos neste artigo que aspectos como os relacionados
à privacidade de dados são agravados pela possível insciência dos
referenciados e do desconhecimento dos usuários em relação aos
detalhes sobre o que é feito com seus dados e, ainda, sobre o potencial
espectro de uso que tais dados apresentam.
A percepção, muitas vezes equivocada, de que conteúdos
resultantes de processamento automatizado tendem a ser mais
122
confiáveis, agrava ainda mais os efeitos que o encapsulamento gera na
relação dos diferentes atores com os conteúdos, uma espécie de
“dataísmo”, que proporciona uma confiabilidade, a priori, atribuída aos
recursos maquínicos.
Grande parte das atenções de pesquisadores e usuários têm se
voltado para a questão da abundância dos dados tornados disponíveis
graças ao Big Data, mas cabe lembrar que dados, enquanto conteúdos,
são inertes se não houver algoritmos capazes de tratá-los, e que esses
algoritmos são definidos e direcionados por poucos atores, longe do
olhar crítico do conjunto da sociedade. Agrava-se essa situação com a
complexidade adicionada por tecnologias como as propiciadas pela
automatização da própria elaboração dos algoritmos (Inteligência
Artificial, Deep Learning, Algoritmos Genéticos, entre outros).
Vivenciamos, assim a substituição mecânica de etapas no processo de
informação chegando às camadas superiores da participação humana,
gerando situações em que os próprios algoritmos encontram soluções
para os problemas. Nessas situações, nos cabe somente imaginar como
foram encontradas tais soluções por meio de indícios exteriores ao
processo, os intermediários se transformando em usuários, ou seja,
passando de condutores a passageiros.
Para os que temiam e para os que não acreditavam no cenário
proposto por obras de ficção como as de filmes como Matrix, cabe a
provocação: será que já não estamos imersos em um ambiente
simbiótico? Ambiente em que o humano e o maquínico se sobrepõem
em um amálgama que gera novas percepções de realidade e de metas
de sobrevivência para essa nova instância biotecnológica. A predita
destruição ou mesmo competição entre as entidades carbono e silício
perdem sua justificativa e a nova – e assustadora – entidade pode
resultar de um também totalmente novo coletivo biomaquínico.
REFERÊNCIAS
AFFONSO, Elaine Parra; SANT'ANA, R.C.G. Privacy awareness issues in
user data collection by digital libraries. IFLA Journal. Volume: 44 número:
3, out de 2018. páginas: 170-182. Disponível em:
https://journals.sagepub.com/doi/abs/10.1177/0340035218777275. Acesso
em: 10 de nov de 2018
BRASIL. Lei 13.709 Lei Geral de Proteção de Dados Pessoais (LGPD).
Disponível em: http://www.planalto.gov.br/ccivil_03/_ato2015-
2018/2018/lei/L13709.htm. 14 de agosto de 2018.
123
KISTERMANN, F. W. The Invention and Development of the Hollerith
Punched Card. In: Commemoration of the 130th Anniversary of the Birth of
Herman Hollerith and for the 100th Anniversary of Large Scale Data
Processing. Annals of the History of Computing, vol. 13, no. 3, pp. 245-
259, July-Sept. 1991, Disponível em:
https://ieeexplore.ieee.org/abstract/document/4638253. Acesso em: 15 jan
2019. doi:10.1109/MAHC.1991.10023.
NONAKA, I; TAKEUCHI, H. Criação de Conhecimento na Empresa. Rio
de Janeiro: Campus, 1997.
SANT’ANA, Ricardo César Gonçalves. Ciclo de vida dos dados: uma perspectiva
a partir da ciência da informação. Informação & Informação, [S.l.], v. 21, n. 2,
p. 116–142, dez. 2016. ISSN 1981-8920. Disponível em:
http://www.uel.br/revistas/uel/index.php/informacao/article/view/27940. Acesso
em: 29 dez. 2016. doi:http://dx.doi.org/10.5433/1981-8920.2016v21n2p116.
SANT'ANA, R.C.G. Campo Informacional Resultante da Interação de Ciclos
de Vida dos Dados. In: DIAS, G.; FREIRE, B. (Orgs). Dados Científicos:
perspectivas e desafios. João Pessoa: Editora UFPB, 2019 p.5-19
SERRES, Michel. Hominescências: o começo de outra humanidade? Rio de
Janeiro: Bertrand Brasil, 2003.
124
EMERGENCE OF COMPLEX DATA FROM
SIMPLE LOCAL RULES IN A NETWORK GAME1
Felipe S. Abrahão
Klaus Wehmuth
Artur Ziviani
INTRODUCTION
Computation, information, and networks are three concepts
that are of major importance in the contemporary world, where the
social impacts of pervasive network dynamics in our digital life, Big
Data, and the increasing power of data analysis bridge the gap between
complex systems science and the everyday dynamics of our lives. It has
long been held as common sense that natural systems can be
understood as being organized as networks of many interacting units
(LEWIS, 2009). For example, one can employ graph-based abstractions
in order to model protein-to-protein interactions in biological networks,
interactions between species in ecological networks, connections
between nerve cells in the brain, person-to-person relationships in social
networks, and communication channels in computer networks. It is
intuitive to break a system into two constitutive realms: that of
individual components, e.g., the laws an atom is subjected to, how a
real-world computer works, or how a human being thinks or behaves;
and that of the nature of the connections (or interactions), e.g., the
internet communication protocols, the vehicles’ characteristics in a
transportation network, or the type of human friendships.
1
This book chapter is also available as a preprint at https://arxiv.org/abs/2009.12210.
Part of the content of this book chapter is contained in the Research Report 04/2018 at
the National Laboratory for Scientific Computing (LNCC), available at
https://arxiv.org/abs/1708.09149v6. Authors acknowledge the partial support from
CNPq through their individual grants: F. S. Abrahão (301.322/2020-1), K. Wehmuth
(303.193/2020-4), and A. Ziviani (310.201/2019-5). Authors acknowledge the INCT
in Data Science – INCT-CiD (CNPq 465.560/2014-8). Authors also acknowledge the
partial support from FAPESP (2015/24493-1), and FAPERJ (E-26/203.046/2017). We
also thank Hector Zenil, Mikhail Prokopenko, Itala M. Loffredo D’Ottaviano,
Leonardo Lana de Carvalho, Andréa Naccache, and Michael Winter for suggestions
and directions on related topics investigated in this article.
125
However, there is a third realm, sometimes overlooked, that is
also important in order to determine the system’s functioning: the realm
of patterns of connections (NEWMAN, 2010). In other words, beyond
the mere fact that a system is composed of parts and that these parts are
working in interaction, the patterns, structures or topological properties
of a network may play a significant—if not dominant—role in the
dynamics of the entire system. Indeed, recent advances in complex
network theory indicate that this third notion is more than just a
representation scheme or metaphor (LEWIS, 2009; BARABÁSI, 2016).
Triggered by the availability of large amounts of data on large real-world
networks, combined with fast computer power even on scientists’
desktops, the field is reaching consensual saturation point, being called
by the umbrella term network science (BARABÁSI, 2016; ZARATE,
2019), and plays a central role in data science in general. Applications
ranges from internet communication protocols, epidemics, prevention of
computer viruses, fail-safe computer networks engineering, regulatory
circuits of the genome, and ecosystems (BARABÁSI, 2016).
Rooted in graph theory, e.g., from Eulerean cycles to Erdös–
Rényi (ER) random graphs, the investigation of complex networks
highlights the pervasive presence of heterogeneous structural
characteristics of real-world networks (BARABÁSI, 2016). This is the
case of the small-world effect (LEWIS, 2009), where the averapath
distance, or mean geodesic distance, between any pair of vertices
increases up to a logarithmic term of the network size. While popularly
known from the “six degrees of separation” phenomenon in social
science, the small-world network gained a more formal mathematical
ground after the Watts–Strogatz model in which, in addition to the short
mean geodesic distance, the generated networks have e.g. a high
clustering coefficient (i.e., the tendency of vertex neighbors to be
connected to other neighbors) (LEWIS, 2009). Regarding the
heterogeneity of vertex degrees, another commonly found characteristic
is a fat-tailed (or heavy-tailed) distribution, for example when the vertex
degree distribution follows a power-law, as in the Barabási-Albert (BA)
model (aka scale-free networks), and not a Poisson distribution like in
the traditional ER model (BARABÁSI, 2016).
In consonance with the pursuit of a theory for evolutionary,
computational, dynamical, and informational aspects in complex
systems (MITCHELL, 2009), the study of general and unifying models
for the emergence of complexity and network topological properties
keeps attracting the interest of the researchers of network science, data
126
science, and complex systems science (MICHAIL; SPIRAKIS, 2018).
In this direction, information-theoretic approaches have been
demonstrating fundamental contributions with the purpose of defining,
detecting, or modeling the presence of systemic properties, such as
emergence, complexity, and self-organization, in systems with
stochastic dynamics (PROKOPENKO; BOSCHETTI; RYAN, 2009).
Moreover, not only in computable systems, but also as refinements of
more traditional statistical approaches, recent advances have been
highlighting the algorithmic-informational perspective and showing
new fundamental results on: open-endedness and evolutionary systems
(CHAITIN, 2012; HERNÁNDEZ-OROZCO; KIANI; ZENIL, 2018);
network complexity (ZENIL; KIANI; TEGNÉR, 2018; ABRAHÃO,
2020); machine learning and causality (ZENIL et al., 2019a);
cybernetics and control theory (ZENIL et al., 2019b; 2019c); and
emergence of complexity in networked systems (ABRAHÃO;
WEHMUTH; ZIVIANI, 2019; 2018). Following this latter approach,
we present in this article an investigation of network topological
conditions that trigger a phase transition in which algorithmic networks
eventually begin to produce an unlimited amount of average emergent
algorithmic complexity as the population size grows toward infinity.
These topological conditions can be any property that reflects a strong
diffusion power through the network, such as the small-diameter
phenomenon (ABRAHÃO, F. S.; WEHMUTH, K.; ZIVIANI, 2019) or
a classical case of scale-free network (ABRAHÃO; WEHMUTH;
ZIVIANI, 2018). Within the context of networked computable
systems, we demonstrate the existence of emergence that is proved to
be irreducible to its individual parts, universal, and independent of any
arbitrarily fixed observer.
1 A MODEL FOR NETWORKED COMPUTABLE SYSTEMS

In this section, we present a general mathematical model
previously published in Abrahão; Wehmuth & Ziviani (2019) for the
study of networked machines, which can share information with each
other across their respective network while performing their
computations. As explicitly discussed in Abrahão; Wehmuth & Ziviani
(2019), the model is defined in a general sense in order to allow
mathematical analysis of systemic features like the emergence and
complexity. Such models were introduced in Abrahão; Wehmuth &
Ziviani (2019); Abrahão (2016) and we have studied other particular
127
variations of this first model with a static scale-free network topology
in Abrahão; Wehmuth & Ziviani (2018) and with a modified
communication protocol to synergistically solve mathematical problems
in Abrahão (2020). In the present section, we focus on the general
model in Abrahão; Wehmuth & Ziviani (2019) and in the next Section 3
we will describe the particular variation of this general model, which
was also studied in (ABRAHÃO; WEHMUTH; ZIVIANI, 2019).
The main idea behind the general model is that a population of
formal theoretical machines can use communication channels that are
represented by relational structures, such as those that define a graph.
Following this general approach, one can understand these
mathematical models as a merger of algorithmic (and statistical)
information theory and complex networks, while theoretically
combining fundamental notions from distributed computing, multi-
agent systems, adaptive complex systems, game theory, and
evolutionary biology. We refer to such models as algorithmic networks
(ABRAHÃO; WEHMUTH; ZIVIANI, 2019; ABRAHÃO, 2016). So,
algorithmic networks are networks of algorithms in the precise sense
where the nodes of the network are computable systems. Immediately, by
considering nodes as programs of a universal Turing machine, the
terminology “nodes/programs” becomes formally grounded.
Our formalism is grounded on multiaspects graphs (MAG) as
presented in Wehmuth; Fleury & Ziviani (2016). A MAG is a
mathematical abstraction that enables one to formally represent and
computationally analyze networks with additional representational
dimensions in which the nodes belong (or are ascribed to), e.g., time
instants or layers. For this reason, such networks are called
multidimensional networks (or high-order networks). For example,
particular cases are dynamic (i.e., time-varying) networks (ABRAHÃO,
2020; COSTA et. al., 2015), multilayer networks (KIVELA et. al., 2014),
and dynamic multilayer networks (WEHMUTH; ZIVIANI, 2018).
An algorithmic network is a theoretical multidimensional
network-distributed computing model in which each node (or vertex)
computes using the shared information through network. Either a
distributed computation modeling, in which the network’s nodes are
employing the shared information to solve a common purpose
(ABRAHÃO, 2020), or a game-theoretical modeling (see Section 3), in
which nodes are competing with each other, can be employed. The
main concepts and mathematical entities that we are interested in are
the average fitness (or payoff) and its related emergent complexity. We
128
define an algorithmic network N = (G , P, b) upon a population of
theoretical machines P, a multiaspect graph G = (A , E) and a function
b that causes aspects of G to be mapped into properties of P, so that a
vertex in V(G) corresponds one-to-one to a theoretical machine in P
and the communication channels through which nodes can send or
receive information from its neighbors are defined precisely by
(composite) edges in G.
The MAG G, as previously defined in Wehmuth; Fleury &
Ziviani (2016), is directly analogous to a graph, but replacing each vertex
by a n-tuple, which is called the composite vertex. The composite vertex is
a n-tuple in which the first element is an index of a vertex and each of the
other subsequent elements in this ordered sequence is an index of another
node dimension (e.g., a time instant, a layer, or a weight value). Therefore,
note that a graph is a particular case of a MAG that has only one aspect
(i.e., only one node dimension), the one that is the set of vertices. A
population P is a sequence (or multiset) with elements taken from L in
which repetitions are allowed, where L is the language on which the
theoretical machines are running. A communication channel between a
pair of elements from P is defined in E by a composite edge (whether
directed or not) linking this pair of nodes/programs. A directed composite
edge (or arrow) determines which node/program sends an output to
another node/program, which in turn takes this information as input. An
undirected composite edge (or line) may be interpreted as two opposing
arrows. We say an element oi of P is networked iff there is N such that oi
is running as a node of N, where E is non-empty. That is, there must be at
least one composite edge connecting two elements of the algorithmic
network. We say oi is isolated otherwise. We say that an input w of L is a
network input iff it is the only external source of information every
node/program receives and it is given to every node/program before the
algorithmic network begins any computation. A node cycle in a population
P is defined as a node/program returning an output, which, in the
particular studied model (ABRAHÃO; WEHMUTH; ZIVIANI, 2019)
described in Section 3, is equivalent to a node completing a halting
computation. If this node cycle is not the last node cycle, then its
respective output is called a partial output, and this partial output is shared
(or not, which depends on whether the population is networked or
isolated) with the node’s neighbors, accordingly to a specific information-
sharing protocol (if any). On the other hand, if the node cycle is the last
one, then its output is called a final output.
129
Our formalism enables one to represent a wide range of
variations of algorithmic networks with the purpose of modeling a
particular problem that may arise from a networked complex system.
For example, the networked population may be synchronous or
asynchronous, have a set of information-sharing strategy or none, a
randomly generated population or a fixed one, with communication
costs or without them, etc. In addition, the network topology that
determines the communication channels may be dynamical, with
weighted edges, multilayer etc. All the particular algorithmic network
models considered hereafter, as described in Section 3 and previously
presented in Abrahão; Wehmuth & Ziviani (2019), are synchronous (i.e.,
there are communication rounds that every node must respect at the
same time), have a fixed information-sharing strategy (i.e., a
communication protocol), have a randomly generated population of
programs, and no communication cost is considered.
2 LOCAL FITNESS OPTIMIZATION IN THE BUSY

BEAVER IMITATION GAME
Now, we explain a particular case of algorithmic network
defined by a very simple local rule (i.e., a rule, protocol, or strategy
each node follows with respect to its immediate neighbors) that
optimizes the fitness value of each node individually. Then, later on in
this article, we will discuss the impacts on the global behavior of the
algorithmic network that this simple rule of communication produces.
As in Chaitin (2012) and Abrahão (2015), we use the Busy
Beaver function BB(n) as our complexity measure of fitness. A
function BB(n), where BB: n → n, returns the largest integer that a
program p of LU with length ≤ n can output, where LU is any arbitrarily
chosen universal programming language. Naming larger integers
relates directly to increasing algorithmic complexity (CHAITIN,
2012). Thus, the concept of “best solution” that we employ hereafter
assumes a formal interpretation of fittest final output (or highest final
payoff) by naming the largest integer as possible. The choice of the
word “solution” for naming larger integers strictly means a solution for
the Busy Beaver problem. This problem has a central importance in
theoretical computer science, so that there is an infinite number of
other decision problems that can be reduced to the Busy Beaver one.
This is the case for example of the halting problem. In addition, as
explained in Abrahão; Wehmuth & Ziviani (2019), the Busy Beaver
130
function offers other immediate advantages in measuring the
complexity of the fitness value. For example, it works like a universal
ceiling fitness function, i.e., BB(n) eventually grows faster than the
fitness values that any arbitrarily fixed computable system may
compute, while being scalable (i.e., every fitness value alone can be
eventually reached by some individual computable system); integers
being fitness values is universal with respect to Turing machines, while
the values themselves are totally dependent on the nodes’ initial
conditions or context; the value of BB(n) is incompressible, i.e., an
arbitrary universal Turing machine needs at least, except for a
constant, n bits of information to calculate the value of BB(n).
The main idea of the particular algorithmic network models in
Abrahão; Wehmuth & Ziviani (2019) is as follows: take a randomly
generated set of programs; they are linked, constituting a dynamic
network that is represented by a time-varying graph (or a multiaspect
graph with two aspects); each node/program is trying to return the
“best solution” it can; and eventually one of these nodes/programs end
up being generated so that it carries beforehand a “best solution” for
the problem in question; this “best solution” is spread through the
network by a diffusion process in which each node is limited to only
imitate the fittest neighbor if, and only if, its shared information is
“better” than what the very node can produce (see the imitation-of-the-
fittest protocol below).
This way, with a fixed fitness function like BB(n) that works as
a universal and open-ended parameter for every node/program’s final
(and partial) output, a networked Busy Beaver game becomes defined.
As in the particular model described in the previous paragraph, each
node tries to return the “best solution” it can and, in this sense, the larger
the final output integer, the better the payoff (or fitness).
Indeed, a possible interpretation of the diffusion described to
the above is average optimization through diffusion in a random
sampling. Whereas optimization through selection in a random
sampling may refer e.g. to evolutionary computation or genetic
algorithms, optimization is obtained in our model in a manner that a
best solution also eventually appears, but is diffused over time in order
to make every individual as averagely closer to the best solution as they
can. Therefore, the underlying goal of this optimization process is to
maximize the average fitness of the population by expending the least
amount of diffusion time (or communication rounds).
131
In our studied model, we want to investigate one of the
simplest, computationally cheapest, or “worst” ways that networked
nodes can take advantage of its neighbors’ information sharing and
then compare with the best that isolated nodes can do alone. Hence, we
oblige the networked nodes to follow the imitation-of-the-fittest
protocol (IFP), which is a decidable procedure in which a networked
node compares its neighbors’ partial outputs and propagates the
program of the neighbor that have output the largest integer. But it
only does so if, and only if, this integer is larger than the one that the
very node has output in first place. Imitation the fittest neighbor is one
of the simplest and computationally cheap communication protocols
because it is a totally deterministic and decidable procedure that only
grows linearly in computation time complexity with respect to the
number of neighbors the node has. It is also one of the “worst” because
one could easily employ another protocol that makes the respective
node have much larger fitness values than its neighbors have. For
example, instead of the IFP, one could employ a protocol that: first,
select the largest partial output sent by the neighbors; secondly,
compare these with its own partial output; and finally returns the
largest of these values plus 1. Instead of summing 1, one could also for
example employ a protocol that returns the largest of the values
multiplied by itself or another one that returns the largest of the values
raised to the power of itself. In any of these cases, the protocols can
only do better than or equal to the IFP for maximizing the fitness
values of itself with respect to those of its neighbors.
The particular networked population studied in Abrahão;
Wehmuth & Ziviani (2019) is in fact limited to simple imitation. In
other words, it is a game with two strategies: one for the networked
case and another one for the isolated case. In the networked case, the
strategy is that every node/program is obliged to follow the IFP. In the
isolated case, the strategy is that, once nodes are programs that only
have access to their own respective partial outputs over time, there is
no restriction on how the nodes/programs can use their own previous
partial outputs in order to return the next partial outputs. Remember
that nodes are randomly generated programs. Therefore, the strategy in
the isolated case formally means that, during the node cycles, the
collection of past partial outputs of a node/program is freely available
as input to the same node/program so as to return its next partial
output. Thus, by studying which of these two strategies is the best for
the particular algorithmic networks in the given topological conditions,
132
population size, and number of node cycles expended, we say such
algorithmic networks are playing a Busy Beaver imitation game
(BBIG) (ABRAHÃO; WEHMUTH; ZIVIANI, 2019).
3 EXPECTED EMERGENT OPEN-ENDEDNESS FROM

UNIVERSAL COMPLEXITY MEASURES
The question is: How much more algorithmic complexity
might the diffusion process generate on average, compared to the best
nodes/programs in isolation? Toward an answer to this question, a
comparison between the algorithmic complexity of what a
node/program can do when networked, and the algorithmic complexity
of the best a node/program can do when isolated, gives the emergent
algorithmic complexity of the algorithmic network. Instead of asking
about how much complexity is gained by systems over time, as in
evolutionary biology and artificial life, we are focusing on another akin
question: how much complexity is gained by systems when the number
of parts increases? Or, more specifically in our case, how much more
emergent algorithmic complexity arises on the average when the
number of nodes increases?
Once we are restricted to only dealing with networked
computable systems, the functioning of these systems occurs in a
totally deterministic way. And more than that, they are computable,
i.e., for any one of them there is a Turing machine that, given the
environmental conditions or context as input, can always completely
determine their next behavior or state from a previous behavior or
state. In this way, algorithmic information theory (AIT) sets
foundational results from which one directly obtains an irreducible
information content measure (CHAITIN, 2004) of a mathematical
object being generated by a computable process; this object may be
e.g. the output of a machine or the future state of a computable system.
More precisely, the quantification of irreducible information content
can be stated in bits and is given by the (unconditional) algorithmic
complexity of an object x, i.e., the length of the shortest program that
outputs x when this program is running on an arbitrarily chosen
universal Turing machine.
In addition, algorithmic complexity is a quantity that is
invariant—and, therefore, irreducible or incompressible—for any
other computable process that can generate x, except for an additive
constant: that is, the two quantities of complexity can only differ by an
133
additive constant for any x and this constant only depends on the
choice of the machine and the computable process, so that the constant
does not depend on x. Furthermore, algorithmic complexity is an
optimal information content measure. In other words, one can also
show that there is a universally maximal recursively enumerable
probability semimeasure µ for the space of all encoded objects such
that the time-asymptotic approximation to the probability µ(x) of
occurrence of x is always larger than (except for a multiplicative
constant) any other time-asymptotic approximation to the probability
µ2(x) of occurrence of x. And this result holds even if one has zero
knowledge about the actual probability of occurrence of x. Indeed, one
can already note that such zero-knowledge characteristic differs from
traditional statistical inference methods, where it is in general assumed
that the stochastic random source is, at least, stationary and ergodic.
As one of the main and most profound results in AIT, the
algorithmic coding theorem, one can show that the probability of x
being generated by any possible randomly generated (prefix) Turing
machine, the above universally maximal probability semimeasure µ(x),
and the probability of occurrence of the shortest program that
generates x are in fact three equivalent values, except for a
multiplicative constant that does not depend on x. Thus, at least for the
realm of deterministic computable processes, algorithmic complexity
is a measure of information content that is irreducible/incompressible
and universal, in the sense that it is invariant on the choice of the
object at stake and any computable process of measuring the
irreducible information content of x equivalently agrees (up to object-
independent constant) about the value. It is a mathematically proven
“bias toward simplicity” for the space of all generative computable
processes. Not only for the unconditional form of algorithmic
complexity, the same phenomenon also holds for the conditional
algorithmic complexity, i.e., the length of the shortest program that
generates y given the input x. This way, algorithmic complexity
appears as an auspicious mathematical form of information content
measure, specially for those computable systems whose behavior is
dependent on the information received from the environment: the
algorithmic complexity of y given x is a value that is, at the same time,
totally dependent on the input (i.e., the initial conditions or previous
context), irreducible, and universal. Therefore, as desirable,
quantifying an emergence of complexity in computable systems from a
direct comparison between the algorithmic complexity of the
134
networked/interacting case and the isolated case gives a value that is
irreducible and universal, although might vary only if the system’s
environment in which this comparison took place changes.
Emergence (PROKOPENKO; BOSCHETTI; RYAN, 2009;
D’OTTAVIANO; BRESCIANI, 2004) is in general understood as a
systemic property that can only occur, be detected, or be displayed by
a system when this system is working or functioning as a whole
collection of parts. That is, only when the sub-parts of the system are
somehow interacting or exchanging information. Thus, the algorithmic
complexity (which is per se an irreducible number of bits of
information) of a node/program’s final output when networked minus
the algorithmic complexity of a node/program’s final output when
isolated formally defines an irreducible quantity of information that
emerges with respect to a node/program that belongs to an algorithmic
network. We call it emergent algorithmic complexity (EAC) of a
node/program (ABRAHÃO; WEHMUTH; ZIVIANI, 2019).
Note that if a system is analyzed as a separated collection of
“sub-parts”, the EAC of a node/program will be always 0, because both
the networked case and the isolated case will behave in the same way.
Also, the EAC can also be employed in order to measure the amount
of irreducible information that was “lost” when the system is
networked. This kind of degeneration of algorithmic complexity is an
important future research and, for the present purposes, we are only
interested in the situations in which EAC is positive.
The reader should not confuse the EAC of a node/program
with the EAC of the algorithmic network as a “whole”. By taking into
account every node/program in a joint manner, this joint value of EAC
may be very different from the sum or the average value of the
individual EACs. For example, one may consider the algorithmic
information of each node/program combined (in a non-trivial way)
with the algorithmic information of the network’s topology in order to
maximize the resulting joint algorithmic information of the whole
population. Since we are combining the algorithmic information in
order to maximize the joint algorithmic information of a large number
of objects, clearly this joint algorithmic information can diverge
dramatically from the average algorithmic information of nodes
individually. This relies upon the same distinction between the joint
algorithmic complexity of x and y and the sum of the algorithmic
complexity of each one taken separately. The sum may not always
match the joint case (CHAITIN, 2004).
135
Such a joint EAC can be formalized as the joint algorithmic
complexity of each node/program’s final output when networked minus
the joint algorithmic complexity of each node/program’s final output
when isolated. An initial step in the direction of tackling this problem is
already mentioned in Abrahão (2020). Analyzing this systemic property
is not part of the scope of the present work and, beyond the problems in
the context of networked computable systems, it is also an open problem
for multivariate stochastic processes (LIZIER et. al, 2018).
We focus hereafter on the local EAC. More precisely, on the
mean value of EAC for all nodes/programs. The average (local)
emergent algorithmic complexity gives the average emergent
complexity of the nodes/programs’ respective fitnesses (or, in a game-
theoretical interpretation, payoffs) in a networked population, once
there is a fitness function that evaluates final outputs. Displaying larger
positive values of AEAC means that a node/program needs more
irreducible information on the average than it already contains, should
it try to compute isolated what it does networked.
As the model described in Section 3 is an algorithmic network
in which the population of machines is randomly generated from a
stochastic process of independent and identically distributed (i.i.d.)
random variables under a self-delimiting program-size probability
distribution, we can refer to the average EAC as expected emergent
algorithmic complexity (EEAC). Therefore, both terms, average or
expected, can be used interchangeably hereafter. Note here that,
whereas the initial network input is completely arbitrary and the
algorithmic network itself in the model described in Section 3 is a
deterministic and computable distributed system (once the population
of nodes/program is given), the initial generation of the
nodes/programs of each algorithmic network is given by a stochastic
i.i.d. process. Thus, each of these algorithmic networks are
deterministic (computable) processes, while the infinite process that
results from increasing the size of the algorithmic networks and
running them is a mixed process (i.e., partially deterministic and
partially stochastic).
Another important concept that came from complex systems
science, specially from artificial life and evolutionary computation, is
open-endedness, commonly defined as the inherent potential of an
evolutionary process to trigger an endless increase of distinct systemic
behavior capabilities (HERNÁNDEZ-OROZCO; HERNÁNDEZ-
QUIROZ; ZENIL, 2018; ADAMS, 2017). Thus, if an infinite space of
136
distinct computable capabilities is eventually covered, this will
necessarily lead to an unbounded increase of algorithmic complexity
(HERNÁNDEZ-OROZCO; HERNÁNDEZ-QUIROZ; ZENIL, 2018).
This means that, in the long run, it will eventually appear an organism
that is as complex as one may want. Given a certain complexity value
as target, one would just need to wait a while in order to appear an
organism with a larger complexity than (or equal to) the target value—
no matter how large this value is. In turn, this implies that an infinite
number of different organisms tends to appear in the evolutionary path
after an infinite amount of successive mutations, equivalently bringing
us back to the initial definition of open-endedness.
In fact, within the framework of metabiology, as shown in
Chaitin (2012); Abrahão (2015) and Chaitin & Chaitin (2018), there is a
cumulative evolution model that reaches n bits of algorithmic complexity
after— realistic fast—O(n2(log(n))2) successive algorithmic mutations on
one organism at the time—whether your organisms are computable
(CHAITIN, 2012), sub-computable (ABRAHÃO, 2015; 2016) or
hypercomputable (ABRAHÃO, 2015). Metabiology is a transdisciplinary
field based on evolutionary biology and algorithmic information theory
that proposes a meta-theoretical approach to the open-ended evolution of
computable systems (CHAITIN & CHAITIN, 2018; CHAITIN;
CHAITIN; ABRAHÃO, 2014). Moreover, it is shown in Hernández-
Orozco; Hernández-Quiroz & Zenil (2018) and experimentally supported
in Hernández-Orozco; Kiani & Zenil (2018), that the model introduced
in Chaitin (2012) satisfies the requirements for strong open-ended
evolution. Thus, by narrowing our scope to the case of evolutionary
computation in general computable systems, we follow this algorithmic
and universal approach to open-endedness in which undecidability and
irreducibility plays a central role (HERNÁNDEZ-OROZCO;
HERNÁNDEZ-QUIROZ & ZENIL, 2018).
What we have found is that, within the theory of
algorithmic networks, open-endedness also appears in a similar
fashion, although formally distinct. As expressed in Abrahão;
Wehmuth & Ziviani (2019, p. 100):
Instead of achieving an unbounded quantity of algorithmic
complexity over time (e.g., after successive mutations), an
unbounded quantity of emergent algorithmic complexity is achieved
as the networked population size increases indefinitely.
137
Since this new quantity of algorithmic complexity/information
is irreducible/incompressible with respect to the programs that governs
the functioning of the respective isolated parts, this unbounded
increase of EAC arises, by definition, as an emergent property. So, we
refer to it as emergent open-endedness (EOE) (ABRAHÃO;
WEHMUTH; ZIVIANI, 2019). As discussed before, since we are
dealing only with the local EAC, we can simplify our nomenclature
and omit the term “local” in this paper. Furthermore, in the case of an
increase in the average EAC for every node/program, we refer to it as
average (local) emergent open-endedness (AEOE). And, since the
population is randomly generated, we refer to AEOE as expected
(local) emergent open-endedness (EEOE).
We showed in Abrahão; Wehmuth & Ziviani (2019) that
there are network topological conditions and simple communication
protocols that trigger EEOE as the randomly generated populations
grows toward infinity. In particular, a model of algorithmic networks
for which we proved that it occurs is the one described in Section 3;
and the network topological conditions can be a strong diffusion
power, so that larger fractions of the network are quickly covered by
any signal spread by any node, or the presence of the small-diameter
phenomenon, which guarantees that the entire network is covered
under a small amount of hops, steps, or (in the case of synchronous
algorithmic networks) communication rounds. As shown in Abrahão;
Wehmuth & Ziviani (2019), these conditions caused the EEAC to
eventually begin to increase as one may want, should the population
size increases sufficiently. And this phase transition occurs even if, for
an arbitrarily large (but finite) population size, the EEAC is 0 or
negative. Remember the IFP discussed in Section 3. The networked
“side of the equation” of the EAC relies only on the simple imitation
of the fittest neighbor (as formalized by the IFP), while the “isolated
side” is free so that each node can perform/compute without any
restriction (but of course without access to any information of the
other nodes). Thus, we are estimating the emergent algorithmic
complexity that arises from a “worst” networked case compared with
the “best” isolated nodes can do alone. So, if in this worst-case scenario
the EAC has increasingly positive integer values, then the EEAC
(which is an average-case scenario lower bounded by the worst case)
will behave the same way. More precisely, the expected emergent
open-endedness phenomenon tells us that, for large enough population
sizes, the probability that these algorithmic networks have a larger
138
AEAC tends to 1. The main idea behind the proof is that, given that
such conditions are satisfied, there will be a trade-off between the
number of communication rounds and the average density of
networked nodes that have maximum fitness. That is, there is an
optimum balance between these two quantities in which, if a large
enough average density of these nodes is achieved in a sufficiently
small number of communication rounds, then EEOE is triggered.
4 EMERGENCE OF UNPREDICTABLE AND

IRREDUCIBLE DATA: DISCUSSION, OPEN
PROBLEMS, AND FUTURE WORK
Note that our results show the existence of a phase transition in
which, for a critical stage (in the case, a large enough population), the
network will change its networked behavior (in comparison to the
isolated one) so drastically that it will be impossible for any of the
nodes/programs to compute (or computably predict) its own networked
behavior. This is the reason we call this transition as an expected
emergent complexity phase transition: an algorithmic complexity phase
transition that is guaranteed to occur in the asymptotic limit, giving rise
to the emergence of irreducible information solely by the fact the
population of nodes/programs is networked.
In the case fitness (or payoff) is somehow connected to the
complexity of the player’s strategy–as the in the particular models
described in Sections 3 and 4–, algorithmic networks theory is a
theoretical model for future investigation of game-theoretical
consequences of randomly generated arbitrary computable strategies
for players without interaction in comparison to networked players’
strategies. EEOE is in fact a phenomenon that reflects a phase
transition of complexity, in particular, an emergence of algorithmic
complexity, with deep implications to the investigation of networked
complex systems or any distributed processing of data: for example,
either for designing or engineering artificial computer networks; or
analyzing real-world networks of complex systems in which each node
represents a system that is capable (allegedly) of performing some kind
of computation, e.g., biological organisms or humans.
Take for example real-world networks, such as ecosystems or
human societies, where each element is an information processing
system (MITCHELL, 2009; PROKOPENKO; BOSCHETTI; RYAN,
139
2009) that can send and receive information from each other.
Remember that the studied communication protocol in Section 3 is in
fact one of the “worst” local rules of individual behavior that is capable
of increasing the fitness with respect to its neighbors. Then, assume for
a moment that those real-world networks are composed of
nodes/systems with a high enough computational power—indeed, a
plausible supposition at least for nodes representing human beings—,
so that they eventually begin to perform better than their neighbors in
terms of an arbitrarily chosen fitness measure (which may assume
unbounded, but reachable, values). In addition, also assume the entire
network is embedded into an “environment” that is capable of always
ascribing fitness values to nodes. Thus, now we know there are some
pervasive network topological conditions, e.g., a strong diffusion
power or the small diameter, that eventually enable some algorithmic
networks to reach a phase transition point in which EEOE is triggered.
From a computational analysis perspective, EEOE
immediately implies that, although graph-topological, structural, or
connection-pattern modeling (or predictions) could be made by
computational methods for network analysis and machine learning,
modeling or predictions by artificial intelligence would be eventually
unattainable or intractable with respect to the information content
processed by the nodes. This may be a desirable property for computer
networks design, if one is aiming at the networked information
processing being relatively uncomputable, or encrypted, to isolated
nodes. Moreover, if one is trying to take advantage of the network-
distributed computation with the purpose of computing problems at a
higher computational class, the EEOE phenomenon could be harvested
from synergistic variations of the communication protocols. This
mathematical phenomenon may be also fruitful for explaining
synergistic behavior found in Nature and societies and why some
network topological properties seem to be favored in biological
networks. Indeed, algorithmic synergy was already shown to exist in
networked resource-unbounded computable systems with a slight
modification into the IFP (ABRAHÃO, 2020). Future research in this
direction will be interesting for developing resource-bounded versions
and, therefore, more realistic network-distributed computing models
and architectures.
On the other hand, EEOE may be a property one is avoiding in
order to keep the computer network processing power under control or
below a certain degree of complexity. Such an emergent phenomenon
140
would impose a necessary limit for data analysis in those networks
displaying EEOE, if the computational power of the observer is at the
same level of the nodes—therefore, also including the case where the
observer is one of the nodes. For any arbitrarily chosen formal theory,
or computer program, that an external observer chooses as framework,
there will be a critical stage in which the network displays EEOE and,
therefore, any attempt to predict the networked behavior of the
population by randomly picking one node/program will start to be
relatively uncomputable (i.e., belonging to a higher level at a
computational hierarchy). In particular, as one can directly obtain from
algorithmic information theory (AIT) (CHAITIN, 2004), the
networked behavior will be unpredictable in precise terms of an
increasing quantity of bits that are incompressible by any
recursive/computable procedure based on the chosen framework. In
other words, the expected emergent behavior is eventually non
deducible—even in principle—for any above described external
observer that randomly picks an isolated node. Thus, we say EEOE is
an asymptotic observer-independent (local) emergent phenomenon.
If the observer is part of the network (i.e., if the observer is
one of the nodes) that is displaying EEOE, such an unpredictability
may be actually magnified, since the observer in this case would only
know its own behavior when isolated (or maybe also the behavior of its
immediate neighbors). More than new emergent irreducible
information from other individuals in the network appearing to the
node/observer, the networked behavior of the very node/observer
would appear to itself as emergent with respect to the isolated case (or
with respect to a previous initial stage where the respective network
computing didn’t start yet). Within the abstract realm of algorithmic
networks, future research on this reflexive emergence of complexity
(i.e., an emergence of complexity that arises from the comparison of
the interacting behavior of an agent with the isolated behavior of the
same agent) may be fruitful for investigating the presence of a process
of algorithmic-informational autonomy (VILLALOBOS; DEWHURST,
2018) as being emergent from the networking interaction with the
environment (i.e., the rest of the algorithmic network in which the
node/system is part of).
In both cases, i.e., either as a desirable or an undesirable
emergent property, the investigation of network topological properties
and local rules of interactions that are capable of triggering EEOE,
such as in Abrahão; Wehmuth & Ziviani (2019; 2018) and Abrahão
141
(2020), seems to be a fruitful line of research in the intersection of
complex systems science, theoretical computer science, complex
networks theory, and information theory.
REFERENCES
ABRAHÃO, F. S. Emergent algorithmic creativity on networked Turing
machines. In: The 8th International Workshop on Guided Self-
Organization at the Fifteenth International Conference on the Synthesis
and Simulation of Living Systems (ALIFE). Cancún: [s.n.], 2016. Available
at: http://guided-self.org/gso8/program/index.html.
ABRAHÃO, F. S. et al. Algorithmic information and incompressibility of
families of multidimensional networks. ArXiv Preprints. Available at:
https://arxiv.org/abs/1810.11719. 2020.
ABRAHÃO, F. S. et al. Learning the undecidable from networked systems.
In: WUPPULURI, S.; DÓRIA, F. A. (Ed.). Unravelling Complexity. [S.l.]:
World Scientific Publishing, 2020.
ABRAHÃO, F. S. Metabiologia, Subcomputação e Hipercomputação: em
direção a uma teoria geral de evolução de sistemas. Ph.D. thesis.
Universidade Federal do Rio de Janeiro (UFRJ), Brazil, 2015.
ABRAHÃO, F. S. The “paradox” of computability and a recursive relative
version of the Busy Beaver function. In: CALUDE, C.; BURGIN, M. (Ed.).
Information and Complexity. 1. ed. Singapure: World Scientific Publishing,
2016. cap. 1, p. 3–15. ISBN 978-9813109025.
ABRAHÃO, F. S.; WEHMUTH, K.; ZIVIANI, A. Algorithmic networks:
Central time to trigger expected emergent open-endedness. Theoretical
Computer Science, v. 785, p. 83–116, sep 2019. ISSN 03043975.
ABRAHÃO, F. S.; WEHMUTH, K.; ZIVIANI, A. Emergent Open-Endedness
from Contagion of the Fittest. Complex Systems, v. 27, n. 04, 2018. 3, 12
ADAMS, A. et al. Formal Definitions of Unbounded Evolution and
Innovation Reveal Universal Mechanisms for Open-Ended Evolution in
Dynamical Systems. Scientific Reports, v. 7, n. 1, p. 997, dec 2017. ISSN
2045-2322.
BARABÁSI, A.-L. Network Science. 1st. ed. USA: Cambridge University
Press, 2016. ISBN 978-1-107-07626-6.
CHAITIN, G. Algorithmic Information Theory. 3. ed. [S.l.]: Cambridge
University Press, 2004. ISBN 0521616042.
CHAITIN, G.; CHAITIN, V. M. F. G.; ABRAHÃO, F. S. Metabiología: los
orígenes de la creatividad biológica. Investigación y Ciencia, v. 448, p. 74–
80, 2014. ISSN 0210-136X. 9
CHAITIN, G. Life as Evolving Software. In: ZENIL, H. (Ed.). A
Computable Universe. Singapure: World Scientific Publishing, 2012. p.
277–302. ISBN 978-9814374293.
142
CHAITIN, V. M. F. G.; CHAITIN, G. J. A Philosophical Perspective on a
Metatheory of Biological Evolution. In: WUPPULURI, S.; DORIA, F. A.
(Ed.). The Map and the Territory: Exploring the Foundations of Science,
Thought and Reality. Cham: Springer International Publishing, 2018. p. 513–
532. ISBN 978-3-319-72478-2.
COSTA, E. C. et al. Time Centrality in Dynamic Complex Networks.
Advances in Complex Systems, v. 18, n. 07n08, 2015. ISSN 02195259.
D’OTTAVIANO, I. M. L.; BRESCIANI, E. Sistêmica, Auto-Organização e
Criação. MultiCiência: revista interdisciplinar dos Centros e Núcleos da
Unicamp, v. 3, p. 1–23, 2004.
HERNÁNDEZ-OROZCO, S.; HERNÁNDEZ-QUIROZ, F.; ZENIL, H.
Undecidability and Irreducibility Conditions for Open-Ended Evolution and
Emergence. Artificial Life, v. 24, n. 1, p. 56–70, feb 2018. ISSN 1064-5462.
HERNÁNDEZ-OROZCO, S.; KIANI, N. A.; ZENIL, H. Algorithmically
probable mutations reproduce aspects of evolution, such as convergence rate,
genetic memory and modularity. Royal Society Open Science. ISSN 2054-5703.
KIVELA, M. et al. Multilayer networks. Journal of Complex Networks, v.
2, n. 3, p. 203–271, sep 2014. ISSN 2051-1310.
LEWIS, T. G. Network Science. Hoboken, NJ, USA: John Wiley & Sons,
Inc., 2009. ISBN 9780470400791.
LIZIER, J. et al. Information Decomposition of Target Effects from Multi-
Source Interactions: Perspectives on Previous, Current and Future Work.
Entropy, v. 20, n. 4, p. 307, apr 2018. ISSN 1099-4300.
MICHAIL, O.; SPIRAKIS, P. G. Elements of the theory of dynamic
networks. Communications of the ACM, v. 61, n. 2, p. 72, jan 2018. ISSN
00010782.
MITCHELL, M. Complexity: A Guided Tour. [S.l.]: Oxford University
Press, 2009. 367 p. ISSN 2-9517408-6-7. ISBN 9780195124415.
NEWMAN, M. Networks: an introduction. [S.l.]: Oxford University Press,
2010. ISBN 9780199206650.
PROKOPENKO, M.; BOSCHETTI, F.; RYAN, A. J. An information-
theoretic primer on complexity, self-organization, and emergence.
Complexity, v. 15, n. 1, p. 11–28, sep 2009. ISSN 10762787.
VILLALOBOS, M.; DEWHURST, J. Enactive autonomy in computational
systems. Synthese, v. 195, n. 5, p. 1891–1908, may 2018. ISSN 0039-7857.
WEHMUTH, K.; FLEURY, É.; ZIVIANI, A. On Multi Aspect graphs.
Theoretical Computer Science, v. 651, p. 50–61, 2016. ISSN 03043975.
WEHMUTH, K.; ZIVIANI, A. Avoiding Spurious Paths in Centralities Based
on Shortest Paths in High Order Networks. In: The Eighth Latin-American
Symposium on Dependable Computing (LADC). [S.l.]: IEEE, 2018. p. 19–
26. ISBN 978-1-5386-8489-4.
ZARATE, J. M. et al. (Ed.). Networks. Nature, Collection, 2019. Disponível
em: https://www.nature.com/collections/adajhgjece.
143
ZENIL, H. et al. An Algorithmic Information Calculus for Causal Discovery
and Reprogramming Systems. iScience, v. 19, p. 1160–1172, sep 2019.
ZENIL, H. et al. Causal deconvolution by algorithmic generative models. Nature
Machine Intelligence, v. 1, n. 1, p. 58–66, jan 2019. ISSN 2522-5839.
ZENIL, H. et al. Minimal Algorithmic Information Loss Methods for
Dimension Reduction, Feature Selection and Network Sparsification.
ArXiv Preprints. 2019. Disponível em: https://arxiv.org/abs/1802.05843.
ZENIL, H.; KIANI, N.; TEGNÉR, J. A Review of Graph and Network
Complexity from an Algorithmic Information Perspective. Entropy, v. 20, n.
8, p. 551, jul 2018. ISSN 1099-4300.
144
REFLEXÕES ACERCA DE BIG DATA E
COGNIÇÃO
João E. Kogler Jr.
PREÂMBULO
Neste ensaio examinaremos de forma especulativa as relações
entre Big Data1 e a cognição, em particular a cognição humana. Posto
que não se dispõe de versões relativamente consensuais, ou ao menos
objetivas e amplamente aceitas dos termos relacionados, nomeadamente
Big Data e cognição, não é possível ir além da especulação acerca das
relações entre ambos. Todavia, o que aqui se pretende fazer é levantar
características fundamentais de ambos, de modo a poder-se fundamentar
tais especulações pelo menos dentro de uma visão lógica que relacione
os dois conceitos em termos de suas características essenciais.
A razão de se explorar tais relações reside em dois aspectos.
Primeiramente, porque no domínio da ciência cognitiva muitos
especulam quanto aos benefícios que os usos de técnicas de análise de
Big Data possam proporcionar à caracterização e compreensão da
cognição. Em segundo lugar, porque os setores científicos e
tecnológicos que promovem as atividades de análise de dados,
particularmente a estatística, a ciência da computação e a ciência de
dados, naturalmente afeitos ao trabalho com Big Data, têm nos últimos
anos utilizado a ideia de cognição e seus conceitos correlatos como
termos que parecem capazes de remediar as deficiências da era da
inteligência artificial simbólica, como resposta à automatização de
atividades tipicamente humanas no processo de análise de dados e
utilização de seus resultados. O fracasso da inteligência artificial
simbólica em tarefas mais realistas de inferência, predição e tomada de
decisão, promoveu a área de aprendizado estatístico (machine learning)
a ocupar seu lugar. Todavia as limitações do uso sério desse expediente
1
O termo em inglês Big Data tem sido tomado nas versões em português como dados
volumosos. Entretanto, a característica de apresentar grande volume é apenas uma
das tantas que designam esse conceito. Seria mais interessante usar o termo
hiperdados volumosos. Todavia, manteremos o uso do termo original em inglês, o
qual já se popularizou nos meios acadêmico e tecnológico.
145
ainda fazem com que a tão desejada automatização não tenha ocorrido
de forma completa sequer razoavelmente, deixando um vazio quanto à
carência de modelos de como se dão esses processos tipicamente
cognitivos. Esse vácuo tem sido preenchido por uma visão especulativa
dos processos cognitivos, que conjuntamente com os métodos
tradicionais de análise e inferência sobre dados formam uma nova área
conhecida como “computação cognitiva”. Desta feita, cognição e Big
Data acabaram tornando-se conectados.
Nossa motivação é, portanto, dupla. De um lado, conduziremos
nossa análise através do domínio da ciência de dados, buscando
entender o que é de fato Big Data e investigar se o emprego de
modelos da cognição poderia ser aplicado ao setor. De outro lado,
analisaremos a potencialidade do uso de Big Data para auxiliar a
ciência cognitiva. Procuraremos também proporcionar certo caráter
didático em alguns pontos, visando auxiliar a compreensão, pelos não
especialistas, no que se refere a alguns princípios e aspectos da
metodologia da ciência de dados e da estatística que eventualmente
serão mencionados no desenvolvimento de nossa análise.
1 O CONCEITO DE BIG DATA

A concepção de Big Data modificou-se significativamente desde
as primeiras menções do termo até a atualidade. Inicialmente Big Data foi
um nome sugerido por John Mashey em 19982 para realçar as
consequências de se dispor de tecnologia capaz de processar em altíssima
velocidade, um volume extremamente grande de dados, apresentados sob
formatos de diversificada variedade (multimídia). Essa concepção ensejou
o mote popular “Big Data = 3V” (Velocidade, Volume, Variedade).
Entretanto, o que gostaríamos de enfatizar é que o foco inicial se deu nas
consequências, no impacto que isso produziria sobre as aplicações que
fizessem uso de “Big Data = 3V” (DIEBOLD, 2012).
Exemplo bastante característico dessa concepção é o caso da
análise de dados obtidos de mensagens postadas pelos usuários de
redes sociais, como Facebook e Twitter, que podem conter texto,
imagens e vídeos, portanto, dados multimídia provenientes de uma
quantidade enorme de usuários, que caracteriza os quesitos variedade e
volume em proporções típicas da noção de Big Data. Outro exemplo é
o da análise de noticiários de jornais segundo um tópico, quando se
2
Citado por (DIEBOLD, 2012), página 3.
146
dispõe de grandes coleções históricas das edições diárias. Nesse caso, a
variedade é um quesito de menor importância, pois os dados contêm
geralmente só texto, podendo ser eventualmente complementados por
imagens. Todavia, nesse caso o volume é o aspecto que invoca a ideia
de Big Data. Caso semelhante é o da análise de dados históricos de
mercado financeiro envolvendo múltiplas séries temporais, na qual os
dados são essencialmente numéricos, mas em volume que pode ser
extremamente grande. Já o caso da análise de múltiplas séries
temporais de dados ambientais pode apresentar também grande
variedade de dados multimídia, envolvendo não só números, mas
também diagramas e gráficos provenientes de medidas feitas por
sensores ambientais, bem como texto proveniente de relatórios.
Um caso que apresenta aparentemente pouca variedade à
primeira vista é o da análise de vídeos em grandes coleções, como por
exemplo YouTube, sendo a variedade proveniente não da multiplicidade
de meios, que no caso é apenas vídeo, mas de temas e situações
presentes nos vídeos, o que por si é um grande desafio para tarefas de
detecção e identificação de padrões presentes nos dados. Vê-se,
portanto, que o critério “Big Data = 3V” tem sido empregado de forma
bastante flexível nos últimos anos, invocando os quesitos “volume” e
“variedade”, mas pouco se importando com o quesito “velocidade”.
Todavia, reside ainda no imaginário dos interessados as possibilidades
que a concepção original cogitava quanto às consequências que o uso de
alta velocidade de processamento de dados volumosos com grande
variedade de apresentações poderia trazer. É o que acontece na
monitoração em tempo real do comportamento de transeuntes nas ruas e
logradouros, como aeroportos, estações, escolas, etc. Essa atividade se
encaixa completamente na concepção “Big Data = 3V” e, vale dizer, traz
implicações inquietantes no que diz respeito à questões éticas e até
mesmo legais, assim como as demais exemplificadas, dependendo de
suas finalidades. Todavia, não é esse o ponto que estamos focalizando
aqui ao analisar a concepção da ideia de Big Data. Queremos salientar
que todas essas aplicações oferecem em primeiro lugar um desafio
meramente tecnológico. Os quesitos 3V tornar-se-ão em poucos anos
atividades corriqueiras, face à crescente escalabilidade dos sistemas de
processamento, tanto quanto ao hardware, quanto ao software. Portanto,
o que hoje parece ser desafio sob esse critério, logo deixará de ser, o que
nos leva a questionar a concepção “Big Data = 3V”. Essa preocupação,
entretanto, não é nova.
147
Em outro momento subsequente, apontou-se que o fato
importante por trás do fenômeno Big Data não residiria em sua
associação à tecnologia (habilidade em lidar com 3V), nem nas
consequências sobre as aplicações, mas sim na constituição de um
novo paradigma de análise de dados. Não parece ser a tecnologia um
fator preponderante, visto que a capacidade de processar com
indicadores 3V cada vez mais significativos (mais velocidade, maior
volume, mais variedades) é supostamente sempre crescente com o
avanço tecnológico, portanto é uma tendência que não traz novidades
em si mesma (DONOHO, 2017). Também não parece ser que a
consequência sobre as aplicações dessa capacidade de processar em
elevados “3V” seja um fator inerente ao conceito de “Big Data = 3V”.
Entendemos que as aplicações tecnológicas são consequência da
proposição de problemas que elas resolvem, não o oposto. Ao se
buscar resolver problemas cada vez mais complexos (por exemplo,
questões ambientais, administração pública global, economias
interligadas, cidades inteligentes, etc.) suas soluções demandam
tecnologia capaz de lidar com “Big Data = 3V” de forma adequada a se
alcançar uma certa capacidade funcional de solução do problema.
Portanto não reside no simples fato de se poder realizar esse
processamento “3V”, que satisfaz esse quesito apenas parcialmente. É
preciso saber que processamentos são esses, que algoritmos eles
implementam, baseados em que modelos computacionais, isto é,
matemáticos, lógicos, estatísticos. Ou seja, que paradigma de análise e
tratamento dos dados estaria por trás de Big Data.
1.1 A metodologia de análise de dados

O ferramental para se trabalhar os dados no processo de análise
é constituído de técnicas de formatação dos dados em maneira
conveniente, detecção de padrões nos dados, transformações sobre os
dados e métodos de inferência sobre os resultados obtidos. Esses
recursos são provenientes em grande parte da ciência da estatística, mas
também são empregados muitos recursos oriundos de outras áreas da
matemática, nomeadamente da análise numérica, da ciência da
computação, da lógica, da álgebra, da geometria e da topologia, além de
áreas mais especializadas. Portanto, não cabe aqui neste ensaio
enveredar por todas essas áreas sequer para tentar oferecer uma visão
superficial de suas contribuições. Nesta seção vamos nos ater apenas a
alguns poucos aspectos particulares que julgamos essenciais para a
148
discussão que se segue. Discutiremos a seguir a nomenclatura que define
dados, resultados, experimentos, o problema da análise e as estatísticas.
1.1.1 Dados e resultados
Dado é o nome que se dá ao veículo que transporta a informação
relevante obtida da observação de um fenômeno ou de um fato. Embora
muito se tenha debatido quanto à questão que “dado” significa que é algo
fornecido, isso não é relevante no domínio de análise de dados. Aqui,
um dado resulta de uma observação, que pode ser feita por um técnico,
obtida via um questionário, ou medida através de um instrumento.
Mesmo que se diga, por exemplo, que ao responder um questionário
uma pessoa entrevistada está fornecendo o dado, não é esse o ponto que
é importante do ponto de vista de análise: o que importa é que a resposta
foi obtida do indivíduo, portanto observada de acordo com um protocolo
de coleta. Se o indivíduo não responder à questão, o dado correspondente
é anotado como “sem resposta”, tal como se nota por exemplo nas
pesquisas de opinião, eleitorais, etc.
Os dados são caracterizados de acordo com sua posição no
fluxo de informação que se estabelece ao longo do processo todo, que
vai da sua coleta à emissão do relatório da análise. Dados que entram
em uma etapa do processo são caracterizados como “dados de
entrada”, ou simplesmente “dados”, ao passo que os dados que saem de
uma etapa são ditos “dados de saída”, ou simplesmente “resultados”.
Nessa terminologia, que aqui empregaremos, o resultado de uma certa
etapa pode se tornar um dado para a etapa seguinte.
1.1.2 O experimento
A coleta de dados é um processo crucial dentro das atividades
de análise. As observações (medidas, inspeções, inquéritos, etc.) que
compreendem essa coleta devem seguir protocolos bem determinados
e específicos para cada problema. A especificação desses protocolos,
os expedientes de observação dos dados, formam uma série de
procedimentos que constituem aquilo que se denomina um
“experimento”. Portanto, deve-se aqui entender a palavra experimento
com sendo uma especificação formal do método de observação e
representação dos dados.3
3
A rigor, ao se falar em “dados” já está implicado o fato de que um dado é uma
representação, segundo um determinado esquema, da informação contida em uma
observação oriunda de um experimento.
149
1.1.3 O problema da análise de dados
O objetivo da análise de dados é responder às questões
colocadas visando obter informações sobre um determinado fato,
situação ou fenômeno. O problema de análise de dados surge por não
ser fácil de se conseguir responder imediatamente essas questões. O
grande volume de itens presentes em um conjunto de dados dificulta a
observação dos padrões e regularidades eventualmente presentes, que
acabam ocultos em meio à variabilidade e flutuações. Um dos
expedientes na proposição de uma tarefa de análise de dados consiste
em encontrar um esquema de representação de dados conveniente. O
esquema de representação é especificado através da indicação de que
variáveis, atributos ou propriedades caracterizam adequadamente as
informações presentes nos dados. Essa adequação tem como finalidade
realçar as regularidades dos dados face às variabilidades. Uma boa
representação permite uma melhor separação dos dados em
subconjuntos que se relacionam de forma mais homogênea e torna
mais fácil a detecção e identificação dos padrões presentes. Por
exemplo, no problema de reconhecimento de faces de pessoas, em vez
de se utilizar como representação um conjunto de medidas que parece
mais intuitivo, por exemplo, as dimensões dos elementos da face
(olhos, nariz, boca, etc.) e as distâncias entre os mesmos, mostra-se
mais eficiente representar as faces tendo como base um conjunto de
faces “médias”, e em seguida construir-se medidas de quanto cada face
presente no conjunto de dados se assemelha a cada uma dessas faces
“médias”. Naturalmente, isso conduz ao problema de criar essa medida
de similaridade entre as faces e as faces “médias”, e isso é uma das
tarefas da estatística.
Ao se colocar o problema de análise, deve-se especificar
formalmente as questões a serem respondidas e determinar que
esquema de representação é adequado para caracterizar os dados, de
modo que as respostas a serem obtidas façam sentido no contexto que
se está analisando.
A detecção da presença de padrões nos dados em meio à
variabilidade e flutuações constitui a primeira etapa do problema de
análise de dados. Os padrões que se deseja observar são determinados
pelo contexto do problema, pelas perguntas que se deseja responder e
que não podem ser respondidas observando-se diretamente os dados
devido ao seu grande volume e variabilidade aparente. Identificados
esses padrões, pode-se usá-los para averiguar como se relacionam entre
si e às questões colocadas, realizando-se inferências que podem ser de
150
caráter dedutivo ou indutivo, conduzindo finalmente às respostas para
as questões especificadas.
Um problema de análise de dados é caracterizado da seguinte
forma, genericamente: (i) partindo-se dos dados, obter os resultados que
satisfazem à especificação formal do problema, que exprime que tipo de
informação se deseja obter em uma dada aplicação de análise, e (ii) de
posse dos resultados, realizar as inferências que permitem obter as
conclusões (favoráveis ou desfavoráveis) requeridas formalmente na
declaração do problema. A solução final do problema de análise de
dados consiste em produzir o relatório das conclusões da análise.
Convém enfatizar que as palavras-chave nos últimos parágrafos
se referem a formalidade e especificação. Os métodos de análise só
funcionam adequadamente em contextos formalizados e específicos. A
modificação de qualquer aspecto da apresentação do problema afetará a
análise de maneira correspondente, exigindo-se que algum procedimento
seja feito de modo diferente. Portanto, automatizar métodos de análise
para serem aplicáveis a novos casos só é possível se os casos
corresponderem ao mesmo problema de análise sob todos os aspectos,
estendendo-os a novos conjuntos de dados apenas.
1.1.4 Estatísticas
A estatística é parte essencial de um processo de análise de
dados (que pode envolver outros expedientes que se baseiam em lógica
matemática, topologia, etc.). A estatística provê métodos para se
identificar o que é característico dentro de uma coleção de dados,
separando daquilo que é peculiar, particular ou perturbação devido à
variabilidade ou flutuações dos dados. A estatística é essencial para a
análise de dados porque é através de seus métodos que se observa a
presença de regularidades nos conjuntos de dados. Essas regularidades
são detectadas através de processos de comparação entre os dados
presentes no conjunto, verificando em que aspecto um dado “se
parece” com o outro, ou quanto ele se assemelha a um valor tomado
como referência. Essa comparação requer uma medida específica para
cada tipo de análise, e depende do esquema de representação de dados
utilizado, conforme ilustramos atrás com o exemplo do problema de
reconhecimento de faces. Construir essas medidas não é uma tarefa
trivial, sendo uma das metas da estatística o estudo e desenvolvimento
de métodos para tanto.
151
A construção de medidas de similaridade (ou discrepância)
entre dados constitui a base para que se possa realizar a tomada de
decisões e as inferências em estatísticas. Essas medidas são embasadas
no conceito matemático de probabilidade. Sem as probabilidades, a
estatística não passaria de uma metodologia de descrição de dados. O
conceito original de probabilidade traduz-se em termos das frequências
com que determinadas observações ocorrem em um experimento,
comparada ao número total de observações realizadas, sejam elas quais
forem. Por exemplo, considere o experimento “lançar uma moeda e
observar qual face encontra-se voltada para cima”. Esse experimento
apresenta dois resultados possíveis: cara ou coroa. Considerando-se
que foram feitas muitas repetições do experimento, digamos dez mil
por exemplo, pode-se estimar a probabilidade de que o resultado seja
“cara” computando-se a razão entre a quantidade de vezes em que se
observou o resultado “cara” e o número total de repetições do
experimento, ou seja dez mil. Intuitivamente espera-se obter um valor
próximo de 0,5 (isto é, 50% das vezes) para essa probabilidade.
Espera-se igualmente obter valor similar para o resultado “coroa”, na
hipótese de que a moeda é “honesta” (isto é, bem balanceada entre as
duas faces). Note-se um fato importante, que é o da distinção entre a
probabilidade medida (isto é, computada a partir dos resultados) e a
probabilidade teórica ou hipotética (aquilo que se espera obter por
razões lógicas). Mostra-se através da teoria de probabilidades, que a
repetição cada vez mais prolongada do experimento proporciona às
estimativas de probabilidades medidas aproximarem-se cada vez mais
do resultado hipotético. Mostra a teoria matemática de probabilidades
que esse resultado é universal, válido para todos experimentos.
A definição de probabilidade em termos das frequências de
observação dos resultados de um experimento perdurou durante
séculos. Entretanto, no início do século XX descobriu-se diversos
paradoxos que podem surgir dessa definição. A questão foi
definitivamente resolvida por Kolmogorov (1933), que propôs uma
definição axiomática da probabilidade, que desde então constitui a
base da teoria de probabilidades e, consequentemente, da estatística.
Nessa definição, um ponto que será importante para a nossa discussão
acerca de Big Data é o papel da especificação do experimento e,
consequentemente, a determinação da medida de probabilidade. De
acordo com a definição axiomática, a probabilidade deve ser
construída consistentemente com os resultados do experimento.
Podemos dizer que a probabilidade fornece a medida de como um
152
determinado resultado de um experimento se compara com o conjunto
de todos os possíveis resultados do mesmo. Portanto, a especificação
do experimento determina as probabilidades de seus possíveis
resultados e esse é o ponto crucial. Naturalmente, Kolmogorov colocou
isso tudo em termos abstratos, de modo que a teoria seja extensível a
todos experimentos. Entretanto, para um experimento específico, só há
uma medida de probabilidade associada aos seus resultados, evitando-
se assim os tais paradoxos que mencionamos anteriormente.
Consequentemente, se alguma coisa mudar na especificação do
experimento, as probabilidades mudam, afetando as conclusões
obteníveis através da estatística. Assim, por exemplo, considere o
experimento de “retirar uma bola de um saco contendo bolas coloridas,
sem devolver a bola ao saco”. As probabilidades teóricas esperadas
dependem dessa especificação do experimento. Se mudarmos
ligeiramente a especificação para “retirar uma bola de um saco
contendo bolas coloridas, devolvendo a bola ao saco em seguida”, as
probabilidades teóricas mudam todas. Note-se que o fato de serem
teóricas essas probabilidades, não implica que se possa na prática
observar resultados que nada teriam a ver com os mesmos. O
significado dessa probabilidade teórica é o de prover um modelo
válido de predição dos valores a serem obtidos experimentalmente.
Isso é o que torna válida a atividade de inferência em estatística.
1.2 Relação entre Big Data e a metodologia de análise de dados

Antes de entrarmos na discussão sobre a metodologia de
análise de dados, em particular da estatística, ressaltamos que, segundo
nosso entendimento, a ideia de “Big Data = 3V” não introduzia
qualquer característica que a tornasse algo definitivamente inovador.
Outrossim, enfatizamos que se algo poderia conferir um caráter
inovador à ideia de Big Data, decorreria dos métodos de análise
requeridos e das possibilidades que os mesmos pudessem trazer,
constituindo um novo paradigma de análise. Isso tornou-se evidente em
determinado momento, e conduziu ao aparecimento de iniciativas para
se fundar uma “nova ciência de dados”. Entretanto, embora tenha-se
evidenciado quais seriam os rumos que preconizavam essa revolução,
desenvolveu-se à margem desse esforço uma atividade de análise de
Big Data muitas vezes dissociada dos cuidados que se deve tomar para
mantê-la válida ao menos dentro do antigo paradigma já estabelecido
(DONOHO, 2017). O que aqui discutiremos não será o dito novo
paradigma, mas alguns aspectos dos excessos que eventualmente se
153
tem cometido ao tentar estender indevidamente os métodos clássicos à
análise de Big Data.
Um ponto importante na ideia de Big Data é sobre como se
formam as grandes coleções de dados que o caracterizam. Na
estatística tradicional, como discutimos anteriormente, a especificação
de um experimento que irá gerar os dados é um ponto crucial: os
resultados da análise só serão válidos para um experimento conduzido
da forma como especificado. Consequentemente, não se pode misturar
dados de dois experimentos diferentes para compor um conjunto de
dados maior e aproveitar os resultados obtidos separadamente. Pode-
se, porém, definir um novo experimento que seja compatível com a
mistura desses dados e proceder-se a uma nova análise, apoiada em
novas medidas de probabilidade correspondentes. Entretanto, ainda
que isso possa em princípio ser feito, resta uma questão importante
com relação à agregação desses dois conjuntos de dados em um novo.
Um princípio fundamental que rege a validade da conclusão
dos métodos da estatística é que os dados sejam amostras
características da população de onde foram coletados. Isso coloca uma
dificuldade que poderia ser ilustrada pelo seguinte exemplo: considere
amostras retiradas de textos de um jornal norte-americano, para as
quais realizou-se determinada análise. Suponha que uma análise similar
tenha sido feita a partir de textos de um jornal chinês. Certamente não
se pode considerar as conclusões das duas análises como refletindo um
aspecto extensível à população de leitores de ambos os jornais
considerada conjuntamente. Mas seria válido realizar nova análise
redefinindo o experimento de modo a agregar os dados obtidos com
ambos jornais? Seria a conclusão dessa análise válida do ponto de vista
estatístico? Certamente não, pois o novo experimento envolveria a
amostragem de uma população que não é homogênea (são jornais de
origens muito distintas) e, mesmo que se conduzisse a análise
rigorosamente, os dados amostrais não poderiam ser considerados
válidos. O único recurso seria separar os dados em dois grupos
homogêneos e então realizar-se as análises de cada grupo
separadamente, recaindo-se na situação original.
Sterner e Franz (STERNER e FRANZ, 2017) discutem
situações em que o expediente de agregação de dados provenientes de
diferentes experimentos tendem a ser corriqueiras. O exemplo que
analisam em maior detalhe é o da agregação de dados taxonômicos de
fósseis provenientes de diferentes locais e épocas de coleta, usados
para realizar inferências sobre uma determinada espécie fóssil. Os
154
autores argumentam que é comum a existência de diferentes
significações e interpretações das amostras conforme a época, método
ou escola que os obteve, o que deve conduzir a um problema semântico
na formação do experimento agregando os dados. Embora apontem
soluções para dirimir o erro de agregação no caso específico dos dados
taxonômicos, eles argumentam que isso pode se tornar um problema
muito maior no caso de Big Data em geral: a possibilidade de
discrepâncias semânticas entre diferentes segmentos dos dados
coletados poderia conduzir à invalidação de resultados de análise. Por
exemplo, consideremos a gigantesca coleção de dados obtidos pelo
Facebook a partir das postagens de seus usuários. Seria aceitável
proceder-se a qualquer investigação desses dados sem se levar em
consideração as peculiaridades semânticas de cada fonte original, das
dependências contextuais, das variações nas formas de coleta?
Certamente que se pode tentar realizar algum tipo de análise, mas a
questão não se encontra na possibilidade de sua realização, mas na
validade das conclusões obtidas.
A despeito das críticas sérias apontadas anteriormente, nota-se
uma insistente proliferação de tentativas de se validar argumentos
errôneos através de crenças e mitos que se popularizam no meio
empresarial em que se faz uso de análise de grandes volumes de dados.
As fraquezas dos esquemas de produção de conjuntos de dados são
constantemente ignoradas, com a desculpa de que o volume expressivo
de dados possa remediar os problemas intrínsecos. O emprego de
métodos desenhados para tratar dados provenientes de experimentos
bem especificados para analisar conjuntos de Big Data agregados sem
compromisso com experimentos, pode conduzir a problemas
gravíssimos, como o chamado apofenia – a observação de padrões
inexistentes – tornando as conclusões que se obtém da análise
totalmente falsas (KIMBLE e MILIODAKIS, 2015).
2 BIG DATA E COGNIÇÃO

Outra tendência que se observa no mundo de ciência de dados,
em particular no setor empresarial, consiste no emprego do termo
“computação cognitiva”, que não chega a constituir um corpo
metodológico, mas apenas uma agenda que busca incluir na
especificação dos problemas de análise a meta de assemelhar-se ao
modo com que os seres humanos raciocinam e decidem. Não se pode
dizer que haja maior substância nesse desejo, uma vez que a
155
caracterização desse “modo humano” é feita de maneira geralmente
superficial. Todavia, empresas de análise de dados têm ofertado essas
possibilidades a seus potenciais clientes (KOGLER JR., 2018),
(DIEBOLD, 2012), (KIMBLE e MILIODAKIS, 2015).
O emprego dos termos “cognição” e “cognitivo” deve ser
revestido do cuidado em considerar-se aquilo que realmente são. O
abuso da ideia de cognição como sendo um conceito “guarda-chuva”,
sob o qual abrigam-se os conceitos correlatos de percepção, memória,
linguagem, raciocínio, atenção, consciência, etc., praticado inclusive
em livros-texto conhecidos (GAZZANIGA, IVRY e MANGUN, 2013;
POSNER, 1989), pode conduzir à displicência que se observa nos
meios que promovem a dita “computação cognitiva”. Certamente é
difícil dispor-se de uma clara conceituação de cognição quando os
próprios setores que o estudam, nomeadamente a ciência cognitiva e a
filosofia da mente, encontram-se em profundo debate sobre a questão,
permeado de grandes discordâncias. Entretanto, isso não constitui
desculpa para apoderar-se de um conceito e torná-lo a panaceia para
todos os males.
Outro aspecto, mais interessante, que relaciona Big Data à
cognição, consiste em especular acerca dos benefícios que se poderia
obter do emprego de Big Data no estudo da cognição. Podemos
questionar se a análise de grandes volumes de dados poderia ajudar na
construção de modelos dos processos cognitivos, capturando sua
complexidade através da descoberta de novos padrões e relações entre
dados experimentais até agora desconhecidos. Tome-se como exemplo,
embora ainda em uma escala tímida, aquilo que se tem feito em
estudos de conectividade cerebral (conectoma humano) através de
técnicas de imagens médicas (SPORNS, 2012) e estudos massivos de
conectividade, correlacionados com função, realizados por grandes
institutos4. Esses estudos, entretanto, adotam uma via essencialmente
empírica, que irá requerer um longo tempo para ser razoavelmente
deslindada na ausência de bons modelos teóricos que os guiem.
Todavia, é inegável que venham contribuir de maneira substancial ao
conhecimento dos processos cognitivos.
Argumentamos em concordância com (DONOHO, 2017) e
(STERNER e FRANZ, 2017) que o conceito de Big Data não deve ser
tomado simplesmente como “Big Data = 3V”, mesmo que se incluam
nessa visão as adaptações das técnicas de análise ao seu uso. Nosso ponto
4
Allen Institute for Brain Science, https://alleninstitute.org/what-we-do/brain-science/research/
156
de vista vai além, também em concordância com esses autores,
propondo que o conceito de Big Data deve envolver uma mudança de
paradigma de análise, em especial metodológica. Considerando
perspectivas futuras de nossa proposta que vão mais além ainda do que
propõem esses autores, esse novo paradigma pode valer-se de uma nova
forma de representação das coleções de dados, que permita tratar
subconjuntos de dados e suas relações como membros naturalmente
formadores da classe Big Data, que deixaria de ser tratada como mero
conjunto. Explicar melhor essa sugestão, todavia, implicaria em
considerações matemáticas que se encontram fora do alcance destas
reflexões iniciais e constituem trabalho de pesquisa que temos
conduzido recentemente (KOGLER JR, 2019), intrinsicamente ligados a
uma nova concepção da mencionada computação cognitiva. Sob nossa
futura proposta, a metodologia de análise de Big Data possibilitaria a
inclusão de processos cognitivos como parte das computações, abrindo o
caminho para outras perspectivas de análise ainda mais interessantes
como as cogitadas por (PEARL e MACKENZIE, 2019) considerando a
possibilidade de análise de causação a partir de Big Data e a utilização
de semiótica peirceana para orientar a concepção dos processos
cognitivos de computação (KOGLER JR e ROMANINI, 2018).
REFERÊNCIAS
DIEBOLD, F. X. On the Origin(s) and Development of the Term "Big
Data". Penn Institute for Economic Research, University of Pennsylvannia.
Philadelphia, p. 8. 2012.
DONOHO, D. 50 Years of Big Data. Journal of Computational and
Graphical Statistics. 26, n. 4, 2017. 745-766.
GAZZANIGA, M. S.; IVRY, R. B.; MANGUN, G. R. Cognitive Neuroscience.
New York: W. W. Norton & Company, 2013. ISBN-13 : 978-0393913484.
KIMBLE, C.; MILIODAKIS, G. Big Data and Business Intelligence: Debunking the
Myths. Global Business and Organizational Excellence, 35, n. 1, 2015. 23-34.
KOGLER JR, J. E. Probabilistic models of distributed cognitive processes
based on category theory. Universidade de São Paulo. São Paulo, p. 19. 2019.
KOGLER JR, J. E.; ROMANINI, A. V. Big Data e a Semiótica de Peirce.
Universidade de São Paulo. São Paulo, p. 30. 2018.
KOGLER JR., J. E. Cognitive is the New Hype Word. Universidade de São
Paulo. [S.l.], p. 3. 2018. (Artigo em blog).
KOLMOGOROV, A. N. Grundbegriffe der Wahrscheinlichkeitrechnung
(Foundations of the theory of probabilities). Berlin: Springer, 1933.
PEARL, J.; MACKENZIE, D. The Book of Why. 1a. ed. [S.l.]: Basic Books, 2019.
157
POSNER, M. The Foundations of Cognitive Science. Cambridge: MIT
Press, 1989. ISBN-13 : 978-0262161121.
SPORNS, O. Discovering the Human Conectome. Cambridge: MIT Press,
2012. ISBN-13 : 978-0262017909.
STERNER, B.; FRANZ, N. M. Taxonomy for Humans or Computers ? Cognitive
Pragmatics for Big Data. Biological Theory, Berlin, 12, 2017. 99-111.
158
BIG DATA: FAKE NEWS, OPINIÃO PÚBLICA E
VIGILÂNCIA
QUEM ACREDITA EM FAKE NEWS?
Marco Aurélio Sousa Alves
INTRODUÇÃO
O uso que conhecemos hoje do termo ‘fake news’ se difundiu a
partir da cobertura da eleição presidencial norte-americana de 2016
(RIBEIRO; ORTELLADO, 2018). ‘Fake news’ foi eleito o termo do
ano em 2017 pelo Collins English Dictionary, que detectou um aumento
de 365% nas menções do termo naquele ano (BBC BRASIL, 2017).
Neste mesmo ano de 2017, o Oxford English Dictionary elegeu o termo
‘post-truth’ (‘pós-verdade’) como a palavra do ano (GENESINI, 2018, p.
47). O boom no uso desses termos parece acompanhar o surgimento de
algo também novo.
O Collins Dictionary definiu o verbete ‘fake news’ como
“informação falsa e normalmente sensacional disseminada sob o
disfarce de matéria jornalística”.1 Apesar de ser, muitas vezes,
compreendido de forma restrita como se referindo especificamente a
informação enganosa que emula a forma jornalística (LAZER, 2018),
faço aqui um uso mais ampliado desse termo, incluindo material
oriundo de “sites satíricos” ou de “feeds do Twitter ou do Facebook”
(ALLCOTT; GENTZKOW, 2017, p. 212). O Oxford Dictionary, por
sua vez, definiu o verbete ‘post-truth’ como “relativo a, ou denotando,
circunstâncias nas quais os fatos objetivos são menos influentes na
conformação da opinião pública do que o apelo à emoção e às crenças
pessoais”.2 O primeiro termo faz referência a notícias falsas, e o outro
se refere à desimportância de fatos objetivos, e da própria verdade, na
conformação da opinião pública. Não é preciso muita perspicácia para
perceber que essas duas coisas estão conectadas.
No ensaio que se segue, apresento um estudo exploratório que
pretende caracterizar mais precisamente o fenômeno das fake news,
1
Tradução nossa. No original: “Fake news (noun): false, often sensational,
information disseminated under the guise of news reporting”.
2
Tradução nossa. No original: “Post-truth (adjective): relating to or denoting
circumstances in which objective facts are less influential in shaping public opinion
than appeals to emotion and personal belief”.
161
que se mostra indissociável de um fenômeno mais amplo relativo ao
descompromisso com a verdade. Num primeiro momento, tentarei
explicitar o que são, afinal de contas, as tais fake news. Num segundo
momento, apresentarei brevemente dois casos que considero
paradigmáticos. Por fim, questiono quem realmente acredita nessas coisas.
1 AFINAL DE CONTAS, O QUE SÃO FAKE NEWS?

As fake news são, no mais das vezes, imediatamente
compreendidas como notícias falsas. É o que vimos, por exemplo, na
definição do Collins Dictionary. Mas o que haveria de propriamente
novo na existência de notícias falsas? Notícias inverídicas
evidentemente sempre existiram. Entretanto, como afirmei acima,
parece que presenciamos o surgimento de algo novo.
Aliás, não apenas a falsidade, mas a mentira deslavada também
não é novidade. Ao longo de toda história humana, muito antes das
redes sociais e da internet, histórias absurdas e teorias conspiratórias
delirantes e mirabolantes já prosperaram em muitos locais. Alguém
poderia pensar que antes se tratava de grupos pequenos e marginais,
mas que a mentira nunca foi tão sistemática e nunca alcançou a escala
que hoje observamos. Talvez. Porém, mesmo o fenômeno da mentira
em massa, em grande escala, também não parece novidade. Em
contextos políticos e, principalmente, em contextos de guerra, essa
prática sempre foi comum, alcançando e conformando crenças e
comportamentos de amplas populações.
Um exemplo emblemático foi o revisionismo histórico levado
a cabo por Stálin, na antiga União Soviética. Destaco aqui as repetidas
manipulações de imagens que eram feitas visando apagar e adulterar os
vestígios de acontecimentos históricos (MACDONALD, 2018). Na
série de fotografias abaixo, vemos a progressão de alterações da foto
original à esquerda, que data de 1926. As alterações foram feitas
visando a eliminação daqueles que eventualmente perdiam a simpatia
de Stálin (ALVES; HALFELD, 2020). Tais mudanças visavam
manipular a própria história, apagar os vestígios documentais da
presença desses indivíduos e criar um passado mais conveniente a
certos objetivos políticos/ideológicos circunstanciais.
162
Fotos disponíveis no acervo The David King Collection do Tate em Londres, Reino Unido.
O exemplo acima encontra paralelos em diferentes regimes e

momentos históricos. Foram casos como esse que levaram a filósofa
Hannah Arendt a escrever o ensaio “Verdade e Política”, no qual
desnuda a permanente tensão que existe entre o discurso que busca a
verdade e a atividade política (ARENDT, 1967). Em suma, a política,
em seu afã de transformar o mundo, tende a instrumentalizar a
verdade, submetendo-a ao controle de suas estratégias circunstanciais.
Tal tensão seria agudizada em contextos nos quais a política deixa de
ser o espaço do diálogo para se tornar o espaço do conflito, ou quando
se torna propriamente guerra. Segundo o famoso dito do general
prussiano Carl von Clausewitz, “a guerra é a continuação da política
por outros meios”. Os meios da guerra são ainda mais avessos à
verdade do que os meios políticos. Trata-se de um espaço no qual a
informação e o discurso viram armas, e devem se submeter ao objetivo
maior da própria guerra.
O fenômeno já bem conhecido da mentira, particularmente em
contextos políticos/bélicos, confluiu recentemente com o advento das
novas tecnologias da informação, que revolucionaram a maneira como
a sociedade se informa e se comunica. A internet e as redes sociais não
criaram a mentira, nem a desinformação em massa, mas conformaram
um ambiente propício para que tais coisas se propagassem de um jeito
novo, e numa escala e velocidade também novas.
Ao contrário dos principais veículos informacionais de massa
já conhecidos (e.g. televisão, rádio, mídia impressa), que funcionam de
maneira centralizada e unidirecional (RUMMERT, 1986), o novo
espaço informacional permite que cada usuário participe de uma
maneira nova, produzindo e compartilhando conteúdo. O crescimento
desse novo espaço informacional gerou, dentre muitas outras coisas, o
fenômeno da sobrecarga informacional, no qual a informação não é
163
mais filtrada pelos procedimentos anteriores, tornando-se disponível
aos indivíduos uma quantidade de informação que supera em muito
sua capacidade de filtrar e processar (CARR, 2011; CASTELLS,
2007). A forma como a informação é controlada, filtrada, selecionada
e direcionada aos indivíduos sempre foi uma questão de evidente
interesse político. O controle da informação sempre foi um elemento
crucial na disputa pelo poder. O crescimento vertiginoso de um novo
espaço informacional alheio aos procedimentos já conhecidos de
controle gerou uma espécie de selvageria informacional, uma batalha
que transformou a forma como a informação chega a cada indivíduo
num campo em plena disputa.
Proponho compreendermos o fenômeno recente das fake news
à luz do panorama esboçado até aqui. Fake news não são apenas, ou
propriamente, falsas. Além de falsas, parece haver nelas, também, o
intuito de enganar. Nesse sentido, elas não seriam exatamente falsas,
mas mentirosas. Ademais, o tipo específico de mentira ou enganação
que visam merece qualificação. O ‘news’ da expressão já indica que se
trata de um discurso que almeja atingir uma audiência potencialmente
ampla, e não apenas um ou dois interlocutores, como numa conversa
ordinária. Dado o espaço onde se coloca, trata-se de um discurso que
visa ser replicado para um público indefinido e potencialmente amplo.
Portanto, uma mentira que se coloca nesse espaço é potencialmente
uma mentira em massa.
Ressalte-se que o tipo de engano visado pelas fake news não
precisa ser propriamente (ou necessariamente) um engano doxástico,
ou relativo diretamente à formação de crenças falsas. As fake news
podem visar a exposição pública de algum indivíduo, ou a criação de
uma certa imagem por associação, com determinadas conotações
positivas ou negativas. Nesse sentido, ela pode muitas vezes se
assemelhar à propaganda publicitária, que associa um determinado
produto a um certo conjunto de valores e desejos, mas não
necessariamente visa levar os indivíduos a acreditarem em um
conjunto definido de crenças falsas sobre o produto. É um discurso
que não propriamente mente ou engana, mas que faz alusão a
associações positivas ou negativas acerca de algo ou alguém. Algumas
fake news chamam a atenção exatamente pelo caráter absurdo ou
pitoresco. São incríveis, no sentido literal de serem não críveis. Ainda
assim, funcionam como iscas da atenção e dos cliques das pessoas. A
exposição a tal discurso ajuda a criar uma atmosfera emotiva favorável
ou desfavorável acerca do objeto em questão.
164
Harry Frankfurt (2005) se notabilizou por distinguir a mentira
do que ele chamou de “bullshit”, ou “falar bobagens”. Tecnicamente, o
falador de bobagens é aquele que, apesar de afirmar coisas, não se
importa se elas são verdadeiras ou não (RINI, 2017). Seu interesse é
fazer os outros acreditarem em algo, tendo em vista interesses
específicos, pouco importando se o que diz é ou não verdadeiro.
Criadores e replicadores de fake news parecem ser, acima de tudo,
faladores de bobagens (bullshitters). O que muitas vezes se pretende
com o tipo de bobagem que constitui as fake news não parece ser
propriamente convencer as pessoas sobre a verdade de algo, ou enganá-
las fazendo-as crer em algo falso. Além desse tipo mais óbvio de fake
news, que Regina Rini (2017, p. 47) chamou de fake news “pura”, ou
que visa o engano (“aimed-at-deception”), parece haver também outro
tipo que visa configurar cenários ou estados epistêmicos/emotivos que
modalizam amplos conjuntos de crenças e atitudes relativas ao tema ou
pessoa em questão. Trata-se de alimentar uma espécie de pré-
disposição para levar a crer em coisas positivas ou negativas acerca do
objeto tratado, ou para induzir a agir de determinadas formas que
seriam a favor ou contra tal coisa.
A ênfase na falsidade, ou mesmo no caráter enganador e
mentiroso, das fake news parece-me fundamentalmente equivocada,
pois acaba obscurecendo o que é talvez seu ponto crucial. As fake news
são, acima de tudo, informações de combate (RIBEIRO; ORTELLADO,
2018). Trata-se de informação produzida e reproduzida com o intuito
primordial de fortalecer ou enfraquecer uma determinada posição no
interior de uma disputa narrativa. O estado de selvageria informacional
instaurado pelo novo espaço informacional, que não é mais controlado
pelas formas usuais e previamente estabelecidas de organização e
filtragem da informação, faz com que cada vez mais indivíduos se
engajem em batalhas entre narrativas, usando dos meios de que dispõem
para, de alguma forma, influenciar a visibilidade de determinados
discursos em detrimento de outros. Mais do que falsas ou mentirosas, as
fake news são atos de guerra: sua produção e compartilhamento visam
uma função de combate; visam corroborar ou enfraquecer determinadas
narrativas. É como se o poder antes concentrado nas edições dos grandes
jornais ou telejornais agora estivesse pulverizado e cada usuário tentasse,
ao seu modo, ter algum impacto na visibilidade discursiva. O que, em
princípio, poderia parecer democrático e descentralizador, acabou
gerando um estado de selvageria, de descontrole, de ausência de normas
e de responsabilização pelo discurso, desembocando numa permanente
165
guerra informacional na qual cada indivíduo se vê não mais como vítima
passiva, mas como soldado, ou como guerrilheiro. É como se a sua ação
individual nesse espaço pudesse alterar, ainda que minimamente, a
própria dinâmica da informação e do poder que ela abriga.
A sobrecarga informacional e a sensação permanente de que o
espaço informacional é um campo em disputa, ou em estado permanente
de guerra, têm estimulado cada vez mais que as pessoas se fechem em
círculos ou redes de indivíduos que compartilham a mesma visão de
mundo e perspectiva política. Instaurada a guerra, em quem confiar? Nos
aliados, é claro, naqueles que combatem do nosso lado. Dessa forma, os
indivíduos tendem cada vez mais a se agrupar em redes de partidários
(partisan networks), e a informação que recebem e reproduzem se torna
cada vez mais filtrada por correligionários (BAKSHY et al., 2015).
O hiperpartidarismo (hyperpartisanship) pode ser entendido
como o mecanismo que passa a ser utilizado para delimitar os
parceiros informacionais num contexto de guerra. Nesse contexto,
vemos surgir uma série de sites de notícias hiperpartidários, cuja
função é produzir conteúdos de combate para alimentar a guerra,
fortalecendo ou enfraquecendo determinada narrativa em disputa
(RIBEIRO; ORTELLADO, 2018). Grande parte do conteúdo que os
milhares de usuários fazem circular hoje em redes sociais como o
Facebook, Twitter, Instagram, ou grupos de WhatsApp, é produzido por
sites hiperpartidários. A proliferação das fake news é gestada por essa
dinâmica de polarização da esfera pública que transforma o debate
público numa guerra de narrativas.
Para observar tal dinâmica num caso recente em nosso país,
Ribeiro e Ortellado (2018) coletaram as manchetes produzidas por 96 sites
de notícias, que circularam por cerca de 500 páginas de Facebook
selecionadas como mais relevantes no debate público sobre política
nacional entre os dias 21 e 27 de janeiro de 2018, período no qual o ex-
presidente Lula era julgado em segunda instância pelo caso do triplex em
Guarujá. A escala é impressionante: os sites monitorados produziram, neste
período, cerca de 13 mil matérias que tiveram, no total, cerca de 12
milhões de compartilhamentos. Desse total, os autores selecionaram as 150
manchetes com maior número de compartilhamentos. Apenas esse grupo
teve 3,5 milhões de compartilhamentos, ou quase 30% de todos os
compartilhamentos do período. A análise desse grupo de manchetes
revelou uma acentuada dinâmica hiperpartidária, com cerca de 80% dessas
manchetes se alinhando explicitamente a uma das duas narrativas principais
em disputa naquele momento. Segundo os autores, o que mais chamava a
166
atenção nem eram as “mentiras, estritamente falando”, mas as “diversas
gradações de distorção” (RIBEIRO; ORTELLADO, 2018, p. 77).
O que são, então, fake news? Em suma, trata-se de um
discurso hiperpartidário relacionado a uma forma de desinformação
sistemática produzida pelo contexto bélico instaurado no novo espaço
informacional – Virtual. Seu motor não é propriamente o desejo de
enganar ou negar a verdade, mas sim o desejo de vencer uma guerra,
mesmo que ao preço de abandonar o compromisso com a verdade. A
esfera pública ganhou os contornos de um campo de batalha, e as
pessoas passaram a produzir e fazer circular informações a partir de
suas trincheiras, se importando cada vez menos com a verdade do que
dizem. Fake news e pós-verdade são, portanto, dois lados da mesma
moeda.
2 DOIS CASOS EMBLEMÁTICOS
CASO 1
Nos dias que antecederam o primeiro turno da eleição
presidencial de 2018 no Brasil, circulou nas redes sociais um vídeo que
acusava o candidato Fernando Haddad, do Partido dos Trabalhadores,
de ter distribuído uma “mamadeira erótica” como parte de um material
de combate à homofobia nas creches municipais da cidade de São
Paulo, quando era prefeito daquela cidade.
No dia 4 de outubro de 2018, o Tribunal Superior Eleitoral
(TSE) determinou a retirada do vídeo da página no Facebook. O
conteúdo foi considerado como “manifestamente inverídico e
injurioso” pelo Ministro Sérgio Banhos, relator do caso.3 Apenas entre
os dias 30 de setembro, quando houve decisão liminar determinando a
retirada do vídeo, e o dia 4 de outubro, quando a decisão liminar foi
ratificada, estima-se que o vídeo teve 96 mil compartilhamentos e
atingiu cerca de 4,9 milhões de pessoas.4
3
Ver Representação no 0601530-54.2018.6.00.0000, de 04/10/2018, do Tribunal
Superior Eleitoral (BRASIL, 2018).
4
Dados levantados pela defesa de Fernando Haddad e mencionados na representação
junto ao Tribunal Superior Eleitoral. Esse é apenas um dos 35 casos nos quais o TSE
determinou que fake news envolvendo o candidato Fernando Haddad fosse retirado do
Facebook e/ou do Google (ver https://www.conjur.com.br/2018-out-11/facebook-
tirar-ar-fake-news-haddad).
167
O caso foi jocosamente apelidado de “mamadeira de piroca” e é
bem conhecido em todo o país. Considero-o emblemático por vários
motivos. O vídeo original que circulou nas redes não é apenas inverídico,
mas flagrantemente falso. Apesar de seu conteúdo “manifestamente
inverídico e injurioso”, o vídeo se espalhou numa escala e velocidade
impressionantes. Diante de tanta popularidade para uma história tão
flagrantemente implausível, cabe perguntar: como é possível tantas
pessoas acreditarem e difundirem algo tão absurdo?
CASO 2
Durante o período de campanha para a presidência dos Estados
Unidos da América, em 2016, circulou pelas redes sociais a história de
que, no porão de uma pizzaria em Washington, crianças eram abusadas
sexualmente em rituais de uma seita satânica da qual Hilary Clinton e
vários outros nomes do mais alto escalão do governo americano faziam
parte. O caso ficou conhecido como “Pizzagate”.
No dia 4 de dezembro de 2016, Edgar Welch, um indivíduo de
28 anos de idade, dirigiu seu carro de North Carolina até Washington
(quase 500 Km), munido de uma AR-15 carregada, com o intuito de
tirar essa história a limpo. Segundo relatos, Edgar Welch ficou surpreso
ao não descobrir nenhuma evidência de abuso sexual de crianças na tal
pizzaria. Ele acabou sendo preso no local (GOLDMAN, 2016).
3 QUEM REALMENTE ACREDITA NESSAS COISAS?

Os casos apresentados acima são tão esdrúxulos que parece
imediatamente surpreendente que pessoas epistemicamente sadias e
com um mínimo de bom-senso de fato acreditem nessas histórias.
Entretanto, uma série de pesquisas apontam o contrário, sugerindo que
dezenas de milhares de pessoas acreditaram nessas histórias.
Segundo pesquisa realizada pela IDEA Big Data em outubro de
2018, analisando contas do Facebook e do Twitter de 1.491 pessoas em
todo o Brasil, 98,21% dos eleitores de Jair Bolsonaro foram expostos a
fake news durante o período eleitoral, e 89,77% afirmaram acreditar em
pelo menos algumas delas (PASQUINI, 2018). Segundo a mesma
pesquisa, 85,2% dos eleitores de Bolsonaro viram a notícia de que o
candidato Fernando Haddad teria distribuído o chamado kit gay, e 83,7%
acreditaram na veracidade dessa história. Dados como esse sugerem haver
um significativo viés de confirmação em contextos hiperpartidarizados,
168
tornando indivíduos que normalmente são epistemicamente saudáveis em
pessoas capazes de acreditar nas mais absurdas histórias.
A pesquisa Global Advisor, realizada pelo Instituto Ipsos entre
junho e julho de 2018, com uma amostra de mais de 19.000 pessoas
em 27 países, incluindo o Brasil, observou que 62% dos brasileiros
afirmaram já ter acreditado em alguma fake news (o Brasil ficou em
primeiro lugar; a média mundial foi 48%). O instituto constatou
também que 73% dos brasileiros disseram ver com “muita frequência”
notícias falsas deliberadamente inventadas por meios de comunicação.
Segundo essa mesma pesquisa, 55% dos brasileiros concordam com a
seguinte afirmação: “A maioria das pessoas no Brasil não se importa
mais com os fatos relativos à política e à sociedade e só acreditam
naquilo que querem acreditar” (IPSOS, 2018).
Dados apontados por pesquisas como as mencionadas acima
sugerem que Edgar Welch, o indivíduo que pegou um fuzil e viajou 500
km para acabar com o escândalo do Pizzagate, não seria um caso isolado.
Milhões de pessoas em todo o país acreditariam naquela história; Edgar
teria sido apenas o único a tomar uma providência por conta própria para
acabar com o suposto abuso sexual daquelas crianças. É o que indica, por
exemplo, a pesquisa realizada pelo The Economist / YouGov, segundo a
qual 1/3 dos americanos adultos afirmaram acreditar que o caso Pizzagate
era “provavelmente verdadeiro” (“probably true”) ou “definitivamente
verdadeiro” (“definitely true”). A mesma pesquisa revelou que 46% dos
eleitores de Trump continuaram acreditando na história do Pizzagate
mesmo depois da cobertura da mídia, que enfatizava a loucura de Edgar
Welch e o caráter ridículo dessa história toda (FRANKOVIC, 2016).
Como explicar, no entanto, como tantas pessoas epistemicamente
normais e funcionais seriam capazes de acreditar em sandices como seitas
satânicas e mamadeiras eróticas que seriam supostamente reveladas por
fontes desconhecidas ou sem nenhuma credibilidade e difundidas
exatamente durante um acirrado processo eleitoral? Um mínimo de bom-
senso deveria ser suficiente para suscitar a dúvida acerca da veracidade
dessas histórias. Entretanto, as pesquisas parecem relevar que o tal “bom-
senso” se perdeu por algum motivo.
Uma explicação talvez possa ser encontrada na forma como o
mecanismo das redes sociais acaba distorcendo o processo regular de
formação de crenças por testemunho. Como afirma Regina Rini (2017,
p. 50), “[...] há algo no compartilhamento nas mídias sociais que parece
comprometer a forma como pessoas normais submetem o testemunho ao
169
filtro da consistência-com-o-mundo”.5 A explicação, basicamente, é que
“[...] talvez as pessoas fiquem menos inclinadas a submeter histórias
ridículas ao escrutínio por que temos normas testemunhais instáveis nas
mídias sociais” (RINI, 2017, p. 50, ênfase no original).6
Como sabemos, o testemunho é uma fonte pervasiva e
normalmente fiável (ou epistemicamente virtuosa) de formação de
crenças (LACKEY, 2008; GOLDBERG, 2010). Obviamente, o
testemunho é suscetível a falhas, e seu uso virtuoso requer práticas
capazes de impedir a aceitação de casos suspeitos. Dentre as normas do
testemunho, podemos ressaltar a credibilidade da testemunha e seus
possíveis interesses na verdade do que é testemunhado. Isso explica,
por exemplo, nossa descrença em relação a pessoas que sabemos serem
mitômanas e em relação a vendedores de carros usados. Outra norma
do testemunho, comum a outras fontes evidenciais, é que o conteúdo
testemunhado não deve contradizer crenças prévias bem sedimentadas
ou crenças gerais sobre o mundo; caso viole nossas crenças prévias
sobre o mundo, a atitude deve ser de descrença ou, ao menos, de
suspensão do juízo, até que novas evidencias surjam. Isso explica, por
exemplo, por que devo acreditar em alguém que diz ter visto um
cachorro vira-lata andando pela rua, mas devo suspeitar de alguém que
diz ter visto um unicórnio fazendo a mesma coisa.
As fake news, no entanto, são um caso peculiar de testemunho.
A relação da testemunha com o conteúdo testemunhado é, para início
de conversa, difícil de categorizar. Em casos ordinários de testemunho,
a testemunha faz uma asserção. Mas quando alguém compartilha uma
notícia, esse alguém está asserindo o conteúdo compartilhado?
Considero o seguinte caso emblemático: em novembro de 2015,
Donald Trump compartilhou no Twitter um infográfico com
estatísticas falsas, incluindo o dado de que 81% dos brancos que foram
vítimas de homicídio foram assassinados por negros, quando, na
verdade, esse número é de apenas 15% (GREENBERG, 2015).
Quando questionado a respeito, Trump respondeu: “Vou checar todas
as estatísticas? Isso foi apenas um retweet. Não fui eu quem disse isso”
(COLVIN, 2016).7 Esse caso aponta para uma importante distinção do
5
Tradução nossa. No original: “There is something about social media sharing that seems to
deaden people’s normal application of consistency-with-the-world filtering on testimony”.
6
Tradução nossa. No original: “Perhaps people are less inclined to subject ridiculous
stories to scrutiny because we have unstable testimonial norms on social media”.
7
Tradução nossa. No original: “Am I gonna check every statistic? All it was is a
retweet. It wasn’t from me.”
170
testemunho ordinário: o compartilhamento de algo não parece
constituir endossamento ou asserção do conteúdo compartilhado. É
como se o compartilhador estivesse apenas dizendo algo como ‘vejam
só isso aqui!’. A pessoa que compartilha algo não está necessariamente
sustentando a verdade do conteúdo da notícia. Isso, por si só, já
compromete a qualificação de fake news como um tipo de testemunho.
O testemunho padrão envolve endossamento; as fake news parecem ser
um tipo de testemunho indireto, ou testemunho de um testemunho. É
como se o indivíduo apenas dissesse que alguém (indeterminado)
afirmou que x. Trata-se de um discurso parecido com a boataria, que
adiciona um operador em frente ao conteúdo compartilhado que
funciona mais ou menos como ‘dizem por aí que x’.
No caso da boataria ou do diz-que-me-diz das redes digitais, as
normas típicas do testemunho ficam suspensas. Cria-se uma terra sem lei,
sem critérios claros de responsabilização ou de quais movimentos são
válidos e/ou aceitáveis nesse domínio. Quando, por exemplo, alguém
compartilha um link no Facebook ou no Twitter, sem adicionar algum
comentário, essa pessoa está endossando o conteúdo compartilhado?
Acredito que estamos diante de um tipo novo de discurso: o retweeter é
relevantemente diferente do mentiroso ou do bullshitter. Apesar de termos
aí um tipo novo de discurso, a maior parte das pessoas parece tratar,
implicitamente, essa fonte informacional segundo os padrões já
conhecidos do testemunho. Há, então, um importante descompasso entre o
tratamento dado pelas pessoas e a natureza mesma da fonte informacional.
O descompasso fica evidente quando a informação compartilhada se
revela inverídica. Nesse caso, o compartilhador pode, como fez Trump,
simplesmente se esquivar e dizer que não havia realmente asserido o
conteúdo compartilhado. É como se tivéssemos uma asserção que
ninguém asseriu; ninguém se apresenta como responsável (accountable)
pelo que é dito.
O compartilhamento de fake news nas redes sociais parece não
se enquadrar no modelo clássico do testemunho também pelo fato de
incluir, muitas vezes, histórias patentemente ridículas e inacreditáveis
que violam a norma de que o conteúdo testemunhado deve se adequar
às crenças de fundo do receptor. Apesar de inacreditável, as pessoas
compartilham a notícia. Quando a notícia converge com os interesses
do receptor, atingindo, por exemplo, algum adversário político comum,
o critério de que testemunhos avessos às crenças gerais sobre o mundo
devem ser checados por outras fontes informacionais parece
simplesmente desaparecer. Histórias extraordinárias envolvendo os
171
adversários são aceitas pelo mero ‘ouvir falar’, ainda que sejam
incrivelmente implausíveis e mirabolantes.
Se somarmos a essa estranha estrutura testemunhal do
compartilhamento em redes sociais o fenômeno da sobrecarga
informacional e o consequente hiperpartidarismo, temos um quadro no
qual os indivíduos se fecham em grupos de pares epistêmicos
(epistemic peers) cada vez mais restritos que passam a tornar críveis até
mesmo aquilo que pareceria absolutamente incrível fora desses grupos
(RINI, 2017, p. 51). Disse anteriormente que um dos critérios para a
aceitação de testemunhos é que eles não contradigam crenças prévias
bem arraigadas, e ilustrei tal critério com a descrença que seria natural
alguém ter se se confrontasse com o testemunho de que um unicórnio
acabou de passar pela rua. Uma forma de compreendermos o efeito do
hiperpartidarismo e da restrição de pares epistêmicos é imaginarmos
que não estamos mais na situação ordinária na qual não acreditamos na
existência de unicórnios, mas que fomos lentamente conduzidos a uma
situação extraordinária, na qual passamos a acreditar que estamos num
mundo fantástico habitado pelas mais estranhas criaturas. Neste novo
cenário extraordinário, unicórnios se tornam tão críveis quanto
cachorros ou árvores.
Tendo em vista as urgências da vida contemporânea, a sobrecarga
informacional e a necessidade de buscarmos atalhos cognitivos para
lidarmos com as complexidades do mundo que encontramos, o processo
de busca de pares epistêmicos, que em princípio é epistemicamente
virtuoso, acaba se tornando excessivo e disfuncional, fazendo com que
indivíduos epistemicamente normais sejam capazes de acreditar nas mais
incríveis aberrações. Por isso a afirmação de Rini (2017, p. 54) de que
“[...] fake news, portanto, são um efeito colateral nocivo de uma prática
epistêmica individualmente responsável”.8 Apesar de o recurso ao
partidarismo poder ser epistemicamente virtuoso em muitos contextos,
incluindo contextos bélicos, onde é razoável suspeitar das informações dos
adversários, é importante notar que, assim como em qualquer prática
epistêmica, seu excesso pode configurar um vício (FRICKER, 2007). O
que presenciamos hoje nas redes sociais é um excesso vicioso de
credibilidade em informações de partidários.
Se a explicação esboçada acima estiver correta, as redes sociais
deturparam o testemunho convencional e estimularam o vício
8
Tradução nossa. No original: “Fake news, then, is a bad side effect of an
individually reasonable epistemic practice”.
172
epistêmico do excesso de partidarismo (ou hiperpartidarismo). As
normas ambíguas relativas à atribuição de endossamento do que é dito
e a consequente ausência de responsabilização dos sujeitos pelo que
falam publicamente seriam os motores que movem, estruturalmente, as
fake news, tornando-as um fenômeno cada vez mais pervasivo. Essa
explicação é, sem dúvida, bastante engenhosa, e certamente explica
boa parte do fenômeno em questão. Entretanto, confesso não estar
plenamente satisfeito com essa explicação. Afinal de contas, será
mesmo que tantas pessoas acreditam em fake news completamente
absurdas? Suspeito que não. Suspeito que um bom número dessas
pessoas que afirmam acreditar nessas coisas estão, no fundo, mentindo.
A suposição com a qual encerro este ensaio não passa disso:
uma suposição. Trata-se de uma questão, em grande medida, empírica,
que demandaria uma investigação adequada para ser devidamente
justificada. Limito-me aqui a especular sobre uma hipótese, que
acredito ser ao menos plausível.
Voltemos ao caso Pizzagate. Segundo a pesquisa do The Economist
/ YouGov, 1/3 dos norte-americanos acreditavam que a história da seita
satânica que abusava de criancinhas era ao menos provavelmente
verdadeira. Se esse fosse realmente o caso, o mais impressionante não é
que um indivíduo tenha pegado um fuzil e ido lá para acabar com aquela
perversão, mas sim o fato de aquele indivíduo ter sido o único a fazer isso.
Se tantos milhões de cidadãos norte-americanos realmente acreditassem na
veracidade daquela história, era de se esperar que mais pessoas tivessem
ido lá tirar satisfação, ou que tivessem acionado a polícia e demais
autoridades competentes. Era de se esperar que essa multidão de crédulos
agisse da forma como esperamos que alguém aja diante de algo tão
monstruoso quanto abusos sexuais sistemáticos de crianças acontecendo
logo ali, num lugar já conhecido por todos, e perpetrado pela candidata à
presidência e um grupo de membros do mais alto escalão do governo. Mas
nada disso aconteceu. A pesquisa sugere que Edgar Welch era, na verdade,
uma multidão, e não um maluco isolado; afinal de contas, sua crença era
compartilhada por 1/3 da nação. Mas talvez Edgar Welch seja de fato a
exceção que confirma a regra. Via de regra, as pessoas não agiam como se
de fato acreditassem que a história era verdadeira, ainda que tenham
compartilhado a história nas redes sociais e tenham respondido
afirmativamente aos questionários e entrevistas a que se submeteram.
Bernard Williams (1973) elencou, certa vez, 4 características
fundamentais da crença: (1) crenças almejam a verdade; (2) a
expressão mais simples e direta de uma crença é a asserção; (3) a
173
asserção de p não é nem necessária nem suficiente para a crença em p;
(4) a crença é uma noção explicativa, servindo para explicar o
comportamento das pessoas em função daquilo em que acreditam.
A característica (1) distingue a crença de outros estados e
disposições psicológicos que não visam a verdade. Acreditar em p
consiste, fundamentalmente, em crer que p é verdadeiro. Daí o famoso
paradoxo de Moore: ‘eu acredito que está chovendo, mas não está
chovendo’ é paradoxal, pois quebra a ligação fundamental entre crença
e verdade. É claro que alguém pode acreditar que p e p ser falso; o
paradoxo surge apenas na primeira pessoa, quando eu digo, ao mesmo
tempo, que acredito em p e que p é falso.
As características (2) e (3) ressaltam que é possível que haja
crenças não expressas pelo sujeito, e que ele não estaria nem mesmo
disposto a expressar. Como afirma Williams (1973, p. 140), “é possível
que alguém faça a asserção que p e tente fazer outros acreditarem que p
e acreditarem que ele mesmo também acredita em p, ainda que ele não
acredite; ou seja, a asserção pode ser insincera”.9 Se alguém me convida
para uma festa e eu aceito o convite, meu aceite é um ato de fala que
pode ser sincero ou não. Agora suponha que alguém me pergunte: ‘você
aceita que p?’. Se respondo ‘sim’, esse meu ato de fala consiste no aceite
de uma proposição, mas tal aceite não é condição suficiente para a
minha crença em p, pois minha aceitação pode não ser sincera.
Retomando as considerações com as quais iniciei este ensaio,
vivemos uma situação de guerra informacional na qual a informação
passou a ser tomada cada vez mais como arma ou informação de
combate. As fake news são basicamente a munição dessa guerra. O que
caracteriza tal uso da informação é exatamente o seu descompromisso
com a verdade e o foco exclusivo em seu efeito no adversário e na
conformação narrativa. Não importa onde o indivíduo se situe no
espectro político norte-americano ou brasileiro: histórias ridículas são
histórias ridículas. Histórias como a seita satânica do Pizzagate ou da
mamadeira de piroca são simplesmente ridículas. Ninguém com um
mínimo de competência epistêmica deveria acreditar nesse tipo de
9
Tradução nossa. No original: “[...] it is possible for someone to assert that p and try
to bring it about to others think that p and think that he believes that p, although he
does not; that is to say, assertion can be insincere”.
174
coisa. Mesmo o crítico mais empedernido de Hilary Clinton, ou de
Fernando Haddad, deveria hesitar diante de casos tão escalafobéticos.
Sejam quais forem os filtros epistêmicos que pessoas minimamente
competentes usam para selecionar os testemunhos que merecem sua
crença, as histórias analisadas aqui não têm a menor condição de
passar por tais filtros. Apesar de as pesquisas sugerirem uma
credulidade massiva em histórias esdrúxulas, parece-me implausível
que as redes sociais tenham conseguido imbecilizar tantas pessoas em
tão pouco tempo. É verdade que vivemos tempos estranhos, em que
coisas aparentemente absurdas às vezes acontecem. Ainda assim,
mantenho a suspeita de que, ao menos em boa parte dos casos, não
estamos diante de um impressionante fenômeno de enganação e
idiotização em massa, mas sim de um tipo novo de mentira coletiva.
REFERÊNCIAS
ALLCOTT, H.; GENTZKOW, M. Social Media and Fake News in the 2016
Election. Journal of Economic Perspectives, v. 31, n. 2, pp. 211-236, 2017.
ALVES, M. A. S.; HALFELD, E. O fenômeno das fake news: definição,
combate e contexto. Internet & sociedade, n. 1, v. 1, 2020.
ARENDT, H. Truth and Politics. The New Yorker, 25 de fevereiro, 1967.
BAKSHY, E.; MESSING, S.; ADAMIC, L. A. Exposure to Ideologically
Diverse News and Opinion on Facebook. Science, vol. 348, n. 6239, pp.
1130-1132, 2015.
BBC BRASIL. Fake News’ é eleita palavra do ano e ganhará menção em dicionário
britânico. BBC Brasil, 2 de novembro, 2017. Disponível em
https://www.bbc.com/portuguese/internacional-41843695. Acesso em: 17 set.2019.
BRASIL. Tribunal Superior Eleitoral. Representação no 0601530-54.2018.6.00.0000,
Classe 11541. Relator: Ministro Sérgio Banhos. Brasília-DF, 2018.
CARR, N. The Shallows: what internet is doing to our brains. New York: W.
W. Norton, 2011.
CASTELLS, M. Communication, Power and Counter-Power in the Network
Society. Journal of Communications, v. 1, 2007.
COLVIN, J. Donald Trump’s Favorite Excuse? It Was Just a ‘Retweet’.
Associated Press, February 22, 2016.
FRANKFURT, H. On Bullshit. Princeton, NJ: Princeton University Press, 2005.
FRANKOVIC, K. Belief in Conspiracies Largely Depends on Political
Identity. YouGov, December 17, 2016.
FRICKER, M. Epistemic Injustice: Power and the Ethics of Knowing.
GENESINI, S. A pós-verdade é uma notícia falsa. Revista USP, v. 116, pp.
45-58, 2018.
175
GOLDBERG, S. Relying on Others: An Essay in Epistemology. Oxford:
Oxford University Press, 2010.
GOLDMAN, A. The Comet Ping Pong Gunman Answers Our Reporter’s
Questions. The New York Times, December 7, 2016.
GREENBERG, J. Trump’s Pants on Fire Tweet that Blacks Killed 81% of
White Homicide Victims. Politifact, November 23, 2015.
IPSOS. Global Advisor: Fake News, 2018. Disponível em:
https://www.ipsos.com/pt-br/global-advisor-fake-news. Acesso em: 17 set.2019.
LACKEY, J. Learning from Words: Testimony as a Source of Knowledge.
LAZER, D. M. et al. The Science of Fake News. Science, v. 359, n. 6380, pp.
1094-1096, 2018.
MACDONALD, F. A manipulação de imagens pelos soviéticos, muito antes
da era das ‘fake news’. BBC Brasil, 30 de janeiro, 2018. Disponível em:
https://www.bbc.com/portuguese/vert-cul-42810209. Acesso em: 17set.2019.
PASQUINI, P. 90% dos eleitores de Bolsonaro acreditaram em fake news.
Folha de São Paulo, 2 de novembro, 2018.
RIBEIRO, M.; ORTELLADO, P. O que são e como lidar com as notícias
falsas. Dossiê sobre internet e democracia, v. 15, n. 27, 71-83, 2018.
RINI, R. Fake News and Partisan Epistemology. Kennedy Institute of
Ethics Journal, v. 27, n. S2, pp. 43-64, 2017.
RUMMERT, S. M. Os meios de comunicação de massa como aparelhos
de hegemonia. Dissertação de mestrado, Fundação Getúlio Vargas, 1986.
WILLIAMS, B. Problems of the Self. Cambridge: Cambridge University
Press, 1973.
176
SMILE TO PAY WITH YOUR FACE: HACKING
INTO PROGRAMMED FACIALITY IN THE AGE
OF BIG DATA AND AI
Alexander Matthias Gerner
1 HACKING INTO PROGRAMMED SOCIALITY OF

FACE-TO-FACE ENCOUNTERS
The most important thing to know about the 21st Century is that humans
are becoming hackable animals […] How to live in a world where
human beings can be hacked? How to protect democracy and the very
meaning of human life when a computer algorithm could know us better
than our mothers do? That's the most complicated challenge your
generation faces (HARARI, 2020).
The face reappeared. It belonged to a man with a gentle expression who

looked at Luo Ji and said, “Welcome to our era”. As he spoke, a field of
vibrant roses flashed on his white lab coat, then gradually faded and
disappeared. As he continued speaking, the coat displayed a continuous
assortment of delightful images that matched his expressions and
emotions: seas, sunsets, and woods in the drizzle (LIU, 2018, p. 383).
Humanity and democratic societies today in the XXI century -

parallel to the narrative imagination of Earthlings confronted by an
"extra-terrestrial" invasion in Sixin Liu's sci-fi novel, "The Dark
Forest" - are increasingly confronted with a total loss of
privacy1 (VÉLIZ, 2020). Contemporary, powerful Big Data and AI-
driven tools can manipulate human thought, behaviour, decision-
making, and how we are affected by others and express emotions.
1
“Privacy is about being able to keep certain intimate things to yourself- your thoughts, your
experiences, your conversations, your plans. Human Beings need privacy to be able to unwind
from the burden of being with other people. We need privacy to explore new ideas freely, to
make up our own minds. Privacy protects us from unwanted pressures and abuses of power. We
need it to be autonomous individuals, and for democracies to function well we need citizens to be
autonomous” (VÉLIZ, 2020, p. 3).
177
Biometric sensors2, related to the human face, fingerprints, Iris-scans
or the human voice build Big Data pools that inform programs for
identification (WICHUM, 2017). These programs influence and may
manipulate human embodiment, perception, affects and emotions,
social behaviours, and thoughts in such a way that Harari proposes that
in our present time, humans have become the “hackable animal”
(HARARI, 2018b)1. The growing importance of biocybernetics leads
to increased hackability of embodied human beings (FUCHS, 2020).
Hacks imply prediction, control, persuasion, and deceptive2 as well as
non-deceptive (COHEN, 2018) manipulation of what people do, how
people decide and vote for, how people act, and how people feel
towards themselves and others as social beings. Algorithmic
rationalities influence the constitutive levels of self-and personhood.
Moreover, algorithms and programs partake in sociality. As a result of
this, data is never objective, but dirty3, messy and noisy.
2
“Within a few decades, Big Data algorithms informed by a constant stream of biometric data
could monitor our health 24/7. They could detect the very beginning of the influenza, cancer, or
Alzheimer´s disease, long before we feel that anything is wrong with us. They could then
recommend appropriate treatments, diets, and daily regimens, custom-built for our unique
physique, DNA, and personality. […] The key invention is the biometric sensor which people
can wear on or inside their bodies and which converts biological processes into electronic
information that computers can store and analyze. Given enough biometric data and enough
computing power external data-processing systems can hack all our desires, decisions and
opinions, they can know exactly who you are.” (HARARI, 2018, p. 49-50). Heed FUCHS
(2020) on the criticism of Harari not seen as “critical warner”, but interpreted as affirmative
“cynical destroyer” of autonomy, human freedom and of humans to be overcome by algorithms
in a posthuman world-view instead of a world-view in which the “Defense of Humankind” ( so
the title of Fuchs´ book) but is seen as an outdated and obsolete fight at a lost cause (“Homo
sapiens as an obsolete algorithm”) and handed over to Big Data endowed algorithms and data as
the only foundation of nature: If Organisms are not algorithms, and if life is more than mere data
processing then – and this is our position - something might get lost if human beings are steered
and substituted by intelligent machines. Damasio (2017) as well criticized Harari´s algorithmic
account of life: “Saying that living organisms are algorithms is, in the very least, misleading and
in strict terms, false”.
1
Cf. Harari (2018b): “In order to survive and prosper in the 21st century, we need to leave
behind the naive view of humans as free individuals – a view inherited from Christian theology
as much as from the modern Enlightenment – and come to terms with what humans really are:
hackable animals. We need to know ourselves better”.
2
The Facebook Analytica scandal and its social programming of behavior that played
out successful for the Leave campaign on the Brexit vote are a first paradigmatic
example (Cadwalladr, 2019).
3
“Here is the open secret of the Big Data world: all data is dirty. All of it. Data is made by
people. In every seemingly orderly column of numbers, there is noise. There is
incompleteness. This is life. The problem is, dirty data doesn´t compute. Therefore, in
machine learning, sometimes we have to make things up to make the functions run
smoothly” (BROUSSARD, 2018, p. 103-104).
178
Data today is analyzed and ordered by creating systems of
scoring, rating and ranking (ESPELAND; SAUDER, 2007), systems of
recommendation (such as in Netflix, YouTube, Spotify, Amazon,
Facebook, Alibaba, Tencent or Baidu among others). The data networks
may set up systems of social credit by selecting behavioural data. Thus,
harvesting4 data (LEE, 2018) feeds AI systems for tracking, and analytics
of reputation and creates Big Data superpowers, such as the Big Nine
(WEBB, 2019) companies. In the quest for reputation in an attention
economy, the inherent question is how far data together with algorithms
and programs assign values (MAU, 2019, p. 15; VORMBUSCH, 2012)
parallel to social esteem to our behavioural data. Companies and even
governments, such as China and its social credit5 system project (SCSP),
foster cybernetic reputation states”.
DAI (2018) exemplifies well the paradigmatic case of the
SCSP. He shows how it affects Chinas government expansion and
4
The Ex-Google China President Kai-Fu Lee defines our age as the age of data. This age is
defined by harvesting more data. Data are crucial for technological advance and the geostrategic
“balance of power” between the US and China. China seems to be in advantage with its
dominance of Big Data: “This brings us to the second major transition, from age of expertise to
the age of data. Today, successful AI algorithms need three things: Big Data, computing power,
and the work of strong- but not necessarily elite- AI algorithms engineers. Bringing the power of
deep learning to bear on new problems requires all three, but in this age of implementation, data
is the core. That´s because once computing power and engineering talent reach a certain
threshold, the quantity of data becomes decisive in determining the overall power and accuracy
of an algorithm. […] Both of the transitions […]-from discovery to implementation and from
expertise to data- now tilt the playing field toward China” (LEE, 2018, p. 14-15).
5
“In spring 2015, the Chinese government announced the spectacular and truly revolutionary
plan to develop a so-called Social Credit System by 2020. Under this system, data on individual
conduct in every social sphere is to be gathered, evaluated, and aggregated into a single score.
Internet activity, consumption, driving offences, employment contracts, teachers’ reports,
supervisors’ reviews, conflicts with one’s landlord, or one’s children’s behavior – all this may be
factored in and may affect an individual’s score. Everyone is to be included, whether they like it
or not. The idea is to build up an overall picture of each person’s value as a basis for granting or
refusing them certain opportunities in terms of housing, employment, or access to credit.
Authorities will be able to draw on this information when interacting with citizens, as will
companies seeking to gain an insight into potential business partners. In this way, the Chinese
government proposes to reward honest citizens and punish dishonest ones. The declared aim of
the project is to create an environment of trust, a ‘mentality of honesty’ – and to do so employing
total social control. This book is about the emergence of a society of scores, rankings, likes, stars,
and grades. It is concerned with data and indicator-based methods of evaluation and monitoring
which are encouraging a wholesale quantification of the social sphere. In short, it is a study of the
all-pervasive phenomenon of sociometry or the metric society. Sociologically speaking,
quantified self- descriptions of this kind are not just a reflection of a pre-existing reality, but can
be regarded as a generative method of constructing difference. Quantitative representations do
not create the social world, they re-create it (ESPELAND; SAUDER, 2007); therefore, they
should be regarded as a sui generis reality” (MAU, 2019, p.1-2).
179
efficiency. This Chinese project as well fosters an optimal approach to
enforcement and intra-governmental agency control: Let us take the
Chinese reputation approach seriously. We have to become very
attentive to our actual techno-social programming: Our extended
digital doubles and interconnected bodily selves are in danger of being
hacked by profiling, tracking, surveillance, and data-driven predictive
policing6 (BRAYNE, 2017), automated decision-making7 and Big Data
analytics. The resulting predictions of the collection of Big Data about
us may redefine values of humanity such as friendship8 or intimacy
and even render biases from the social world invisible by substituting
them with numbers and algorithms. FRISCHMANN and SELINGER
(2018) call these phenomena “techno-social engineering”, “processes
where technologies and social forces align and impact how we think,
perceive, and act”. Bucher (2018, p. 4) in a similar stance, though
seeing a vital junction between Software and sociality calls them
“programmed sociality” in the line of two thinkers. For once she hinges
6
Brayne (2017, p. 977) in a case study of the data use of LAPD argues that: “the adoption
of Big Data analytics facilitates amplification of prior surveillance practices and
fundamental transformations in surveillance activities. First, discretionary assessments of
risk are supplemented and quantified using risk scores. Second, data are used for
predictive, rather than reactive or explanatory, purposes. Third, the proliferation of
automatic alert systems makes it possible to systematically surveil an unprecedentedly
large number of people. Fourth, the threshold for inclusion in law enforcement databases is
lower, now including individuals who have not had direct police contact. Fifth, previously
separate data systems are merged, facilitating the spread of surveillance into a wide range
of institutions” cf. (BRAYNE, 2020, upcoming).
7
Concerning policing Brayne (2020b) talks about the risk of importing with data-
driven decision-making an illusion of objectivity as a kind of a “Trojan horse” of
“data worship” in society, that mistakes transparency of (big) data use with human
individual and collective accountability: “Humans decide what data to collect and
analyze, about whom, and for what purpose. So, just as individuals carry a range of
biases that affect their decisions, an algorithm can become a Trojan Horse: positioned
as a gift to society, it actually smuggles in all sorts of biases, assumptions, and drivers
of inequality.[…] Cautiously, we will need to avoid the trap of data worship. Data is
not objective. Accountability does not flow automatically from transparency”.
8
“From a computational perspective, friendships are nothing more than an equation geared
toward maximizing engagement with the platform [of Facebook, A.G]. […] The
quantification and metrification of friendship are not merely part of how connections are
computed by Facebook´s algorithmic infrastructure but increasingly make up visuals of
social networking systems through the pervasive display of numbers on the graphical user
interface. […] Algorithms and Software […] do not determine what friendships are in any
absolute or fixed sense. Rather, technicity usefully emphasizes the ways in which
algorithms are entities that fundamentally hinge on people´s practice and interaction, in
order to be realized and developed in the first place. Taking such a perspective allows to
see friendship and other instances of programmed sociality as emerging socio-material
accomplishments” (BUCHER, 2018, p. 11-14).
180
on the assertion of Deleuze (DELEUZE, 1988, p. 34-35) on Foucault
that each society has its diagrams that extend to the whole social field
and thus “what is at stake here is thus a diagrammatics, understood as
the cartography of strategies of power” (BUCHER, 2018, p. 73).
Secondly, Bucher's programmed sociality goes beyond neutral views of
technology and leans on Mackenzie's (2006) concept of Software. For
Mackenzie, Software is not only a technological but foremost a techno-
social object and process, serving as a base for programmed sociality.
Programming participation seems to presuppose already
engineered objects or systems, though algorithmic rationalities even
act and perform and eventually decide for and instead of us9. Thus,
algorithmic sociality, and programmed faciality in specific, grant
humans' access, or the other way around, close down opportunities.
Biases lie at the core of algorithmic rationalities. These include black
racial disadvantage or white privilege. Moreover, male/female
reckoning and subsequent gendered value attribution and gender
objectivation enter the sphere of bias. Another form of the automatic
decision-making process may become decisive in important life
decisions: The use of Big Data and AI entails decisions in insurance
and bank credit applications. Another example of AI and Big Data
applications are situations of recruiting for a job in which an AI
program ranks applicants.
Moreover, even in the judiciary and executive system, AI
might profile criminals. AI endowed programs may access supra-
individual patterns and personal infra-individual data that modulate our
de facto autonomy. These pattern-following systems may seriously
diminish or exclude the face-to-face situation of reflexive human
subjects. Profiling and preselection of information might be
detrimental to critical thinking and everyday encounters and co-
presential decision-making in shared experience as "We". Bucher
explains the importance of two dimensions of Software, algorithms,
and protocols, for programming sociality as follows:
9
Cf. the problem of non-supervised decision-making for instance in below human threshold
decision-making of high-frequency trading problem and its necessary critic: The contemporary
importance of handling dynamic or even, predatory (Johnson et. al., 2013) “algorithms in the
stock markets is nowadays due to the subhuman experiential threshold level events at the
millisecond-scale in which data of the global financial market in a new all-machine phase
characterized by large numbers of sub-second extreme events automatize the stock market
below human decision-making capacities, as humans lose the ability to intervene in real-time.”
(Ibid.) These sub-second extreme algorithmic events are causally linked to the system-wide
financial collapse in 2008 (JOHNSON et al., 2013).
181
I concern myself primarily with two dimensions of software algorithms
and protocols. Algorithms are the coded instructions that a machine
needs to follow in order to perform a given task. Protocol refers to a set
of conventions governing the transmission and exchange of messages in
distributed networks. Both- algorithms and protocols- can be understood
as plans of action or rules that govern computational processes [...]
Algorithms not only epitomize the operationality of Software, as
Mackenzie (2006: 43) suggests, they also participate in defining the
orderings of the social field (BUCHER, 2012, p. 17).
She also stresses that:

Algorithms are at the centre of our information ecosystem, where they
are used to sort, filter, suggest, recommend, summarize, map, and list
information and content of the Web according to predefined
parameters. Increasingly, we have come to rely on these programmable
decision-makers to manage, curate, and organize the massive amount
of information and data available on the Web, and to do so in a
meaningful way.
As we delegate an ever-increasing amount of tasks to algorithms

functioning as automated decision-makers, it becomes imperative to
understand their operational logic better. [...] what role do algorithms
play in Facebook? What kinds of cultural assumptions are, in fact,
encoded? How do algorithms configure their users? What forms of
sociality do algorithms aspire to emulate? Which associations are made,
and what relationalities do algorithms articulate? (BUCHER, 2012, p.
17).
Transversal epistemological challenges that exceed the scope

of this paper give rise to questions concerning Big Data to scientific
research that we can only pose here and need a research program to
answer in the future:
“What defines Big Data as a new scientific method, and where
are its epistemological limitations?”. “How does the availability of Big
Data, along with the analysis of new data, challenge established
182
epistemologies in the sciences, social sciences, and humanities?”10. In
line with these general issues, we have to ask questions concerning
tools of supervised, or unsupervised machine learning11 algorithms
such as Neural Networks: “How is Artificial Intelligence changing
Science?” (SUDMAN, 2020). “How is AI trained on Big Data
challenging society?”.
In our case, the specific questions posed would be the following:
“How do we deal with the inherent predetermination of Big Data
and the praxis of AI tool use concerning human faces and the transformation
of our human-to-human social encounters?”. “Can Big Data and AI help
with uncertainties and the ‘techno-social uncanny’” (GERNER, 2019)?
If we create digital faces for social interaction with our
12
Avatar -doubles – as promoted by the research of platforms such as
Facebook - do these eventually generate new uncertainties for face-to-
face encounters? For example, they propose hyperrealistic mappings,
10
Cf. Chandler (2015); Kitchin (2014a); Kitchin( 2014b) argues: “(1) Big Data and
new data analytics are disruptive innovations which are reconfiguring in many
instances how research is conducted; and (2) there is an urgent need for wider critical
reflection within the academy on the epistemological implications of the unfolding
data revolution, a task that has barely begun to be tackled despite the rapid changes in
research practices presently taking place”.
11
For SUDMAN (2018) the machine learning methods are given as follows: “But
what are machine learning methods? [...] The primary characteristic of machine
learning methods is that they enable a computer to learn from experience to solve
certain tasks and make predictions without having been explicitly programmed for
this function [...]. Or, to follow MITCHELL (1997) in trying to give a more formal
definition: machine learning is the study of algorithms that improve their
performance p in relation to any task t on the basis of experience e. / The machine
learning process is typically as follows: There is an input (x) and an output (y). The
goal is to predict for any input x (e.g. images or pixels) the corresponding
output y (e.g. the content of an image) as accurately as possible. For this purpose, the
machine learning system is trained in a so-called learning phase on the basis of huge
amounts of example data (based on learned matches of x, y) until the system is able to
generalize even new, unknown input data correctly, based on the learning experience
from the training. The process as briefly described here, corresponds to the type
of supervised machine learning. In contrast to unsupervised learning. The latter is
about learning constellations in which only the input (x) is given without the
corresponding output (y). But even under such conditions where input data without a
label are available, machine learning methods can recognize conspicuous statistical
structures in large amounts of data. For example, computer systems can determine
that in videos of the social media platform YouTube, cats are the dominant pattern,
without having a (semantic) concept of cats” (SUDMAN, 2018, p. 10; my translation
from the original German).
183
but still, we should ask: Do these avatars of ourselves merely mimic
non-animate death-masks in action? Their as-if- realism seems to
mimic us in deep-realistic fakes of human faces that might dissolve
our reality-virtuality distinction? How do algorithms determine our
reality through AI? How is non-transparent technology thought of as
neutral? How can we reduce (AI) technology to the mere technical use
of Big Data without considering data manipulation and social-political
issue of propagation and propaganda13? Is there a possibility of
opening up the black box by hacking? How are inherent confirmation
biases, inequalities in its use, and control mechanisms treated? How is
economic inequality inscribed in particular data sets rethought?
Governments face a particular challenge when governing
platforms and calling for responsible research and innovation since any
12
The “Facebook Reality Labs” confront the difficulties of generating photo-realistic renderings
of dynamic scenes of faces and its material properties- usually computationally intensive and
time-consuming- and develop with AI tools including 40 machine vision cameras
synchronically capturing 5120x3840 images at 30 frames per second a “Codec Avatar”
(RUBIN, 2018) using deep appearance conditional variational autoencoder (CVAE; cf.
KINGMA; WELLING, 2013) neural network models (LOMBARDI et al., 2018) for face
rendering technology. These models are semi-supervised in real-time settings such as VR for
achieving “truly” realistic, acceptable Avatars beyond/despite the uncanny valley effects and -
including facial expression and eye-gaze as well as complex and difficult to simulate parts such
as eyelashes, pores, vellus hair, and oral cavities and a shading model for achieving realism for
meeting in Virtual space: “Our model jointly encodes and decodes geometry and view-
dependent appearance into a latent code z, from data captured from a multi-camera rig, enabling
highly realistic data-driven facial rendering. We use this rich data to drive our avatars from
cameras mounted on a head-mounted display (HMD). We do this by creating synthetic HMD
images through image-based rendering and using another variational autoencoder to learn a
common representation y of real and synthetic HMD images. We then regress from y to the
latent rendering code z and decode into mesh and texture to render. Our method enables high-
fidelity social interaction in virtual reality”. (LOMBARDI et al., 2018, p.1).
13
“However, viewing computational propaganda only from a technical perspective—as a set of
variables, models, codes, and algorithms—plays into the hands of those who create it, the
platforms that serve it, and the firms that profit from it. The very act of making something
technical and impartial makes it seem inevitable and unbiased. This undermines the
opportunities to argue for a change in the social value and meaning of this content and the
structures in which it exists. Big- data research is necessary to understand the socio-technical
issue of computational propaganda and the influence of technology in politics. However, Big
Data researchers must maintain a critical stance toward the data being used and analyzed to
ensure that we are critiquing as we go about describing, predicting, or recommending changes. If
research studies of computational propaganda and political Big Data do not engage with the
forms of power and knowledge that produce it, then the very possibility for improving the role of
social media platforms in public life evaporates. /Definitionally, computational propaganda has
two important parts: the technical and the social. “Bolsover, G., & Howard, P. (2017).
Computational propaganda and political Big Data: Moving toward a more critical research
agenda” (Big Data, 5(4), p. 273–276, here p. 273).
184
effort must involve issues of competitive jurisdiction, different notions
of freedom of expression, and large-scale technological trends towards
automation. Policy mechanisms that enable the rights of individuals
(data protection and mobility) are likely to be more effective than
those that seek to limit or regulate. We ask then: Who is responsible
when AI systems, including data curators using data about us, hurt us?
How do we understand these harms, and how do we address them?
Where are the points of intervention and what additional research and
regulation are needed to ensure these interventions are effective?
Currently, there are few answers to these questions, and the
structures that presently control AI are not sufficiently able to ensure
accountability. As the scope, complexity, and scale of these systems
grow, the lack of meaningful accountability and oversight - including
essential safeguards of liability, responsibility, and due process -
become an increasingly urgent concern.
Big Data use in social media to algorithmically manipulate or
program social behaviour touches on themes of autonomy, privacy as
well as Truth, reality, causality, and trustworthiness and human values
such as friendship, intimacy or fairness. In all these cases, we have to
deal with difficulties while curating information and distinguishing
true from false assumptions: How do we find causes? How can we
access reliable information in “data-driven science”? Which digital Big
Data praxis should we accept? Do these practices entail data-
discursive14 approaches? How can the scientific challenge be met to get
into a more robust and more direct dialogue with society and its
players? How should we handle simulations and manipulations of
social encounters with artificial agents via data-intensive “programmed
sociality”? These issues are related to the quality of information and
the crisis of management or data curatorship as well as dignity in the
digital realm: How should we ensure that data and information sources
are of sufficiently excellent and reliable quality for the purposes for
which we use them? What should we do with the open access
14
“From a discourse ethics perspective, [...] research involving Big Data currently
relies on norms whose validity is largely speculative with regards to the (dis-)approval
of affected individuals. I, therefore, argue that researchers need to move away
from Big Data-driven approaches, focused merely on techno-methodological
innovation, towards data-discursive research foregrounding ethical controversies and
risks as well as moral change. This discursive development needs to occur in
combination with innovative approaches for engaging potentially affected individuals
and stakeholders” (RICHTERICH, 2018, p. 101).
185
movement? Other security and access issues may as well become
important: How can we adequately protect data by making it accessible
to those who need it? Can we confirm that Big Data, digital algorithms,
and AI are significant challenges for democracy? How can the arts and
artistic practice become strategies of reflecting and renovating our
thinking on Big Data and AI?
The threat to democracy from misinformation, but as well
from fostering less autonomous and critical decision-making is
rendered possible by structural problems in our digital infrastructures:
First of all, we have to heed how personal and social data is collected,
commodified, and monetized within surveillance capitalism15 in the
realm of the quantification16 of the social (MAU; 2019), introducing
structural economic inequality between the creator, enactor or
performer of information of behavioural data and the entity or
company harvesting its commercial use, in which we as humans pay
with our faces, and get our data harvested as well.
15
Cf. on how Big Data and AI is used and misused to fight Covid 19, the Amnesty International
alert (AMNESTY INTERNATIONAL; 2020)
Zubov (2019) explains how six declarations lay the foundation for a wider project of surveillance
capitalism and its original thrive for dispossession: “We claim human experience as raw material
free for the taking. On the basis of this claim, we can ignore considerations of individuals’ rights,
interests, awareness, or comprehension./• On the basis of our claim, we assert the right to take an
individual’s experience for translation into behavioral data./• Our right to take, based on our
claim of free raw material, confers the right to own the behavioral data derived from human
experience./• Our rights to take and to own confer the right to know what the data disclose./• Our
rights to take, to own, and to know to confer the right to decide how we use our knowledge./•
Our rights to take, to own, to know, and to decide to confer our rights to the conditions that
preserve our rights […]” (ZUBOV; 2019: 347-348).
16
„The cult of numbers that masquerades as rationalization has momentous consequences: it
changes the way we construct and understand value or desirability. Indicators and metric
measurement techniques stand for specific concepts of social worth, in terms both of what can be
deemed relevant, and of what is or ought to be regarded as socially desirable and valuable.
Within the quantification regime, such data receive high recognition, as we can see from the role
of ratings on commercial evaluation platforms or citation indexes in the academic sphere. The
more this mindset is instilled, the greater its social influence. The symbolic dimension of
hierarchizing sociometrics is then reflected in an unquestioning acceptance of many of the
criteria underpinning quantitative ranking. When those criteria come to be perceived as
appropriate, self-evident, and self-explanatory, then society can be said to have taken a major
step towards the naturalization of social injustice.” (MAU; 2019: 5)
186
2 A FUNDAMENTAL CRITIC OF MATHEMATIZED
PROGRAMMING THE SOCIAL OR THE F2F
ENCOUNTER: ABOLISHMENT OF OTHERNESS AND
INDUCTION OF A BIG UNIFIED DATA ENFORCED
DIGITIZED (FACIAL) IDENTITY
“Algorithms and programs follow the laws of repetition and

identity” (HENKE et al., 2020, p. 52). As far as they have their roots
in mathematics, they obey logical principles, in particular, the
proposition of identity and the principium contradictionis, which
excludes contradiction. By following Mersch's critique of the hype of
the “digital” as O/1 rationality, we refuse to equal algorithmic
rationalities with thinking of difference. The algorithmic schema
prefers regimes of sign-identity17 and thus cannot produce difference or
otherness: In the iterative execution of discrete steps, digital programs
recur to their respective predecessors. However, algorithms and
programs do not reflect their proper limitations. They do not heed the
conditions of their possibility, such as their necessary foundation in
materiality. As such they do not have experience about bodies and
their material and temporal limitations: they know nothing about their
material or temporal limit conditions (cf. Gerner, 2019), so that the
peculiarity of art and the concrete social encounter which exceeds
mere human-machine interaction, must fail or at least become
paradoxical in its algorithmification via Social Programming because
algorithms and programs cannot read between the lines of code and at
the same time almost everything that constitutes a human being - love,
creativity, the suffering of the death of the beloved other - falls
17
“In the course of the first media-scientific euphoria of digitalism in the 1980s and 1990s, the
digital scheme {[0], [1]} was inadmissibly short-circuited with the structuralist or post-
structuralist chains of difference. But "digitalism" has little in common with thinking in
differences. The opposite is the case: It is about logical regimes which everywhere prefer the
identity of "signs" (MERSCH, 2019, p. 870, note 44, my translation from German Original).
187
between the lines of the code. Therefore we have to heed the critic18 of
algorithmic rationalities of Dieter Mersch19: programmed sociality
cannot tackle art, aesthetic experience, and the social, often exploit
contradictions, material specificity, leaps, and singular encounters as
well as antagonisms- and multiple selves and plural identities to make
18
“A critique of algorithmic rationalization offers at best some initial reasons and
preliminary ideas. Critique is understood as a reflection on validity. It is limited to an
‘epistemological investigation’ of the limits of the calculable or of what appears
‘knowable’ in the mode of the algorithmic. The argumentation aims at the
mathematical foundations of computer science and goes back to the so-called
‘foundational crisis of mathematics’ at the beginning of the 20th century with the
attempt to formalize concepts such as calculability, decidability, and provability. The
Gödel theorems and Turing’s halting problem prove to be essential for any critical
approach to “algorithmic rationalization”. Both, however, do not provide
unambiguous results, at best they run towards what later became known as ‘Gödel’s
disjunction’. The chosen path here, however, suggests the opposite way, insofar as, on
the one hand, the topos of creativity appear constitutive for what can be regarded as
cognitive ‘algorithmic rationalization’ and which encounters systematic difficulties in
the evaluation of non-trivial results. On the other hand, the investigations lead to a
comparison between the ‘mediality’ [Medialität] of formally generated structures,
which have to distinguish between object- and metalanguages, and the ‘volatile’
differential of human thought, which calls for sense structures that are not able to be
simulated syntactically” (MERSCH, 2019, p. 851).
19
“‘Algorithmic rationality’ is understood to be the complex ensemble of formal
operations as it is situated from the very beginning in a mathematical universe. To a
certain degree, this is already true for ‘digitalization’ itself, as far as it is fulfilled in
discretization, i.e. the decomposition of the world into disjunctive units. It is thus a
matter of interval thinking, which, due to its syntactic structuring, allows coding of
those fields of activity or questions that can be made transformable employing rules.
For their algorithmic processing, two further elements are added: Firstly, data as
values of those functions which, as ‘recursive functions’, make these data
‘calculable’, and secondly, their programming, which transforms their programs into
‘universal Turing machines’, which in turn function as mathematical formalizations of
algorithms in general. At the same time, however, it should be added that mathematics
and mathematization do not merge into the uniform terrain of ‘digitalization’ and
‘algorithmics’. The latter are sub-areas of the former, not the other way around;
rather, digitization and algorithmics describe mathematical provinces in which the
categories of decidability and calculability alone dominate. Consequently, we are
dealing with an arithmetization of problems that must have been formalized
beforehand, which is expressed, among other things, by the fact that only those
questions are dealt with that can be solved numerically, i.e. based on algebraic
equations or by approximation and the like. Mathematics as a whole, on the other
hand, is a structural science, which includes the theory of spaces and relations as well
as ‘non-recursive’ problems, so that mathematics alone does not easily fit into a
continuous computation.” Mersch, Dieter (2019b), “Kreativität und Künstliche
Intelligenz. Einige Bemerkungen zu einer Kritik algorithmischer Rationalität”, In
Zeitschrift für Medienwissenschaft. Heft 21: Künstliche Intelligenzen, Jg. 11 (2019),
Nr. 2, S. 65–74. DOI: https://doi.org/10.25969/mediarep/12634. here: p.68-69, my
translation of the German original.
188
its statement or show and enter unique encounters, that can never be
identical. Can algorithms and programs in which Big Data are rendered
operational20 even exclude the possibility of becoming other21?
As a consequence of these interrogations, we must put forward
a clear-cut critic of the identical and a quest for alterity in human-
technology relations in strong opposition to surveillance capitalism
(ZUBOFF, 2019)22. This questioning must include what the Facebook
Founder Mark Zuckerberg proposes as the consequence of social
media data harvesting as control over the data as the firm exclusion of
alternative others and the fixing of one identity: “Mark Zuckerberg:
‘You have one identity. The days of you having a different image for
your co-workers, and for the other people you know, are coming to an
end. Having two identities for yourself is an example of a lack of
integrity’” (KIRKPATRICK, 2010, p. 199).
In what sense do we become what Big Data or digital doubles
decide on and for us to be? We do not only perceive the face and
gestures of a human body and its differences in expression. Preferably,
the face-to-face and body-to-body encounters include inter-corporal
gestures, exceed the reckoning of any manifest phenomenological
form of a face or body morphologies. It is even possible to create
realistic and mathematically and algorithmically mapped simulations
20
“Data indicate where a person, product, service, or organization stands; they guide
evaluations and comparisons; in short, they both generate and reflect status. Continuous
measurement and evaluation lead to an intensification of both external and self-monitoring
activities. If everything we do and every step, we take in life are tracked, registered, and fed
into evaluation systems, then we lose the freedom to act independently of the behavioural
and performance expectations embodied in those systems. Rating and ranking, scoring and
screening processes habituate us to patterns of perception, thought, and judgment which
relies increasingly on data and indicators” (MAU, 2019, p. 3-4).
21
My introduction to the possibility of alterity is underlined in the idea of “hacking
into” the hackability of human beings and their social and individual behavior and
affects. Therefore despite adhering to the realistic observation of humans becoming
hackable and programable by AI and Big Data algorithms, I favor a less moral and
one-sided definition of hacking that goes beyond mere negative intruding and
manipulation of the other´s behavior, and in which the possibility of reflecting and
counter-hacking or ´hacking into´ is given to us as well.
22
“Part of what makes the incipient Big Data revolution a watershed human moment
is that for the first time in history we cannot leave the question of personal identity for
later. Are we going to be one tightly integrated self, or will the disintegration of
multiple, serial identities remain a vigorous possibility? As the volume and variety of
gathered data rises, and as the velocity of the processing accelerates, and as more of
our lives plug into those circuits, it’s decreasingly possible to avoid sensing that if a
decision is not made by us, then the forces of information gathering and surveillance
capitalism will make it for us.” (BRUSSEAU, 2019, p. 4).
189
of any kind of face and body. Still, we should not equal simulated and
synthetic faces, bodies, and agents with real persons. Hence, the
encounter with artificial agents such as computer-simulated faces and
bodies must be transparent, and the algorithms persuasiveness of the
computer sciences and AI research need to be “trustworthy” (EU,
2020). Nevertheless, AI and algorithmic rationalities may
entail systematic deception in the sense of an as-if. The Turing test
proceeds from an “imitation game” that is not concerned with the
distinction between thinking and arithmetic, nor about the difference of
a free play (Ludus) that include jumps over gaps or skipping rules and
formalized, pre-established rule-following games in which the situation
of undecidability, of the “as if” prevails.
Here we have to discuss the reality of an animated image as a
simulated or modelled thing that prevails in an as-if faciality. Can we
discuss this problem of algorithmic faciality and sociality from a “loss of
face” (Antlitzverlust; cf. GERNER, 2019) perspective? A simulated face
is a thing, a surface, an animated thing, at best, in analogy to an
incomprehensible as-if-face of algorithmic rationalization. In the
“simulation” of a human face by an algorithmic image, we can critically
assess its digital functions. In the simulated image, a face becomes an
animated mathematical topological map. This map reanimates the
anthropological death mask (BELTING, 2013, p. 77-90), as is the case
in the image-simulation of Albert Einstein’s face23. To understand the
consequences of transforming a human face into a mathematical and
algorithmic digital image requires knowledge of the persuasive power of
algorithms that simulate by sorting. In line with KNUTH (1998) who
defines algorithms functionally by its properties of 1) finiteness 2)
definiteness 3) effectiveness and 4) input 5) output, Bucher (2018)
refers to the task of “sorting” that implies given sets and its various types
of sorts as the most common task an algorithm has to solve:
A given sorting problem may have many solutions; the algorithm that
eventually gets applied is but one possible solution. In other words,
an algorithm is a manifestation of a proposed solution. Just as there
are multiple ways of sorting a bookshelf in a well-defined order- for
example, according to an alphabetical order by the author's surname,
by genre, or even by the colour of the book jacket, different sorting
algorithms (e.g., selection sort, merge sort, or quicksort) can be
23
See the “resurrection” of Albert Einstein's artificial face in an animated image
created by animation scientists at the Film Academy Baden-Württemberg using a
movable composite body: (HELZE; GOETZ, 2018) .
190
applied for the same task. Anyone who has ever tried to arrange a
bookshelf according to the colour of the book jacket will probably be
able to understand how this specific organizational logic might have
an aesthetically pleasing effect but also come with the added
practical challenge of finding a particular book by a certain author
(unless you have an excellent colour memory). Hence, algorithms
understood as forms of organizational logic, come with specific
affordances that both enable and constrain (Bucher, 2018, p. 23).
Sorting and simulation programs stage technical mise-en-

scènes. In this technical dramaturgy, we need digital literacy to access
what is at stake. Mimetics of faciality and simulation literacy24 would
have to distinguish acting from a Simulation, or an acting as-if. In this
situation, we require heeding that its recipients might “forget about the
constitutive gap between simulations and reality, and therefore to
mistakenly understand what was simulated ‘as if it were real’ as ‘being
real as a matter of fact’” (GRANSCHE, 2017, p. 34). In the same line,
the participation that simulated faces in their as-if-faciality propose,
have to be conceived as as-if participation.
3 DE-FACING THE SOCIAL MEDIA: ON

ARTISTIC/AESTHETIC DRAMATURGIES AND MEDIA
STRATEGIES OF HACKING PROGRAMMED FACIALITY
Information technologies and the use of Big Data for medical
purposes or scientific discoveries can contribute to the welfare and
prosperity of a free and open society. Nevertheless, Big Data and AI might
24
“As computer simulation is a subtype of simulations more broadly, it possesses certain
simulation-specific properties. Simulations can be seen as composed imitations of
something real, and as creations of something fictitious or imaginary. In this perspective, to
simulate means ‘to act as if.’ Simulation can be understood as an act of transforming the
world into a composition that is configured to allow for specific insights. The science and
art of simulation has reached an impressive performance level that can be overwhelmingly
persuasive. Computer simulations artistically present their imitations or creations as if they
were real. This can tempt recipients to forget about the constitutive gap between
simulations and reality, and therefore to mistakenly understand what was simulated ‘as if it
were real’ as ‘being real as a matter of fact.’ Simulations have a very powerful capacity to
persuade, to present creations as apparently obvious and thereby to hide their composed
nature. As such, they are a powerful tool for influencing social discourse and allocating
resources—attention, support, and funds alike. The 2º C target in climate policy, for
instance, is derived from climate simulations and used to motivate all sorts of action, from
individual energy-saving behavior to global emission limits. / This leads to the question of
how simulations affect their recipients and to what extend their persuasive power has to be
contained or accompanied by recipients’ simulation literacy” (GRANCHE, 20173, p. 4).
191
compromise people's autonomy and the importance of human decision-
making skills and thus restrict human freedom of action. With this in mind,
we should discuss and negotiate the rules of a new social contract in the
digital age. In this digital social contract, we should reorganize the
utilization of algorithms and the subsequent values attributed to algorithmic
rationalities. The power of privacy and autonomous life has to rebalance
the power of selecting, harvesting, and drawing upon Big Data for a more
just society with algorithmic rationalities.
In this more just society, people -once providing their data-
would be honestly informed that they are needed, and would earn
compensation for services, that they help to improve, and hence
equally thrive socio-economically. Therefore, this poses a question
about our laisse-faire attitude by giving away our data for free and
unwillingly so. Significant Data harvesting by AI companies such as
Facebook, Alphabet, Amazon, Netflix, Disney pose the question: Why
do we allow these companies to collect behavioural data about
ourselves and even minors? Why do we allow Google to check and
harvest data from our emails or Facebook to process all our data of
preference and clicking likes? Why do we accept with Disney's AI-
endowed audience reaction modelling research (DENG25 et al., 2017)
by neural nets that cinema as a consequence has to cut out anything
that programmed reactions to identify as boredom or with Alipay filter
out ugly faces? What does this say about the anthropological
normativity of algorithm-influenced faciality?
Moreover, why do we allow the big digital (social) media
companies of the 21st Century to get away with adapting our online
experience around triggering and amplifying addictive patterns and
mostly negative emotional responses that maximize our time spent on
their platforms? Data disequilibria that LANIER and WHYL (2018)
25
The software monitors the viewer's Coded Affective expression with the help of Big
Data analysis in Disney research using a method called a factorized variation
autoencoder or FVAE. Neural networks model the reactions of viewers to films. The
software automatically recognizes patterns in cartographed vector-based facial maps
of facial expressions and analyzes how viewers react to films in Disney's research
experiment. Presented in collaboration with Caltech and at the IEEE Conference on
Computer Vision and Pattern Recognition in Hawaii, this study shows how a face
recognition system modeled after American filmmakers can help to understand some
of the emotions and reactions generated by the films in the audience. The software
monitors the viewer's facial expressions using a method called a factorized variation
autoencoder or FVAE. According to one of the researchers, the individual reaction of
a single cinema viewer becomes predictable: “with enough information, the system
can assess how an audience is reacting to a movie so accurately that it can predict an
individual's responses based on just a few minutes of observation”.
192
designate as “injected manipulation” concern how the actual Internet
works. Hence, we need an epistemology of data voluntarism. In Data
voluntarism, we quickly and unconsciously hand over our data. In the
case of health apps that read our pulse, measure our temperature or our
blood pressure. However, scandals such as Google's project Nightingale
remind us that rarely we are asked to consent to the handing over of
our medical data to third parties such as insurance companies that
might hinder us from getting a housing loan. LANIER and WHYL
(2018) propose not only resistance to data voluntarism, but moreover,
call for the creation of an entirely new just system of how the network
data companies monetize personal behavioural user data that we create.
The principle of data dignity26 as the form of data-driven economy and
sustainability “[…] translates the concept of human dignity that was
central to defeating the totalitarianism of the twentieth century to our
contemporary context in which our data needs to be protected from
new concentrations of power” (LANIER; WHYL, 2018, p. 5).
For the new deal of the economy of the Internet, we can foresee
that we will be increasingly becoming conscious of the value that we as
humans produce data. We will not only want to gain economically from
our data, but want to be more and more empowered by the possibility of
perceiving ourselves as creators of value. The means of how we use data
about our identity - such as our face - are used by big technology
companies to make money. They make even money with the reckoning of
our faces and our social behaviour and interactions, especially online. In
public space, we have always already paid with a social reputation for
losing our face in public. However, in China -for a growing number of
restaurants - this is already a fact: we can ‘Pay with your Face’ (FENG,
2019), fostered by face recognition technologies such as face
26
“Data Dignity/ A coherent marketplace is a true market economy coupled with a
diverse, open society online. People will be paid for their data and will pay for
services that require data from others. Individuals attention will be guided by their
self-defined interests rather than by manipulative platforms beholden to advertisers or
other third parties. Platforms will receive higher-quality data with which to train their
machine learning systems and thus will be able to earn greater revenue selling higher-
quality services to businesses and individuals to boost their productivity. The quality
of services will be judged and valued by users in a marketplace instead of by third
parties who wish to influence users. An open market will become more aligned with
an open society when the customer and the user are the same person. / Glen has called
this idea of a true market economy for information ‘data as labor’ and ‘liberal
radicalism’, while Jaron has called it ‘humanistic digital economics’ and
‘entrepreneurial democracy’” (LANIER & WYL, 2018, p. 4).
193
++ (Megvii27 Technology; FACEPLUSPLUS; 2020) for face detection,
face comparison, face searching your face is rendered a technical device
of reckoning and linked to your bank account.
Alipay28 (Alibaba) and Wechatpay (Tencent) are among the
first internet and Big Data giants that have a growing number of
customers using face recognition for economic transaction
applications. Other start-ups such as the Israeli company Faception
(FACEPTION, 2019; SIMANOWSKI, 2018, vii-xxxi) have built
ecosystems of security to recognize a face and its attributed
personality. Thus, we have to ask: how do companies such
as Face++ or Faception29 serve or hack the four pillars of
democracy30 by technological power. They utilize Big Data and
monopolize corporate algorithmic governance in the sense of using the
human face as payment or access tool to society and its evaluation and
esteem. This principle can come in the form of economic activities in
which Big Data of faces push for a transformation of facial politics
27
Other companies besides Megvii {Face++} (China) as Clearview AI (USA)- the
tools the latter of which “(m)ore than 600 law enforcement agencies use […], which
depends on a database of more than 3 billion images gathered from millions of
websites, including Facebook, Instagram, Twitter and YouTube” (BIOETHICS
OBSERVATORY, 2020), include: “NEC (Japan), Aware (US), Gemalto
(Netherlands), Ayonix (Japan), Idemia (France), Cognitec (Germany), nVviso SA
(Switzerland), Daon (US), Stereovision Imaging (US), Techno Brain (Kenya),
Neurotechnology (Lithuania), Innovatrics (Slovakia), id3 Technologies (France),
Herta Security (Spain), Animetrics (US), FaceFirst (US), Sightcorp (Netherlands),
FacePhi (Spain), and SmilePass (UK).” (Cf. MARKETS & MARKETS, 2019)
estimates that the market for face recognition technologies solutions to rise from 1,6
Billion (2019) to 7 billion US Dollars in 2024.
28
Cf. on Alipay´s application “Smile to Pay” (GILBERT, 2020): “A poll by news
portal Sina Technology found that over 60% of respondents said scanning their faces
for payments made them feel “ugly”./In response Alipay pledged to introduce
“beautifying filters” into all the Alipay cameras” (AGENCE FRANCE PRESS, 2019).
29
“The promise that Faceception software will improve human interaction could turn
into a nightmare once the product is used beyond airports, subway stations, and other
enhanced security locations. Algorithmic screening could be used to analyze new
members of a health club, job applicants, and potential partners on a dating site before
people have a chance to speak for themselves. Ultimately, the only limits on the
human drive for knowledge are technological. Anything that can be measured will be
measured, in the name of transparency, enlightenment, and truth. Who would think
about getting in the way of such a noble cause or the technological innovations that
result from it?”(SIMANOWSKI, 2020, viii-ix).
30
1) free and fair elections (cf. the Cambridge Analytical case) 2) active participation
of the people, as citizens, in civic life 3) Protection of the human rights of all citizens
4) The rule of law, in which laws and procedures apply equally to all citizens cf.
Diamond, Larry. “What Is Democracy?” (DIAMOND, 2014).
194
ethics and aesthetics31 and even transform social interaction through
the means of programming technologies. With faciality becoming a
productive technological tool of the Digital Age we have to heed that
AI technology & Big Data curate new simulated data-based face
interactions and reconfigure how and for what purpose we produce and
interact with our faces.
In terms of WEIGEL (2017), KÖRTE & WEISS (2017)
emphasize that we produce faces and how important this is for the
formation of us, as human cultural beings in which we have no choice but
to permanently “produce a face” (KÖRTE; WEISS, 2017, p 9). Above all:
what is a faciality32 in a face-to-face encounter? Is the encounter of the
face of the other not a resistance to the already reckoned facial map and
reckoned death mask in programmed faciality: How can a face be alive if
not in the encounter of the uncontrolled Other?
Today programmed faciality can detect faces even in
clumps of clay. Thus, the artwork “Face Detection” (HD Video;
5 forms of clay) of Johanna REICH (2018) shows differences
between the face as appearing to our human gaze and the
technological programmed faciality of an iPhone to identify
faces to take a photo:
31
On the 15th of April Face++ launched the FaceStyle Tool in which not only facial
make-up is proposed but as well the analysis of skin tone among other “AI-powered
beauty-solutions” to “recreate” and transform the user´s face aesthetics. “Using
Megvii’s leading facial recognition technology and its proprietary Brain++ AI
productivity platform, FaceStyle accurately captures and replicates end-users ‘facial
features, via a few thousand key points around the mouth, eyes, nose, and eyebrows,
to demonstrate the effect of makeup in a realistic setting. It is able to analyze and
recreate the individuals’ facial appearance, including skin and lip color, wrinkles, and
spots. FaceStyle can also generate skin condition diagnosis and provide personalized
skincare recommendations to end-users” (FACEPLUSPLUS, 2020).
32
“What we in German call face is less simple and uniform than assumed. There is no
basic face in the sense of Danto's basic actions. [...] While the Latin word facies, like
the English word face derived from it, is reminiscent of making (facere) and thus
brings the plastic shape of the face to the fore, the French word visage, like the
German word Gesicht, refers to seeing and being seen. In contrast, the Hebrew
word panim, like the German word Antlitz (face), emphasizes the special process of
relationship building and facing, the sight that lights up like lightning and multiplies
itself in the changing view. The Russian word lico means face, cheek, person. In this
last signification, it resembles the Greek word prosopon, which literally refers to the
act of gaze, but it does not stand for the face, but also for masks and roles, which in
Latin are rendered with persona. In this way, gaze and address are combined”
(WALDENFELS, 2005, p. 187-188, my translation from the German original).
195
In her work “Face Detection” JOHANNA REICH explores the
relationship between man and machine in the digital age. In front of a
smartphone camera with face detection, she is forming clumps of clay
until they were recognized by the facial recognition program of the
smartphone as humans. At the point of recognition, she stops forming.
When does the human appear? When does it disappear? Furthermore:
The Software seems to have a sense of abstraction because it discovers it
already in roughly worked lumps (REICH, 2018).
Has hacking the programmed face-recognition biases

(BUOLAMWINI; GEBRU, 2018) coding with a white mask helped
change the policy of using AI Face recognition?
In June 2020, in the aftermath of global racial injustice after
the police killing of John Floyd, US companies IBM, Amazon, and
Microsoft announced (KAY, 2020) took their Face-Recognition
programs temporarily out of the market. The reason was that they
wanted to hinder police from using it in racially biased recognition of
faces for law enforcement of arrest, as specifically black people are
disadvantaged in being misidentified by this kind of program. The
consequence of these actions is partly due to the influential33, critical
and very insightful work of the MIT Media Lab member Joy
Buolamwini (BUOLAMWINI; GEBRU, 2018) on “gender shades”
(BUOLAMWINI et al., 2018). Buolamwini was using face recognition
with Big Data sets of faces as she discovered that she was coding with
Face Data sets that as a person of darker colour would not recognize
her face as such. "Coded gaze" is a critical stance towards coding with
a white mask. She creates programs that initially could not recognize
her face and subsequentially investigated the degrees of racial and
male/female biases that several face-recognition programs entailed in
their data sets. Thus, Buolawmni rendered facial bias visible. We are
not only confronted with the formation of single subjectivity but more
fundamental than that: with the algorithmic and programmed influence
on and manipulation of face-to-face social encounters. When the face
33
The EU created an ethical AI label for EU companies. In its white paper of the European
Commission (EU, 2020, p. 11) quotes Bualmini & Gebru (2018): “Certain AI programs for facial
analysis display gender and racial bias, demonstrating low errors for determining the gender of
lighter-skinned men but high errors in determining gender for darker-skinned women”.
196
is measured (“vermessen”34), mathematized and finally
35
reprogrammed , the image is algorithmically synthesized.
As a consequence, the unique plastic-gestural encounter with
the face of the human other and its counter-gaze might get lost. The
paradox in political and social programming of faces political lies in
artistic and aesthetic36 strategies and dramaturgy of simulated or "fake
CHAILLOU, 2019, p. 27) "faces in contrast to "real" faces that AI
media provokes. These strategies of provocation start with the
questioning and hacking of modelling and mathematical cartographies
for the (early) recognition of identity and its influence of affective
computation on social behaviour (programmed sociality).
The adversarial network program StyleGan (KARRAS; LAINE;
AILER, 2019) is an example of the generation of simulated faces.
StyleGan led to the creation of a polemical website that is officially
producing aesthetic hyperreal fakes, such as non-existing human image
synthesis faces by the ex-UBER engineer Philip Wang
“thispersondoesnotexist”: WANG; 2019) among other non-existing objects
(Fakes)37. Other artistic, political approaches are strategies of
“Facelessness” (DORINGER; FELDERER, 2018) or of “obfuscation”
34
On the paradox of the use of the word "measured" between a) quantifying b)
mismeasuring and overestimating and c) not respecting the limits of quantification
and measurability of social relations see Mau (2017).
35
See the “resurrection” of Albert Einstein's artificial face in an animated image created by
animation scientists at the Film Academy Baden-Württemberg using an actor that has his
head and face movements scanned and digitally transformed (HELZLE; GOTZ, 2018).
36
“The practices of aesthetic thought cannot be made into algorithms or programs.
The qualities of aesthetic practice are re- contouring themselves with the dispositive
of digitalization. Acting aesthetically in digital technologies will be the challenge of
the future. [...] Fuzzy Logic is just as little able to make the incalculable calculable.
The aesthetic is rather based on the kind of estimation which cannot be carried over
into measurement. Art is thus neither what can be captured with binary operators nor
what lies ‘between’ the binaries as remnant categories: it is rather the praxis which
requires a change of terrain./If in the future the measurable side of the world should
become totally ascertainable through digital actions, it does not yet follow that the
non-measurable will fall into irrelevance or that the unmeasurable side of reality will
be sacrificed as a vestigial stage of digitalization” (HENKE et al.; 2019, p. 51-53).
37
See as well the Meta-page of inexistent VEA-GAN created fake X's {X= fake start-
ups; cats; horses; emotions; resumes; questions; vessels; lyrics; rentals; snacks;
memes; chairs; foot; satires; Chemicals; Words} URL; thisxdoesnotexist (HORA;
2020); We cannot speak of a creative boycott by fake operators as the technical
improvements are continuing to appear: In this affirmative sense of perfecting
hyperreal fake simulations already an improved StyleGAN 2 exists and as
such (KARRAS 2020) avoids the first StyleGAN errors such as artifacts of unaligned
teeth concerning face/head-position.
197
(BRUNTON; NISSENBAUM, 2015) as well as de-facing38, facial
“obliteration”39 or digital filter masks (camouflage) to counter-surveillance
such as initiated with CVdazzle40 by Adam Harvey in 2011 as an artistic
praxis. These gestures of reinvention of privacy and subversive media
strategies in dealing with controlled programmed sociality faciality go as
far as deep fakes by real-time reenactments41 (THIES et al., 2016). These
counterstrategies show a radical ethical gesture - in continuation of Levinas
- of face-hacking as resistance against the commercial and martial control
use of face recognition. Concepts of the anthropological sense of face the
post-structural facial machine of lines and holes, the ‘visagiete’ (“visum”),
persona, panim, lico, prosopon (mask), and a mapped surface of face
recognition. After the reckoning process, an automatic decision-making
algorithm attributes and infers emotions in the actual facial movements
(BARRETT42 et al., 2019), and has to reassess critically how algorithmic
rationalities of programmed faciality in the age of Big Data and AI change
observed movements of the face into preselected emotion patterns.
38
Thomas Macho (MACHO, 2018, p. 22) refers to the cultural re-arrangement or
destruction of the portrait for instance in the German artist Arnulf Rainer and his face-
overpainting and the iconoclasm shown by BECTON and HOBAN (2010).
39
“As soon as there is an obliteration - by opening or closing, it remains the same -
there is a wound. But its meaning for us does not begin because of the principle that is
torn open by it, but in the person in whom it is suffering and in the other in whom it
provokes our responsibility. [...] The obliteration makes us speak. [...] It invites to
speak [...] Yes, there is an appeal of the word to sociality, to be for the other. In this
sense, the obliteration naturally leads to the other” (LEVINAS, 2019, p. 44-46). My
translation from the original German.
40
Adam Harvey warns to heed the algorithms actually used in Face recognition:
“Attention: whether a look works or not is up to you. CV Dazzle is a concept, not a
product or pattern. Evading face detection requires prior knowledge of the algorithm.
Most of the archived looks on this page were designed over 10 years ago for the
Viola-Jones face detection algorithm. Current face surveillance uses deep
convolutional neural networks (DCNNs). To use CV Dazzle, you must design
according to the algorithm (hint: don't use Viola-Jones looks for a DCNN face
recognition system” (HARVEY, 2010).
41
See the work the TMU Munich AI Lab develops:
https://niessnerlab.org/projects/thies2016face.html. “This research shows how ‘fake’
is real. Faces that perform on our screen can be manipulated, fabricated, and used as
distributors of designed narratives. It is no longer a big deal to access an archive of
faces of famous people and apply it to the body of another actor, performer, or porn
model. This has been the case with a few pop stars whose faces have been applied and
shared on a porn channel known as ‘deep fakes’” (DORINGER, 2018, p. 11).
42
Barret et al. (2019) underline the how important it is to not mix up interpretation, perception
and inference with observation of fascial movement: They call for rethinking “emotional
expressions” as actual “facial movements” and to always cautiously translate “reckoning of
emotion” with perception of emotion or inference of emotion.
198
4 FACING A CONCLUSION: NOTES ON OVERCOMING
PARTICIPATION WITHOUT DEMOCRACY
In the encounter of gazes measurable by algorithms, the
recurrence to simulations of death masks and facial landscapes is
unavoidable, though mostly never heeded. The reanimation of the eye-
gaze and the face leads to the following question: In how far is the face-
to-face encounter even more fundamental for the social in our age of AI
and Big Data?
Let us develop our questioning and artistic and philosophical
praxis of thinking faciality further. Hence, instead of a conclusion, let us
assume that we have to do more than to hide or obfuscate our faces.
With our face as the symbolic surface of our identity, we should
confront fears of a surveillance society. We probably have to start to
become more visible political actors and to be technological hackers.
New voices that hack into technologies of Big Data and Reckoning Faces
such as the artists Adam Harvey or Johanna Reich play with our
algorithmic data culture. These artists are not only aesthetic specialists
that show us gaps in the matrix from where we can act in a freer manner
to create private Face-to-face spaces free of data monetization. Artists
and their works often remind us how we have to balance the success of
our scientific endeavours with our human needs.
The mathematization and empirical measurements can dissolve
human needs in disruptive technological innovations. One such
disruption will be the introduction of ubiquitous artificial “social
presence” (TECH@FACEBOOK, 2020) of simulated Avatars. Hence,
what we need to heed with an artistic and aesthetic approach is a more
open theoretical and democratic space in which we question
technological and programmed mediations of human sociality rather
than quick technological fixes and analytic answers. Hence, we should
employ art for creating a surplus of significance and critic for a praxis
of questioning and thinking to avoid automatic algorithmic ways of
reasoning and preset actions. These actions cannot be confounded with
acts of wise deliberation and informed democratic and forward-
looking decision-making processes. We are living in a time of a
historical chance.
We can change the supposedly unavoidable “hacking humans”
approach by rebuilding the data-economy and digital society. Thus, we
need to introduce new democratic structures, policies, laws and
economic models that take advantage of new technological
199
developments such as AI and Big Data, but not succumb to
convenience in digital automatisms that entails a loss of our autonomy.
While developing “blueprints for a new digital society” (LANIER &
WEYL, 2018) we have to be certain that these new institutions and
policies are apt for a just and fair digital and Big Data era that does
promote digital literacy, justice and digital dignity. Non-sensical
automation, which deprives humans of their autonomy of action
without alternatives without possibilities of correction when biased, is
a danger to democratic societies. Thus, automated AI & Big Data
systems must include the option of humans ending toxic automation by
a possible manual controlled shut down of algorithmic rationality by
using human judgment and have the right for things as simple as a
face-to-face encounter.
No commissioning of automata should be allowed without
systematic planning of two options (cf. MAZZOLA & HOFMAN,
2020): First, a possibility of turning algorithmic machines “Off” in a
controlled way, and secondly the introduction of an "Esc" function to
take manual control over automated normative action-chains and
behaviour. These two functions would foster our right not to be
automatically reckoned in face-recognition free public and private
spaces. These proposals have to consider “pull the plug” (VÉLIZ,
2020) mechanisms to stop rendering personal data toxic for our private
life, our social interactions, and our democracies. Shielding against
toxic data entails the possibility not to be tracked and reckoned based
on our unique faces and to be able to opt-out of simulated faciality in
virtual and simulated encounters and obfuscate AI facial reckoning.
Globally distributed data networks, data storages and network
populations as they are now, using Big Data and AI, are not already
leading towards a new form of democracy. They do not comply with
accountability, equality, or fairness of democratic representation. Our
critic might heed the praxis of how to obfuscate faces, as people from
Hongkong, but, moreover, we have to reclaim our right of privacy and
uniqueness of the face-to-face encounter as well in its digital form and
applied to our digital doubles. If we are still interested in keeping
democracy in the digital age, we have to start working on new digital
literacies and praxis. We have to have a say in how we can be
empowered by our data and our digital data doubles. We have a right
not to be only users that have to buy into or rent a world in which we
can only participate as much as the Software, the app, the algorithm, or
the machine learning program or technological companies and brands
200
lets us. We are more than payments and more than users and more than
the Big Data that is collected, selected, stored, and processed without
our knowledge and best judgment. Our faces might get digitalized,
mathematically measured or reckoned, but they are not for sale without
our consent, nor can we be reduced to be paying with its uniqueness.
Can we reform the Big Data economy that threatens our
democracy, if not by stopping the possibility of personalized
advertisement and its inherent business model of us being the product?
How do we get hold of the Big Nine (WEBB, 2019) that create global
corporate citizenship after their corporate image? How can we
diminish the influence of foreign rule and if necessary, vote out
democratically certain digital powers? Are we heading towards a
globally installed participatory model such as the Chinese
Recommendation system that undermines the democratic rule of law?
Democracy manifests itself in constant access to all accountable
information. Hence, we have to ask how does it work in a system that
'presorts' information, for instance, starting with facial recognition and
automatic judgments based on Big Data? Thus, we should reject the
reduction of persons to users that make part of a system
of participation without democracy (FAßLER, 2020). We know that
already some cities refuse to make part of a permanent surveilled data
exchange about the movement of their citizens in public space.
We cannot let algorithmic rationality and mathematical
programming undermine our autonomy, privacy, societal freedom,
sociality and human interaction. We neither should allow for turning
democracies into a nightmare of ubiquitous algorithmic control of
permanent face screening and automated decision-making in the sense of
the Chinese Social Credit System. However, we have to go further in
becoming possible creators of value deeply related to our data, such as
derived from our social face and our gestural face-to-face encounters. AI
and Big Data have to be held accountable and regulated towards human
values and used for the common good of unique social encounters.
ACKNOWLEDGEMENTS
Alexander Gerner’s research is financed by the portuguese national
funds via FCT - Fundação para a Ciência e a Tecnologia, I.P., within the
scope of the Transitional Standard - DL57/2016/CP CT[12343/2018-
in the scientific field of History and Philosophy of Science and
Technology, FCUL Position 2404, project by Alexander Gerner:
“Hacking Humans. Dramaturgies and Technologies of Becoming Other.
201
Affiliation: Alexander Gerner, Centro de Filosofia das Ciências,
Departamento de História e Filosofia das Ciências Faculdade de
Ciências, Universidade de Lisboa, Campo Grande, Lisboa, Portugal.
Contact: amgerner@fc.ul.pt
REFERENCES
AGENCE FRANCE-PRESSE. Smile-to-pay: Chinese shoppers turn to facial
payment technology. The Guardian, London, 4 Set. 2019. Available at:
https://www.theguardian.com/world/2019/sep/04/smile-to-pay-chinese-
shoppers-turn-to-facial-payment-technology. Access: 10 Mar. 2020.
AMNESTY INTERNATIONAL. COVID-19, Digital surveillance and the
threat to your rights. In: Amnesty International. 3 Abr. 2020. Available at
https://www.amnesty.org/en/latest/news/2020/04/covid-19-surveillance-
threat-to-your-rights/. Access: 3 Jun. 2020.
BARRETT, Lisa Feldman et al. Emotional Expressions Reconsidered:
Challenges to Inferring Emotion From Human Facial Movements.
Psychological Science in the Public Interest, [S. l.], v. 20, n. 1, p. 1-68,
2019. DOI https://doi.org/10.1177/1529100619832930. Available at:
https://journals.sagepub.com/doi/full/10.1177/1529100619832930. Access:
23 Jan. 2020.
BECTON, Will; HOBAN, Stephan. Defacing Britney. In: Defacing britney: 14
Jan. 2010. [S. l.], 14 jan. 2010. Available at:
www.mrbellersneighborhood.com/2001/11/defacing-britney. Access: 3 Set. 2019.
BELTING, H. Face and Mask. A double history. Princeton and Oxford:
Princeton University Press, 2013. ISBN:978-0-691-16235-5.
BIOETHICS OBSERVATORY (Valencia). Facial recognition related to
unlimited personal data could threaten the rule of law and the autonomy of
citizens. In: BIOETHICS OBSERVATORY (Catholic University of Valencia,
Spain). Bioethics Observatory, Institute of Life Sciences. Valencia, Spain:
Catholic University of Valencia, 8 JUL. 2020. Available at:
https://bioethicsobservatory.org/2020/07/facial-recognition-systems-treat-and-
database-of-billions-of-personal-data-is-being-used-in-the-us-until-now-a-
tool-of-
disctatorship/36082/?fbclid=IwAR0kRCkj2mckx2BV9DQ6d5dlGmx7ckUd-
Fi_B0fAZWGpQNFPs_3osZ7D-7og. Access: 12 JUL. 2020.
BRAYNE, S. Big Data surveillance: the case of policing. American
Sociological Review, Chicago, v. 82, ed. 5, p. 977-1008, 2017. DOI
10.1177/0003122417725865 https://doi.org/10.1177/000312241772586. Available at:
https://journals.sagepub.com/doi/abs/10.1177/0003122417725865. Access: 9 Jun. 2020.
BRAYNE, S. Predict and surveil: data, discretion, and the future of
policing. Oxford: Oxford University Press, 2020 (upcoming). ISBN
9780190684099.
202
BRAYNE, S. I am a sociologist who studies how police use data. Relying on
algorithms can further bias and inequality - but It does not have to be that way.
Businessinsider India, New Deli, p. 1-2, 25 Jun. 2020(b). Available at:
https://www.businessinsider.in/careers/news/im-a-sociologist-who-studies-how-
police-use-data-relying-on-algorithms-can-further-bias-and-inequality-but-it-
doesnt-have-to-be-that-way-/articleshow/76627486.cms. Acces: 5 Jul. 2020.
BROUSSARD, M. Artificial unintelligence: how computers misunderstand
the world. Cambridge, Mass.: MIT Press, 2018. ISBN 978-0-262-03800-3.
BRUNTON, F.; NISSENBAUM, H. Obfuscation: a users guide for privacy
and protest. Cambridge, Mass.: The MIT Press, 2015. 123 p. ISBN 978-0-
262-02973-5.
BRUSSEAU, J. Ethics of identity in the time of Big Data. First Monday.
24(5), 2019, pp. 1-9. Available at:
https://journals.uic.edu/ojs/index.php/fm/article/view/9624.
BUCHER, T. If… then: algorithmic power and politics. Oxford: Oxford
University Press, 2018. ISBN 978-0-19-049303-5.
BUCHER, T. Programmed Sociality: A Software Studies Perspective on
Social Networking Sites. Oslo: University of Oslo, 2012. Available at:
https://komm.ku.dk/ansatte/?pure=da%2Fpublications%2Fprogrammed-
sociality-a-software-studies-perspective-on-social-networking-
sites(c640b04d-c80f-44e6-af21-431b76f80f6f).html. Access: 20 Mar. 2019.
BUOLAMWINI, J.; GEBRU, T. Gender shades: intersectional accuracy
disparities in commercial gender classification. Proceedings of machine
learning research: conference on fairness, accountability, and transparency,
Boston, v. 81, p. 1-15, 2018. Available at:
http://proceedings.mlr.press/v81/buolamwini18a/buolamwini18a.pdf. Acess:
27 ago. 2019.
BUOLAMWINI, J.; GEBRU, T.; RAYNHAM, H.; RAJI, D.; ZUCKERMAN,
E. Gender shades. In: MIT Media Lab: civic media; algorithmic justice
league project. Boston, 2018. Available in:
http://gendershades.org/overview.html. Acess: 17 Jul. 2019.
CADWALLADR, C. Facebook´s role in brexit: - and the threat to democracy.
In: TED. TED Talks. [S. l.], 2019. Available at:
https://www.ted.com/talks/carole_cadwalladr_facebook_s_role_in_brexit_and
_the_threat_to_democracy/transcript. Access: 20 set. 2019.
CHAILLOIS, S. AI + Architecture: Towards a new approach. 2019. 189 f.
PhD (PhD) - Havard University, School of Design, Harvard University,
Boston, 2019. Available at:
https://www.academia.edu/39599650/AI_Architecture_Towards_a_New_Ap-
proach. Access: 13 Jun. 2020.
CHANDLER, D. A world without causation: Big Data and the coming age of
posthumanism. Milenium: Journal of International Studies, Newbury Park,
California, v. 43, n. 3, p. 1-19, 27 maio 2015. DOI 10.1177/0305829815576817.
203
Available at: https://journals.sagepub.com/doi/10.1177/0305829815576817.
Acess: 8 Jul. 2017.
COHEN, S. Manipulation and deception. Australian Journal of Philosophy,
Sydney, v. 96, n. 3, p. 483-497, 7 Jul. 2020. DOI
https://doi.org/10.1080/00048402.2017.1386692. Available at:
https://www.tandfonline.com/doi/abs/10.1080/00048402.2017.1386692.
Ascess: 5 ago. 2019.
ESPELAND, W. N.; SAUDER, M. Rankings and reactivity: How public
measures recreate social worlds. American Journal of Sociology, Chicago,
ano 2007, v. 113, ed. 1, p. 1-40, Jul. 2007.
EU (Brussels, EU). European Commission. COM (2020) 65 final. WHITE
PAPER: On artificial intelligence -a European approach to excellence and
trust, Brussels: European Commission, ano 2020, 19 fev. 2020. Available at:
https://ec.europa.eu/info/sites/info/files/commission-white-paper-artificial-
intelligence-feb2020_en.pdf. Access: 15 abr. 2020.
DAI, X. Toward a reputation state: the social credit system project of china.
SSRN Electronic Journal, Rochester, New York, 2018. DOI
10.2139/ssrn.3193577. Available at:
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3193577. Access: 24
abr. 2020.
DAMASIO, A. We must not accept an algorithmic account of human life.
HUFFPOST: the Blog, [s. l.], 6 dez. 2017. Available at:
https://www.huffpost.com/entry/algorithmic-human-life_b_10699712.
Access: 28 abr. 2020.
DELEUZE, G. Foucault. Tradução: Sean Hand. Minneapolis & London:
University of Minnesota Press, 1988. ISBN 0-8166-1674-4.
DENG, Z.; NAVARTHNA, R.; KARR, P.; MANDT, S.; YUE, J.;
MATTHEWS, I.; MORI, G. Factorized variational autoencoders for
modelling audience reactions to movies. In: DISNEY RESEARCH. IEEE
Conference on Computer Vision and Pattern Recognition (CVPR) 2017.
[S. l.], 21 Jul. 2017. Available at:
https://la.disneyresearch.com/publication/factorized-variational-autoencoder.
Access: 22 maio 2019.
DIAMOND, Larry. What is democracy?. Stanford University. Stanford,
California, 21 Jan. 2014. Available at: https://diamond-
democracy.stanford.edu/speaking/lectures/what-democracy. Access: 10 sets. 2019.
DORINGER, B.; FELDERER, B. (ed.). Faceless: re-inventing privacy
through subversive media strategies. Vienna: De Gruyter & angewandte,
2018. ISBN 9-783110-525137.
DORINGER, B. The beginning. In: DORINGER, B.; FELDERER, B. (ed.).
Faceless: re-inventing privacy through subversive media strategies. Vienna:
De Gruyter & angewandte, 2018. cap. 1, p. 6-15. ISBN 9-783110-525137.
FACEPTION (Tel Aviv). Faception: Facial Personality Analytics. Available
at: https://www.faception.com. 2019. Accesso: 6.10.2020.
204
FACEPLUSPLUS (Beijing). Face ++: AI open platform. In: MEGVII
(China). https://www.megvii.com/en: Power humanity with AI. Beijing,
2012-2020. Disponível em: https://www.faceplusplus.com/. Acesso em: 28
Jun. 2020.
FAßLER, M. Partizipation ohne Demokratie. Über die Folgen der Netz-
und Geopolitik von Facebook, Google, Amazon & Co. Paderborn,
Deutschland: Wilhelm Fink, 2020. 257p. ISBN 978-3-7705-6249-7.
FENG, E. China's unchecked expansion of data-powered AI raises civic
concerns. Financial Times, London, p. 1-2, 14 Jul. 2020. Available at
https://www.ft.com/content/2237a15e-0219-11e9-bf0f-53b8511afd73
Access: 13 Nov. 2019.
FRISCHMAN, B.; SELINGER, E. Reengeneering humanity. Cambridge,
U.K.: Cambridge University Press, 2018. 417 p. ISBN 978-1-107-14709-6.
FUCHS, T. Verteidigung des Menschen. Grundfragen einer verkörperten
Anthropologie. Berlin: Suhrkamp Verlag, 2020.9-783518-299111.
GERNER, A. M. The techno-social uncanny. Revista Portuguesa de
Filosofia, Braga, v. 75, n. 4, p. 2171-2206, 2019. DOI
https://doi.org/10.17990/RPF/2019_75_4_2171. Available at: Revista
Portuguesa de Filosofia, 2019, Vol. 75 (4): 2171-2206. Access: 1 jun. 2020.
GILBERT, B. Clearview AI scrapped billions of photos from social media to
build a facial recognition app that can ID anyone — here is everything you
need to know about the mysterious company. Business Insider, [S. l.], ano
2020, 6 Mar. 2020. Tech, p. 1-3. Available at:
https://www.businessinsider.com/what-is-Clearview-ai-controversial-facial-
recognition-startup-2020-3?r=US&IR=T. Access: 12 JUL. 2020.
GRANCHE, Bruno. The art of staging simulations: mise-en-scène, social
impact, and Simulation literacy. In: RESCH, Michael M.; KAMINSKI,
Andreas; GEHRING, Petra (ed.). The science and art of Simulation:
exploring- understanding- knowing. Cham: Springer, 2017. p. 33-50. ISBN
978-3319557618.
HARARI, Y. N. Rebellion of the hackable animals. The Wall Street
Journal. Dow Jones & Company, New York, 1 maio 2020. Available at:
https://www.wsj.com/articles/rebellion-of-the-hackable-animals-1158835212
3. Access: 14 maio 2020.
HARARI, Y. N. 21 lessons for the 21st Century. London: Jonathan Cape,
2018. 400p. ISBN 978-1-7873-3067-2.
HARARI, Y. N. The myth of freedom. The Guardian, London, 14 set.
2018(b). Available at:
https://www.theguardian.com/books/2018/sep/14/yuval-noah-harari-the-new-
threat-to-liberal-democracy. Access: 10 mar. 2020.
HARVEY, A. Computer vision dazzle camouflage, 2010,
CVDAZZLE.COM/., Harvey, Adam. "Computer Vision Dazzle Camouflage."
In: HARVEY, Adam. CV Dazzle: computer vision dazzle camouflage. [S.
l.], 2010. Available at: www.cvdazzle.com/. Access: 14 ago. 2019.
205
HELZE, V., GOETZ, K., Digital Albert Einstein, a case study
PROCEEDINGS OF SIGGRAPH '18 TALKS.ACM, 2018, New York, NY,
USA: ACM, 2018. Pp.1-2, DOI https://doi.org/10.1145/3214745.3214782.
Available at: https://animationsinstitut.de/files/public/images/04-
forschung/Publications/DigitalActor_Siggraph2018.pdf. Access: 2 ago. 2019.
HENKE, S., MERSCH, D., VAN DER MEULEN, N., STRÄSSLE, T.
WIESEL, J. Manifesto of artistic research. A Defense against its advocates.
Zürich: Diaphanes, 2020.
HORA, K. Https://thisxdoesnotexist.com/. In:
HTTPS://THISXDOESNOTEXIST.COM/. Https://thisxdoesnotexist.com/. [S. l.],
2020. Disponível em: https://thisxdoesnotexist.com/. Acesso em: 1 jul. 2020.
JOHNSON, N.; ZHAO, G.; HUNSADER, E.; QI, H.; JOHNSON, N.;
MENG, J.; TIVNAN, Brian. Abrupt rise of new machine ecology beyond
human response time. Nature: Scientific Reports, [s. l.], n. 3, ed. 2627, 11
Sept. 2013. DOI 10.1038/srep02627. Disponível em:
https://www.nature.com/articles/srep02627.pdf. Access: 19 Sept. 2017.
KAY, K. IBM, Microsoft, and Amazon's face recognition bans don't go far
enough. Fast Company, [S. l.], p. 1-2, 13 Jun. 2020. Available at:
https://www.msn.com/en-us/news/technology/IBM-Microsoft-and-amazon-s-face-
recognition-bans-don-t-go-far-enough/ar-BB15qTDv. Acess: 30 Jun. 2020.
KARRAS, T.; LAINE, S.; AILA, T. A style-based generator architecture for
generative adversarial networks. ArXiv.org, [S. l.], p. 1-12, 29 mar. 2019.
Available at: https://arxiv.org/pdf/1812.04948.pdf. Acess: 19 set. 2019.
KARRAS, T.; LAINE, S.; AITTALA, M.; HELLSTON, J.; LEHTINEN, J.;
AILA, T. Analyzing and improving the image quality of StyleGAN.
ArXiv.org, [S. l.], p. 1-21, 23 Mar. 2020. Available at:
https://arxiv.org/pdf/1912.04958.pdf. Acess: 2 JUL. 2020.
KIRKPATRICK, D. The Facebook effect: the inside story of the company
that is connecting the world. New York: Simon & Schuster, 2010. 384 p.
ISBN 978-1439102121.
KNUTH, D. The art of computer programming: sorting and searching.
London: Pearson Education, 1998. v. 3. 800p. ISBN 978-0201896855.
KITCHEN, Rob. The reframing of science, social science and humanities
research. In: KITCHEN, R. The data revolution: Big Data, open data, data
infrastructures & their consequences. Los Angeles: Sage, 2014a. p. 128-148.
ISBN 9781473908260.
KITCHEN, R. Big Data, new epistemologies, and paradigm shifts. Big Data
& Society, Los Angeles, ed. April-June 2014(b), p. 1-12, 1 abr. 2014. DOI
https://doi.org/10.1177/2053951714528481. Available at m:
https://journals.sagepub.com/doi/full/10.1177/2053951714528481. Access:
18 jul. 2017.
KLINGMA, D.; WELLING, M. Auto-encoding variational Bayes. In: ICLR
2014 (14.-16.Abril 2014). International Congress on Learning
206
Representations. Banff, Canada, 23 Dez. 2013. Available at:
https://arxiv.org/abs/1312.6114. Access: 18 Mar. 2020.
KÖRTE, M.; WEISSS, J.E. Einführung: Randgänge des Gesichts. In: KÖRTE,
Mona; WEISS, Judith Elisabeth. Randgänge des Gesichts: Kritische
Perspektiven auf Sichtbarkeit und Entzug. München: Wilhelm Fink, 2017.
cap. 1, p. 9-15. ISBN 978-3-7705-6064-6.
LANIER, J.; WYL, G. E. A blueprint for a better digital society. Harvard
Business Review, Boston, 18 ago. 2018. Available at: https://hbr.org/2018/09/a-
blueprint-for-a-better-digital-society. Access: 17 set. 2019.
LEE, K.-F. AI superpowers: china, silicon valley and the new world order.
Boston & New York: Houghton Mifflin Harcourt, 2018. 253 p. ISBN 978-1-
328-60609-9.
LEVINAS, E. Von der Obliteration. Gespräch mit François Armengaud
über das Werk von Sosno: aus dem Französischen von Johannes Bennke und
Jonas Hock. Zürich: Diaphanes, 2019. ISBN 978-3-03580124-8.
LIU, X. The dark forest. Tradução: J. Martinsen. New York: Tom Doherty
Associates, 2015. 400 p. ISBN 978-1784971595.
LOMBARDI, Stephan; SARAGIH, J.; SIMON, T.; SHEIKH, Y. Deep
appearance models for face rendering. ACM Transactions on Graphics, [s.
l.], v. 37, n. 68, ed. 4, p. 1-13, August/2018 2018. DOI
https://doi.org/10.1145/3197517.3201401. Available at:
https://research.fb.com/wp-content/uploads/2018/08/Deep-Appearance-
Models-for-Face-Rendering.pdf. Acess: 16 Jun. 2020.
MACHO, T. Faceless book. In: DORINGER, B.; FELDERER, B. (ed.).
Faceless: re-inventing privacy through subversive media strategies. Vienna:
De Gruyter/ angewandte, 2018. cap. 2, p. 17-31. ISBN 9-783110-525137.
MACKENZIE, A. Cutting code: Software and sociality. New York: Peter
Lang, 2006. ISBN 082-0-4782-37.
MARKETS AND MARKETS (USA). Facial recognition market by
component (software tools (2D recognition, 3D recognition, and facial
analytics) and services), application area (emotion recognition, access control,
and law enforcement), vertical, and region: global forecast to 2024. In:
MARKETS AND MARKETS (USA).
Https://www.marketsandmarkets.com/. USA, 2019. Available at:
https://www.marketsandmarkets.com/Market-Reports/facial-recognition-
market-995.html. Access: 2 JUL. 2020.
MAU, S. The Metric Society: On the quantification of the social.
Cambridge, U.K.: Polity Press, 2019. 206p. ISBN 978-1-5095-3040-3.
MACHO, T. Gesichtsverlust/-zerstörung: Übermalung und Angriff auf das
Portrait. In: WEIGEL, S.; DEUTSCHES HYGIENEMUSEUM (Dresden)
(ed.). Das Gesicht: Bilder, Medien, Formate. Göttingen: Wallstein Verlag,
2018. p. 47-51. ISBN 978-3-8353-3146-4.
MAZZOLA, G. & HOFMAN, G.F. „Die Bevormundung der Menschen durch
Maschinen muss verhindert werden“ NZZ, 19.10.2020. Available at:
207
https://www.nzz.ch/pro-global/technologie/die-bevormundung-der-menschen-
durch-maschinen-muss-verhindert-werden-
ld.1582409?mktcid=smch&mktcval=fbpost_2020-10-
19&fbclid=IwAR2BOYc1PvlrU5QVu0SMaX3WpbQrpFKBnahoHOE4BVe7
wrqW0SSTgb4iyHE. Access: 19.10.2020.
MERSCH, D. Ideen zu einer Kritik ‚algorithmischer‘ Rationalität. Deutsche
Zeitschrift Für Philosophie, Berlin, v. 57, ed. 5, 1 jul. 2020. DOI
10.1515/dzph-2019-0062. Disponível em:
https://www.degruyter.com/view/journals/dzph/67/5/article-p851.xml. Acesso
em: 11 mar. 2020.
MERSCH, Dieter. Kreativität und Künstliche Intelligenz. Einige
Bemerkungen zu einer Kritik algorithmischer Rationalität“, In Zeitschrift für
Medienwissenschaft. Heft 21: Künstliche Intelligenzen, Jg. 11 (2019), Nr. 2,
S. 65–74. DOI: https://doi.org/10.25969/mediarep/12634.
REICH, Johanna. Face detection. In: REICH, J.
Http://johannareich.com/mies_portfolio/face-detection. [S. l.], 2018.
Disponível em: http://johannareich.com/mies_portfolio/face-detection.
Acesso em: 11 jun. 2019.
RICHTERICH, A. The Big Data agenda: data ethics and critical data studies.
London: University of Westminister Press, 2018. 154 p. ISBN 978-1-911534-
73-0. DOI https://doi.org/10.16997/book14. Available at:
https://www.uwestminsterpress.co.uk/site/books/10.16997/book14/. Access: 7
Nov. 2019.
RUBIN, P. Facebook can make VR avatars look—and move—exactly like
you. In: Wired. New York, 13 Mar. 2019. Available at:
https://www.wired.com/story/facebook-oculus-codec-avatars-vr/. Access: 12
maio 2020.
SIMANOWSKI, R. The death algorithm and other digital dilemmas.
Cambridge Mass./London, 2018, MIT Press, p.174. ISBN 9780262536370.
SUDMANN, A. How is artificial intelligence changing science?. Bonn, 30
Jun. 2020. Available at:
howisaichangingscience.eu/?fbclid=IwAR2rG68l1ZZuts4DJocR-
DaSCvljQqC-rEpEpj0ctAbAzumfWVzCeHtvAhZk. Access: 1 JUL. 2020.
SUDMANN, A. Einleitung. In: ENGELMANN, Christoph; SUDMANN,
Andreas (ed.). Machine learning: Medien, Infrastrukturen und Technologien
der künstlichen Intelligenz. Bielefeld: Transcript, 2018. cap. 1, p. 9-36. ISBN
978-3-8376-35
TECH@FACEBOOK, “Facebook is building the future of connection with
lifelike avatars. The Codec Avatars project is all about defying distance”.
March 13, 2019. Available at: https://tech.fb.com/codec-avatars-facebook-
reality-labs/. Acess: 19set.2020.
THIES, J.; ZOLLHOFER, M.; STAMMINGER, M.; THEOBALT, C.;
NIESSNER, M. Face2Face: Real-time Face Capture and Reenactment of
RGB Videos. In: 2016 IEEE Conference on Computer Vision and Pattern
208
Recognition (CVPR). [S. l.], 2016. Available at:
https://niessnerlab.org/papers/2016/1facetoface/thies2016face.pdf. Acess: 4
ago. 2019.
VÉLIZ, C. Privacy is power. Why and how you should take back control of
your data. Random House Australia, 2020.
VORMBUSCH, U. Die Herrschaft der Zahlen. Zur Kalkulation des
Sozialen in der kapitalistischen Moderne. Hamburg: Campus Verlag, 2012.
272 p. ISBN 978-3-5933-9312-4.
WALDENFELS, B. Emmanuel Levinas: Das Gesicht des Anderen. In:
WALDENFELS, B. Idiome des Denkens: Deutsch-Französische
Gedankengänge II. Frankfurt am Main: Suhrkamp Verlag, 2005. cap. 10, p.
186-207. ISBN 3-518-29377-X.
WANG, P. Https://thispersondoesnotexist.com/. In:
THISPERSONDOESNOTEXIST. Https://thispersondoesnotexist.com/. [S. l.],
2019. Available at: https://thispersondoesnotexist.com/. Access: 5 set. 2019.
WEBB, A. The Big Nine: How the tech titans and their thinking machines
could warp humanity. New York: Public Affairs, 2020.
WEIGEL, S. Das Angesicht: Von verschwundenen, bewegten, und
mechanischen Gesichtern. In: WEIGEL, S.; DEUTSCHES
HYGIENEMUSEUM (Dresden) (ed.). Das Gesicht: Bilder, Medien,
Formate. Göttingen: Wallstein Verlag, 2017. v. 209, cap. 1, p. 9-18. ISBN
978-3-8353-3146-4.
WICHUM, R. Biometrie. Zur Soziologie der Identifikation. München:
Wilhelm Fink, 2017. 237p. ISBN: 978-3770560981.
ZUBOFF, S. Surveillance Capitalism: The Fight for a human future at the
new frontier of power. New York, NY, USA: Public Affairs, 2019.
209
BIG DATA Y TENDENCIAS EMERGENTES EN
LOS ESTUDIOS SOBRE OPINIÓN PÚBLICA EN
LA CIENCIA DE LA INFORMACIÓN
Mirelys Puerta-Díaz
María-Antonia Ovalle-Perandones
Daniel Martínez-Ávila
INTRODUCCIÓN
El debate sobre la opinión pública ha sido enfocado en la
literatura científica desde diferentes perspectivas epistemológicas,
áreas de conocimiento y temas de investigación (SILVA et al., 2018).
El uso extendido de plataformas de redes sociales (Facebook, Twitter,
Instagram etc.) ha contribuido al creciente interés por la temática en el
siglo XXI. La posibilidad de una participación activa de los usuarios de
estas plataformas en aspectos sociales, políticos y organizativos facilitó
la creación de narrativas y redes de acción colectiva (BENNETT;
SEGERBERG, 2012). Este fenómeno se constituye también como uno
de los pilares fundamentales del escenario de Big Data a la vez que
tiene un incidencia directa en nuevas dimensiones de estudios, ya que
se disponibiliza de datos de opinión a gran escala.
En el desarrollo histórico de los estudios sobre opinión pública
han surgido diversos episodios controvertidos caracterizados por una falta
de consenso teórico entre la comunidad científica internacional,
principalmente en el pasado siglo XX. Estas incertezas que han rodeado su
conceptualización y sedimentación como área y los diversos intentos por
alcanzar un consenso internacional han incidido directamente en el
cúmulo de publicaciones científicas sobre el tema, lo que muestra que las
discusiones sobre el concepto están aún lejos de concluir. Lippmann
(1966, p.81), en su seminal trabajo Public Opinion, sostiene que mientras
para la teoría ortodoxa esta categoría constituye “un juicio moral sobre un
grupo de hechos”, desde su criterio, una opinión pública “es
principalmente una versión moralizada y codificada de los hechos [...] que
el patrón de estereotipos en el centro de nuestros códigos determina en
gran medida qué grupo de hechos veremos y con qué luz los veremos”. El
211
autor hace especial énfasis en la incidencia de los estereotipos sociales
(referido en su texto como ‘pictures of our head’) en la formación de la
opinión pública, y en este sentido considera relevante para su análisis
reconocer la tríada conformada por “la escena de la acción, la imagen
humana de esa escena y la respuesta humana a esa imagen que se
desarrolla en la escena de la acción” (LIPPMANN, 1966, p. 11). Otras
definiciones de opinión pública plasmadas en la literatura incluyen
variantes más simplistas como “las preferencias de la población adulta en
temas de relevancia para el gobierno” (ERIKSON; TEDIN, 2015, p. 41), o
conceptos más amplios como el planteado por Shang et al. (2015) (“la
opinión pública es la respuesta de las personas a fenómenos sociales,
preguntas, temas importantes, actitudes, emociones que reflejan los
problemas actuales del enfoque de la sociedad”). En este sentido, la teoría
de “la espiral del silencio” de Noelle-Neumann aún después de 40 años es
considerada fundamental en los estudios de opinión pública para construir
un marco de conceptos existentes. La autora agrupa los conceptos
existentes hasta ese momento en dos categorías: (1) la opinión pública
como racionalidad, lo que la hace ‘instrumental’ ... en el proceso de
formación de opinión y toma de decisiones en una democracia; y (2) la
opinión pública como control social, en el que “su papel es promover la
integración social y asegurar que exista un nivel suficiente de consenso en
el que se puedan basar acciones y decisiones” (NOELLE-NEUMANN,
1995, p. 34, citado por SCHEUFLE; MOY, 2000).
En la línea de Glynn et al. (2018) se considera que la
investigación sobre la opinión pública corresponde con un campo muy
amplio de estudio, en el que académicos de diversas disciplinas buscan
comprender cómo se forman, comunican y miden las actitudes sobre
determinados asuntos públicos. Al analizar los diferentes intereses
disciplinarios de su estudio, se revelan áreas prolíficas como la
Comunicación, las Ciencias Sociales, la Historia de la Sociología, la
Gestión Empresarial, las Relaciones Internacionales, la Psicología, la
Ecología, las Ciencias Ambientales y, en la última década, las Ciencias
de la Computación y la Ciencia de la Información (CI). El estudio de
Silva et al. (2018) sobre el frente de investigación del dominio también
confirma su carácter diversificado en términos teóricos y
metodológicos. Sin embargo, a pesar de esta diversificación de los
métodos de estudio, Glynn et al. (2018) establecen las técnicas más
importantes que utilizan los investigadores para evaluar el estado de
ánimo del público: los resultados de las elecciones, el comportamiento
del consumidor, las fluctuaciones del mercado de valores, las reuniones
212
públicas y las protestas, así como otros indicadores de comportamiento
similares. Estas mediciones se tornan más complejas en función de las
fuentes de datos utilizadas, según modelos orientados a tratamiento de
datos masivos. Por otro lado, el interés científico en el análisis de la
opinión pública se ha incrementado en los últimos cuatro años debido
al eco de los acontecimientos políticos y el uso de técnicas de
manipulación basadas en Big Data ligadas a la ultraderecha (por ej. en
el caso del Brexit y las campaña presidenciales de Estados Unidos,
Brasil y otros países asesoradas por Steve Bannon). Según Glynn et al.
(2018) existen aún muchas preguntas abiertas sobre la opinión pública
que necesitan ser resueltas: cómo se sienten los ciudadanos sobre la
intervención injerencista norteamericana en conflictos extranjeros,
cómo se evalúa al presidente y a otros líderes políticos, cómo difieren
las opiniones entre varios grupos sociales, etc. En este sentido, cabe
cuestionarse desde una dimensión informacional cuáles serían las
grandes interrogantes que interesan a la ciencia para contrarrestar estas
campañas de desinformación vinculadas a fines económicos.
Este crisol de discusiones en el escenario científico e intelectual
requiere una definición del campo de estudio de la “opinión pública” por
permitir una institucionalización y establecimiento discursivo de teorías
y vocablos. Un reciente estudio de Silva et al. (2018) podría considerarse
un primer acercamiento a su análisis desde una perspectiva
cienciométrica, la cual identifica tendencias en la investigación
científica. Pese a eso, en el campo en el que se ubica normalmente a la
Cienciometría, la Ciencia de la Información, todavía se desconoce la
estructura científica de los estudios sobre la opinión pública.
Inspirados por el estudio de Silva et al. (2018), el objetivo
principal del presente trabajo es mapear la estructura científica de la
opinión pública en el área de la Ciencia de la Información. Los
objetivos específicos son identificar y caracterizar el contexto de la
producción intelectual de este dominio, definir la élite investigadora,
las principales instituciones y autores que trabajan en el tema en los
últimos años, y realizar un mapeamiento temático de la literatura
científica a partir de la frecuencia y relaciones de coocurrencia. Los
resultados de la investigación permitirán asentar la historia y
contribución teórica de la investigación sobre opinión pública en el
campo de la Ciencia de la Información así como indicar pistas a
futuras y necesarias investigaciones que ayuden a definirla como
dominio de conocimiento.
213
ESTUDIOS DE OPINIÓN PÚBLICA EN ESCENARIO DE
BIG DATA
Noelle-Neumann (1991) sostiene en su teoría de la espiral del
silencio que la opinión pública no apareció por primera vez en el siglo
XVIII, sino que ha existido durante miles de años en todas las
sociedades humanas como un fenómeno que ejerce fuerza sobre
gobiernos e individuos y que crea y mantiene los consensos necesarios
para el funcionamiento de la sociedad. Mientras que Rousseau fue uno
de los pioneros del uso del término (l'opinion publique), con el
significado de las costumbres y formas de actuar de todos los
miembros de la sociedad, escritores franceses en la década de 1780
hicieron uso de este término de forma indistinta junto a otras
expresiones como 'voluntad común', 'espíritu público' y ‘conciencia
pública', todas ellas con connotaciones de los aspectos políticos de la
opinión de las masas (ERIKSON; TEDIN, 2015).
Otras líneas de discusión intelectual se han centrado en los
términos que componen la expresión: “opinión” y “público”. La postura
crítica de Noelle-Neumann (1991) sugiere que el término "público" en
el concepto debe interpretarse en el sentido de "ojo público", es decir,
lo que es "visible para todos", como control social. "Opinión", por su
parte, se refiere a las expresiones de opinión que son públicamente
visibles y audibles, así como al comportamiento del público en relación
con temas cargados de valor.
Según indican Erikson y Tedin (2015), es notoriamente difícil
encontrar una definición del concepto que sea satisfactoria para un
número sustancial de investigadores. A pesar de ser un problema
crítico definicional de la investigación sobre la opinión pública que
alcanza la existencia de variaciones teóricas, incluidas las relacionadas
con las construcciones conceptuales de los términos que lo componen,
como bien plantean Glynn et al. (2018), este sigue siendo un campo
con fronteras y es válido afirmar que, independientemente de la
diversidad en las definiciones, estas también presentan elementos que
se superponen en cierta medida. Es posible construir una imagen global
del concepto a través de las visiones particulares y complejas en los
diferentes dominios científicos.
Si analizamos las intersecciones disciplinares de la opinión
pública no puede dejar de mencionarse la influencia de la religión, la
política de Estado y el discurso político de los candidatos
presidenciales. En esta línea, Djupe y Calfano (2013) analizaron una
214
metodología experimental para identificar cómo funciona esta
influencia. Tal como señala Chapp (2015), estos autores expresan la
comprensión tradicional de la religión en una visión más integral y
cambiante, partiendo de la premisa de que la dinámica de la opinión
pública influenciada por las religiones generalmente se forma,
evoluciona o retrocede más rápido que las creencias, comportamientos
y pertenencias de los individuos.
La opinión pública es también de interés en el ámbito de la Gestión.
Shang et al. (2015) argumentan que su estudio de la opinión pública es útil
para inferir lo que sucederá a corto plazo, ya que los resultados facilitan la
toma de decisiones de gobiernos y empresas. Además, ante la llegada de
Internet y el desarrollo de las tecnologías que trabajan con Big Data, su
punto de vista proporciona una ventaja competitiva que posibilita el análisis
profundo de la situación gracias al tratamiento de los datos masivos que
están disponibles en esta esfera pública.
Estos casos son ejemplos de lo que parece ser otro gran desafío
en los estudios de la opinión pública: su medición. Noelle-Neumann
(1991), por su parte, incidió en las reservas sobre la práctica de la
investigación de la opinión pública basada en cuestionarios. Para Linsay
Rogers (1891-1971), politóloga reconocida de la Universidad de
Columbia y autora del libro “The Pollsters: Public Opinion, Politics, and
Democratic Leadership” que recoge un profundo debate crítico sobre la
legitimación de los sondeos en los estudios de opinión pública, los
principales cuestionamientos sobre la validez de este método tradicional
de medición parten de las posibles distorsiones que podría traer al
proceso político, ya que los cuestionarios sobre la opinión pública no la
miden en su conjunto (FRIED, 2006; ERIKSON;TEDIN, 2015).
En la misma línea de pensamiento, Erikson y Tedin (2015)
sostienen que la opinión pública y los resultados de los sondeos de opinión
pública no son lo mismo, ya que esto último corresponde con una medida
indirecta del primero. Pese a todo, Glynn et al. (2018) identifican cuatro
métodos formales utilizados tradicionalmente por líderes políticos y
periodistas para buscar información sobre la opinión pública:
A. investigación con encuestas o sondeos,
B. grupos focales,
C. investigación experimental
D. análisis del contenido de los medios de comunicación.
Los estudios de medición de la opinión pública siguen siendo
un gran desafío en la ciencia debido al carácter dinámico y complejo
215
del escenario informativo actual. En la nueva coyuntura tecnológica,
cognitiva y cultural de la era de la post-verdad en la que vivimos
conviven flujos masivos de desinformación que tienen como principal
objetivo afectar las dinámicas de la opinión pública. Teorías y métodos
del campo de estudio de la opinión pública han sido enriquecidos no
sólo por los debates intelectuales y los fenómenos políticos descritos en
esta introducción, sino también por la dimensión infotecnológica que
ha jugado un papel importante en las transformaciones de su marco
teórico-metodológico.
Con la emergencia del fenómeno de los Big Data en el presente
siglo XXI, científicos, políticos y otros analistas encuentran nuevas fuentes
de datos en Internet para medir la opinión pública, lo que ha llevado a que
surjan nuevos métodos de medición y estudios científicos que consideran
las nuevas fuentes de datos de opinión disponibles. Todo lo expuesto
estimula el crecimiento de los métodos de medición, la emergencia de
nuevos medios y tecnologías de la comunicación y la intensificación de la
complejidad de las redes sociales (GLYNN et al., 2018). Un ejemplo de
estas herramientas y métodos sería Google Trends. Mccallum y Bury
(2013), por ejemplo, analizaron con esta herramienta los patrones de
búsqueda de los usuarios y hallaron una disminución en el interés por el
medio ambiente; McLaren y Shanbhogue (2011) utilizaron esta fuente
para estudiar indicadores económicos; Anderegg y Goldsmith (2014) la
usaron para medir el interés público en el cambio climático durante la
última década y los efectos del evento mediático ‘Climategate’. En
definitiva, Google Trends se ha utilizado para analizar los intereses de los
usuarios en varios campos. Por otra parte, los estudios que utilizan esta
herramienta también enriquecen el análisis con métodos adicionales como
el análisis de sentimiento. La segunda fuente de datos por excelencia son
las redes sociales como Twitter y Facebook. En el plano de los estudios
económicos, por ejemplo, se han rastreado indicadores macroeconómicos,
como la inflación (MCLAREN, 2011), y se han analizado las
proyecciones de consumo privado (VOSEN; SCHMIDT, 2011).
METODOLOGÍA
La presente investigación tiene un doble enfoque metodológico:
el primero más cuantitativo, propio de los estudios métricos de la
información, y el segundo más cualitativo encuadrado dentro del
paradigma de análisis de dominio y la organización del conocimiento
que contempla la bibliometría como una de los posibles métodos para
216
alcanzarlo (HJØRLAND, 2002; 2017; SMIRAGLIA, 2015). Esta
combinación metodológica constituye una posición bien asentada y
reconocida para realizar estudios en la Ciencia de la Información.
Los datos fueron obtenidos de la base de datos Web of Science
(WoS) el día 24/06/2020. Se realizó una búsqueda de la expresión en
inglés "public opinion" en los campos título, resumen y palabras clave,
sin limitaciones en el año de publicación o tipología documental. Se
recuperaron un total de 21.798 registros que fueron filtrados por la
categoría de la Web of Science “INFORMATION SCIENCE LIBRARY
SCIENCE” y resultaron en 222 documentos, los cuales compusieron el
corpus de análisis. En el proceso de análisis se consideraron los
indicadores bibliométricos de producción de impacto y de relación.
El indicador de producción fue empleado para describir el
estado de la producción científica a partir de una perspectiva
cuantitativa del comportamiento anual de las publicaciones. En un
primer momento se analizó la producción por décadas y
posteriormente en el periodo 2010-2020 con más detalle. Los
resultados obtenidos permitieron identificar la élite de investigadores
según la ley de Price (1976). Los registros recuperados de WoS fueron
gestionados con el software bibliográfico EndNote x9 para posteriores
análisis cuantitativos y exportados en formato csv desde la herramienta
de análisis de WoS, lo que permitió su análisis y visualización en Excel.
Con el objetivo de identificar el núcleo de trabajos y autores
más citados fueron empleados indicadores de impacto, lo que facilitó
también analizar el frente de investigación. Se aplicó el método de
Análisis de Redes Sociales (ARS), el cual mediante el empleo de
herramientas de software permite visualizar el comportamiento de las
redes de colaboración y co-citación (SILVA, 2014) al considerar el
indicador bibliométrico de relación científica basado en el análisis de
referencias y citas recibidas. Para este fin se mapeó la red de co-
ocurrencia de palabras clave que fueron asignadas por los autores de los
222 trabajos recuperados. Esto permitió identificar comportamientos de
intereses de investigación y caracterizar las tendencias presentes en la
comunidad científica que estudia la opinión pública en el campo de la
Ciencia de la Información.
Para la selección de los pares de cocitación y su posterior
mapeo se utilizó un criterio de frecuencia de citación en los trabajos
mayor que 1. En el proceso de extracción de datos de los 222 registros
de WoS, análisis bibliométrico y creación de matrices para la
representación de las relaciones sociales de coautoría y cocitación se
217
utilizó el software Bibexcel v.2017; para el análisis y visualización de
redes se utilizó el software Pajek; y para la visualización en algoritmo
se utilizó Kamada-Kawai (componentes separados). El software
Vosviewer 1.6.14 fue utilizado para la creación de la red de frecuencia
de palabras conjuntas a partir de las palabras clave extraídas de los
documentos recuperados.
RESULTADOS Y DISCUSIÓN
La búsqueda bibliográfica realizada en WoS recuperó un
conjunto de 222 documentos tras la aplicación de los criterios, que
representa el 1,02% del total de la literatura indexada sobre el tema en
la base de datos (21.798 registros). En lo que respecta a la distribución
de la producción por categorías, destacan los artículos de revista (153),
que corresponden con un 68.9% del total recuperado. La Figura 1
muestra el desarrollo de la producción sobre el tema en el área en un
período de 79 años. La primera publicación en la CI data de 1941 y fue
un trabajo sobre encuestas de opinión pública, publicado en la revista
Library Journal y con autoría de Stewart W. Smith de la Fitchburg
Massachusetts Public Library. A la concentración de estudios en el área
en la década de 1940 le siguió una caída en el número de trabajos, y
por tanto de interés en la comunidad científica internacional, hasta su
remontada en los años 90 del mismo siglo. El aumento de las
publicaciones a finales de siglo XX puede ser explicado por la
explosión de la World Wide Web y el desarrollo de las nuevas
Tecnologías de la Información y las Comunicaciones. Este aumento en
la producción en el área marca los inicios de los estudios de opinión
pública online y sus principales vías de publicación en revistas
científicas, entre las que destacan por orden de frecuencia: Scientist (3),
Social Science Computer Review (3), Bulletin of the American Society for
Information Science (2), Library Journal (2) y Library Quarterly (2).
El siglo XXI está marcado por un notorio aumento del número
de publicaciones. El gran volumen de datos de opinión pública
disponible en redes sociales online repercute sin dudas en el aumento
de estudios, ya que este tipo de investigaciones no sería posible sin la
posibilidad de obtener estos datos a gran escala.
218
Figura 1. Distribución temporal agrupada por décadas de los estudios sobre opinión
pública en CI. Fuente: elaborado por los autores.
La Figura 2 muestra la evolución de los trabajos distribuidos

por las 30 áreas temáticas más prolíficas que la Web of Science asigna
a revistas. Se observa un comportamiento creciente e ininterrumpido
desde el año 2016 de estudios publicados en el área de la Ciencia
Política, que corrobora la predominancia de esta dimensión en las
encuestas de opinión pública y su papel en la medición de la distancia o
proximidad de comportamientos entre los líderes políticos y la
población. Es importante resaltar este elemento político porque tal
comportamiento influirá también en el interés temático de la CI. El
mapa del comportamiento de las publicaciones en la CI (línea negra)
muestra un pico de publicaciones en el año 2017 que está relacionado
también con acontecimientos políticos y la gran atención pública
generada por la campaña presidencial de Donald Trump en los Estados
Unidos y el Brexit en Reino Unido en el año 2016. Mientras que el año
2019 se corresponde con el más productivo en diversas áreas, en la CI
se alcanzó el segundo valor más alto en producciones científicas.
Puede afirmarse que, aunque la publicación científica en opinión
pública tenga un carácter emergente en relación a las otras áreas, existe
un aumento significativo de publicaciones en el presente siglo, ya que
representan el 80,3% del total de obras existentes hasta la actualidad.
219
Figura 2. Dinámica temporal de las 30 áreas más prolíficas sobre opinión pública
Fuente: elaborado por los autores con los datos colectados en la WoS.
Respecto a las fuentes y tipologías de publicación, se identificó

que el 69.058% de los estudios fueron publicados como artículo
científico, y en el 91.5% en inglés. De la muestra tan solo el 4,5% de
los trabajos fueron publicados en castellano y el 1,3% en portugués. La
Tabla 1 presenta las 10 revistas con mayor frecuencia de producción
sobre opinión pública en CI. Library Journal fue una revista pionera en
los estudios de ‹opinión pública' y sigue siendo la más relevante en CI,
ya que en ella se publicó el primer artículo sobre la temática y sigue
siendo la más productiva. En segundo lugar se encuentra Social Science
Computer Review, especializada en publicaciones sobre la opinión
pública expresada en internet y más específicamente en redes sociales
como Twitter y con perspectiva de género. Se destacan también las
publicaciones de la revista española “El Profesional de la
Información”, que aparece en la lista de las revistas más frecuentes.
Otras revistas en castellano o portugués incluyen: ‘Acceso abierto’,
'Bibliotecas Revista de la Escuela de Bibliotecología Documentación e
Información', 'Revista Española de Documentación Científica', Revista
‘General de Información y Documentación’, ‘Revista Ibero Americana
de Ciência da Informação’, ‘Transinformação’ y ‘Scire: Representación
y Organización del Conocimiento’ .
220
Tabla. 1. Distribución de las 10 revistas con mayor producción sobre opinión pública en la CI.
Revista No. Publicaciones %
Library Journal 23 10.3

Social Science Computer Review 16 7.2
Journal of Health Communication 13 5.8
Government Information Quarterly 12 5.4
Journal of Computer Mediated Communication 7 3.2
Profesional de la Información 7 3.14
Information Processing Management 6 2.7
Journal of Government Information 6 2.7
Library Quarterly 6 2.7
Telematics and Informatics 6 2.7
Fuente: elaborado por los autores.
ANÁLISIS CONTEXTUAL DE LA ÉLITE

INVESTIGADORA EN OPINIÓN PÚBLICA EN LA CI
La élite investigadora de publicaciones sobre opinión pública
en CI (Tabla 2) está calculada con base en la Ley de Price, según la
cual “el número de productores prolíficos equivale a la raíz cuadrada
del número total de autores” (PRICE, 1976, p. 3). En el presente
estudio el número total de autores contemplados fue de 468, de los
cuales 3 fueron anónimos y por lo que fueron desconsiderados en el
cálculo final. En base a esta fórmula, √465 autores corresponden con
los siguientes 21 autores:
221
Tabla 2. Élite de investigadores en los estudios sobre opinión pública en la CI.
Autor n filiación País
o
Reddick C. G. 4 University. Texas San Antonio Estados Unidos
Allen B. 2 University of Missouri Canadá
Altschiller D. 2 Boston University Estados Unidos
Baldino T. J. 2 Wilkes Estados Unidos
Berelson B. 2 Stanford Univ. Estados Unidos
Chen Y. 2 U. Wuhan China
Fan D. P. 2 U. Minnesota Estados Unidos
Galluzzi A. 2 Biblioteca del Senato della Italia
Repubblica “Giovanni Spadolini”
Greenwood T. E. 2 U. Western Illinois Estados Unidos
Gunnlaugsdottir 2 University of Iceland Islandia
J.
Kim H. 2 Yonsei University Corea del Sur
Liu Y. J. 2 Chinese Academy of Sciences China
Xu X. B. 2 American University of Sharjah Emirados
Árabes Unidos
Smith H. J. 2 University of Miami Estados Unidos
Moukdad H. 2 Dalhousie University Canadá
Thelwall M. 2 University Wolverhampton Inglaterra
Arifon O. 1 Université Libre de Bruxelles Bélgica
Arnesen S. 1 University Bergen Noruega
Arriagada A. 1 Pontificia Universidad Católica Chile
Atluri V 1 Rutgers Business School Estados Unidos
Fuente: elaborado por los autores
Del grupo de investigación de élite, el más productivo es Reddick

C. G., cuyos 4 estudios versan sobre la opinión pública en el escenario del
gobierno electrónico y las relaciones de confianza con la ciudadanía. Los
15 siguientes investigadores de la lista presentan 2 publicaciones cada uno
mientras que los 4 últimos de la tabla solo una publicación.
Entre los países de la élite investigadora con mayor producción se
encuentran: Estados Unidos, Canadá, China, Inglaterra y España. Estados
Unidos coincide con el país más productivo en el tema en CI (ver Figura 3).
222
Figura 3. Distribución de los 10 países más productivos sobre opinión pública en la CI.
Fuente: Elaborado por los autores.
Entre las instituciones de investigación más productivas

destacan 10 con más de 3 publicaciones sobre la temática en estudio
(señaladas en negro en la Figura 4). La siguiente figura también
relaciona las cinco instituciones más productivas en los 6 países más
destacados en cuanto a producción sobre la temática. En la Figura 4 se
evidencia que cinco de las 10 instituciones que se destacan provienen de
Estados Unidos: la University of Texas de San Antonio, University of
Missouri, Boston University, Wilkes University y la Stanford University.
La segunda institución con mayor producción es la Academia de
Ciencias de China con un total de 5 trabajos. En general los estudios
provienen principalmente de universidades con un amplio prestigio
internacional como University of Texas at Austin, Pennsylvania State
University, California State University y Harvard University.
223
Figura 4. Relación de instituciones por países más productivos sobre opinión pública
en CI. Fuente: elaborado por los autores en Inkscape.
RED DE COLABORACIÓN CIENTÍFICA

El análisis de la estructura intelectual de un dominio de
conocimiento, desde la perspectiva del ARS, permite medir la
colaboración entre científicos (coautoría). El método de ARS se basa en la
existencia de relaciones entre actores, y la característica principal de estas
relaciones de coautoría es que son recíprocas, de modo que si el autor A es
coautor de un determinado documento con el autor B, entonces el autor B
también es coautor del denominado autor A (OVALLE-PERANDONES;
OLMEDA-GÓMEZ; PERIANES-RODRÍGUEZ, 2014). De los 223
artículos extraídos de la fuente de datos, 102 fueron publicados por
autores que no colaboraron con ningún otro autor. Esto significa que no
hubo coautoría en el 45.9% de los trabajos. La Figura 5 muestra la red de
coautoría en los 223 documentos recuperados.
Figura 5. Red de coautoría de artículos en el dominio “opinión pública”. Fuente:

Elaborado por los autores con datos de investigación de Web of Science
224
Esta red de coautoría se caracteriza por tener muchos
componentes, lo que significa que la investigación en este campo se
desarrolla de forma individual y está muy desconectada. Cada nodo
corresponde a la composición de la coautoría (el total de autores), se
destacan en color negro aquellos con más de 4 autores en su
composición, mientras que los nodos blancos corresponden a las
relaciones de coautoría entre 2 y 3 autores. El componente principal
está situado en la esquina superior izquierda de la Figura 5 y mostrado
con más detalle en la Figura 6. En este componente principal de
coautoría se establecen relaciones de colaboración entre 15 autores en
una investigación titulada “Why Are ‘Others’ So Polarized? Perceived
Political Polarization and Media Use in 10 Countries” publicada en
2016 en Journal of Computer-Mediated Communication.
Figura 6. Componente principal de la red de coautoria aborada por los autores

utilizando el software Vosviewer.
Los autores más citados en los trabajos son: Reddick, C.G.

(108 citas), Thelwall, M. (60 citas), Fan, D.P. (25 citas) y
Gunnlaugsdottir, J. (13 cita). El trabajo más citado a fecha de análisis
225
es: Smith, H. J., Milburg, S. J., & Burke, S. J. del 1996, el cual trata
sobre la privacidad de la información vinculada a la medición de
inquietudes individuales sobre prácticas organizacionales y fue
publicado en la revista Mis Quarterly.
FUENTES MÁS CITADAS:

La Tabla 3 enumera las 9 fuentes de información más citadas
en los estudios recuperados de opinión pública en CI. Se destacan los
periódicos New York Times con el doble de publicaciones citadas en
relación al Washington Post y The Guardian que presentan 10 cada
uno. Se advierte un comportamiento de citación mayor a periódicos, en
relación a revistas académicas, una característica de los estudios de
opinión. El prestigio, la influencia y la amplia referencia académica
internacional del New York Times explican la preferencia de este frente
a otros periódicos como fuente de datos en este tipo de investigación
científica (HICKS; WANG, 2013).
Tabla 3. Fuentes de publicaciones más citadas:

Número de citas Publicación
27 J Comput-Mediat Comm
20 New York Times
17 Thesis
13 Mis Quart
11 Int J Commun-Us
10 Washington Post
10 Newspaper Res J
10 The Guardian
10 Libr J
Fuente: Elaborado por los autores
RED DE COCITACIÓN
La red de cocitación (Figura 7) se compone de 407 nodos y
4816 enlaces. Los nodos de la red representan trabajos con una
frecuencia de cocitación mayor o igual a dos. Los documentos están
226
representados por el primer autor y el año de publicación; los tamaños
de los nodos son proporcionales a la frecuencia de cocitación recibida
y al grosor de las conexiones, que es proporcional a la frecuencia de
cocitación entre ellos. El color visualiza el grupo al que pertenece entre
los 31 grupos mapeados. El grado medio es de 23,7.
Figura 7 – Red de cocitación de los estudios sobre opinión pública en la CI. Fuente:
elaborado por los autores con datos de la investigación en Pajek.
PRINCIPALES PARES DE COCITACIÓN:

A partir del análisis de cocitación en Bibexcel se identificaron
seis pares con valor de frecuencia cuatro, la mayor frecuencia de la red:
Jungherr A, 2012 y Tumasjan A, 2010; Gayo-Avello D, 2013 y Jungherr
A, 2012; Cha M, 2010 y Katz E, 1955; Iyengar S, 2009 y Stroud N,
2010; Pollock J, 2001 y Anonymous (registro sin valor en el campo de
autoria), 1996; Franch F, 2013 y Tumasjan A, 2010. Los trabajos
recuperados más citados por los autores de los 223 trabajos recuperados
son los siguientes, con 6 citas cada uno: Entman R, 1993, V43, P51, J
Commun; Noelle-Neumann E, 1993; Noellene.E, 1974, V24, P43, J
Commun; Pang B, 2002, P79, Proceedings Of The 2002 Conference On
Empirical Methods In Natural Language Processing; Habermas J, 1989,
Structural Transform y Tumasjan A, 2010, P178, Icwsm; con 5
citaciones Iyengar S, 2009, V59, P19, J Commun; Jungherr A, 2012,
V30, P229, Soc Sci Comput Ver; Gayo-Avello D, 2013, V31, P649, Soc
Sci Comput Ver y Zaller J, 1992, Nature Origins Mass.
227
RED DE CO-OCURRENCIA DE LAS PALABRAS CLAVE
PRESENTES EN LOS TRABAJOS
Con el objetivo de profundizar en las relaciones temáticas e
identificar temas emergentes en el dominio, se mapeó la red de palabras
clave utilizando el software Vosviewer (ver Figura 8), utilizando el método
de análisis coocurrencia (co-occurrence), el método de conteo completo
(full counting) y la unidad de análisis (author keywords). En el proceso se
identificaron 568 términos correspondientes con los valores medidos, de
los cuales se mapean únicamente 61 que cumplieron el criterio de presentar
un valor mínimo de 2 ocurrencias (seleccionado también en el sistema).
Para cada una de las 61 palabras clave se calculó la fuerza total de enlace.
La Tabla 4 muestra la relación de las 10 palabras con mayores
valores de frecuencia entre los trabajos recuperados y los valores de la
fuerza total del enlace en la red de co-ocurrencia. Estos atributos de peso
estándar se explican de la siguiente manera: para cada palabra clave
determinada los atributos ocurrencias y fuerza total del enlace indican
respectivamente la frecuencia con que aparece la palabra en el campo de
keywords (las asignadas por los autores de los trabajos) y la fuerza total de
los enlaces de una palabra en relación con otros términos (keywords) en la
red. Estos atributos de medición indican la importancia del término en el
conjunto de temáticas que son abordadas en los trabajos sobre opinión
pública en la CI, listadas a continuación por orden decreciente de
frecuencia: public opinion (30), social media (28), twitter (16), internet (10),
sentiment analysis (8), facebook (7), e-government (6), politics (6), public
sphere (5) y Big Data (4). Otros términos que no aparecen en la tabla 4 pero
que resulta relevante mencionar son: content analysis (4), elections (4), media
(4), political participation (4), social networks (4), survey research (4).
Tabla 4 – Palabras clave con mayor valor de frecuencia y fuerza total de enlace en la red.
Fuente: Elaborado por los autores a partir de datos obtenidos del VosViewer.
228
A partir de los datos de la Tabla 4 y el análisis de los términos
más frecuentes en los subsiguientes párrafos, se pudo sistematizar el
conjunto de métodos y técnicas más utilizados por los investigadores
de CI en los estudios de opinión pública. Se destaca entre los métodos
con mayor aplicación la técnica de análisis de sentimientos, seguido del
análisis de contenido, análisis de redes sociales y en menor medida
investigaciones basadas en encuestas. Es interesante destacar la
presencia de estudios sobre las prácticas periodísticas para inferir e
informar sobre temas de impacto en la opinión pública, principalmente
a partir de lo que se publica en redes sociales y citando estudios en los
que se aplican análisis de sentimientos.
Como resultado del análisis de la frecuencia de las palabras
clave se identificó que los países o regiones de mayor ocurrencia en los
estudios de este dominio son China, Islandia y América Latina.
La Figura 8 agrupa las palabras clave en 11 clusters según el
modelo de network visualization. En esta red de coocurrencia, cuanto
mayor es la frecuencia de ocurrencia de un tema mayor es su
prominencia (tamaño de palabra y del nodo). La variación cromática
de los nodos responde a la adherencia del término al cluster. En el
mapa se observa que estudios sobre ‘transparencia’, pese a encontrarse
más aislados en relación con el resto de los nodos centrales de la red,
son de interés para el campo de la Ciencia de la Información, ya que se
encuadran específicamente en las áreas de Políticas de Información y
quizás Gestión de la Información y documentos.
229
Figura 8 – Red de co-ocurrencia das palabras clave en las publicaciones analizadas.
Fuente: Elaborado en Vosviewer a partir de los datos de la investigación.
La aplicación de la técnica de visualización overlay de

Vosviewer reveló la ocurrencia en el tiempo de las temáticas. Esta
estrategia de análisis permitió identificar el comportamiento de las
publicaciones en el tiempo u observar los modelos de estudio actuales
sobre opinión pública en la CI. Las investigaciones que marcan los
últimos años de análisis (2016-2018) abordan temas relacionados con el
estudio de opinión en el contexto de las redes sociales, que aplican la
técnica de análisis de sentimientos para clasificar y describir la dinámica
de las emociones sociales ante los fenómenos naturales y eventos
políticos. También se observó que a mediados de la primera década del
siglo XXI y comienzos de 2010 predominaron los estudios centrados en
la cobertura de los medios de comunicación, la brecha digital y la
opinión de los jóvenes. Destacamos también el incremento de la
investigación en los últimos tres años en temas relacionados con los
diálogos de opinión pública y técnicas analíticas de Big Data orientadas a
descubrir y clasificar temas emergentes en un dominio en estudio.
230
CONCLUSIÓN
La literatura científica internacional sobre opinión pública en
el campo de la Ciencia de la Información ha mostrado un aumento
notable en los últimos tres años. Este aspecto puede ser explicado por
la naturaleza interdisciplinar de la Ciencia de la Información y su
carácter auxiliar e instrumental para otros dominios de conocimiento,
por lo que podría ser un indicio de la importancia de la temática
también en otros campos científicos.
La élite investigadora se caracteriza por tener una mayor
representación de los Estados Unidos y una intersección entre cinco
autores que se encuentran entre los más productivos y los cinco más
citados en el tema de la opinión pública en la CI (Reddick, C.;
Thelwall, M.; Fan, DP y Gunnlaugsdottir, J.). Una característica del
dominio de la 'opinión pública' en la CI es la escasa colaboración
científica y relaciones de colaboración.
Existen dos grupos principales de cocitación que revelan la
importancia teórica-metodológica. Sobre las fuentes de las
publicaciones, de los 5 trabajos principales, los 2 con mayor impacto
corresponden con Journal of Computer-Mediated Communication,
mientras que el periódico New York Times es la fuente periodística más
citada. Por otro lado, en la actualidad, el dominio está vinculado a
áreas de conocimiento relacionadas con redes sociales e Internet, tal
como se desprende del uso repetido de estos términos en los registros
recuperadas. Existe un importante núcleo teórico en la CI que vincula
el escenario del Big Data con la opinión pública. Este aspecto también
se menciona con frecuencia en la comunidad académica internacional.
Se observa la ausencia de estudios que sistematizan las
competencias necesarias para el profesional de la información en los
estudios de opinión pública, sin embargo, si se identifica un conjunto
de trabajos que analizan las prácticas periodísticas para inferir e
informar sobre la opinión pública en las redes sociales, así como las
técnicas aplicadas entre las que destacan el análisis de sentimientos. Se
infiere a partir del análisis de los términos más frecuentes en la red de
coocurrencia un marcado interés por estudios de opinión en las redes
sociales online, destacando sobre todos aquellos que usan Twitter como
fuente de datos de opinión pública seguidos de la plataforma Facebook.
Las investigaciones del área incluyen como métodos formales más
frecuentes el análisis del contenido de los medios de comunicación,
utilizado como apoyo al análisis de sentimientos presentes en las
231
opiniones expresadas en posts en las citadas redes sociales. Estos
estudios se instauran entre las más recientes tendencias en el campo de
la Ciencia de la Información que aplican técnicas de Procesamiento de
Lenguaje Natural para la clasificación de textos.
Es importante también destacar la vigencia de la Teoría de la
Espiral del Silencio propuesta por la politóloga alemana Elisabeth
Noelle-Neumann proveniente de la Ciencia Política y la comunicación
de masas. Esta teoría es utilizada en los estudios sobre opinión pública
en CI como cuadro de referencia teórico en la interpretación de los
análisis de fenómenos de exclusión social, los cuales se dan en
determinados grupos sociales y debido a las opiniones de los miembros.
Desde esta perspectiva se entiende la opinión de actores como un posible
elemento aislador y excluyente en sociedad. En este sentido se destaca el
análisis de sentimiento como técnica para obtener una mayor precisión
en la medición y mapeamiento de las emociones y sentimientos
presentes en el corpus de tweets. El análisis de redes sociales como
método es también aplicado para revelar las estructuras de acción en red
de los actores sociales que utilizan Twitter y Facebook, por ejemplo para
detectar cambios en el modo de establecimiento de la agenda pública del
modelo tradicional unidireccional a uno interactivo. La investigación de
encuestas o sondeos, criticados en la literatura sobre opinión pública, son
también aplicados en la CI aunque en menor medida.
Finalmente, aunque el año 2017 se destaca como el más
productivo debido a ciertos acontecimiento políticos como el
referéndum sobre la permanencia del Reino Unido en la Unión
Europea (Brexit) y la polémica campaña presidencial de Estados
Unidos del año 2016, se observa un incremento substancial de estudios
en los últimos tres años que marcan la transformación de un modelo de
publicaciones tradicionales sobre opinión pública hacia estudios
centrados en la esfera de las redes sociales y la aplicación de técnicas
analíticas de Big Data, orientadas a descubrir y clasificar temas
emergentes y la medición de las emociones y sentimientos presentes en
el público que expresa la opinión.
AGRADECIMIENTOS
Este trabajo fue realizado con el apoyo financiero de la
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil
(CAPES) - Código de Financiamiento 001. Agradecemos al equipo del
proyecto "Compreendendo a dinâmica da opinião e da linguagem
232
utilizando Big Data (projeto T-AP)" (OpLaDyn), financiado por la
Fundação de Amparo à Pesquisa do Estado de São Paulo - FAPESP
(número de proceso: 2016/50256-0) cuyos aportes enriquecieron el
resultado, y principalmente a las profesoras Mariana Claudia Broens y
la líder del proyecto Maria Eunice Quilici Gonzalez que inspiraron la
realización de esta investigación.
REFERENCIAS
ANDEREGG, W. R. L.; GOLDSMITH, G. R. Public interest in climate
change over the past decade and the effects of the ‘climategate’ media event.
Environmental Research Letters, vol. 9, no. 5, p. 054005, 2014.
https://doi.org/10.1088/1748-9326/9/5/054005
BENNETT, W. L.; SEGERBERG, A. THE LOGIC OF CONNECTIVE
ACTION: Digital media and the personalization of contentious politics.
Information, Communication & Society, vol. 15, no. 5, p. 739–768, Jun.
2012. https://doi.org/10.1080/1369118X.2012.670661
CHAPP, C. B. God Talk: Experimenting with the Religious Causes of Public
Opinion. By Paul A. Djupe and Brian R. Calfano. Philadelphia, PA: Temple
University Press, 2013. Politics and Religion, vol. 8, no. 1, p. 188–190,
2015. https://doi.org/10.1017/S1755048314000625
DJUPE, P.; CALFANO, B. God talk: Experimenting with the religious causes
of public opinion. Philadelphia, PA: Temple University Press, 2013.
ERIKSON, R. S.; TEDIN, K. L. American public opinion: Its origins, content
and impact. Routledge, 2015.
FRIED, A. The Forgotten Lindsay Rogers and the Development of American
Political Science. American Political Science Review, vol. 100, no. 4, p.
555, Nov. 2006. https://doi.org/10.1017/S0003055406062423
GLYNN, C. J., Herbst, S., Lindeman, M., O’Keefe, G. J., & Shapiro, R. Y.
Public Opinion. New York: Routledge, 2018.
HICKS, D.; WANG, J. The New York Times as a resource for mode
2. Science, technology, & human values, vol. 38, no. 6, p. 851-877, 2013.
https://doi.org/10.1177/0162243913497806
HJØRLAND, B. Domain analysis in Information Science: Eleven approaches
– traditional well as innovative. Journal of Documentation, vol. 58, no.4, p.
422-462, 2002.
HJØRLAND, B. Domain analysis. Knowledge Organization, vol. 44, no.6,
p. 436-464, 2017.
LIPPMANN, W. Public opinion. New York: The Free Press Publishers, p.
271, 1966.
MCCALLUM, M. L.; BURY, G. W. Google search patterns suggest declining
interest in the environment. Biodiversity and Conservation, vol. 22, no. 6–7,
p. 1355–1367, Jun. 2013. DOI 10.1007/s10531-013-0476-6.
233
MCLAREN, N.; SHANBHOGUE, R. Using Internet Search Data as
Economic Indicators. SSRN Electronic Journal, 2011. DOI
10.2139/ssrn.1865276
NOELLE-NEUMANN, E. The Theory of Public Opinion: The Concept of
the Spiral of Silence. Annals of the International Communication
Association, vol. 14, no. 1, p. 256–287, Jan. 1991.
https://doi.org/10.1080/23808985.1991.11678790
OVALLE-PERANDONES, M. A., OLMEDA-GÓMEZ, C., PERIANES-
RODRÍGUEZ, A. ARS y redes de colaboración científica. En: M. Del Fresno,
M. P. Marqués-Sánchez & D. Sánchez-Paunero (Eds.). Conectados por
redes sociales: introducción al análisis de redes sociales y casos
prácticos. Barcelona: Editorial UOC, p. 219-245, 2014.
PRICE, D. D. S. A general theory of bibliometric and other cumulative
advantage processes. Journal of the American Society for Information
Science, vol. 27, no.5, p. 292-306, 1976. DOI 10.1002/asi.4630270505
JUN SP, YOO HS, CHOI S. Ten years of research change using Google
Trends: From the perspective of Big Data utilizations and applications.
Technological forecasting and social change, vol. 130, p. 69-87, 2018.
https://doi.org/10.1016/j.techfore.2017.11.009
SCHEUFLE, D. A.; MOY, P. Twenty-five years of the spiral of silence: A
conceptual review and empirical outlook. International journal of public
opinion research, vol. 12, no 1, p. 3-28, 2000.
SHANG, S.; SHI, M.; SHANG, W.; HONG, Z. Research on public opinion
based on Big Data. In: 2015 IEEE/ACIS 14TH International Conference on
Computer and Information Science (ICIS), Jun. 2015. 2015 IEEE/ACIS 14th
International Conference on Computer and Information Science (ICIS).
Las Vegas, NV, USA: IEEE, Jun. 2015. p. 559–562. DOI
10.1109/ICIS.2015.7166655
SILVA, A. K. A. da. A dinâmica das redes sociais e as redes de coautoría.
Perspectivas em Gestão & Conhecimento, no 4, p.27-47, 2014.
SILVA, A E F A; PRADO, J W; ALCANTARA, V C; TONELLI, D F;
PEREIRA, J R Public opinion: bibliometric analysis for the systematization
of trends. HOLOS, vol. 34, no 4, p. 2-30, 2018. DOI
10.15628/holos.2018.6905
SMIRAGLIA, R. Domain analysis for knowledge organization: tools for
ontology extraction. Chandos Publishing, 2015.
VOSEN, S; SCHMIDT T. Forecasting private consumption: survey-based indicators vs.
Google Trends. J Forecast, no. 30, 2011 DOI 10.1002/for.1213.
234
INDUÇÃO ELIMINATIVA E CAUSALIDADE
NO CONTEXTO DAS CIÊNCIAS
DIRECIONADAS POR DADOS
Mariana Vitti Rodrigues

Ettore Bresciani Filho
INTRODUÇÃO
Por volta de 1820, o fascínio pela coleta de dados na busca por
regularidades da natureza levou a uma ‘avalanche de números
impressos’ (HACKING, 1990). Essa avalanche desencadeou a
necessidade de organizar, classificar e analisar dados de forma a
interpretá-los a fim de encontrar conclusões interessantes sobre
determinado objeto de estudo. Ao longo do século XIX, parâmetros
foram sendo criados para fundamentar a análise de dados, como as
noções de média e de desvio padrão da distribuição de população, o
que culminou na emergência da estatística como método de coleta e de
interpretação de dados. No final do século XIX, os dados se tornaram
uma commodity social, o que levou, na virada do século XX, à criação
de infraestruturas nacionais que visavam coletar e organizar dados.
Nesse contexto, a Estatística se consolida como disciplina embasada
em cálculos de probabilidade (HACKING, 1992), proporcionando
técnicas elaboradas e rigorosas de quantificação de fenômenos naturais
e sociais (LEONELLI, 2019).
As Tecnologias de Informação e Comunicação (TICs),
desenvolvidas no período das grandes guerras mundiais, contribuíram
para uma nova etapa do uso de dados no processo da pesquisa científica.
Dados eram vistos como uma commodity que poderia ser compartilhada
e comercializada com diferentes possibilidades de uso, reuso e
interpretação. Leonelli (2019) ressalta que “[...] cada vez mais, os dados
eram vistos como ativos compartilháveis para reaproveitamento, cujo
valor poderia mudar dependendo do uso”.
235
O aumento exponencial da geração e do armazenamento de
informação no começo do século XXI trouxe à baila o termo Big Data,
que tem sido empregado para descrever esse feito no contexto de
técnicas de processamento de dados, ou seja, de coleta, tratamento,
análise, interpretação e armazenamento de dados. Apesar de não haver
consenso sobre uma definição precisa de Big Data, Laney (2001) sugere
uma caracterização inicial desse termo que reúne 3 V´s: Volume,
Velocidade e Variedade. Volume indica a massiva quantidade de dados
gerados diariamente, por exemplo, nas redes sociais, transações
bancárias e e-mails. Velocidade diz respeito à crescente aceleração na
transmissão e análise de dados. Variedade compreende diferentes
formas de dados advindas de fontes diversas. Estes três componentes
indicam um desafio tecnológico, que consiste em processar, com o poder
computacional vigente, uma quantidade enorme de dados variados
(dados não estruturados, semiestruturados ou mesmo já estruturados)
obtidos com elevada velocidade (FLORIDI, 2012).
Além do desafio tecnológico trazido pelo desenvolvimento de
técnicas de análise de Big Data, há o desafio epistemológico que
consiste em estabelecer critérios para diferenciar padrões relevantes
(ou a ausência de padrões), possuidores de valor, daqueles padrões
irrelevantes, detectados na aplicação mecânica de técnicas de Big Data
(FLORIDI, 2012). A dificuldade em diferenciar padrões que espelham
relações causais daqueles que expressam meras correlações em um
universo de dados, nem sempre bem estruturados, constitui um dos
desafios centrais das ciências direcionadas por dados.
Ciências direcionadas por dados, de acordo com Elliott et al.
(2016, p. 1), “[...] têm sido descritas como pesquisa em que a captura,
mineração, e análise de (usualmente) grande volume de dados são
centrais para a questão científica”. As ciências direcionadas por dados,
que floresceram com o advento do Big Data, podem ser compreendidas
como ciências exploratórias em que o uso massivo de dados possui um
papel central no desenvolvimento de suas questões. Exemplos de
ciências direcionadas por dados são a astronomia, as ciências
genômicas, e as geociências.
Atualmente, as ciências direcionadas por dados são cada vez
mais dependentes das ciências que desenvolvem técnicas de análise de
Big Data e, como apontam Elliott et al. (2016, p. 3), “[...] a ciência
contemporânea que utiliza dados intensivamente levanta questões
adicionais devido ao seu uso extensivo de metodologias estatísticas e
236
da ciência da computação e equipes interdisciplinares […],
adicionando assim outras dimensões aos debates sobre métodos
científicos apropriados”. Uma dessas dimensões, a ser debatida no
presente trabalho, é a possibilidade de identificação de estruturas
causais a partir da crescente automação da investigação científica por
meio do desenvolvimento de algoritmos especializados e do acesso a
massiva quantidade de dados (GRAY, 2009).
Para melhor compreender os desafios enfrentados pelas, que
agora assim se pode denominar, ciências direcionadas por dados, no
presente capítulo, apresentamos a proposta de Pietsch, segundo a qual o
método de indução eliminativa, aprimorado pelas de técnicas de análise
de Big Data, pode ser a chave para o desvelamento de vínculo causal
entre variáveis em base de dados massivos (e também bases massivas de
dados). Nesse cenário, questionamos: (1) Em que medida o método de
indução eliminativa permite às ciências direcionadas por dados a
identificação de estruturas causais a partir da coleta, tratamento e análise
de massiva quantidade de dados? (2) Haveria uma mudança significativa
na ideia de modelagem causal nas ciências direcionadas por dados que
poderia acelerar o processo de automação da pesquisa científica a partir
do emprego de técnicas de análise de Big Data?
Para discutirmos tais questões, na primeira seção,
apresentamos a noção de indução eliminativa desenvolvida por Pietsch
(2013, 2014, 2016) no contexto das ciências direcionadas por dados.
Na segunda seção, apresentamos conceitos básicos da estatística
indutiva buscando o entendimento da proposta segundo a qual técnicas
de análise de Big Data proporcionam um tipo de modelagem horizontal
de explicação científica por meio de raciocínio por indução
eliminativa. Por fim, refletimos sobre o alcance e limites do método de
indução eliminativa no contexto das técnicas de análise de Big Data,
questionando a possibilidade de automação da pesquisa científica
realizada pelas ciências direcionadas por dados.
1 INDUÇÃO ELIMINATIVA E A DETECÇÃO DE

RELAÇÕES CAUSAIS
A discussão sobre a noção de causalidade está intimamente
relacionada ao debate sobre a validade do raciocínio indutivo. Hume,
crítico implacável da validade da indução, caracteriza o conceito de
237
causa como “[...] um objeto seguido de outro, quando todos os objetos
semelhantes ao primeiro são seguidos de objetos semelhantes ao
segundo” (HUME, 1999, p. 115). A partir dessa concepção, Hume
questiona em que medida podemos assegurar que o futuro se
assemelhará ao passado. Como podemos garantir, para além de um
conforto psicológico, que eventos que sucedem outros eventos irão,
necessariamente, se repetir no futuro? Ou ainda, como podemos
assegurar que, não existindo o primeiro objeto, jamais existiria o
segundo (ibid.)? Esse questionamento ilustra o problema da indução
segundo o qual não há, no plano lógico e epistemológico, garantias de
que todos os objetos semelhantes ao primeiro serão, no futuro,
necessariamente seguidos de objetos semelhantes ao segundo. Assim,
Hume conclui não há garantias lógicas de regularidades existentes
entre causas e efeitos.
O problema da indução se refere ao raciocínio por indução
enumerativa, isto é, o raciocínio segundo o qual a observação de muitas
instâncias de determinado tipo de relação entre eventos proporciona
uma extrapolação dessas observações para uma lei geral que expresse
tal regularidade. Assim, uma lei geral – inferida a partir de um
conjunto de observações particulares – permitiria a dedução de eventos
futuros baseados na experiência de eventos passados. Como, segundo o
argumento levantado por Hume, não há garantias lógicas de que o
futuro se assemelhará ao passado, Pietsch volta-se ao conceito de
indução eliminativa, proposto por Bacon ([1620]1994), para garantir a
validade do raciocínio indutivo. Segundo Pietsch, “[...] a indução
eliminativa não leva a uma ideia de regularidade da causalidade” e
assim sendo, não incorre no problema da indução levantado por Hume.
Pietsch (2013, p. 9) explica que:
[...] as noções de causalidade resultantes da indução enumerativa e
eliminativa são inteiramente distintas. Enquanto a visão clássica de
regularidade da causalidade é baseada na indução enumerativa e se
concentra no número de instâncias, a indução eliminativa enfatiza a
variação das condições de contorno.
238
Segundo Pietsch, o método de indução eliminativa1 possibilita
a detecção de vínculo causal entre variáveis a partir da detecção de
diferença na combinação das condições de contorno possivelmente
relevantes e o objeto de estudo a ser analisado. O autor (2014, p. 429)
ressalta que “[...] para estabelecer um conhecimento causal completo,
todas as combinações têm que ser experimentadas”. A novidade trazida
pelo autor é que a possibilidade de realizar muitas (ou todas)
combinações entre condições de contorno possivelmente relevantes se
torna cada vez mais factível com o desenvolvimento de técnicas de
análise de Big Data.
A análise que permite a detecção de vínculo causal entre
variáveis por meio do método de indução eliminativa envolve três
fatores: (I) Contexto B, (II) Condições de contorno potencialmente
relevantes C e (III) Fenômeno P (PIETSCH, 2013, 2014, 2015a).
Contexto B é constituído pelo conjunto de condições estáveis do
experimento em questão; esse contexto é gerado a partir de um recorte
metodológico que permite diferenciar os fatores excluídos de uma
dada análise. As Condições de contorno potencialmente relevantes C
constituem as propriedades escolhidas a serem testadas em relação ao
fenômeno de estudo. Já o Fenômeno P é o objeto de estudo a ser
analisado, devidamente delimitado em seu Contexto B.
Segundo Pietsch (2013, 2014), a relação entre as condições de
contorno Cx (C1, C2, C3...Cn), em um determinado contexto, pode
indicar quais dessas condições de contorno possuem vínculo causal com
o fenômeno P estudado. Segundo o autor, o método da diferença por
indução eliminativa “[...] estabelece relevância causal nas condições de
contorno C ao comparar duas instâncias que diferem somente em Cx e
1
Cumpre ressaltar que a indução eliminativa deve ser entendida com um método
geral, como um guarda-chuva que engloba, pelo menos, três métodos específicos: (i)
O método da diferença e da relevância causal; (ii) o método estrito da concordância e
da irrelevância causal; e (iii) o método de variações concomitantes. O método da
diferença e da relevância causal, desenvolvido por Bacon (1933), possibilita o
desvelamento de vínculo causal a partir da comparação entre o objeto de estudo e as
condições de contorno relevantes. O método estrito da concordância e da irrelevância
causal, inspirado em Mill (1943), possibilita desvendar que condições de contorno são
irrelevantes à análise de um determinado fenômeno. Por fim, Pietsch esboça a
possibilidade de estabelecimento de relevância causal através da derivação do método
de variações concomitantes a partir do método das diferenças. Este último método
possibilitaria uma análise do vínculo causal entre variáveis a partir de graus existentes
nas condições de contorno (PIETSCH, 2014, p. 426). No presente capítulo,
investigou-se o conceito de indução eliminativa, em termos gerais, com o objetivo de
analisar seu papel no desenvolvimento das ciências direcionadas por dados.
239
concordam em todas as outras circunstâncias C” (PIETSCH, 2015a, p.
148). Para melhor compreender essa proposta, pensemos no exemplo
descrito abaixo e ilustrado pelos diagramas 1 e 2.
Imagine que queremos desvelar a estrutura causal que permita
estabelecer as condições de contorno que originam a dor de cabeça em
uma dada população. Ao aplicar o método de indução eliminativa,
condições de contorno Cx são estabelecidas como relevantes
(inspiradas, por exemplo, por pesquisas prévias na área de medicina).
Vamos pensar em seis condições de contorno possivelmente relevantes
para o desencadeamento da dor de cabeça em indivíduos suscetíveis:
C1 – ingestão de chocolate, C2 – má postura, C3 – ingestão de café, C4
– abuso de analgésicos, C5 – infecção por H1N1, C6 – pressão alta. É
evidente que muitas outras condições de contorno relevantes podem
ser acrescentadas no exemplo em questão, escolhemos seis como
exemplo ilustrativo. Outras condições de contorno, por serem
consideradas irrelevantes (Ix), são desconsideradas na análise: I1 – cor
da roupa, I2 tipo de música que está tocando no rádio, ou I3 o formato
da torta de palmito da padaria.
A partir do estabelecimento de condições de contorno
possivelmente relevantes, o método de indução eliminativa permite a
identificação de vínculo causal por meio da combinação das condições de
contorno potencialmente relevantes (nesse caso C1 – C6) com o fenômeno
a ser analisado (a origem da dor de cabeça). Uma vez que todas as
condições de contorno possivelmente relevantes permaneçam a mesma,
exceto uma, pode-se dizer que há um vínculo causal entre uma condição
de contorno, vamos supor C3 (ingestão de café), e o aparecimento da dor
de cabeça para o indivíduo ou um conjunto de pessoas testadas.
Assim, há uma intervenção controlada no objeto de estudo,
nesse caso pessoas suscetíveis (ou não) a terem dores de cabeça são
testadas em detrimento das condições de contorno possivelmente
relevantes. Desse modo, a manipulação das condições de contorno
permite a verificação (ou não) de seu possível efeito causal no fenômeno
P. No diagrama abaixo, as condições de contorno potencialmente
relevantes estão separadas das condições irrelevantes pelo círculo
pontilhado para serem, uma a uma, testadas. Uma vez que a condição de
contorno C3, em nosso exemplo, modifica o fenômeno P, enquanto as
outras condições permanecem as mesmas, pode-se estabelecer que para
aquele fenômeno P (em um indivíduo particular ou um conjunto de
indivíduos), C3 apresenta um vínculo causal em relação à dor de cabeça.
240
Com o aumento da capacidade computacional no processamento
de massiva quantidade de dados, assim como a possibilidade de
integração de grandes bases de dados, tem-se a possibilidade de gerar
hipóteses sobre vínculo causal entre variáveis multidimensionais que,
por sua vez, alimentam perfis pré-estabelecidos com determinadas
características; por exemplo, certas preferências compartilhadas por
pessoas de grupos específicos. Nesse cenário, o estabelecimento de
vínculo causal entre variáveis em uma única ocorrência (causalidade
singular) pode retroalimentar a base de dados de um perfil específico,
contribuindo para o ajuste na previsão de variáveis de saída, caso o
contexto B permaneça constante.
Diagrama 1 Diagrama 2
Condições possivelmente relevantes Condição C3 altera fenômeno
(nossa elaboração)
Em resumo, Pietsch argumenta que a manipulação de um dado

fenômeno, a partir da alteração de condições de contorno
possivelmente relevantes, permite o estabelecimento de vínculo causal
por meio da combinação entre múltiplas condições de contorno e o
fenômeno em questão. Esse procedimento é comum em projeto de
experimentos2 e, segundo Pietsch, é aprimorado pela implementação
de técnicas de análise de Big Data.
Mas, qual é o impacto da implementação de algoritmos
especializados que possibilitam o aprimoramento do método de
indução eliminativa para as ciências direcionadas por dados? Pietsch
(2013, 2014, 2015a) argumenta que o desenvolvimento de algoritmos
2
Como o método por experimento randomizado desenvolvido por Fisher (1935).
241
especializados, embasados no método de indução eliminativa,
possibilita uma mudança no modelo de explicação científica. O autor
entende que o tipo de explicação científica adotado pelas ciências
direcionadas por dados é embasado em um tipo de modelagem
horizontal, que contrasta com a explicação científica tradicional,
pautada em um modelo vertical ou hierárquico.
Segundo Pietsch (2015a, p. 161), na modelagem vertical de
explicação científica busca-se a construção de modelos teóricos a
partir de uma (super) estrutura teórica, isto é, objetiva-se o
desvelamento de leis gerais que possam explicar uma gama ampla de
fenômenos. Este tipo de modelagem possui um alto grau de
interpretabilidade dos aspectos da natureza, uma vez que se vale de leis
universais para explicar fenômenos particulares. Entretanto, a
modelagem vertical depende de idealizações e simplificações que, ao
permitir englobar diversos fenômenos sob uma explicação idealizada,
não explicita possíveis estruturas causais de casos particulares.
A explicação científica a partir de modelagem horizontal, por
sua vez, está pautada na possibilidade de realizar previsões precisas
sobre uma determinada área de análise. Assim, não há necessariamente a
preocupação em encontrar leis gerais que possibilitem a descrição de
uma ampla gama de fenômenos. Como método auxiliar das ciências
direcionadas por dados que almejam modelagem horizontal, busca-se
desenvolver algoritmos especializados que envolvam poucos parâmetros
e que permitam um alto grau de previsibilidade a partir do acesso a
massiva base de dados (também massivos). Segundo Pietsch (2013,
2015a), a modelagem horizontal floresce com o advento da estatística
não paramétrica baseada em algoritmos, pois permite a análise de dados
multidimensionais, que possibilita a instanciação da indução eliminativa
por meio da capacidade de relacionar (cruzar) muitas condições de
contorno (C₁, C₂, C₃...Cn) com o fenômeno P a ser analisado.
Em suma, contrastando a modelagem horizontal com a
modelagem vertical, hierarquizada, Pietsch argumenta que a
modelagem horizontal exige pouca necessidade de se introduzir níveis
abstratos de descrição do fenômeno, pois os dados já representam uma
parte significativa de todas as configurações relevantes do objeto de
estudo (PIETSCH, 2015, p. 162). Aqui, o autor entende configuração
como uma combinação específica de níveis de valores de diferentes
condições de contorno. Nesse contexto, configuração relevante seria a
combinação necessária para conduzir à indução eliminativa para um
242
contexto de pesquisa específico e para um determinado nível de
precisão. Na próxima seção, apresentamos conceitos básicos de
estatística indutiva com o objetivo de compreendermos em que medida
o desenvolvimento de técnicas estatísticas por algoritmos permite o
sucesso da modelagem horizontal na detecção de relações causais nas
ciências direcionadas por dados.
2 ESTATÍSTICA PARAMÉTRICA E NÃO PARAMÉTRICA:

UMA TÉCNICA EM DESENVOLVIMENTO
Segundo Breiman (2001), no final do século XX houve um
rápido desenvolvimento de métodos e aplicação de modelos
algorítmicos que possibilitou uma mudança na forma de tratar os dados
com o uso de técnicas estatísticas. O autor denomina modelagem não
paramétrica por algoritmos as técnicas desenvolvidas pela comunidade
em torno da disciplina de machine learning (BREIMAN, 2001, p. 200).
O autor ressalta que os modelos de algoritmos, aplicados a partir de
estatística não paramétrica, possibilitou o aprimoramento de técnicas
para tratamento de dados com o desenvolvimento de aprendizado de
máquinas, árvores de decisão e redes neurais. Inspirado na proposta de
Breiman, Pietsch (2015a) sugere que as técnicas desenvolvidas pela
modelagem não paramétrica por algoritmos, uma vez embasadas em
indução eliminativa, possibilitam a detecção de relações causais em
base de dados massivos. No que se segue, apresentamos conceitos
básicos de estatística bem como um exemplo ilustrativo da diferença
entre estatística paramétrica e não paramétrica por meio da análise da
função de regressão linear.
O estudo da estatística, considerada como ciência que estuda
os métodos de obtenção, tratamento e interpretação de dados
experimentais, pode ser dividido em duas partes: estatística descritiva e
estatística indutiva, sendo que a segunda se apoia também nos métodos
de amostragem e nos conceitos da teoria da probabilidade. O conjunto
de todos os dados experimentais denomina-se população, e o conjunto
de uma parte da população, objeto de estudo estatístico, denomina-se
amostra. A utilização de amostra torna-se necessária devida, em muitos
casos, ao elevado número de dados e às dificuldades de sua obtenção.
Cabe destacar que a capacidade computacional para aplicação de
técnicas estatísticas em base de dados massivos, correspondentes à
população, pode superar as dificuldades de acesso e de análise dos
243
dados, e das bases de dados, desde que ambos estejam organizados de
modo padronizado (estruturados ou semiestruturados).
A partir da distribuição de dados sobre uma determinada
população, podem-se definir alguns parâmetros fundamentais, por
exemplo, a média (aritmética) como medida da tendência central da
distribuição, e a variância e o desvio-padrão como medidas da
dispersão (variação) da distribuição. Assim, a estatística indutiva
permite estimar as características paramétricas da população por meio
da análise estatística das características paramétricas das amostras num
processo denominado inferência estatística.
A estatística indutiva também permite, por meio do
estabelecimento de funções de dependência entre variáveis, a
determinação do grau de associação entre essas variáveis. Por exemplo, a
determinação da função denominada regressão linear permite a análise do
grau de correlação a partir de uma relação funcional entre as variáveis
(x,y). Ou seja, pode existir uma função y = f(x), na qual fica explícito que
(y) pode ser associado a (x). Assim, para aplicar modelos que utilizam a
regressão deve-se considerar um sistema com variáveis de entrada (x) e de
saída (y), com o objetivo de determinar a ‘natureza da dependência’ da
variável de saída (y) a partir de um elevado número de variáveis (x) de
entrada (também chamadas de variáveis de predição ou de covariáveis).
Nesse cenário, x seria a variável independente e y a variável dependente.
Para uma função linear tem-se a regressão linear simples, por
exemplo, do tipo: y= a.x+b, sendo (a,b) os parâmetros constantes da
função. Cabe destacar que a função pode ser também não-linear como,
por exemplo: y = a.x² +b.x + c, com os parâmetros (a,b,c). Convém
destacar que uma função é formalizada com relações entre parâmetros
que podem ser variáveis (x,y,z...) independentes ou dependentes, e
constantes (a,b,c...), sendo que as constantes, como o próprio nome indica,
não se modificam quando ocorre a alteração dos níveis das variáveis, e
portanto, não guardam qualquer relação de dependência com elas.
Na modelagem paramétrica da regressão, adota-se a utilização
de determinados parâmetros fixos para cálculo da correlação linear (ou
não-linear) entre duas (ou mais) variáveis. As predições feitas de acordo
com uma base de dados utilizam uma parte da amostragem presente nos
dados para calcular os valores de ‘a’ e ‘b’, enquanto outra parte dos dados
serão posteriormente utilizados para testar o modelo paramétrico. Nesse
caso, ao fixar os valores de ‘a’ e ‘b’ se estabelece um modelo estatístico a
244
partir da base de dados analisada que permite a previsão de eventos
futuros. Com a não utilização de todos os dados, mas sim de parte dos
dados para constituição de um modelo com parâmetros fixos, a
modelagem torna-se menos flexível, pois não pode ser modificada
rapidamente para reagir às possíveis mudanças na base de dados. Por
outro lado, a modelagem paramétrica necessita de menos cálculos e
menor poder de processamento, por apresentar menor número de dados
e de parâmetros. Assim, a estatística paramétrica pode ser caracterizada
como uma estatística de baixa dimensionalidade: é preciso escolher
atentamente quais condições de contorno serão utilizadas (C1, C2,
C3...Cn) na elaboração de modelos.
Na modelagem não-paramétrica da regressão, os dados não são
representados em termos de um pequeno número de parâmetros fixos,
como a extração de valores fixados para ‘a’ e ‘b’ a partir da base de
dados em questão. Pelo contrário, todos os dados são utilizados para o
exercício de previsão. Além disso, o avanço de técnicas de modelagem
a partir de estatística não paramétrica possibilita a inclusão de muitas
condições de contorno (C1, C2, C3...Cn) na análise, o que permite uma
multidimensionalidade na análise, e o aprimoramento do método de
indução eliminativa.
Assim, sem a fixação de valores para os parâmetros ‘a’ e ‘b’, e com
a utilização de muitos dados de alta dimensionalidade, a modelagem não
paramétrica por algoritmos apresenta maior flexibilidade em relação a
modelagem paramétrica pois permite o ajuste rápido às mudanças na base
de dados. Por outro lado, por apresentar elevado número de dados
multidimensionais, a modelagem não paramétrica por algoritmos depende
de grande poder computacional para lidar com muitos cálculos.
Por um lado, o modelo paramétrico caracteriza-se por um
conjunto limitado de parâmetros estatísticos para modelagem
estatística, uma vez que a dependência funcional entre x e y é
predeterminada por um conjunto finito de parâmetros (‘a’, ‘b’). Por
outro lado, a modelagem não paramétrica por algoritmos não tem o
mesmo tipo de restrição da modelagem paramétrica, pois permite a
análise de dados multidimensionais, possibilitando um alto grau de
precisão na previsibilidade das variáveis de saída. O diagrama abaixo
explicita os principais aspectos que diferenciam a modelagem vertical
da modelagem horizontal.
245
Diagrama 3 – Diferenças entre modelagem vertical e modelagem horizontal
(nossa elaboração)
Se a análise de dados por estatística paramétrica necessitava do

ajuste dos dados, e a escolha (muitas vezes intuitiva) de quais
parâmetros (a, b, c) analisar, a estatística algorítmica não paramétrica
permite trabalhar com um conjunto extenso de dados de alta
dimensionalidade. Não é mais necessária a escolha de poucos
parâmetros para análise: quanto mais dados e mais condições de
contorno, melhor. Nesse sentido, Pietsch entende que a modelagem
não paramétrica permite o aprimoramento do raciocínio por indução
eliminativa, pois não será mais necessário escolher poucas condições
de contorno (C1, C2, C3...Cn) a serem consideradas relevantes na
explicação de um determinado fenômeno P.
Assim, a partir da possibilidade de aplicação de uma
modelagem não paramétrica por algoritmo, embasada em indução
eliminativa, seria possível, segundo Pietsch, detectar vínculos causais
existentes entre um fenômeno P e suas relações de contorno (C1, C2,
C3...Cn). Note que a estatística não paramétrica por algoritmos, por si
só, lida apenas com correlações entre variáveis de entrada e de saída. A
novidade trazida por Pietsch é que a estatística não paramétrica por
algoritmos, aliada à indução eliminativa, permitiria o desvelamento de
vínculo causal entre essas variáveis, pois o alto poder de processamento
computacional de algoritmos especializados possibilitaria o cruzamento
de milhares de condições de contorno relevantes em relação a um
determinado objeto de estudo.
246
Em suma, Pietsch argumenta que a previsão alcançada pelo uso
de modelagem não paramétrica, conjuntamente ao método de indução
eliminativa, possibilita o desvelamento de vínculo causal entre variáveis
a partir da análise de bases de dados massivos. Assim, a aplicação de
indução eliminativa se consolidaria como um método válido na busca de
padrões relevantes no contexto das ciências direcionadas por dados,
constituída por uma proposta mista de modelagem e manipulação. A
seguir elencamos o alcance e limites dessa proposta.
3 REFLEXÕES SOBRE O ALCANCE E LIMITES DA

PROPOSTA DE INDUÇÃO ELIMINATIVA
Na presente seção, refletimos acerca do alcance e limites da
proposta de Pietsch sobre a possibilidade de detecção de relações
causais em grande base de dados massivos por meio do método de
indução eliminativa ancorado em modelagem estatística não
paramétrica por algoritmos. Retomamos as questões que direcionam o
presente trabalho indagando, em relação ao alcance da proposta de
Pietsch, (1) em que medida o método de indução eliminativa permite
às ciências direcionadas por dados a identificação de estruturas causais
a partir da coleta, tratamento e análise de massiva quantidade de dados.
Em relação aos limites, questionamos (2) se haveria uma mudança
significativa na ideia de modelagem causal nas ciências direcionadas
por dados que poderia acelerar o processo de automação da pesquisa
científica a partir do emprego de técnicas de análise de Big Data.
Entendemos que o alcance da proposta de Pietsch, segundo a
qual o desenvolvimento de algoritmos especializados possibilita a
detecção de vínculo causal entre variáveis por meio do aprimoramento
do método de indução eliminativa, se dá na possibilidade de realização
de previsões cada vez mais precisas a partir de dados multivariados de
entrada. As técnicas de análise em estatística não paramétrica por
algoritmos, ao focalizar a variabilidade dos dados expressos em
múltiplas condições de contorno possivelmente relevantes, viabilizam a
análise de dados multidimensionais.
O enfoque na variabilidade das condições de contorno, ao
invés do enfoque na regularidade das instâncias analisadas, permite,
segundo Pietsch, a validação da indução eliminativa como método de
desvelamento de vínculo causal entre variáveis. Ao não pressupor que
fenômenos futuros se assemelharão a fenômenos passados, o que
acarretaria no problema da indução proposto por Hume, o método de
247
indução eliminativa pode ser compreendido como um possível critério
de indicação de vínculo causal a partir da variabilidade das condições
de contorno e sua possível influência no objeto analisado. Pietsch
(2013, p. 9) entende que:
O método [de indução eliminativa] pode lidar com um grande
número de parâmetros e com relacionamentos arbitrariamente
complexos que não podem ser condensados em equações simples. O
método pode lidar com a dependência de contexto, uma vez que
estabelece relevância causal apenas com relação a um determinado
contexto das condições de contorno relevantes. Além disso, a indução
eliminativa pode identificar relações causais que se mantêm apenas
em algumas instâncias ou mesmo causalidade singular, como segue a
partir do método da diferença, no qual apenas duas instâncias são
comparadas. Nenhuma regularidade deve ser levada em consideração
para determinar uma causa.
Entendemos que o método de indução eliminativa constitui

uma proposta frutífera na detecção de relações causais em grande base
de dados por, pelo menos, quatro razões: (i) o desenvolvimento de
modelos estatísticos por algoritmos especializados possibilita a análise
de muitas condições de contorno (C1, C2, C3...Cn); (ii) os dados
disponíveis em massiva bases, bem como dados massivos gerados em
alta velocidade, permitem alimentar modelos estatísticos não-
paramétricos por algoritmos que, cada vez mais, estão munidos de alto
poder computacional; (iii) a constante coleta de dados possibilita o
estabelecimento de técnicas de micro-targeting, pois permite analisar
múltiplas condições de contorno em relação a um determinado evento
ou grupo de indivíduos que compartilham um mesmo perfil; (iv) uma
vez que as condições de contorno potencialmente relevantes
permaneçam constantes, modelos computacionais que aplicam indução
eliminativa permitem a realização de previsões cada vez mais precisas.
Julgamos que o método de indução eliminativa permite às
ciências direcionadas por dados a identificação de estruturas
correlacionais uma vez que possibilitam o desenvolvimento de
modelagem horizontal fundamentadas em técnicas de estatística não
paramétrica por algoritmos. Ao variar as condições de contorno em
relação a um fenômeno P, é possível estabelecer a existência de um
vínculo causal entre variáveis, como uma hipótese a ser investigada. O
método de indução eliminativa adquire maior eficiência com o
desenvolvimento de técnicas de análise de Big Data que permitem que
uma gama extensa de condições de contorno seja testada em relação ao
248
fenômeno em questão. Além disso, o avanço de modelagem horizontal
viabiliza alto grau de previsibilidade possibilitando o desenvolvimento
de técnicas de micro-targeting, pois permitem a detecção de vínculo
causal em casos específicos por meio de causalidade singular.
Mas quais seriam então os limites dessa proposta? Os limites
dessa proposta passam a ser evidentes quando consideramos as três
premissas pressupostas por Pietsch (2013, 2014) para garantir a
eficiência do método de indução eliminativa. A primeira premissa
consiste na adoção do determinismo para garantir a possibilidade de
detecção de relações causais entre variáveis relevantes analisadas sobre
um dado objeto de estudo: “[...] deve haver uma causa completa para o
fenômeno P, i.e., uma condição que determine completamente a
ocorrência de P” (PIETSCH, 2014, p. 427, grifos nossos). Entendemos
que essa pressuposição poderia dificultar uma análise que acolha
aspectos estocásticos que possibilitaria, por sua vez, previsões baseadas
em cálculos de probabilidade. Um dos problemas que se pode apontar
é que o estabelecimento de vínculo causal entre variáveis, uma vez que
indique uma causa completa para um dado evento, apenas descreveria
um fato ocorrido. A detecção de uma condição que determine
completamente a ocorrência de um evento, sem a pressuposição do
princípio da regularidade da natureza, ou da constância do contexto B,
não possibilitaria uma justificação racional para a previsão de novos
eventos, ainda que semelhantes. O que culminaria, mais uma vez, no
problema de Hume.
A segunda premissa pressupõe a constância do Contexto B:
“[...] o contexto B pode conter somente condições que são irrelevantes
e que possam mudar, ou que sejam potencialmente relevantes e que
sejam mantidas constantes” (ibid.). Compreendemos que essa premissa
impede a análise de fenômenos complexos dinâmicos pois pressupõe
um congelamento das condições iniciais determinadas pelo recorte
feito para análise. Além disso, a delimitação do contexto B exige um
recorte metodológico que adeque a investigação aos objetivos que
direcionam a pesquisa em questão. Esse recorte é realizado de acordo
com critérios de relevância que possibilitam a atribuição de valor aos
dados a partir do estabelecimento de um objetivo da pesquisa.
Entendemos que a escolha de critérios de relevância configura um dos
principais desafios à automação completa da investigação científica.
A terceira premissa fundamenta-se na necessidade de uma
linguagem apropriada que possibilite a automação do processo de
desvelamento de relações causais: “[...] as condições (de contorno C1,
249
C2, C3...Cn) assim como o fenômeno P devem ser formulados em uma
linguagem correta que capture precisamente as categorias causais
relevantes para as circunstâncias e para os fenômenos”. Essa premissa
traz em seu bojo o problema da padronização dos dados analisados;
nem todo fenômeno é passível de ser descrito de forma padronizada, o
que pode eventualmente acarretar ambiguidades na geração de dados e
afetar o resultado da análise a partir do método de indução eliminativa.
Um exemplo desse problema pode ser encontrado na ciência genômica
no que tange a determinação de fenótipos complexos, que envolvem
anotações não estruturadas advindas de relatórios médicos, medições
quantitativas de exames laboratoriais, dados de sensores e rastreadores
(NAVARRO et al., 2019, p. 4).
O desafio envolvido na padronização de dados, e a
consequente dificuldade de implementação de uma linguagem
apropriada para análise mecânica de dados variados, explicita a
dificuldade de automação completa da pesquisa científica. Leonelli
(2015, p. 813) ressalta que “[...] o paradoxo consiste na observação de
que, apesar do valor epistêmico como ‘dado’, dados são claramente
fabricados”. Além disso, a autora ressalta que “[...] os procedimentos
envolvidos no empacotamento dos dados para viagens envolvem vários
estágios de manipulação, que podem ocorrer em momentos diferentes
e podem alterar o formato, a mídia e a forma dos dados.”
(LEONELLI, 2015, p. 816). Assim, as bases de dados que alimentam
os algoritmos especializados precisam possuir uma certa estrutura que
permita a padronização dos dados em uma linguagem precisa que
viabilize a implementação do método de indução eliminativa.
Uma quarta premissa surge como efeito colateral à aplicação
de modelos não paramétricos por algoritmos na modelagem horizontal:
a criação de caixas pretas. Segundo Breiman (2001, p. 205), a proposta
de técnicas não paramétricas por algoritmos pressupõe que a “[…]
natureza produz dados em uma caixa preta em que seu interior é
complexo, misterioso e, parcialmente, incognoscível.”. Breiman
argumenta que se a natureza contém mecanismos que não podem ser
conhecidos, a interpretação desses mecanismos deve se dar a partir da
previsibilidade de variáveis y de saída a partir de variáveis x de
entrada. Ao pressupor que a própria natureza se comporta como caixas
pretas, não haveria impedimento explicativo na criação de caixas
pretas ‘algorítmicas’ no processo de investigação científica.
Entendemos que a criação de caixas pretas, possibilitada pela
automação do processo de investigação científica, limita o entendimento
250
dos mecanismos inerentes ao objeto de estudo analisado. Apesar dessas
técnicas permitirem uma maior precisão na previsibilidade, assim como
possibilitam o processamento de dados multidimensionais que resultam em
dados multivariados, a explicação científica perde em interpretabilidade e
capacidade explanatória3. A modelagem horizontal, como vimos, não
fornece uma lei geral que abarque todas as instâncias relevantes para
determinado fenômeno. Pelo contrário, modelos horizontais de explicação
científica propiciam a criação de caixas pretas que podem inviabilizar o
entendimento profundo sobre o objeto de estudos.
No cenário aqui apresentado, julgamos que o desafio
epistemológico, que consiste em estabelecer critérios para diferenciar
padrões relevantes daqueles padrões irrelevantes, é reconfigurado: se Pietsch
propõe um método para diferenciar que condições de contorno apresentam
vínculo causal em relação ao fenômeno P, o autor ainda não soluciona como
diferenciar ou promover de forma automática a escolha das condições de
contorno possivelmente relevantes em relação a um determinado fenômeno.
A questão volta-se para a investigação do estabelecimento de critérios de
relevância que direcionam a pesquisa científica.
Segundo Bohm ([1980] 1992, p. 48), a palavra relevância
significa “[...] alçar a atenção [...] de modo que o conteúdo assim
alçado sobressaia ‘em relevo’”. Algo que está ‘em revelo’ pode ser
entendido como algo que contrasta com o que não está em relevo.
Nesse sentido, propriedades relevantes são contextuais: um enunciado,
ou uma condição de contorno, é relevante (ou não) de acordo com o
contexto em que é empregada.
Acreditamos que a possibilidade de detectar condições
potencialmente relevantes ainda dependem da agência humana, pois “[...]
o ato de ver a relevância ou irrelevância é, evidentemente, um aspecto da
percepção da verdade em seu significado global.” (ibid). Entender a
relevância de possíveis condições de contorno precede a aplicação do
método de indução eliminativa. Nesse cenário, com a automação
crescente da pesquisa científica, “[...] a necessidade da inteligência
humana está aumentando, à medida em que mais dados se tornam
disponíveis, para saber que perguntas sensatas propor e quais respostas
realmente fazem sentido” (MITTLESTADT & FLORIDI, 2016, p. 320).
Em síntese, compreendemos que a proposta de modelagem
horizontal por meio do desenvolvimento de algoritmos especializados
3
De acordo com uma noção de explicação científica tradicional como, por exemplo,
explicação nomológico-dedutiva (HEMPEL, 1965).
251
permite a automação de parte do processo de investigação científica. O
processo de investigação científica é meta-direcionado e depende de
seleção criteriosa que possibilite, por exemplo, a restrição do escopo da
investigação; a escolha de bases de dados a serem analisadas; o tipo de
modelagem a ser empregada. Assim, julgamos que a escolha de quais
condições de contorno podem ser consideradas potencialmente relevantes,
bem como o recorte do contexto B, ainda exige intervenções humanas.
No presente capítulo, apresentou-se a proposta de Pietsch
segundo a qual o método por indução eliminativa possibilita a detecção
de vínculo causal em grandes bases de dados massivos por meio do
emprego de técnicas de estatística não paramétrica por algoritmos.
Destacou-se que a implementação do método de indução
eliminativa pelas ciências direcionadas por dados, ancorado em técnicas
de estatística não paramétricas por algoritmos, permite uma mudança de
explicação científica de um modelo vertical para um modelo horizontal.
Enquanto o modelo vertical, hierarquizado, possibilita uma idealização
do objeto de estudo a partir de criação de leis gerais que explicitem a
estrutura causal de uma gama extensa de instâncias, a modelagem
horizontal permite um alto grau de precisão na previsibilidade de
fenômenos por meio do emprego de algoritmos especializados.
O emprego de modelagem horizontal pelas ciências
direcionadas por dados introduz uma mudança no entendimento de
explicação científica que pode, ao menos parcialmente, embasar o
processo de automação da ciência. Entretanto, aspectos que envolvem
o estabelecimento de relevância ou irrelevância de condições de
contorno, para viabilizar o emprego do método de indução eliminativa
e, assim, a detecção de vínculo causal, ainda exigem alta intervenção
humana. Como Bohm ([1980] 1992, p. 48) explicita:
[...] o ato de apreender a relevância ou a irrelevância não pode ser
reduzido a uma técnica ou a um método, determinados por algum
conjunto de regras. Trata-se, antes, de uma arte, tanto no sentido de
que isso requer uma percepção criativa como no de que essa
percepção tem de desenvolver-se mais ainda numa espécie de
habilidade (como no trabalho do artesão).
252
Refletir sobre o processo crescente da automação da
investigação científica exige, além de considerações epistemológicas
sobre sua (im)possibilidade, uma consideração cuidadosa sobre aspectos
éticos. Devemos indagar em que medida seria desejável (se possível) a
automação completa do processo de investigação científica, inquirindo
sobre o impacto do uso de técnicas de análise de Big Data para a ciência
e para a sociedade. Paralelamente à investigação de questões
epistemológicas, torna-se necessário, quiçá urgente, refletirmos
atentamente sobre questões éticas. Tal reflexão, a ser realizada em
trabalhos futuros, deve englobar uma discussão honesta e profunda sobre
a relação entre a admirabilidade científica e as demandas sociais.
AGRADECIMENTOS
Agradecemos o apoio da FAPESP (projeto n. 2020/03134-1)
que possibilitou a presente pesquisa. Agradecemos, também, os
pareceristas anônimos pelos valiosos comentários, os participantes do
Grupo Interdisciplinar CLE de Auto-Organização (UNICAMP) e do
Grupo Acadêmico de Estudos Cognitivos (UNESP/Marília) pela rica
discussão de nosso trabalho.
REFERÊNCIAS
BOHM, D. A Totalidade e a Ordem implicada. Tradução: Mauro de
Campos Silva. São Paulo: Editora Cultrix, [1980] 1992.
BREIMAN, L. Statistical Modeling: the two cultures. In: Statistical Science.
Vol. 16, n. 3, pp 199-231. 2001.
BACON, F. . Novum organum. Chicago: Open Court, [1620]1994.
ELLIOTT, K. C., et al. Conceptions of good science in our data-rich world.
In: Bioscience, Vol. 66, p. 880–889. 2016. doi.org/10.1093/biosci/biw115.
FISHER, R. A. The design of Experiments. Edinburgh: Teweeddale Court, 1935.
FLORIDI, L. Philosophy and Computing: An Introduction. London: Routledge, 1999 .
FLORIDI, L. Philosophy and Computing: An Introduction. London:
(2006) Information Ethics, its nature and scope. In: SIGCAS Computers
and Society, Vol. 36 n. 3. 1999.
(2012) Big Data and Their Epistemological Challenge. In: Philosophy &
Technology, Vol. 25, Issue 4, pp. 435-437. 1999.
(2017) A Plea for Non-naturalism as Constructionism. In: Minds and
Machines, Vol. 27, p. 269-285. 1999.
253
GRAY, J. Jim Gray on eScience: A transformed scientific method. In: Hey et
al. (Ed) The fourth paradigm: Data-intensive scientific discovery. Microsoft
Research: Redmond, Washington, 2009.
HACKING, I. Statistical language, statistical truth and statistical reason: The
self-authentification of a style of scientific reasoning, in E. McMullin (ed.),
The Social Dimensions of Science. Notre Dame, Ind.: University of Notre
Dame Press, pp. 130-157. 1992.
HAVELY, P; NORVIG, P. and PEREIRA, F. The Unreasonable
Effectiveness of Data. In: IEEE Intelligent Systems, vol. 24, no. 02, pp. 8-
12. 2009. doi: 10.1109/MIS.2009.36
HEMPEL, C. Aspects of Scientific Explanation and Other Essays in the
Philosophy of Science. New York: Free Press, 1965.
HUME, D. An enquire concerning human understanding. Oxford; New
York: Oxford University Press, 1999.
LEONELLI, S. What difference does quantity make? On the Epistemology of
Big Data in Biology. In: Big Data & society, June 1(1), pp. 1-16. 2014.
LEONELLI, S. What counts as scientific data? A relational framework. In:
Philosophy of Science, Vol. 82, pp. 810-821. 2015.
LEONELLI, S. Philosophy of Biology: the challenges of Big Data biology. In:
elife. 2019. DOI: 10.7554/eLife.47381. Available at
https://elifesciences.org/articles/47381. Access in February 2020.
MILL, S. System of Logic. London; John Parker, 1843.
MITTELSTADT, B. D. FLORIDI, L. The Ethics of Big Data: Current and
Foreseeable Issues in Biomedical Contexts. In: Sci Eng Ethics, Vol. 22, p.
303–341. 2016.
LANEY, D. 3D Data Management Controlling Data Volume Velocity and
Variety. In: Gartner Report, 2001.
NAVARRO, F. C. et al. Genomics and data science: an application within an
umbrella. In: Genome Biology, vol. 20, p. 1-11. 2019.
PIETSCH, W. Big Data – New Science of Complexity. 2013. http://philsci-
archive.pitt.edu/9944/1/pietsch-bigdata_complexity.pdf. Accesso em 03/01/2019.
PIETSCH, W. The structure of causal evidence based on eliminative induction.
In: Illari and F. Russo (eds) special issue of Topoi, pp. 421-
435. 2014. http://www.wolfgangpietsch.de/pietsch-eliminative_induction.pdf.
Acesso em 16/01/2019.
PIETSCH, W. The causal nature of modeling with Big Data. In: Philosophy
and Technology, Vol. 29, n. 2, 2015, p 137–171. 2015a.
PIETSCH, W. Aspects of theory-laddeness in data-intensive science. In:
Philosophy of Science, Vol. 82, n. 5. 2015b.
https://core.ac.uk/download/pdf/33752483.pdf Acesso em 15/02/2019.
254
SOBRE AS ORGANIZADORAS
Edna Alves de Souza é pesquisadora de pós-doutorado pelo Programa

de Pós-Graduação em Filosofia da Universidade Estadual Paulista
“Júlio de Mesquita Filho” (UNESP), Campus de Marília, na área de
concentração em Filosofia da Mente, Epistemologia e Lógica, com o
apoio financeiro da CAPES e sob supervisão da Dra. Maria Eunice
Quilici Gonzalez; é membro do Projeto “Understanding opinion and
language dynamics using massive data” da Trans-Atlantic Platform –
Digging into data challang, financiado no Brasil pela FAPESP
(Processo nº 2016/50256-0). Ela obteve o título de Doutora em
Filosofia pela Faculdade de Filosofia, Letras e Ciências Humanas da
Universidade de São Paulo (FFLCH - USP), em 2014; seu principal
interesse de pesquisa é sobre metodologia científica, realismo
científico, relativismo cognitivo, racionalidade, verdade, informação,
complexidade e Big Data; é membro do Grupo Acadêmico de Estudos
Cognitivos (GAEC - UNESP) desde 1999 e do Grupo Interdisciplinar
do Centro de Lógica, Epistemologia e História da Ciência (CLE -
UNICAMP); possui artigos e capítulos de livro publicados nas Áreas
de Filosofia da Ciência, Filosofia da Tecnologia e Filosofia da
Informação. Contato: souzaednaalves@gmail.com
Mariana Claudia Broens possui graduação em Filosofia pela UFPR

(1985), graduação em Direito pela PUC-PR (1983), obteve o Diplôme
d'Études Approfondies en Logique et Philosophie anglo-saxonne pela
Université de Nantes - França (1989) e é doutora em Filosofia pela
USP (1996). Realizou também pesquisa pós-doutoral na Universidade
de Nijmegen, Países Baixos (2010). Atualmente é Professora
Associada do Departamento de Filosofia da Faculdade de Filosofia e
Ciências da UNESP. Desenvolve pesquisas nas áreas de Epistemologia,
Filosofia da Mente, da Informação e da Tecnologia, tratando dos
seguintes temas: Abordagem externalista da mente, Cognição
Incorporada e Situada, Ética informacional, Informação Ecológica,
Auto-Organização e dinâmica de adesão a crenças. Atualmente é
Bolsista de Produtividade do CNPq (PQ2) e membro da equipe do
projeto Understanding opinion and language dynamics using massive
data da Trans-Atlantic Platform – Digging into data challang,
255
financiado no Brasil pela FAPESP (Processo nº 2016/50256-0).
Contato: mariana.broens@gmail.com
Maria Eunice Quilici Gonzalez é Bolsista de Produtividade em

Pesquisa do CNPq (PQ1C), professora associada (livre-docente) do
Departamento de Filosofia da UNESP; sua tese de doutorado: “A
cognitive approach to visual perception” foi concluída em 1989, na
Universidade de Essex, Inglaterra; possui graduação em Física pela
UNESP e mestrado em Lógica, Epistemologia e História da Ciência
pela UNICAMP. Ela é membro fundadora da Sociedade Brasileira de
Ciência Cognitiva e do Grupo Acadêmico de Estudos Cognitivos
(UNESP) e desde 1989 participa do grupo CLE auto-organização,
UNICAMP. Tem experiência nas áreas de Epistemologia, Filosofia da
Informação e da Tecnologia, Ciência Cognitiva e Filosofia da Mente,
desenvolvendo pesquisa sobre os seguintes temas: ação autônoma, ética
da informação, auto-organização, sistemas complexos e Big Data. Por
quatro décadas, vem ajudando na construção de uma concepção
epistemológico-interdisciplinar da relação entre informação e ação,
reunindo a filosofia, linguística, física e ciências biológicas.
Atualmente ela é também membro da International Complex Systems
Society e da Ecological Psychology Society, e coordena a equipe
brasileira do Projeto Transatlantic: “Understanding opinion and
language dynamics using massive data” da Trans-Atlantic Platform –
Digging into data challang, financiado no Brasil pela FAPESP
(Processo nº 2016/50256-0). Contato: eunice.gonzalez@unesp.br
256
SOBRE OS AUTORES E AUTORAS
Alexander Matthias Gerner é pesquisador e professor do

Centro de Filosofia das Ciências, Departamento de História e Filosofia
das Ciências, Faculdade de Ciências da Universidade de Lisboa,
Campo Grande, Lisboa, Portugal. E-mail: amgerner@fc.ul.pt
Artur Ziviani é pesquisador sênior do Data Extreme Lab
(DEXL), Laboratório Nacional de Computação Cientíﬁca (LNCC), e
coordenador do Programa de Pós-Graduação Multidisciplinar em
Modelagem Computacional do LNCC (Mestrado e Doutorado). E-
mail: ziviani@lncc.br
Daniel Martínez-Ávila é professor da Universidad Carlos III
de Madrid e do Programa de Pós-Graduação em Ciência da
Informação da FFC – UNESP. Também é membro da equipe do
Projeto “Understanding opinion and language dynamics using massive
data” da Trans-Atlantic Platform – Digging into data challang,
financiado no Brasil pela FAPESP (Processo nº 2016/50256-0). E-
mail: dmartinezavila@gmail.com
Ettore Bresciani Filho é Professor Titular aposentado da
Faculdade de Engenharia Mecânica da UNICAMP e membro do Centro
de Lógica, Epistemologia e História da Ciência da UNICAMP (CLE-
UNICAMP). E-mail: brescia@lexxa.com.br
Felipe S. Abrahão é pesquisador de pós-doutorado pelo Data
Extreme Lab (DEXL), Departamento de Ciência da Computação do
Laboratório Nacional de Computação Cientíﬁca (LNCC). E-mail:
fsa@lncc.br
Gustavo Leal Toledo é professor da Universidade Federal de
São João del-Rei (UFSJ) e coordenador do Mestrado em Filosofia da
UFSJ. E-mail: lealtoledo@ufsj.edu.br
ufsj.academia.edu/GustavoLealToledo.
Ivo Assad Ibri é professor titular da Pontifícia Universidade
Católica de São Paulo e Professor Colaborador da Faculdade de São
Bento - São Paulo-SP. É Bolsista de Produtividade do CNPq (PQ2),
fundador do Centro de Estudos do Pragmatismo do Programa de
Estudos Pós-graduados em Filosofia da PUC-SP e Editor Responsável
das revistas Cognitio - Revista de Filosofia e Cognitio-Estudos. E-mail:
ibri@uol.com.br
257
João Eduardo Kogler Junior é Pesquisador Doutor do
Departamento de Engenharia de Sistemas Eletrônicos da Escola
Politécnica da Universidade de São Paulo (USP-SP). E-mail:
kogler@lsi.usp.br
Jonas Gonçalves Coelho é Professor Associado do
Departamento de Ciências Humanas da UNESP, campus de Bauru, e
docente do Programa de Pòs-Graduação em Filosofia da FFC –
UNESP, campus de Marília. E-mail: jonas.coelho@unesp.br
Klaus Wehmuth, Doutor em Modelagem Computacional pelo
Laboratório Nacional de Computação Científica (LNCC), unidade de
pesquisa do Ministério da Ciência, Tecnologia e Inovação (MCTI). E-
mail: klaus@lncc.br
Marco Aurélio Sousa Alves é Professor Adjunto do
Departamento de Filosofia e Métodos da Universidade Federal de São
João del-Rei (UFSJ) e Professor Permanente do Programa de Pós-
Graduação em Filosofia da mesma universidade e do Programa de
Pós-Graduação do Departamento de Filosofia da Universidade Federal
de Ouro Preto-MG. E-mail: marcoaurelioalves@ufsj.edu.br
María-Antonia Ovalle-Perandones é Professora Doutora da
Faculdade de Ciências da Documentação da Universidade
Complutense de Madri, Espanha. E-mail: maovalle@ucm.es
Mariana Vitti Rodrigues é pesquisadora de pós-doutorado
pelo Programa de Pós-Graduação em Filosofia da UNESP, campus de
Marília, com apoio financeiro da FAPESP (Projeto nº. 2020/03134-1).
E-mail: mary_vitti@hotmail.com
Mirelys Puerta-Díaz é professora assistente na Universidade
de Havana, Cuba, e doutoranda pelo Programa de Pós-Graduação em
Ciência da Informação da UNESP, campus de Marília. E-mail:
mirelys.puerta@unesp.br
Nina S. T. Hirata é professora associada do Departamento de
Ciência da Computação e docente do Programa de Pós-Graduação em
Ciências da Computação do Instituto de Matemática e Estatística da
USP-SP. E-mail: nina@ime.usp.br
Reinaldo Sampaio Pereira é Professor Doutor do Departamento

de Filosofia e do Programa de Pós-graduação em Filosofia da UNESP,
campus de Marília. E-mail: reinaldo.pereira@unesp.br
258
Ricardo César Gonçalves Sant’Ana é professor associado da
UNESP, campus de Tupã e professor do Programa de Pós-Graduação
em Ciência da Informação da UNESP, campus de Marília. E-mail:
ricardo.santana@unesp.br
Ricardo Monteagudo é professor doutor do Departamento de
Filosofia e do Programa de Pós-Graduação em Filosofia da UNESP,
campus de Marília, onde leciona Filosofia Política. E-mail:
ricardo.monteagudo@unesp.br
259
Outras publicações da Editora FiloCzar
Educação
Educação Vegana: Perspectivas no ensino de Direitos Animais
Educação Vegana: A urgência de novos olhares
Educomunicação
Você, Repórter da Periferia: Visões e Vivências do Jornalismo nas Periferias
Filosofia
A formação das crenças na era das fake news: emoções e sentimentos epistêmicos
Da Semântica do corpo ao gesto da palavra
Debates contemporâneos em Filosofia da Mente
Diálogos em Filosofia Clínica
Ética Cristã e Filosofia Clínica
Filosofia Clínica, Epistemologia e Lógica
Filosofia da Mente, Ciência Cognitiva e o pós-humano: para onde vamos?
Informação, Conhecimento, Ação Autônoma e Big Data: Continuidade ou
Revolução? (co-edição Cultura Acadêmica/UNESP)
Introdução à Filosofia Clínica e Filosofia Aplicada: Avaliações e Fundamentações
Minorias: da sociedade de consumo à sociedade do convívio
O homem como animal na Historia Animalium de Aristóteles
O príncipe eletrônico: Mídia, política e sociedade
Ortega y Gasset e o nosso tempo
Os memes e a memética: O uso de modelos biológicos na cultura
Peirce e a Neurociência do século XXI: Reflexões sobre filosofia e medicina
Reflexões Epistemológicas: Diálogos sobre filosofia clínica e educação
Sementes de Pragmatismo na Contemporaneidade: Homenagem a Ivo Assad Ibri
Semiose: Aspectos traduzíveis em clínica
Subjetividade e corporalidade na Filosofia e na Psicologia: Karl Jaspers,
Merleau-Ponty e a Filosofia Clínica [Edição Bilíngue]
Tecnologias e sociedade: Discussões contemporâneas
Visões Filosóficas sobre ciência e natureza
História
Tempo histórico, pandemia e fascismo no Brasil
Infantil
Pé de goiabeira
Você conhece o Jack?
Crico, o ratinho pensador
Leitura
Formação e desenvolvimento do leitor: Os sujeitos envolvidos e suas
responsabilidades
Psicodrama
Psicodrama: Apontamentos e criação
Psicodrama, cinema e processos de subjetivação
Psicologia
Fatores psicossociais e o processo saúde/doença no trabalho: Aspectos
teóricos, metodológicos, interventivos e preventivos
Os motoboys de São Paulo e a produção de táticas e estratégias na realização
das práticas cotidianas
Psicopedagogia
Henri Wallon e a prática psicopedagógica
Terapia Ocupacional
Formação em Terapia Ocupacional no Brasil
Literatura
Ângela, um Jardim no vermelho
Escritas diversas do eu
O Antropólogo
Os miseráveis da seca
Ser-tão-nordestino... e onde mora sua liberdade
Contos
Na década de dez – vol. II
Contos em Clave de Sol
Cordel
Lamarca, Herzog e Outros Heróis
Florestan Fernandes: O engraxate que se tornou sociólogo
Poesia
Além
Caos
Dos olhos pra fora mora a liberdade
Esteticidades de um paulistano
Felicidade Brasileira: Os versos de um Semblantes
Luz & Tom
O quintal de Joaquina
Relíquias de minha inspiração
Versando pela África
Teatro
Luz & ribalta
Impressão e acabamento
Editora FiloCzar
Miolo impresso em papel de bagaço de cana-de-açúcar
www.editorafiloczar.com.br

IBRI - Aspectos Éticos Da Fake News - in BigData

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

IBRI - Aspectos Éticos Da Fake News - in BigData

Enviado por

Direitos autorais:

Formatos disponíveis

Big Data

Implicações Epistemológicas e Éticas

Centro de Lógica, Epistemologia e História da Ciência

Copyright © by Edna Alves de Souza

Centre for Logic, Epistemology and the FiloCzar

BIG DATA: QUESTÕES ÉTICAS, EPISTEMOLÓGICAS E POLÍTICAS

ASPECTOS ÉTICOS DAS FAKE NEWS E FATOS ALTERNATIVOS:

PROBLEMAS ÉTICOS CONCERNENTES À SOCIEDADE DA

BIG MEME: PODEM OS BIG DATA SER A BASE EMPÍRICA DA

BIG DATA, MEMÓRIA E IDENTIDADE PESSOAL.................................. 69

IMPACTOS DAS TECNOLOGIAS DE COMUNICAÇÃO NA VIDA

BIG DATA: APRENDIZAGEM DE MÁQUINA, COMPLEXIDADE E

INTRODUÇÃO A MACHINE LEARNING A PARTIR DE UMA

EMERGENCE OF COMPLEX DATA FROM SIMPLE LOCAL RULES IN

REFLEXÕES ACERCA DE BIG DATA E COGNIÇÃO

BIG DATA: FAKE NEWS, OPINIÃO PÚBLICA E VIGILÂNCIA ............ 159

QUEM ACREDITA EM FAKE NEWS?...................................................... 161

SMILE TO PAY WITH YOUR FACE: HACKING INTO PROGRAMMED

BIG DATA Y TENDENCIAS EMERGENTES EN LOS ESTUDIOS SOBRE

INDUÇÃO ELIMINATIVA E CAUSALIDADE NO CONTEXTO DAS

SOBRE AS ORGANIZADORAS................................................................ 255

SOBRE OS AUTORES E AUTORAS ........................................................ 257

Com satisfação escrevo o Prefácio desta coletânea, Big Data:

Campinas, 07 de novembro de 2020.

O que você sentiria ao perceber que suas informações

Marília, 31 de outubro de 2020.

Maria Eunice Quilici Gonzalez

CONSIDERAÇÕES SOBRE O TEMA

CLASSES DE FAKE NEWS

SOBRE A DISTINÇÃO SEMIÓTICA ENTRE OBJETO

A FICÇÃO DELETÉRIA DAS FAKE NEWS – A

Pode-se dizer que a ficção não tem o poder de gerar réplicas

Reinaldo Sampaio Pereira

ALGUMAS OBSERVAÇÕES INICIAIS

CONDIÇÕES PARA RESPONSABILIZAR O AGENTE

A BOA INFORMAÇÃO NÃO NECESSARIAMENTE

Gustavo Leal Toledo

O termo “meme” tem um significado original desconhecido

A ideia por detrás do termo “meme” é, então, que a cultura

Já nas palavras de Dawkins:

Se analisarmos a cultura deste modo, podemos começar a

No entanto, analisar a cultura como uma unidade de

Todos estes problemas já foram tratados por este autor em

A quantidade de dados armazenados de uma pessoa pode vir a

Podemos acrescentar a esta citação apenas que com isso os

Jonas Gonçalves Coelho

Se observarmos que o computador foi criado em 1946

3 Há um debate bastante acentuado e desenvolvido acerca da noção de fake news.

Em 29 de setembro de 2018, uma semana antes do primeiro turno

7 Conforme, por exemplo:

8 Com o biopoder, o controle se torna singular e isso é favorecido e facilitado pela

9 Apenas apontamos um aspecto importante de uma polêmica filosófica entre a

1 Neste texto decidimos manter a terminologia em inglês, Machine Learning, em vez de

Figura 1 – Exemplos de pares altura-peso, desenhados como pontos, com destaque ao

O problema de estimar o peso de uma pessoa, dada a altura da

2.2 Exemplo de classificação

Figura 4 – Distribuição (fictícia) de pessoas de gêneros feminino e masculino com respeito

2.3 Perspectiva computacional

Figura 6 - Esquema do processo de treinamento e predição (teste) em ML.

2.5.1 Deep learning

Deep learning (DL) é uma abordagem mais recente na área de

2.6 Aspectos práticos

Ricardo César Gonçalves Sant’Ana