Você está na página 1de 7

Revista DADOS cria editoria especializada em

replicabilidade

October 20, 2023 13:45 , Leave a Comment , Revista DADOS

Por Bruno Schaefer, Luiz Augusto Campos e Marcia Rangel Candido

1. Introdução

Imagem: Swapnil Sharma.

A partir deste ano, a revista DADOS contará com uma editoria especificamente constituída
para lidar com as questões de replicabilidade de seus artigos. Desde sua fundação, em
1966, a publicação tem construído seu nome com o compromisso de produzir informações
objetivas e válidas sobre o mundo social. Esse compromisso englobou a ruptura com o
ensaísmo em prol de uma visão mais sistemática de pesquisa, que determinou a divulgação
de manuscritos fortemente amparados em evidências empíricas.
Dando continuidade à tradição de inovação, DADOS vive junto com os demais periódicos
brasileiros e internacionais uma revolução no mundo científico, postulada pelo movimento
de ciência aberta, que, dentre outras coisas, tem a ver com os processos de disponibilização
e replicação de dados. Para acompanhar as recentes mudanças, adotamos uma Editoria de
Replicabilidade, assumida agora pelo professor do Instituto de Estudos Sociais e Políticos
da Universidade do Estado do Rio de Janeiro (UERJ), o cientista político Bruno Schaefer.
O presente texto está dividido em sete seções e discute a importância da replicabilidade em
ciências sociais; o conceito de replicabilidade que utilizamos no processo editorial
de DADOS; as diferenças de replicabilidade entre pesquisa quantitativa e qualitativa; as
experiências internacionais e nacionais no tema; as questões éticas envolvidas na
replicabilidade; e, por fim, os impactos no fluxo de trabalho e na gestão das submissões à
revista.

2. O que significa replicabilidade e por que isso importa?

Há quase duas décadas o debate sobre a “crise de replicabilidade” é um espectro que ronda
a prática científica, seja nas ciências mais “duras” (química, física, biologia), seja nas
ciências sociais (psicologia, economia, ciência política, sociologia, entre outras) (Piper
2020). O artigo de Ioannidis, Why Most Published Research Findings Are False1 , publicado
em 2005, postulou que grande parte de estudos randomizados no campo da epidemiologia
possuem resultados falsos, dado que não são replicáveis. Esse achado envolveu
principalmente a constatação de dois problemas: pesquisas com baixo número de casos
analisados e viés de significância estatística. Tratou-se, portanto, da recorrência de
levantamentos com poucas evidências empíricas e que “forçaram a barra” para chegar a um
p-valor de menos de 5%, critério de confiabilidade. No campo da psicologia, um esforço de
replicação de 100 experimentos que pressupunham inferências causais, conseguiu
encontrar os mesmos resultados em menos da metade deles. Na Ciência Política, o
artigo Transparência e Replicação na Ciência Política Brasileira: Um Primeiro
Olhar 2 recentemente publicado na DADOS indicou desempenho ainda pior para a produção
brasileira. De um corpus com 197 manuscritos com algum tipo de análise quantitativa,
somente 28% dos seus respectivos autores concordaram em compartilhar os dados e os
códigos, destes foi possível tentar replicar apenas 14%, com 5% de sucesso. Os problemas
mais comuns no processo de replicação envolveram a ausência de alguma rotina
computacional (script), problemas com os resultados e problemas com os dados.
Antes de analisarmos o que está por trás dessa “crise de replicabilidade” é importante
entender o que o conceito significa. Para Janz (2016), replicação significa o: “Processo pelo
qual os achados de um artigo publicado são reanalisados para confirmar, avançar ou
desafiar os resultados originais”3 (Tradução livre). Para King (1995), replicabilidade quer
dizer: “(…) que existe informação suficiente para compreender, avaliar e desenvolver um
trabalho anterior, se uma terceira parte puder replicar os resultados sem qualquer
informação adicional do autor”4 (Tradução livre).
Apesar das diferenças entre os autores, um ponto em comum é a ideia de que uma pesquisa
replicável é aquela que disponibiliza, de maneira clara, o processo de coleta, tratamento e
análise dos dados, de modo que uma terceira parte possa seguir a mesma trilha e encontrar
resultados semelhantes, seja analisando o mesmo material empírico (banco de dados, por
exemplo), seja aplicando o desenho de pesquisa para outros casos.

Figueiredo Filho, et al (2019)5 postulam sete razões para levarmos a sério a replicabilidade
em Ciências Sociais:
▪ A disponibilidade de dados evita erros e más condutas. No primeiro caso,
pesquisadores podem cometer erros no processo de análise de dados que
serão corrigidos, uma vez que o material empírico e as técnicas de análise
estão disponíveis para pareceristas e a comunidade científica, de modo amplo.
No segundo caso, levar a replicação a sério possibilita que más-condutas
(invenção de dados, p-hacking, entre outras fraudes), sejam identificadas;
▪ Pensar na pesquisa a partir de padrões de replicação facilita a própria condução
da análise. Quando sabemos que nossas análises poderão ser replicadas,
fazemos um esforço adicional para tornar mais claras nossas ideias e escolhas;
▪ Replicação facilita o processo de avaliação de trabalhos. Sem alguma
possibilidade de replicação, somos obrigados a confiar cegamente no que está
escrito, o que limita muito a avaliação;
▪ Materiais replicáveis auxiliam na acumulação de conhecimento e
desenvolvimento do campo científico. Além de a própria replicação
proporcionar uma maior validação das descobertas científicas, ela garante a
acessibilidade a evidências e bancos de dados que antes ficavam
completamente inacessíveis a um público mais amplo;
▪ Replicabilidade incrementa a reputação de pesquisadoras e pesquisadores;
▪ Disponibilizar material de pesquisa ajuda no processo de aprendizado e
formação de novas pesquisadoras;
▪ Replicabilidade aumenta o impacto do trabalho. Trabalhos que publicam suas
bases de dados possuem mais citações do que trabalhos que não o
fazem (Christensen, et al. 2019).6

3. Replicabilidade, reprodução e transparência

O conceito de replicabilidade muitas vezes é utilizado como sinônimo de outras práticas,


igualmente importantes: como reprodutibilidade ou transparência, o que pode gerar
confusão e ruído. Transparência é um conceito mais amplo, que envolve comunicar de
maneira clara e aberta como os procedimentos da pesquisa foram realizados, como se dá
o caminho entre a pergunta de pesquisa e os resultados encontrados. Nesse sentido, a ideia
de transparência dialoga com o movimento de ciência aberta: “o amplo acesso às fontes de
conhecimento envolvidas e produzidas pelas pesquisas tem o intuito de maximizar a razão
de ser da ciência enquanto empreendimento cooperativo cultural e social.”7 Ser transparente
envolve capacidade de comunicação. Reprodução, ou reprodutibilidade, por sua vez,
compreende a disponibilização do passo-a-passo da pesquisa, usualmente scripts ou
rotinas computacionais que possibilitam a reprodução do trabalho. Um trabalho reprodutível
é aquele em que a reanálise dos mesmos dados usando os mesmos métodos produziria os
mesmos resultados.
Uma pesquisa só pode ser replicável se for transparente, bem como uma pesquisa é
reprodutível se for replicável. O conceito envolve a necessidade de clareza no processo de
produção do conhecimento, que pode ou não ser reprodutível a partir de rotinas
computacionais. Em outras palavras, toda pesquisa replicável é transparente, mas não
necessariamente reprodutível stricto sensu, pois pode utilizar métodos de coleta e análise
de dados que não são diretamente reprodutíveis (etnografia e outros métodos qualitativos),
ou não se utilizam de rotinas computacionais (scripts). O conceito de replicabilidade também
é mais amplo e subjaz à ideia de que um mesmo desenho de pesquisa pode ser utilizado
para outro material empírico.
Boa parte da “crise de replicabilidade” envolve justamente a falha em replicar experimentos
em outros contextos. Por exemplo, a realização de um experimento com alunos de
graduação que encontram resultados positivos para a hipótese de que pessoas tendem a
obedecer às autoridades cegamente (experimento de Milgram), deve ser replicável em outro
contexto (outros alunos e outra universidade).
Em DADOS, adotamos como conceito de replicabilidade a ideia de que as pesquisas devem
ser claras e transparentes quanto ao passo-a-passo metodológico (caminho entre problema
e respostas), disponibilizar todos os dados necessários para que os mesmos resultados
sejam encontrados e, quando possível, partilhar rotinas computacionais que facilitem a
reprodução dos achados.
4. Replicabilidade em pesquisa quantitativa e qualitativa

O debate sobre replicabilidade e reprodutibilidade é bastante rico e não pretendemos dar


conta dele todo aqui. O ponto que gostaríamos de ressaltar é que muitas vezes, em ciências
sociais, podemos tratar de problemas que não são diretamente replicáveis. O debate entre
pesquisa qualitativa e quantitativa dá corpo a esta questão. Em meados da década de 90,
King, Kehone & Verba (doravante KKV) publicaram um livro seminal sobre metodologia em
ciências sociais, o Design Social Inquiry: scientific inference in qualitative research.8 O
argumento defendido pelos autores é que o objetivo das ciências sociais seria construir
inferências válidas, descritivas ou explicativas, sendo que pesquisas qualitativas e
quantitativas teriam esta mesma lógica. A essência da ciência seria o método, não os
assuntos tratados.
Neste sentido, os adeptos da abordagem qualitativa deveriam se atentar para o uso de
estratégias metodológicas, já utilizadas pelos quantitativistas (em especial importadas da
estatística), que fossem capazes de construir inferências válidas. Entre a descrição de um
fenômeno e a busca por uma ou várias causas, a pesquisa deveria se concentrar na busca
de causalidade(s). Para os autores, inferência se refere, portanto, ao processo no qual
utilizamos informações conhecidas (e disponíveis) para aprender sobre informações não
conhecidas (e indisponíveis).

As críticas à proposta de KKV vieram de diversas frentes. Brady & Collier (2004), por
exemplo, em Rethinking Social Inquiry: Diverse Tools, Shared Standards9 atacam a noção
de KKV de que a estrutura da abordagem quantitativa seria a única possibilidade de se
alcançar inferências válidas ou um padrão de cientificidade. Para Haverland e Yanow (2012),
entre outros, seria também necessário traçar uma diferenciação entre métodos e
metodologia. Conforme esses últimos autores, a confusão entre os termos tende a ocorrer
inúmeras vezes, o que afeta a construção de pesquisas e a análise dos resultados.
Enquanto método se refere às ferramentas e técnicas utilizadas em um trabalho,
metodologia se refere a um nível mais abrangente, que diz respeito às construções
ontológicas e epistemológicas que balizam a adoção de um método ou outro. Precisamente
neste ponto é que se tornaria necessário diferenciar a construção de conhecimento proposta
por abordagens quantitativas ou qualitativas. Enquanto para os pesquisadores orientados
por um desenho quantitativo a principal questão seria “explicar” determinado fenômeno,
grosso modo, o efeito de X¹ e X² sobre Y; pesquisadores orientados por um desenho
qualitativo de pesquisa tendem a se concentrar na interpretação e no sentido de
determinados resultados.
Em A Tale of Two Cultures: qualitative and quantitative research in social sciences,10 Goertz
& Mahoney (2012) propõem uma possível integração entre as pesquisas qualitativas e
quantitativas. Para os autores, é necessário considerar que essas abordagens partem de
posições epistemológicas distintas. A pesquisa quantitativa parte de uma epistemologia
objetivista (para não colocar o termo positivismo, utilizado erroneamente na maior parte das
vezes), enquanto a pesquisa qualitativa parte de uma epistemologia construtivista ou
interpretativista. Essa diferença seria, inclusive, matemática, tendo em vista que os primeiros
se baseariam na estatística e na probabilidade, enquanto os segundos na lógica e na teoria
dos conjuntos. No interior dessas próprias abordagens, ou “culturas”, haveria ainda divisões:
pesquisas quantitativas interessadas na realização de inferências causais ou descritivas (o
avanço da computação e machine learning, entre outros); e “qualitativistas” focadas na
interpretação e produção de sentidos (com Q maiúsculo) ou que estejam trabalhando com
métodos qualitativos orientados por epistemologia objetivista, como QCA, process tracing,
entre outros.
As distinções supramencionadas interessam aqui na medida em que se relacionam ao
debate sobre replicabilidade. Estudos quantitativos usualmente são mais replicáveis, porque
– de preferência – utilizam bancos de dados estruturados, rotinas computacionais e métodos
de análise que podem ser reproduzidos, assim como ampliados. Pesquisas qualitativas que
utilizam métodos como QCA ou process tracing seguem padrões semelhantes. Agora,
outras técnicas e métodos são por natureza não reproduzíveis. Como refazer uma
etnografia? Voltar no tempo e observar, com os mesmos olhos, o mesmo fenômeno? Desta
forma, em DADOS adotamos como padrão em pesquisa quali realizadas a partir de
epistemologia interpretativista, a ideia de que autores e autoras devem ser o mais
transparentes possível na descrição de seus métodos, sendo desejável que, junto aos
papers, encaminhem anexos metodológicos que possam ser publicados: vídeos,
transcrições e gravações de entrevistas, diários de campo, entre outros.
A disponibilização desses materiais oriundos de pesquisas qualitativas cumpre outras duas
funções adicionais. Primeiro, ela garante que informações complementares fiquem
disponíveis para além dos limites, cada vez mais exíguos, de um artigo acadêmico.
Segundo, ela ajuda a preservar os dados oriundos das pesquisas quali que frequentemente
se perdem encerrados em arquivos pessoais ou restritos. Por tudo isso, DADOS recomenda
vivamente a disponibilização de evidências oriundas de pesquisas qualitativas (transcrições
de entrevistas, vídeos, gravações, codificações utilizadas para análise de conteúdo, diários
de campo, entre outras).
5. Experiências Nacionais e Internacionais

Apesar da “crise de replicabilidade” ter chamado a atenção de cientistas no mundo todo,


políticas editoriais que, de fato, incentivem maior transparência, replicação e
reprodutibilidade são minoria nas ciências sociais. No período recente, tem ocorrido um
progresso nos esforços de disponibilização de dados e na aderência de periódicos ao
movimento de ciência aberta. Na ciência política e na sociologia, áreas principais de atuação
de DADOS, é possível identificar um avanço marcante das revistas com maior fator de
impacto, caracterizado pela instituição de políticas de replicabilidade em casos como
a Political Analysis, a American Political Science Review, a American Journal of Political
Science e a Sociological Methods & Research. A British Journal of Political Science, por
exemplo, passou a demandar que os autores depositem seus dados, o livro de códigos, a
rotina computacional e as tabelas, gráficos e figuras que geraram as análises.
No contexto nacional, a Brazilian Political Science Review foi pioneira na disponibilização
dos dados de artigos no repositório Dataverse e, mais recentemente, aderiu a um processo
de curadoria de dados: os mesmos são reproduzidos por editores/as da revista e, uma vez
encontrados os mesmos resultados, o artigo é publicado.
Em sentido mais amplo, iniciativas como a Rede Brasileira de Reprodutibilidade (RBR) ,
buscam congregar diferentes organizações e áreas do conhecimento: “(…) para promover
ciência rigorosa, confiável e transparente no Brasil”.11 A criação de um repositório de dados
brasileiro, o Lattes Data, também demonstra um passo importante.
6. Questões éticas da replicabilidade

A busca por replicabilidade atende a questões éticas importantes, que vão desde o controle
de más práticas científicas até a disponibilização de informações valiosas para a sociedade
que, muitas vezes, as financia com recursos públicos. Mas a depender da natureza do dado,
a replicabilidade pode suscitar problemas éticos, que quase sempre têm a ver com o risco
de identificação direta ou indireta dos indivíduos ou organizações que são foco de uma
pesquisa.

A identificação direta acontece quando elementos da identidade de um indivíduo ou


organização são explicitamente incluídos nas bases de dados enviadas para replicação.
Nem sempre isso é um problema, ao contrário. Figuras públicas como políticos e servidores
públicos têm muitos dos seus dados pessoais publicizados justamente para que haja um
maior controle civil de suas atividades. Porém, o mesmo não se aplica a todas as pessoas.
Há sujeitos cuja exposição é sensível, como menores de idade ou pessoas em conflito com
a lei. Em tais casos, as bases de dados ou evidências costumam ser desidentificadas, seja
pela supressão seja pela modificação das variáveis de identificação (nome, CPF, endereço
etc.).

A identificação indireta, por seu turno, pode acontecer quando dados já desidentificados
permitem, ainda assim, o conhecimento detalhado dos casos. Isso pode ocorrer em bases
que reúnem muitas informações sobre casos específicos. Mesmo não sabendo nenhuma
informação pessoal de um dado caso, eu posso localizá-lo no mundo porque a base
disponibilizada contém muitas informações indiretas (raça, gênero, região, instrução, idade
etc,). Embora mais difíceis de avaliar, esses casos devem ser julgados em conjunto por
autores(as) e editores(as), de modo a garantir a maior replicabilidade sem expor as
populações estudadas a qualquer risco.

7. A Editoria de Replicabilidade em Dados

Ponderados os aspectos conceituais e conjunturais, nesta seção descrevemos como


funcionará a Editoria de Replicabilidade em DADOS. É importante começar salientando que
a criação de tal função dialoga com iniciativas recentes de modernização da revista, que
aderiu ao movimento de ciência aberta, passando a receber submissões de preprints e a
exigir o envio de bases de dados para incentivar a transparência nas avaliações das
pesquisas. Ademais, também temos aprimorado as ações de divulgação científica e
instituído políticas de promoção da diversidade e da equidade de gênero e raça entre
pareceristas e autores.
Em linhas gerais, a revista já possui, em suas normas de submissão, orientações para que
pesquisadores enviem seus materiais de pesquisa detalhados, suas rotinas computacionais
e outras informações no momento de submissão do manuscrito para avaliação. Isto facilita
o trabalho de verificação preliminar da editoria e de pareceristas que, no entanto, não
possuem as mesmas responsabilidades de um editor de replicabilidade. DADOS dispõe de
uma página no portal Dataverse, que passará a publicar somente aquilo que, após
aprovação no desk review e na avaliação por pares, for autorizado pelo editor de
replicabilidade.
A principal mudança, portanto, é que agora a revista passa a ter uma editoria específica
para curadoria das evidências científicas apresentadas nos manuscritos. Isto significa que,
mesmo se aceitos, os artigos só serão publicados quando seu material de análise for
constatado como reproduzível pelo editor de replicabilidade. O processo da submissão até
a publicação será o seguinte:

1. Submissão do artigo (em formato pré-print ou o tradicional);


2. Desk-review;
3. Indicação de pareceristas;
4. Comentários e respostas de autores e autoras aos pareceres;
5. Aprovação (ou não);
6. Curadoria de dados (replicação dos achados do artigo por editores/as e
assistentes da revista), o que envolverá comunicação entre autores/as e
a revista;
7. Publicação do artigo e disponibilização dos dados no repositório Dataverse.
A ação visa garantir maior segurança e rigor nos achados que divulgamos, contribuir de
maneira mais ampla com o processo de construção de conhecimento em ciências sociais,
bem como alinhar as práticas editoriais da DADOS aos padrões de replicabilidade nacionais
e internacionais de ponta. Seguindo, deste modo, o paradigma de uma ciência aberta. Em
meio à rápida transformação nos instrumentos de trabalho e de comunicação científica com
o advento de variados recursos de inteligência artificial, a promoção da transparência se faz
cada vez mais necessária e benéfica para as trocas entre a comunidade acadêmica e o
público em geral, podendo ainda ser uma ferramenta que potencializa a confiança na
ciência.

Você também pode gostar