Introdução à Causa e Efeito na Ciência de Dados

Introdução a
Causa e Efeito
Pedro O.S Vaz de Melo
olmo@dcc.ufmg.br
Ciência de Dados
Aplicação de computação e estatística para entender fenômenos do mundo real
2
Ciência de Dados
Aplicação de computação e estatística para entender fenômenos do mundo real
Ex: compro a minha passagem agora ou espero?
3
Probabilidade
Ciência de dados não é probabilidade, faz uso de probabilidade
4
Álgebra Linear
Ciência de dados não é álgebra linear, faz uso de álgebra linear
5
Aprendizado de Máquina
Ciência de dados não é aprendizado de máquina, faz uso de aprendizado de

máquina
6
Aprendizado de Máquina
From Zico Kolter

Estatística vs. Ciência de Dados
A diferença foi surgindo ao longo dos anos. . .
● Com o passar dos anos, foi ficando próxima da computação

○ Grandes massas de dados surgiram
● A computação aplicou o conhecimento estatístico para entender as mesmas

○ O pensamento computacional é chave!
8
Histórico
Karl Pearson publica o qui-quadrado. Ele e
Fisher introduziu uma série de ideias Weldon fundaram a Biometrika em 1901, a
fundamentais, incluindo suficiência, primeira revista estatística. O artigo de
eficiência, informação de Fisher, teoria da Pearson e a Biometrika lançaram a
máxima verossimilhança e a noção de disciplina de estatística em uma marcha
estimativa ótima. 1925 é o ano em que a de 50 anos em direção ao pólo matemático
inferência estatística passou de uma do triângulo.
coleção de técnicas engenhosas para uma
disciplina coerente.
O artigo seminal de Neyman sobre A estatística t de Student foi um primeiro

intervalos de confiança. Seu sofisticado resultado crucial na inferência “exata” de
tratamento matemático da inferência pequenas amostras e uma grande
estatística foi um precursor da teoria da influência no pensamento de Fisher.
decisão.
A teoria da decisão de Wald completou a

matematização completa da inferência
estatística. Também representa a
formulação teórica de decisão de Savage e
de Finetti da inferência bayesiana. Estamos
o mais longe possível do canto das
aplicações do triângulo.
9
Histórico
Introdução de taxas de falsas descobertas
e, um ano depois, a regressão Lasso.
Ambos fazem uso intensivo de computação,
firmemente enraizados no ethos da
inferência estatística. Eles levam, no
entanto, em direções diferentes, conforme
O bootstrap e, posteriormente, o uso indicado pela divisão no diagrama.
generalizado do MCMC: computação
eletrônica usada para a extensão da
inferência estatística clássica.
A chegada da computação nos 1950s

O papel de riscos proporcionais de Cox, inspirou o artigo de Tukey “O futuro da
imensamente útil por si só, sinalizava um análise de dados”, que defendia uma
interesse crescente em aplicações disciplina mais orientada para aplicativos e
bioestatísticas e, particularmente, na computação. Mais tarde, Mosteller e Tukey
análise de sobrevivência, que foi sugeriram mudar o nome do campo para
fundamental na análise de dados da análise de dados, um indício presciente da
epidemia de AIDS. ciência de dados de hoje.
10
Histórico
Ciência de dados: um sucessor mais
popular da “análise de dados” de Tukey e
Isso representa a linha tradicional de Mosteller, em um extremo parece
pensamento estatístico, mas agora representar uma disciplina estatística sem
energizado com um foco renovado em modelos de probabilidade paramétrica ou
aplicações. De interesse particular são a inferência formal. A Data Science
biologia e a genética. Os estudos de Association define um praticante como
associação de todo o genoma (GWAS) aquele que “usa métodos científicos para
mostram uma face diferente do big data. A liberar e criar significado a partir de dados
previsão é importante aqui, mas não brutos”. Na prática, a ênfase está no
suficiente para a compreensão científica da processamento algorítmico de grandes
doença. conjuntos de dados para extração de
informações úteis, tendo como exemplos
os algoritmos de previsão.
A tecnologia de microarray inspira enorme

interesse em inferência em larga escala,
tanto na teoria quanto aplicada à análise de Florestas aleatórias junta-se ao boosting
dados microbiológicos. e ao ressurgimento das redes neurais nas
fileiras dos algoritmos de previsão de
aprendizado de máquina.
11
Receita
1. Uso extensivo: Computação

2. Uso extensivo: Estatística
3. Entendimento: Probabilidade
4. Entendimento: Álgebra Linear
5. Entendimento e uso moderado: Aprendizado de máquina
12
Principal: ótimas perguntas!
13
Qual o motivo deste curso existir?
Exemplos
15
Exemplos do Pudding Cool
https://pudding.cool/
The Gyllenhaal Experiment
How Bad Is Your Streaming Music?
We think this cool study we found is flawed. Help us reproduce it.
16
Capital dos Candidatos
http://www.capitaldoscandidatos.info/
17
Five Thirty Eight
https://projects.fivethirtyeight.com/mortality-rates-united-states/
18
Gender Bias
http://benschmidt.org/profGender
Salários
https://aaronclauset.github.io/parental-leave/
Alguns Problemas Atuais
21
News Cycle (PhD Comics)
22
Qual o nosso problema?
Estudos Estatísticos estuda como uma variável aleatória Y responde a mudanças

de uma ou mais variáveis independentes X
● Qual o efeito do design de uma página (X) na compra de produtos (Y)?

● Qual o efeito de uma quantidade de um composto químico (X) no clima (Y)?
● Mulheres que fumam (X1) e fazem uso de anti-contraceptivos (X2) alteram a
probabilidade de ter algum tipo de câncer (Y)?
● Mais desemprego (X) induz o aumento de crimes (Y)?
● A vacina de Covid (X) reduz a mortalidade de uma população (Y)?
23
O ciclo de trabalho do cientista de dados
● Formular perguntas
○ Qual o problema que queremos resolver?
○ Quais são as nossas hipóteses?
● Adquirir dados
○ Quais dados temos? Quais dados precisamos?
○ Como organizar os dados?
● Análise exploratória
○ Quais são as correlações dos dados?
○ Como sumarizar os mesmos?
● Previsões e inferência
○ Meus dados conseguem prever o futuro?
○ Ajudam a resolver algum problema?
24
O ciclo de trabalho do cientista de dados
● Formular perguntas
○ Qual o problema que queremos resolver?
○ Quais são as nossas hipóteses?
● Adquirir dados
○ Quais dados temos? Quais dados precisamos?
○ Como organizar os dados?
● Análise exploratória
○ Quais são as correlações dos dados?
○ Como sumarizar os mesmos?
● Previsões e inferência
○ Meus dados conseguem prever o futuro?
○ Ajudam a resolver algum problema?
25
Qual o problema que queremos resolver?
● O padrão ouro da ciência de dados é a causalidade

● Como definir causalidade?
26
Qual o problema que queremos resolver?
No geral, o trabalho do cientista de dados começa com uma pergunta como:
● Chocolate faz bem para a saúde?

● Carnaval faz bem para a economia?
● O release 5.2 deixou o código mais rápido?
Note que cada uma delas tenta estabelecer uma noção de causa e efeito
27
Causa e Efeito
● Em sistemas físicos, causa e efeito são estabelecidos por interações e leis

● Porém, o cientista de dados nem sempre tem um modelo como os da Física
● Mas podemos realizar experimentos, na medida do possível
28
Rothamsted Agriculture Experimental Station
● Fundada em 1843 pelo empresário John B. Lawes para investigar o impacto

da aplicação de fertilizantes no rendimento das culturas
○ Ele havia estabelecido uma das primeiras fábricas de fertilizantes artificiais um ano antes
● Nos 80 anos seguintes, pesquisadores conduziram experimentos nos quais

eles
○ Aplicaram fertilizantes
○ Plantaram diferentes e variadas culturas
○ Registraram a quantidade de chuva que caiu
○ Mediram o tamanho da colheita no final de cada estação de crescimento
29
30
● Na virada do século, a Estação tinha uma vasta coleção de dados, mas

poucas conclusões úteis
○ Um fertilizante superaria outro em um ano, mas teria um desempenho inferior no próximo
○ Certos fertilizantes pareciam afetar apenas certas culturas
○ As diferentes quantidades de chuva que caíam a cada ano confundiam continuamente os

experimentos
● Os dados eram essencialmente inúteis porque… ?

… havia um grande número de variáveis não controladas
31
● Em 1919, um jovem estatístico chamado Ronald Aylmer Fisher foi contratado

para tentar entender os dados
● As análises sugeriram que a relação entre a precipitação e o crescimento das
plantas era muito mais estatisticamente significativa do que a relação entre o
tipo de fertilizante e o crescimento das plantas
● Mas os cientistas agrícolas da estação não estavam lá para testar o clima,
eles queriam saber quais fertilizantes eram mais eficazes para quais culturas
● Ninguém poderia remover o clima como uma variável nos experimentos, mas
Fisher percebeu que seus efeitos poderiam ser essencialmente separados se
os experimentos fossem projetados adequadamente
32
Fisher
● Ronald Fisher é conhecido por basicamente

ter "inventado" boa parte da estatística moderna
● No livro "The Design of Experiments" ele
introduziu conceitos como:
○ Controle
○ Randomização e
○ Replicação
33
Controles
● O uso de controles é baseado no conceito de variabilidade, uma vez que

qualquer fenômeno tem alguma medida de variabilidade
● Controles permitem que o pesquisador meça a variabilidade natural, aleatória
ou sistemática em um sistema semelhante
● Essa estimativa é usada como linha de base (baseline) para comparação
com a variável ou fenômeno observado
34
Randomização
● Estatística que ajuda a gerenciar o viés na pesquisa científica

● É um procedimento preciso no qual as unidades observadas são atribuídas a
um grupo de tratamento ou controle de uma maneira que leva em conta a
influência potencial de variáveis de confusão
● Isso permite que o pesquisador quantifique a influência dessas variáveis de
confusão, observando-as tanto no grupo controle quanto no grupo de
tratamento
35
Replicação
● Replicação de ensaios e medições experimentais

● Permite que a faixa de variabilidade inerentemente associada ao
experimento ou medição seja quantificada
● Permite a avaliação da robustez dos resultados
36
Experimento de Fisher
(I) = sem fertilizante
(controle)
(s) = sulfato de amônia
(m) = cloreto de amônia
(p) = adição de
(c) = cianamida
superfosfato
(u) = uréia
subscrito = quantidade valor = rendimento

de fertilizante relativo
Figura original de “The Design of Experiments” de Fisher mostrando o arranjo de grupos de

tratamento e rendimentos de cevada em um experimento na estação de Rothamsted em 1927
37
Controles
● Em Rothamsted, um controle seria uma lavoura que não recebeu a aplicação

de fertilizante
● A variabilidade inerente ao crescimento das plantas ainda produziria plantas
de alturas e tamanhos variados
● O controle, então, fornece uma medida do impacto que o clima ou outras
variáveis poderiam ter no crescimento da cultura independente da aplicação
de fertilizantes
● Permite que os pesquisadores removam isso estatisticamente como um
fator
38
Randomização
● Fisher introduziu um processo de atribuição aleatória de diferentes

fertilizantes a diferentes parcelas dentro de um campo em um único ano
● Garantiu que nem todas as parcelas de tratamento (ou controle) para
qualquer fertilizante específico caíssem ao longo da borda do campo
39
Replicação
● Em Rothamsted, isso significava plantar várias parcelas com a mesma

cultura e aplicar o mesmo fertilizante em cada uma dessas parcelas
● Além disso, isso significava repetir aplicações semelhantes em anos
diferentes para que a variabilidade de diferentes aplicações de fertilizantes
em função de diferentes condições climáticas pudesse ser quantificada
40
Conclusões
● Cientistas elaboram estudos de pesquisa com base na natureza da questão

que procuram investigar
● Refinam seu plano de pesquisa de acordo com muitos dos conceitos
estatísticos de Fisher para aumentar a probabilidade de que suas
descobertas sejam úteis
● A incorporação dessas técnicas facilita a análise e interpretação dos dados,
outro local onde a estatística é utilizada
41
Estudos Randomizados
Do inglês, Randomized Control Trials (RCT)
● Para um grupo de interesse, parte do grupo (50%) recebem algum tratamento

● A outra parte não
● Depois mensuramos o efeito
● Exemplo: PROGRESA
○ Programa anti-pobreza e de bem estar social no méxico nos anos 90
○ Um grupo aleatório de famílias recebia ajuda do governo
○ Depois foi mensurado métricas de frequência na escola
42
Vacinas de COVID (Caso da Moderna)
Início: 30 mil pessoas vacinadas
43

15 mil placebo
15 mil vacina
44

15 mil placebo
15 mil vacina
Depois de alguns meses: 100 pessoas contraíram COVID
45

15 mil placebo
15 mil vacina
46

15 mil placebo
15 mil vacina
Vacinados: 5
Não vacinados (placebo): 95
47
Problemas com a Vacina
● Qual a eficácia em diferentes populações?

○ Idosos vs. crianças
● Qual o efeito a longo prazo?

● Erros podem ter sido cometidos?
48
Quando não podemos fazer estudo
controlado, como prosseguir?
49
Do Wikipedia
Uma ciência observacional é uma ciência na qual não é possível construir

experimentos controlados na área em estudo
50
Observação
Então é impossível ter insights causais a partir de estudos observacionais?
51
Ciência de Dados
● Em vários dos estudos que vamos realizar não é possível controlar o meio
● Apenas dados históricos estão disponíveis
● Ou seja, estamos realizando estudos observacionais
52
Observação
● indivíduos: uma população, por exemplo, esta sala ou a população de BH
● tratamento: comer chocolate
● efeito: doença cardíaca (falta da)
53
Observação
54
Observação
● Então é impossível ter insights causais a partir de estudos observacionais?

● Não, porém como não temos controle, podemos sofrer com variáveis de
confusão
○ variáveis de confusão: confounding (inglês) ou confundidor
55
Variáveis de Confusão
Afetam tanto o indivíduo quanto o efeito
● Em uma população de jovens → menor incidência de doenças cardiológicas

● Na dieta da minha população → todos comem bastante açúcar
● A população mora em uma cidade onde exercício físico diário é popular
56
Correlação e Causalidade
● O que são correlações espúrias?
57
● Você já deve ter ouvido a máxima de que correlação não é causalidade

● Boa parte do trabalho que fazemos como cientista de dados é correlacional
● Porém, é possível estendê-los para insights causais
58
● A questão fundamental é se o tratamento tem efeito sobre o resultado

● Qualquer relação entre o tratamento e o resultado é chamada de associação
● Se o tratamento faz com que o resultado ocorra, então a associação é causal
● A questão é se o chocolate causa diretamente melhorias na saúde, não
apenas se existe uma relação entre chocolate e saúde
59
John Snow
60
61
John Snow
● Médico Inglês, pai da epidemiologia

● Viveu entre 1813 e 1858
62
Londres nos anos 1850
Ilustração do Punch
(1852)
63
● Era a cidade mais rica do mundo, mas muitos de seus habitantes eram
desesperadamente pobres
● A doença era abundante nas partes mais pobres da cidade, e a cólera estava
entre as mais temidas
● A doença chegou de repente e foi quase imediatamente mortal
○ As pessoas morriam dentro de um ou dois dias depois de contraí-la, centenas morriam em
uma semana e o número total de mortos em uma única onda chegava a dezenas de milhares
64
● Ainda não se sabia que os germes causam doenças; a principal teoria era que
os “miasmas” eram os principais culpados
● Os miasmas se manifestavam como maus cheiros e eram considerados
partículas venenosas invisíveis surgindo da matéria em decomposição
● Partes de Londres cheiravam muito mal, especialmente no clima quente
65
Soluções para a cólera?
● Disparar armas de fogo

● Comprar vasos com plantas
● Cheirar panos com perfume
● Basicamente eliminar odores
66
Teoria Miasmática
● Snow era cético em relação à teoria do miasma

● Ele havia notado que, embora famílias inteiras fossem dizimadas pela cólera,
as pessoas nas casas vizinhas às vezes permaneciam completamente
inalteradas
● Como eles respiravam o mesmo ar — e miasmas — que seus vizinhos, não
havia associação convincente entre maus cheiros e a incidência de cólera
67
Teoria Miasmática
● O trabalho de cientista de dados é um pouco como um trabalho de detetive

● Trabalhamos com as evidências que temos
● Os médicos da época estavam confusos
○ Odor é uma variável confundidora (confounder), mas não é a causa
● Outros exemplos da história:

○ Médicos da corte francesa indicavam que o corpo é limpo pela troca de roupa
○ Pense como alguém da época:
○ (1) água corrente é fria; (2) água quente abre os poros;
● Até hoje cometemos tais falácias, é normal…

Porém, vivemos em uma época de dados! 68
Teoria de John Snow
● Snow também havia notado que o início da doença quase sempre envolvia
vômitos e diarreia
● Ele, portanto, acreditava que a infecção era transmitida por algo que as
pessoas comiam ou bebiam, não pelo ar que respiravam
● Pequenas perguntas e observações podem levar para grandes insights
● Hipótese #1: a doença é intestinal
● Hipótese #2: Seu principal suspeito era água contaminada por esgoto
● Note a importância do “human in the loop”
69
Mapa de John Snow
As mortes estão
agrupadas em torno da
bomba de água da
Broad Street
70
Teoria de John Snow
● Snow verificou que todas as aparentes anomalias implicam a bomba da

Broad Street
○ Houve mortes em casas mais próximas da bomba da Rupert Street do que da Broad Street,
mas os moradores dessas casas usavam a bomba da Broad Street
○ Não houve mortes em dois quarteirões a leste da bomba, local da Cervejaria Lion, onde os
trabalhadores tinham seu próprio poço de água
○ Houve mortes espalhadas em casas longe da bomba da Broad Street - crianças que bebiam
na bomba da Broad Street a caminho da escola por acreditarem que sua água ela era fresca e
refrescante
71
Teoria de John Snow
● Mais tarde, descobriu-se que uma fossa próxima estava contaminando a

bomba da Broad Street
● Snow usou seu mapa para convencer as autoridades locais a remover a alça
da bomba de Broad Street, desativando-a
● Embora a epidemia de cólera já estivesse em declínio quando ele o fez, é
possível que a desativação da bomba tenha evitado muitas mortes por
futuras ondas da doença
● Hoje, nos Centros de Controle de Doenças (CDC) em Atlanta, quando os
cientistas procuram respostas simples para perguntas sobre epidemias, às
vezes perguntam uns aos outros: “Onde está a alça dessa bomba?”
72
Em direção à causalidade
● O mapa deu a Snow uma forte indicação de que a limpeza do abastecimento

de água era a chave para controlar a cólera
● No entanto, ele ainda estava longe de um argumento científico convincente
de que a água contaminada estava causando a propagação da doença
● Precisamos de um grupo de controle
● Além de um grupo de tratamento
● Porém não conseguimos mudar as pessoas de local
● Para fazer um caso mais convincente, ele teve que usar o método de
comparação
73
Em direção à causalidade
● A comparação é usada para identificar uma associação entre um tratamento

e um resultado
● Os resultados de um grupo de indivíduos que recebeu o tratamento (o grupo
de tratamento) comparados com os resultados de um grupo que não recebeu
(o grupo de controle)
○ Exemplo: pode-se comparar a taxa média de homicídios em estados que têm pena de morte
com a taxa média de homicídios em estados que não têm
● Se os resultados forem diferentes, isso é evidência de uma associação

● Para determinar a causa, no entanto, é necessário ainda mais cuidado
74
O “Grande Experimento” de Snow
● Encorajado pelo que havia aprendido, Snow vinha coletando dados sobre
mortes por cólera em uma área de Londres que era servida por duas
companhias de água
● A companhia de água Lambeth
○ Puxava sua água rio acima de onde o esgoto era descarregado no rio Tâmisa
○ Sua água era relativamente limpa
● Southwark and Vauxhall (S&V)

○ Puxava sua água abaixo da descarga de esgoto
○ Seu abastecimento é potencialmente contaminado
75
Área de atuação
do John Snow
76
Desenhando a confusão
● Pensando um pouco nas variáveis chegamos em um diagrama de relações

● Podemos entender a variável de confusão
Pobreza, miasma etc.
Fonte da água
Qualidade da água Cólera
Gráfico de Pearl
77
(Book of Why 2018)
● Snow notou que não havia diferença sistemática entre as pessoas que eram
fornecidas pela S&V e pela Lambeth
○ “Cada empresa abastece ricos e pobres, casas grandes e pequenas; não há diferença na
condição ou ocupação das pessoas que recebem a água das diferentes companhias, ou em
qualquer das condições físicas com que estão cercados…”
● A única diferença estava no abastecimento de água

○ “Um grupo sendo abastecido com água contendo o esgoto de Londres e, entre eles, o que
poderia ter vindo dos pacientes de cólera, o outro grupo tendo água totalmente livre de
impurezas”
78
Deaths per 10,000

Supply Area Number of houses Cholera deaths
houses
S&V 40,046 1,263 315
Lambeth 26,107 98 37
Rest of London 256,423 1,422 59
79
● Na linguagem de experimentos causais:

○ As pessoas das casas de S&V é o grupo de tratamento
○ As pessoas das casas de Lambeth é o grupo de controle
● Um elemento crucial na análise de Snow foi que as pessoas nos dois grupos
eram comparáveis entre si, independentemente do tratamento
● Se houvesse diferenças entre os grupos, teria sido difícil apontar o dedo para
o abastecimento de água como a fonte da doença
○ Exemplo: o grupo de tratamento fosse trabalhadores de fábrica e o grupo de controle não
● O brilhantismo de Snow estava em identificar dois grupos que tornaram sua

comparação clara
80
Importância de John Snow
● A cólera ainda foi letal em Londres (e no resto do mundo)

● Porém com o passar dos anos entendemos bem mais sobre as suas causas
● John Snow sabia disso bem mais cedo, embora não sabia nada sobre os
mecanismos biológicos
○ Demorou para convencer muitos
● A ciência é lenta mas evolui
81
Conclusões
● O principal trabalho do cientista de dados é fazer boas perguntas

○ Não saiam da matéria pensando apenas em técnicas!
● Causalidade é o santo graal da ciência de dados

○ Porém nem sempre é possível, a maioria dos nossos estudos serão correlacionais
○ Mas não se preocupem, a ciência tem uma forma de se corrigir
○ Método científico!
● Podemos ter insights causais a partir de dados observacionais

○ Basta controlar as variáveis
○ Isto é uma aplicação de Bayes
○ Aulas futuras
82
Referências e Leitura
● Computational and Inferential Thinking

Chapter 2: Causality and Experiments
https://www.inferentialthinking.com/
83

Introdução à Causa e Efeito na Ciência de Dados

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Introdução à Causa e Efeito na Ciência de Dados

Enviado por

Direitos autorais:

Formatos disponíveis

Introdução a

Aplicação de computação e estatística para entender fenômenos do mundo real

Aplicação de computação e estatística para entender fenômenos do mundo real

Ex: compro a minha passagem agora ou espero?

Ciência de dados não é probabilidade, faz uso de probabilidade

Ciência de dados não é álgebra linear, faz uso de álgebra linear

Ciência de dados não é aprendizado de máquina, faz uso de aprendizado de

From Zico Kolter

A diferença foi surgindo ao longo dos anos. . .

● Com o passar dos anos, foi ﬁcando próxima da computação

● A computação aplicou o conhecimento estatístico para entender as mesmas

O artigo seminal de Neyman sobre A estatística t de Student foi um primeiro

A teoria da decisão de Wald completou a

A chegada da computação nos 1950s

A tecnologia de microarray inspira enorme

1. Uso extensivo: Computação

How Bad Is Your Streaming Music?

We think this cool study we found is flawed. Help us reproduce it.

Estudos Estatísticos estuda como uma variável aleatória Y responde a mudanças

● Qual o efeito do design de uma página (X) na compra de produtos (Y)?

● O padrão ouro da ciência de dados é a causalidade

No geral, o trabalho do cientista de dados começa com uma pergunta como:

● Chocolate faz bem para a saúde?

● Em sistemas físicos, causa e efeito são estabelecidos por interações e leis

● Fundada em 1843 pelo empresário John B. Lawes para investigar o impacto

● Nos 80 anos seguintes, pesquisadores conduziram experimentos nos quais

○ Plantaram diferentes e variadas culturas

○ Registraram a quantidade de chuva que caiu

○ Mediram o tamanho da colheita no ﬁnal de cada estação de crescimento

● Na virada do século, a Estação tinha uma vasta coleção de dados, mas

○ Certos fertilizantes pareciam afetar apenas certas culturas

○ As diferentes quantidades de chuva que caíam a cada ano confundiam continuamente os

● Os dados eram essencialmente inúteis porque… ?

● Em 1919, um jovem estatístico chamado Ronald Aylmer Fisher foi contratado

● Ronald Fisher é conhecido por basicamente

● O uso de controles é baseado no conceito de variabilidade, uma vez que

● Estatística que ajuda a gerenciar o viés na pesquisa cientíﬁca

● Replicação de ensaios e medições experimentais

subscrito = quantidade valor = rendimento

Figura original de “The Design of Experiments” de Fisher mostrando o arranjo de grupos de

● Em Rothamsted, um controle seria uma lavoura que não recebeu a aplicação

● Fisher introduziu um processo de atribuição aleatória de diferentes

● Em Rothamsted, isso signiﬁcava plantar várias parcelas com a mesma

● Cientistas elaboram estudos de pesquisa com base na natureza da questão

Do inglês, Randomized Control Trials (RCT)

● Para um grupo de interesse, parte do grupo (50%) recebem algum tratamento

○ Um grupo aleatório de famílias recebia ajuda do governo

○ Depois foi mensurado métricas de frequência na escola

Início: 30 mil pessoas vacinadas

Início: 30 mil pessoas vacinadas

Início: 30 mil pessoas vacinadas

Depois de alguns meses: 100 pessoas contraíram COVID

Início: 30 mil pessoas vacinadas

Depois de alguns meses: 100 pessoas contraíram COVID

Início: 30 mil pessoas vacinadas

Depois de alguns meses: 100 pessoas contraíram COVID

● Qual a eﬁcácia em diferentes populações?

● Qual o efeito a longo prazo?

Uma ciência observacional é uma ciência na qual não é possível construir

Então é impossível ter insights causais a partir de estudos observacionais?

● indivíduos: uma população, por exemplo, esta sala ou a população de BH

● tratamento: comer chocolate