Você está na página 1de 83

Introdução a

Causa e Efeito
Pedro O.S Vaz de Melo
olmo@dcc.ufmg.br
Ciência de Dados

Aplicação de computação e estatística para entender fenômenos do mundo real

2
Ciência de Dados

Aplicação de computação e estatística para entender fenômenos do mundo real

Ex: compro a minha passagem agora ou espero?

3
Probabilidade

Ciência de dados não é probabilidade, faz uso de probabilidade

4
Álgebra Linear

Ciência de dados não é álgebra linear, faz uso de álgebra linear

5
Aprendizado de Máquina

Ciência de dados não é aprendizado de máquina, faz uso de aprendizado de


máquina

6
Aprendizado de Máquina

From Zico Kolter


Estatística vs. Ciência de Dados

A diferença foi surgindo ao longo dos anos. . .

● Com o passar dos anos, foi ficando próxima da computação


○ Grandes massas de dados surgiram

● A computação aplicou o conhecimento estatístico para entender as mesmas


○ O pensamento computacional é chave!

8
Histórico
Karl Pearson publica o qui-quadrado. Ele e
Fisher introduziu uma série de ideias Weldon fundaram a Biometrika em 1901, a
fundamentais, incluindo suficiência, primeira revista estatística. O artigo de
eficiência, informação de Fisher, teoria da Pearson e a Biometrika lançaram a
máxima verossimilhança e a noção de disciplina de estatística em uma marcha
estimativa ótima. 1925 é o ano em que a de 50 anos em direção ao pólo matemático
inferência estatística passou de uma do triângulo.
coleção de técnicas engenhosas para uma
disciplina coerente.

O artigo seminal de Neyman sobre A estatística t de Student foi um primeiro


intervalos de confiança. Seu sofisticado resultado crucial na inferência “exata” de
tratamento matemático da inferência pequenas amostras e uma grande
estatística foi um precursor da teoria da influência no pensamento de Fisher.
decisão.

A teoria da decisão de Wald completou a


matematização completa da inferência
estatística. Também representa a
formulação teórica de decisão de Savage e
de Finetti da inferência bayesiana. Estamos
o mais longe possível do canto das
aplicações do triângulo.

9
Histórico
Introdução de taxas de falsas descobertas
e, um ano depois, a regressão Lasso.
Ambos fazem uso intensivo de computação,
firmemente enraizados no ethos da
inferência estatística. Eles levam, no
entanto, em direções diferentes, conforme
O bootstrap e, posteriormente, o uso indicado pela divisão no diagrama.
generalizado do MCMC: computação
eletrônica usada para a extensão da
inferência estatística clássica.

A chegada da computação nos 1950s


O papel de riscos proporcionais de Cox, inspirou o artigo de Tukey “O futuro da
imensamente útil por si só, sinalizava um análise de dados”, que defendia uma
interesse crescente em aplicações disciplina mais orientada para aplicativos e
bioestatísticas e, particularmente, na computação. Mais tarde, Mosteller e Tukey
análise de sobrevivência, que foi sugeriram mudar o nome do campo para
fundamental na análise de dados da análise de dados, um indício presciente da
epidemia de AIDS. ciência de dados de hoje.

10
Histórico
Ciência de dados: um sucessor mais
popular da “análise de dados” de Tukey e
Isso representa a linha tradicional de Mosteller, em um extremo parece
pensamento estatístico, mas agora representar uma disciplina estatística sem
energizado com um foco renovado em modelos de probabilidade paramétrica ou
aplicações. De interesse particular são a inferência formal. A Data Science
biologia e a genética. Os estudos de Association define um praticante como
associação de todo o genoma (GWAS) aquele que “usa métodos científicos para
mostram uma face diferente do big data. A liberar e criar significado a partir de dados
previsão é importante aqui, mas não brutos”. Na prática, a ênfase está no
suficiente para a compreensão científica da processamento algorítmico de grandes
doença. conjuntos de dados para extração de
informações úteis, tendo como exemplos
os algoritmos de previsão.

A tecnologia de microarray inspira enorme


interesse em inferência em larga escala,
tanto na teoria quanto aplicada à análise de Florestas aleatórias junta-se ao boosting
dados microbiológicos. e ao ressurgimento das redes neurais nas
fileiras dos algoritmos de previsão de
aprendizado de máquina.

11
Receita

1. Uso extensivo: Computação


2. Uso extensivo: Estatística
3. Entendimento: Probabilidade
4. Entendimento: Álgebra Linear
5. Entendimento e uso moderado: Aprendizado de máquina

12
Principal: ótimas perguntas!

13
Qual o motivo deste curso existir?
Exemplos

15
Exemplos do Pudding Cool

https://pudding.cool/
The Gyllenhaal Experiment

How Bad Is Your Streaming Music?

We think this cool study we found is flawed. Help us reproduce it.

16
Capital dos Candidatos

http://www.capitaldoscandidatos.info/

17
Five Thirty Eight

https://projects.fivethirtyeight.com/mortality-rates-united-states/

18
Gender Bias

http://benschmidt.org/profGender
Salários

https://aaronclauset.github.io/parental-leave/
Alguns Problemas Atuais

21
News Cycle (PhD Comics)

22
Qual o nosso problema?

Estudos Estatísticos estuda como uma variável aleatória Y responde a mudanças


de uma ou mais variáveis independentes X

● Qual o efeito do design de uma página (X) na compra de produtos (Y)?


● Qual o efeito de uma quantidade de um composto químico (X) no clima (Y)?
● Mulheres que fumam (X1) e fazem uso de anti-contraceptivos (X2) alteram a
probabilidade de ter algum tipo de câncer (Y)?
● Mais desemprego (X) induz o aumento de crimes (Y)?
● A vacina de Covid (X) reduz a mortalidade de uma população (Y)?

23
O ciclo de trabalho do cientista de dados

● Formular perguntas
○ Qual o problema que queremos resolver?
○ Quais são as nossas hipóteses?
● Adquirir dados
○ Quais dados temos? Quais dados precisamos?
○ Como organizar os dados?
● Análise exploratória
○ Quais são as correlações dos dados?
○ Como sumarizar os mesmos?
● Previsões e inferência
○ Meus dados conseguem prever o futuro?
○ Ajudam a resolver algum problema?

24
O ciclo de trabalho do cientista de dados

● Formular perguntas
○ Qual o problema que queremos resolver?
○ Quais são as nossas hipóteses?
● Adquirir dados
○ Quais dados temos? Quais dados precisamos?
○ Como organizar os dados?
● Análise exploratória
○ Quais são as correlações dos dados?
○ Como sumarizar os mesmos?
● Previsões e inferência
○ Meus dados conseguem prever o futuro?
○ Ajudam a resolver algum problema?

25
Qual o problema que queremos resolver?

● O padrão ouro da ciência de dados é a causalidade


● Como definir causalidade?

26
Qual o problema que queremos resolver?

No geral, o trabalho do cientista de dados começa com uma pergunta como:

● Chocolate faz bem para a saúde?


● Carnaval faz bem para a economia?
● O release 5.2 deixou o código mais rápido?

Note que cada uma delas tenta estabelecer uma noção de causa e efeito

27
Causa e Efeito

● Em sistemas físicos, causa e efeito são estabelecidos por interações e leis


● Porém, o cientista de dados nem sempre tem um modelo como os da Física
● Mas podemos realizar experimentos, na medida do possível

28
Rothamsted Agriculture Experimental Station

● Fundada em 1843 pelo empresário John B. Lawes para investigar o impacto


da aplicação de fertilizantes no rendimento das culturas
○ Ele havia estabelecido uma das primeiras fábricas de fertilizantes artificiais um ano antes

● Nos 80 anos seguintes, pesquisadores conduziram experimentos nos quais


eles
○ Aplicaram fertilizantes

○ Plantaram diferentes e variadas culturas

○ Registraram a quantidade de chuva que caiu

○ Mediram o tamanho da colheita no final de cada estação de crescimento

29
Rothamsted Agriculture Experimental Station

30
Rothamsted Agriculture Experimental Station

● Na virada do século, a Estação tinha uma vasta coleção de dados, mas


poucas conclusões úteis
○ Um fertilizante superaria outro em um ano, mas teria um desempenho inferior no próximo

○ Certos fertilizantes pareciam afetar apenas certas culturas

○ As diferentes quantidades de chuva que caíam a cada ano confundiam continuamente os


experimentos

● Os dados eram essencialmente inúteis porque… ?


… havia um grande número de variáveis não controladas

31
Rothamsted Agriculture Experimental Station

● Em 1919, um jovem estatístico chamado Ronald Aylmer Fisher foi contratado


para tentar entender os dados
● As análises sugeriram que a relação entre a precipitação e o crescimento das
plantas era muito mais estatisticamente significativa do que a relação entre o
tipo de fertilizante e o crescimento das plantas
● Mas os cientistas agrícolas da estação não estavam lá para testar o clima,
eles queriam saber quais fertilizantes eram mais eficazes para quais culturas
● Ninguém poderia remover o clima como uma variável nos experimentos, mas
Fisher percebeu que seus efeitos poderiam ser essencialmente separados se
os experimentos fossem projetados adequadamente
32
Fisher

● Ronald Fisher é conhecido por basicamente


ter "inventado" boa parte da estatística moderna
● No livro "The Design of Experiments" ele
introduziu conceitos como:
○ Controle

○ Randomização e

○ Replicação

33
Controles

● O uso de controles é baseado no conceito de variabilidade, uma vez que


qualquer fenômeno tem alguma medida de variabilidade
● Controles permitem que o pesquisador meça a variabilidade natural, aleatória
ou sistemática em um sistema semelhante
● Essa estimativa é usada como linha de base (baseline) para comparação
com a variável ou fenômeno observado

34
Randomização

● Estatística que ajuda a gerenciar o viés na pesquisa científica


● É um procedimento preciso no qual as unidades observadas são atribuídas a
um grupo de tratamento ou controle de uma maneira que leva em conta a
influência potencial de variáveis de confusão
● Isso permite que o pesquisador quantifique a influência dessas variáveis de
confusão, observando-as tanto no grupo controle quanto no grupo de
tratamento

35
Replicação

● Replicação de ensaios e medições experimentais


● Permite que a faixa de variabilidade inerentemente associada ao
experimento ou medição seja quantificada
● Permite a avaliação da robustez dos resultados

36
Experimento de Fisher
(I) = sem fertilizante
(controle)
(s) = sulfato de amônia
(m) = cloreto de amônia
(p) = adição de
(c) = cianamida
superfosfato
(u) = uréia

subscrito = quantidade valor = rendimento


de fertilizante relativo

Figura original de “The Design of Experiments” de Fisher mostrando o arranjo de grupos de


tratamento e rendimentos de cevada em um experimento na estação de Rothamsted em 1927
37
Controles

● Em Rothamsted, um controle seria uma lavoura que não recebeu a aplicação


de fertilizante
● A variabilidade inerente ao crescimento das plantas ainda produziria plantas
de alturas e tamanhos variados
● O controle, então, fornece uma medida do impacto que o clima ou outras
variáveis poderiam ter no crescimento da cultura independente da aplicação
de fertilizantes
● Permite que os pesquisadores removam isso estatisticamente como um
fator

38
Randomização

● Fisher introduziu um processo de atribuição aleatória de diferentes


fertilizantes a diferentes parcelas dentro de um campo em um único ano
● Garantiu que nem todas as parcelas de tratamento (ou controle) para
qualquer fertilizante específico caíssem ao longo da borda do campo

39
Replicação

● Em Rothamsted, isso significava plantar várias parcelas com a mesma


cultura e aplicar o mesmo fertilizante em cada uma dessas parcelas
● Além disso, isso significava repetir aplicações semelhantes em anos
diferentes para que a variabilidade de diferentes aplicações de fertilizantes
em função de diferentes condições climáticas pudesse ser quantificada

40
Conclusões

● Cientistas elaboram estudos de pesquisa com base na natureza da questão


que procuram investigar
● Refinam seu plano de pesquisa de acordo com muitos dos conceitos
estatísticos de Fisher para aumentar a probabilidade de que suas
descobertas sejam úteis
● A incorporação dessas técnicas facilita a análise e interpretação dos dados,
outro local onde a estatística é utilizada

41
Estudos Randomizados

Do inglês, Randomized Control Trials (RCT)

● Para um grupo de interesse, parte do grupo (50%) recebem algum tratamento


● A outra parte não
● Depois mensuramos o efeito
● Exemplo: PROGRESA
○ Programa anti-pobreza e de bem estar social no méxico nos anos 90

○ Um grupo aleatório de famílias recebia ajuda do governo

○ Depois foi mensurado métricas de frequência na escola

42
Vacinas de COVID (Caso da Moderna)

Início: 30 mil pessoas vacinadas

43
Vacinas de COVID (Caso da Moderna)

Início: 30 mil pessoas vacinadas


15 mil placebo
15 mil vacina

44
Vacinas de COVID (Caso da Moderna)

Início: 30 mil pessoas vacinadas


15 mil placebo
15 mil vacina

Depois de alguns meses: 100 pessoas contraíram COVID

45
Vacinas de COVID (Caso da Moderna)

Início: 30 mil pessoas vacinadas


15 mil placebo
15 mil vacina

Depois de alguns meses: 100 pessoas contraíram COVID

46
Vacinas de COVID (Caso da Moderna)

Início: 30 mil pessoas vacinadas


15 mil placebo
15 mil vacina

Depois de alguns meses: 100 pessoas contraíram COVID

Vacinados: 5
Não vacinados (placebo): 95
47
Problemas com a Vacina

● Qual a eficácia em diferentes populações?


○ Idosos vs. crianças

● Qual o efeito a longo prazo?


● Erros podem ter sido cometidos?

48
Quando não podemos fazer estudo
controlado, como prosseguir?

49
Do Wikipedia

Uma ciência observacional é uma ciência na qual não é possível construir


experimentos controlados na área em estudo

50
Observação

Então é impossível ter insights causais a partir de estudos observacionais?

51
Ciência de Dados

● Em vários dos estudos que vamos realizar não é possível controlar o meio
● Apenas dados históricos estão disponíveis
● Ou seja, estamos realizando estudos observacionais

52
Observação

● indivíduos: uma população, por exemplo, esta sala ou a população de BH

● tratamento: comer chocolate

● efeito: doença cardíaca (falta da)

53
Observação

54
Observação

● Então é impossível ter insights causais a partir de estudos observacionais?


● Não, porém como não temos controle, podemos sofrer com variáveis de
confusão
○ variáveis de confusão: confounding (inglês) ou confundidor

55
Variáveis de Confusão

Afetam tanto o indivíduo quanto o efeito

● Em uma população de jovens → menor incidência de doenças cardiológicas


● Na dieta da minha população → todos comem bastante açúcar
● A população mora em uma cidade onde exercício físico diário é popular

56
Correlação e Causalidade

● O que são correlações espúrias?

57
Correlação e Causalidade

● Você já deve ter ouvido a máxima de que correlação não é causalidade


● Boa parte do trabalho que fazemos como cientista de dados é correlacional
● Porém, é possível estendê-los para insights causais

58
Correlação e Causalidade

● A questão fundamental é se o tratamento tem efeito sobre o resultado


● Qualquer relação entre o tratamento e o resultado é chamada de associação
● Se o tratamento faz com que o resultado ocorra, então a associação é causal
● A questão é se o chocolate causa diretamente melhorias na saúde, não
apenas se existe uma relação entre chocolate e saúde

59
John Snow

60
61
John Snow

● Médico Inglês, pai da epidemiologia


● Viveu entre 1813 e 1858

62
Londres nos anos 1850

Ilustração do Punch
(1852)
63
Londres nos anos 1850

● Era a cidade mais rica do mundo, mas muitos de seus habitantes eram
desesperadamente pobres
● A doença era abundante nas partes mais pobres da cidade, e a cólera estava
entre as mais temidas
● A doença chegou de repente e foi quase imediatamente mortal
○ As pessoas morriam dentro de um ou dois dias depois de contraí-la, centenas morriam em
uma semana e o número total de mortos em uma única onda chegava a dezenas de milhares

64
Londres nos anos 1850

● Ainda não se sabia que os germes causam doenças; a principal teoria era que
os “miasmas” eram os principais culpados
● Os miasmas se manifestavam como maus cheiros e eram considerados
partículas venenosas invisíveis surgindo da matéria em decomposição
● Partes de Londres cheiravam muito mal, especialmente no clima quente

65
Soluções para a cólera?

● Disparar armas de fogo


● Comprar vasos com plantas
● Cheirar panos com perfume
● Basicamente eliminar odores

66
Teoria Miasmática

● Snow era cético em relação à teoria do miasma


● Ele havia notado que, embora famílias inteiras fossem dizimadas pela cólera,
as pessoas nas casas vizinhas às vezes permaneciam completamente
inalteradas
● Como eles respiravam o mesmo ar — e miasmas — que seus vizinhos, não
havia associação convincente entre maus cheiros e a incidência de cólera

67
Teoria Miasmática

● O trabalho de cientista de dados é um pouco como um trabalho de detetive


● Trabalhamos com as evidências que temos
● Os médicos da época estavam confusos
○ Odor é uma variável confundidora (confounder), mas não é a causa

● Outros exemplos da história:


○ Médicos da corte francesa indicavam que o corpo é limpo pela troca de roupa

○ Pense como alguém da época:

○ (1) água corrente é fria; (2) água quente abre os poros;

● Até hoje cometemos tais falácias, é normal…


Porém, vivemos em uma época de dados! 68
Teoria de John Snow

● Snow também havia notado que o início da doença quase sempre envolvia
vômitos e diarreia
● Ele, portanto, acreditava que a infecção era transmitida por algo que as
pessoas comiam ou bebiam, não pelo ar que respiravam
● Pequenas perguntas e observações podem levar para grandes insights
● Hipótese #1: a doença é intestinal
● Hipótese #2: Seu principal suspeito era água contaminada por esgoto
● Note a importância do “human in the loop”

69
Mapa de John Snow

As mortes estão
agrupadas em torno da
bomba de água da
Broad Street

70
Teoria de John Snow

● Snow verificou que todas as aparentes anomalias implicam a bomba da


Broad Street
○ Houve mortes em casas mais próximas da bomba da Rupert Street do que da Broad Street,
mas os moradores dessas casas usavam a bomba da Broad Street

○ Não houve mortes em dois quarteirões a leste da bomba, local da Cervejaria Lion, onde os
trabalhadores tinham seu próprio poço de água

○ Houve mortes espalhadas em casas longe da bomba da Broad Street - crianças que bebiam
na bomba da Broad Street a caminho da escola por acreditarem que sua água ela era fresca e
refrescante

71
Teoria de John Snow

● Mais tarde, descobriu-se que uma fossa próxima estava contaminando a


bomba da Broad Street
● Snow usou seu mapa para convencer as autoridades locais a remover a alça
da bomba de Broad Street, desativando-a
● Embora a epidemia de cólera já estivesse em declínio quando ele o fez, é
possível que a desativação da bomba tenha evitado muitas mortes por
futuras ondas da doença
● Hoje, nos Centros de Controle de Doenças (CDC) em Atlanta, quando os
cientistas procuram respostas simples para perguntas sobre epidemias, às
vezes perguntam uns aos outros: “Onde está a alça dessa bomba?”
72
Em direção à causalidade

● O mapa deu a Snow uma forte indicação de que a limpeza do abastecimento


de água era a chave para controlar a cólera
● No entanto, ele ainda estava longe de um argumento científico convincente
de que a água contaminada estava causando a propagação da doença
● Precisamos de um grupo de controle
● Além de um grupo de tratamento
● Porém não conseguimos mudar as pessoas de local
● Para fazer um caso mais convincente, ele teve que usar o método de
comparação

73
Em direção à causalidade

● A comparação é usada para identificar uma associação entre um tratamento


e um resultado
● Os resultados de um grupo de indivíduos que recebeu o tratamento (o grupo
de tratamento) comparados com os resultados de um grupo que não recebeu
(o grupo de controle)
○ Exemplo: pode-se comparar a taxa média de homicídios em estados que têm pena de morte
com a taxa média de homicídios em estados que não têm

● Se os resultados forem diferentes, isso é evidência de uma associação


● Para determinar a causa, no entanto, é necessário ainda mais cuidado

74
O “Grande Experimento” de Snow

● Encorajado pelo que havia aprendido, Snow vinha coletando dados sobre
mortes por cólera em uma área de Londres que era servida por duas
companhias de água
● A companhia de água Lambeth
○ Puxava sua água rio acima de onde o esgoto era descarregado no rio Tâmisa

○ Sua água era relativamente limpa

● Southwark and Vauxhall (S&V)


○ Puxava sua água abaixo da descarga de esgoto

○ Seu abastecimento é potencialmente contaminado

75
Área de atuação
do John Snow

76
Desenhando a confusão

● Pensando um pouco nas variáveis chegamos em um diagrama de relações


● Podemos entender a variável de confusão

Pobreza, miasma etc.

Fonte da água

Qualidade da água Cólera

Gráfico de Pearl
77
(Book of Why 2018)
O “Grande Experimento” de Snow

● Snow notou que não havia diferença sistemática entre as pessoas que eram
fornecidas pela S&V e pela Lambeth
○ “Cada empresa abastece ricos e pobres, casas grandes e pequenas; não há diferença na
condição ou ocupação das pessoas que recebem a água das diferentes companhias, ou em
qualquer das condições físicas com que estão cercados…”

● A única diferença estava no abastecimento de água


○ “Um grupo sendo abastecido com água contendo o esgoto de Londres e, entre eles, o que
poderia ter vindo dos pacientes de cólera, o outro grupo tendo água totalmente livre de
impurezas”

78
O “Grande Experimento” de Snow

Deaths per 10,000


Supply Area Number of houses Cholera deaths
houses

S&V 40,046 1,263 315

Lambeth 26,107 98 37

Rest of London 256,423 1,422 59

79
O “Grande Experimento” de Snow

● Na linguagem de experimentos causais:


○ As pessoas das casas de S&V é o grupo de tratamento

○ As pessoas das casas de Lambeth é o grupo de controle

● Um elemento crucial na análise de Snow foi que as pessoas nos dois grupos
eram comparáveis entre si, independentemente do tratamento
● Se houvesse diferenças entre os grupos, teria sido difícil apontar o dedo para
o abastecimento de água como a fonte da doença
○ Exemplo: o grupo de tratamento fosse trabalhadores de fábrica e o grupo de controle não

● O brilhantismo de Snow estava em identificar dois grupos que tornaram sua


comparação clara
80
Importância de John Snow

● A cólera ainda foi letal em Londres (e no resto do mundo)


● Porém com o passar dos anos entendemos bem mais sobre as suas causas
● John Snow sabia disso bem mais cedo, embora não sabia nada sobre os
mecanismos biológicos
○ Demorou para convencer muitos

● A ciência é lenta mas evolui

81
Conclusões

● O principal trabalho do cientista de dados é fazer boas perguntas


○ Não saiam da matéria pensando apenas em técnicas!

● Causalidade é o santo graal da ciência de dados


○ Porém nem sempre é possível, a maioria dos nossos estudos serão correlacionais

○ Mas não se preocupem, a ciência tem uma forma de se corrigir

○ Método científico!

● Podemos ter insights causais a partir de dados observacionais


○ Basta controlar as variáveis

○ Isto é uma aplicação de Bayes

○ Aulas futuras
82
Referências e Leitura

● Computational and Inferential Thinking


Chapter 2: Causality and Experiments
https://www.inferentialthinking.com/

83

Você também pode gostar