Escolar Documentos
Profissional Documentos
Cultura Documentos
Causa e Efeito
Pedro O.S Vaz de Melo
olmo@dcc.ufmg.br
Ciência de Dados
2
Ciência de Dados
3
Probabilidade
4
Álgebra Linear
5
Aprendizado de Máquina
6
Aprendizado de Máquina
8
Histórico
Karl Pearson publica o qui-quadrado. Ele e
Fisher introduziu uma série de ideias Weldon fundaram a Biometrika em 1901, a
fundamentais, incluindo suficiência, primeira revista estatística. O artigo de
eficiência, informação de Fisher, teoria da Pearson e a Biometrika lançaram a
máxima verossimilhança e a noção de disciplina de estatística em uma marcha
estimativa ótima. 1925 é o ano em que a de 50 anos em direção ao pólo matemático
inferência estatística passou de uma do triângulo.
coleção de técnicas engenhosas para uma
disciplina coerente.
9
Histórico
Introdução de taxas de falsas descobertas
e, um ano depois, a regressão Lasso.
Ambos fazem uso intensivo de computação,
firmemente enraizados no ethos da
inferência estatística. Eles levam, no
entanto, em direções diferentes, conforme
O bootstrap e, posteriormente, o uso indicado pela divisão no diagrama.
generalizado do MCMC: computação
eletrônica usada para a extensão da
inferência estatística clássica.
10
Histórico
Ciência de dados: um sucessor mais
popular da “análise de dados” de Tukey e
Isso representa a linha tradicional de Mosteller, em um extremo parece
pensamento estatístico, mas agora representar uma disciplina estatística sem
energizado com um foco renovado em modelos de probabilidade paramétrica ou
aplicações. De interesse particular são a inferência formal. A Data Science
biologia e a genética. Os estudos de Association define um praticante como
associação de todo o genoma (GWAS) aquele que “usa métodos científicos para
mostram uma face diferente do big data. A liberar e criar significado a partir de dados
previsão é importante aqui, mas não brutos”. Na prática, a ênfase está no
suficiente para a compreensão científica da processamento algorítmico de grandes
doença. conjuntos de dados para extração de
informações úteis, tendo como exemplos
os algoritmos de previsão.
11
Receita
12
Principal: ótimas perguntas!
13
Qual o motivo deste curso existir?
Exemplos
15
Exemplos do Pudding Cool
https://pudding.cool/
The Gyllenhaal Experiment
16
Capital dos Candidatos
http://www.capitaldoscandidatos.info/
17
Five Thirty Eight
https://projects.fivethirtyeight.com/mortality-rates-united-states/
18
Gender Bias
http://benschmidt.org/profGender
Salários
https://aaronclauset.github.io/parental-leave/
Alguns Problemas Atuais
21
News Cycle (PhD Comics)
22
Qual o nosso problema?
23
O ciclo de trabalho do cientista de dados
● Formular perguntas
○ Qual o problema que queremos resolver?
○ Quais são as nossas hipóteses?
● Adquirir dados
○ Quais dados temos? Quais dados precisamos?
○ Como organizar os dados?
● Análise exploratória
○ Quais são as correlações dos dados?
○ Como sumarizar os mesmos?
● Previsões e inferência
○ Meus dados conseguem prever o futuro?
○ Ajudam a resolver algum problema?
24
O ciclo de trabalho do cientista de dados
● Formular perguntas
○ Qual o problema que queremos resolver?
○ Quais são as nossas hipóteses?
● Adquirir dados
○ Quais dados temos? Quais dados precisamos?
○ Como organizar os dados?
● Análise exploratória
○ Quais são as correlações dos dados?
○ Como sumarizar os mesmos?
● Previsões e inferência
○ Meus dados conseguem prever o futuro?
○ Ajudam a resolver algum problema?
25
Qual o problema que queremos resolver?
26
Qual o problema que queremos resolver?
Note que cada uma delas tenta estabelecer uma noção de causa e efeito
27
Causa e Efeito
28
Rothamsted Agriculture Experimental Station
29
Rothamsted Agriculture Experimental Station
30
Rothamsted Agriculture Experimental Station
31
Rothamsted Agriculture Experimental Station
○ Randomização e
○ Replicação
33
Controles
34
Randomização
35
Replicação
36
Experimento de Fisher
(I) = sem fertilizante
(controle)
(s) = sulfato de amônia
(m) = cloreto de amônia
(p) = adição de
(c) = cianamida
superfosfato
(u) = uréia
38
Randomização
39
Replicação
40
Conclusões
41
Estudos Randomizados
42
Vacinas de COVID (Caso da Moderna)
43
Vacinas de COVID (Caso da Moderna)
44
Vacinas de COVID (Caso da Moderna)
45
Vacinas de COVID (Caso da Moderna)
46
Vacinas de COVID (Caso da Moderna)
Vacinados: 5
Não vacinados (placebo): 95
47
Problemas com a Vacina
48
Quando não podemos fazer estudo
controlado, como prosseguir?
49
Do Wikipedia
50
Observação
51
Ciência de Dados
● Em vários dos estudos que vamos realizar não é possível controlar o meio
● Apenas dados históricos estão disponíveis
● Ou seja, estamos realizando estudos observacionais
52
Observação
53
Observação
54
Observação
55
Variáveis de Confusão
56
Correlação e Causalidade
57
Correlação e Causalidade
58
Correlação e Causalidade
59
John Snow
60
61
John Snow
62
Londres nos anos 1850
Ilustração do Punch
(1852)
63
Londres nos anos 1850
● Era a cidade mais rica do mundo, mas muitos de seus habitantes eram
desesperadamente pobres
● A doença era abundante nas partes mais pobres da cidade, e a cólera estava
entre as mais temidas
● A doença chegou de repente e foi quase imediatamente mortal
○ As pessoas morriam dentro de um ou dois dias depois de contraí-la, centenas morriam em
uma semana e o número total de mortos em uma única onda chegava a dezenas de milhares
64
Londres nos anos 1850
● Ainda não se sabia que os germes causam doenças; a principal teoria era que
os “miasmas” eram os principais culpados
● Os miasmas se manifestavam como maus cheiros e eram considerados
partículas venenosas invisíveis surgindo da matéria em decomposição
● Partes de Londres cheiravam muito mal, especialmente no clima quente
65
Soluções para a cólera?
66
Teoria Miasmática
67
Teoria Miasmática
● Snow também havia notado que o início da doença quase sempre envolvia
vômitos e diarreia
● Ele, portanto, acreditava que a infecção era transmitida por algo que as
pessoas comiam ou bebiam, não pelo ar que respiravam
● Pequenas perguntas e observações podem levar para grandes insights
● Hipótese #1: a doença é intestinal
● Hipótese #2: Seu principal suspeito era água contaminada por esgoto
● Note a importância do “human in the loop”
69
Mapa de John Snow
As mortes estão
agrupadas em torno da
bomba de água da
Broad Street
70
Teoria de John Snow
○ Não houve mortes em dois quarteirões a leste da bomba, local da Cervejaria Lion, onde os
trabalhadores tinham seu próprio poço de água
○ Houve mortes espalhadas em casas longe da bomba da Broad Street - crianças que bebiam
na bomba da Broad Street a caminho da escola por acreditarem que sua água ela era fresca e
refrescante
71
Teoria de John Snow
73
Em direção à causalidade
74
O “Grande Experimento” de Snow
● Encorajado pelo que havia aprendido, Snow vinha coletando dados sobre
mortes por cólera em uma área de Londres que era servida por duas
companhias de água
● A companhia de água Lambeth
○ Puxava sua água rio acima de onde o esgoto era descarregado no rio Tâmisa
75
Área de atuação
do John Snow
76
Desenhando a confusão
Fonte da água
Gráfico de Pearl
77
(Book of Why 2018)
O “Grande Experimento” de Snow
● Snow notou que não havia diferença sistemática entre as pessoas que eram
fornecidas pela S&V e pela Lambeth
○ “Cada empresa abastece ricos e pobres, casas grandes e pequenas; não há diferença na
condição ou ocupação das pessoas que recebem a água das diferentes companhias, ou em
qualquer das condições físicas com que estão cercados…”
78
O “Grande Experimento” de Snow
Lambeth 26,107 98 37
79
O “Grande Experimento” de Snow
● Um elemento crucial na análise de Snow foi que as pessoas nos dois grupos
eram comparáveis entre si, independentemente do tratamento
● Se houvesse diferenças entre os grupos, teria sido difícil apontar o dedo para
o abastecimento de água como a fonte da doença
○ Exemplo: o grupo de tratamento fosse trabalhadores de fábrica e o grupo de controle não
81
Conclusões
○ Método científico!
○ Aulas futuras
82
Referências e Leitura
83