Você está na página 1de 8

22/06/2021

 Correlação  Gráfico de dispersão


▪ Y → eixo vertical
 Usada para ▪ X → eixo horizontal

José C. F. Pantoja investigar a


associação entre
duas variáveis
contínuas
 Quantifica relação
linear entre
variáveis

1 2

Temp Fluxo
3.89 25.20
3.89 39.60
3.89 53.10
3.33 44.55
2.78 31.95
2.22 21.60
1 2 1.67 11.25
1.67 4.95
1.11 3.15

 Perguntas de interesse:
▪ Há uma relação entre o fluxo (kg/min) e a temperatura (C)
do leite que passa no refrigerador?
3 ▪ Se soubermos o fluxo, podemos prever a temperatura?

3 4

 Primeiro passo: Visualizar os dados  Na população da qual os pares (𝑋𝑖 , 𝑌𝑖 ) foram


▪ Construir um gráfico de dispersão usando as 2 variáveis selecionados:
 Variável resposta (Y) 5,0 ▪ O coeficiente de correlação entre X e Y é representado por 𝜌
▪ Eixo vertical (Rho)
4,0
Temperatura (°C)

 Variável explanatória (X) ▪ A estimativa de 𝜌 é indicada por 𝑟


▪ Eixo horizontal 3,0

2,0
 Cada ponto representa ത (𝑦𝑖 −𝑌)
Σ (𝑥𝑖 −𝑋) ത
uma combinação 1,0  𝑟= ത 2 ] Σ[(𝑦𝑖 −𝑌)
ത 2]
Σ[(𝑥𝑖 −𝑋)
▪ (𝑋𝑖 , 𝑌𝑖 ) 0,0
0 20 40 60 80
 Interpretação? Fluxo de Leite (kg/min)

5 6

1
22/06/2021

 Não possui unidades de medida  Interpretando os valores de r:

 −1 ≤ 𝑟 ≤ 1 ▪ 0,7 a 1,0 ou -0,7 a -1,0→ Correlação forte

 Quando r = -1 ou 1 ▪ 0,3 a 0,7 ou -0,3 a -0,7 → Correlação moderada


 Relação linear perfeita entre Y e X
 Todos os pontos estariam na linha reta
▪ 0,0 a 0,3 ou 0,0 a -0,3 → Correlação fraca
 Quando r = 0 não há relação linear entre X e Y

 Não especifica se a relação entre X e Y é causal!!!!

7 8

𝒓=𝟏 𝒓 = −𝟏  Fazer inferências sobre ρ  Suposições


(correlação na ▪ X e Y possuem distribuição
𝒚 𝒚 população) usando r em
Correlação Correlação
normal
positiva negativa
uma amostra ▪ Pares (𝑋𝑖 , 𝑌𝑖 ) obtidos
 𝐻0 : 𝜌 = 0 aleatoriamente
𝒙 𝒙

1−𝑟 2  𝑡 ~ distribuição T com


𝒓=𝟎 𝒓=𝟎  ෢
𝐸𝑃(𝑟) = n-2 graus de liberdade
𝑛−2
𝒚 𝒚 ▪ Quando 𝐻0 : 𝜌 = 0
𝑟−0
 𝑡=
1−𝑟2
𝑛−2
𝒙 𝒙

9 10

 Existe uma correlação  r = 0.96 n=8


significativa entre a idade
gestacional e o peso ao
nascer? 1−𝑟 2
 ෢
𝐸𝑃(𝑟) =
▪ N = 8 pares de medidas 𝑛−2
▪ r =0.96
1−0.962
 𝐻0 : 𝜌 = 0  ෢ 𝑟 =
𝐸𝑃 = 0.1143
8−2
𝑟−0 0.96
 𝑡6 = = =8.4
1−𝑟 2 1−𝑟2 0.1143
 ෢
𝐸𝑃(𝑟) = 𝑛−2
𝑛−2
 P < 0.005 (bicaudal)
𝑟−0
 𝑡=
1−𝑟2  Se amostrarmos repetidamente uma população na qual o r = 0, a
𝑛−2
probabilidade de observarmos um r de 0.96 ou maior é < 0.005

11 12

2
22/06/2021

 Suposições
 r possui várias limitações ▪ Amostras normalmente distribuídas
▪ Amostras aleatórias
▪ Quantifica apenas uma relação linear entre duas ▪ Suposições provavelmente violadas...
variáveis
▪ Relação poder ser uma curva

▪ Muito sensível à valores extremos

▪ Nunca extrapolar resultados para dados fora do


intervalo dos dados

▪ r alto não implica causalidade entre X e Y

13 14

 Método não paramétrico  Notas


𝑛−2
 𝑡𝑠 = 𝑟𝑠 ▪ Muito menos sensível
 Medida de associação mais robusta 1−𝑟𝑠 2
a valores extremos
▪ Ranquear X e Y e calcular o coeficiente de correlação
para os valores ranqueados (postos)  𝑡 ~ distribuição T com
▪ Poder ser usado para
n-2 graus de liberdade
Σ (𝑥𝑟𝑖 − 𝑋ത𝑟 ) (𝑦𝑟𝑖 −𝑌ത𝑟) variáveis ordinais
 𝑟𝑠 = ▪ Quando 𝐻0 : 𝜌 = 0
Σ[(𝑥𝑟𝑖 −𝑋ത𝑟 )2 ] Σ[(𝑦𝑟𝑖 −𝑌ത𝑟𝑖 )2 ] ▪ Não paramétrico
▪ Não usa toda
 𝑥𝑟𝑖 e 𝑌𝑟𝑖 são os postos informação sobre uma
distribuição
▪ Postos substituem os valores originais

15 17

 Coeficiente de correlação  Coeficiente de correlação de Pearson


de Pearson ▪ Avalia a relação linear entre resultados de 2 testes
▪ Quantifica a relação linear
entre resultados de 2 testes 5,6 5,6 5,6
DCC (log10 cél. /mL)

DCC (log10 cél. /mL)


DCC (log10 cél. /mL)

5,4 5,4 5,4


 Exemplo real 5,2 5,2 5,2

▪ NMC, 2009, EUA 5 5 5

4,8 4,8
▪ r = 0.94 4,8
 Correlação linear 4,8 5 5,2 5,4 5,6 4,8 5 5,2 5,4 5,6
Fossomatic (log10 células/mL)
4,8 5 5,2 5,4 5,6
Fossomatic (log10 células/mL)
▪ “…demonstrate that the DCC Fossomatic (log10 células/mL)
▪ Ignora a escala das medidas
can be an efficient and  r = 1.0  r = 1.0  r = 1.0
accurate method for ▪ Não detecta viés de ▪ Todas as ▪ Teste 2 resulta em ▪ Teste 1 resulta em
counting somatic cells in medição observações estão
medidas maiores medidas maiores
na linha de
ovine milk”. ▪ Sensível a valores extremos concordância sistematicamente no intervalo de
perfeita valores maiores

18 19

3
22/06/2021

 Relação entre 2 variáveis contínuas

 Mudança na variável resposta (Y) que


José C. F. Pantoja
corresponde a uma dada mudança na variável
explanatória (X)
 Objetivo primário é estimar valores de Y que
são associados a um valor fixo de X

20 21

 Associação entre fluxo de leite pelo refrigerador e a  Usar um modelo matemático para quantificar a
temperatura de saída do leite relação linear
▪ Relação parece linear
𝜇𝑦/𝑥 = 𝛼 + 𝛽𝑥
5,0
4,5
4,0  𝜇𝑦/𝑥 = média de temperatura quando o fluxo de leite é 𝑥
3,5
3,0  Este modelo é a linha de regressão populacional
Temperatura (°C)

2,5 ▪ Equação de uma reta


2,0
1,5  Os parâmetros 𝛼 e 𝛽 são constantes
1,0 ▪ Coeficientes da equação
0,5
0,0  𝛼 é o intercepto (ordenada na origem)
0 20 40 60 80  𝛽 é a inclinação
Fluxo de Leite (kg/min)

22 23

 𝛼 = intercepto
𝜇𝑦/𝑥 = 𝛼 + 𝛽𝑥  𝜇𝑦/𝑥 = 𝛼 + 𝛽𝑥 → linha populacional
 𝛽 = inclinação
 Para cada valor de 𝑥, os valores de y seguem um
 𝛼 é a média da resposta Y distribuição 𝑁𝑜𝑟𝑚𝑎𝑙
quando x = 0
▪ Com média 𝜇𝑦/𝑥 e desvio padrão 𝜎𝑦/𝑥
 𝛽 é a mudança da média de Y ▪ Para cada x, há vários pontos espalhados ao redor de Y
que corresponde a uma
mudança de uma unidade em  O modelo abaixo é usado para acomodar esse “erro”
X (variação aleatória) ao redor de Y
▪ Se 𝛽 é positivo → 𝜇𝑦/𝑥 aumenta
 𝑦 = 𝛼 + 𝛽𝑥 + 𝜀
quando 𝑥 aumenta
▪ 𝜀 é a distância entre cada valor de Y e a linha de regressão na
▪ Se 𝛽 é negativo → 𝜇𝑦/𝑥 diminui
população
quando 𝑥 aumenta

24 25

4
22/06/2021

𝜺−: 𝒚 < 𝜇𝑦/𝑥


𝒚 𝒚
𝜺+∶ 𝒚 > 𝜇𝑦/𝑥

𝒙 𝒙

26 27

1) Para cada valor de 𝑥, a distribuição dos valores de 𝑦  O método de Quadrados Mínimos


é 𝑁 ~ (𝜇𝑦/𝑥 , 𝜎𝑦/𝑥 )  Encaixa uma linha reta em um conjunto de pontos (x, y)

5,0
2) A relação entre 𝜇𝑦/𝑥 e 𝑥 é descrita por uma reta
4,0
ෝ𝒊 )
(𝒙𝒊, 𝒚  𝑒 = 𝒚𝒊 − 𝒚
ෝ𝒊
▪ 𝜇𝑦/𝑥 = 𝛼 + 𝛽𝑥  𝑒 = resíduo
(𝒙𝒊, 𝒚𝒊 )
3,0
Temperatura (°C)

 Objetivo
3) O 𝜎𝑦/𝑥 é constante entre os valores de 𝑥 2,0
▪ Encaixar uma
▪ Homoscedasticidade 1,0 linha que resulta
0,0 nos menores
4) As observações y são independentes 0 20 40 60 80 resíduos
Fluxo de Leite (kg/min) possíveis

28 29

 Soma dos quadrados dos resíduos (SQR)  Variação ao redor da linha prevista
2  𝜎 2 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙 grande  𝜎 2 residual pequena
 SQR = Σ 𝑒𝑖 = Σ (𝑦𝑖 − 𝑦ො𝑖 )2
▪ O objetivo é minimizar a SQR
▪ Se a relação linear entre x e y for perfeita, a SQR = 0
𝑆𝑄𝑅 Σ (𝑦𝑖 −𝑦ො 𝑖 )2 𝒚
▪ 𝜎 2 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙 = = 𝒚
𝑛−2 𝑛−2

 Se a SQR é pequena, a maioria da variabilidade em 𝑦


pode ser explicada pela sua relação linear com 𝑥.
𝒙 𝒙

30 31

5
22/06/2021

 Soma dos quadrados dos resíduos (SQR)  Soma dos quadrados dos resíduos (SQR)
▪ Quantidade da variabilidade não explicada pelo modelo
▪ Outros fatores diferentes de X podem influenciar Y
2
 Σ 𝑒𝑖 መ 𝑖 )2
= Σ (𝑦𝑖 − 𝑦ො𝑖 )2 = Σ (𝑦𝑖 − 𝛼ො − 𝛽𝑥
 Variabilidade em Y
▪ Soma dos quadrados total = SQT = Σ (𝑦𝑖 ത 2
−𝑦) ▪ Usando conhecimentos de cálculo
▪ Desvios de cada y de sua média

Σ 𝑥𝑖 −𝑥ҧ (𝑦𝑖 −𝑦)



 𝜎 2 𝑑𝑒 𝑦 (SQT)  𝜎 2 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙 (SQR)  Declive 𝛽መ = Σ 𝑥𝑖 −𝑥ҧ 2
𝒚

 Ordenada na origem 𝛼ො = 𝑦ത − 𝛽መ 𝑥ҧ
𝑦ത

𝒙 𝒙

32 33

 Associação entre fluxo de leite pelo refrigerador e a  Objetivo é usar a regressão da amostra para fazer
temperatura de saída do leite inferências sobre a linha de regressão populacional

 Linha de regressão
5,0 መ
𝑦ො = 𝛼ො + 𝛽𝑥 𝜇𝑦/𝑥 = 𝛼 + 𝛽𝑥
Temperatura (°C)

4,0
▪ 𝑦ො = 1.89 + 0.03 𝑥
3,0
 Interpretação  𝛼ො & 𝛽መ = estimativas de ponto da população
2,0
1,0 ▪ α = média da temp. quando  𝛼ො & 𝛽መ vão ser diferentes para cada amostra que
0,0 fluxo = 0 (faz sentido???) obtivermos da população
0 50 100 ▪ β = aumento médio na
Fluxo de Leite (kg/min) temperatura para cada kg de  Precisamos do erro padrão desses estimadores para
aumento do fluxo de leite fazer testes de hipóteses e intervalos de confiança

34 35

 Distribuição amostral de 𝛽 (ângulo da reta)  Inferência para os coeficientes de regressão

 População  Hipótese
𝜷 = 0.05 ത 2
Σ (𝑦𝑖 −𝑦)
 𝑠𝑦 = 𝑛−2
▪ 𝐻0 : 𝛽 = 0
▪ Não há relação linear
𝜷 = 0.06
𝑠𝑦
𝜷 = 0.05  𝑝 𝛽መ =
𝑒ෞ ෡ 𝛽
𝛽− ෡(𝐻0) 𝛽෡
𝜷 = 0.04 Σ (𝑥𝑖 −𝑥)ҧ 2  𝑡= ෞ 𝛽 ෡ = ෞ 𝛽 ෡
𝑒𝑝 𝑒𝑝
𝑋ത𝜷 = 𝟎. 𝟎𝟓
▪ n-2 graus de liberdade
𝜷 = 0.05
 Erro padrão de 𝜷
 95% Intervalo de confiança
▪ 𝛽መ ± 1.96 𝑒ෞ
𝑝 𝛽መ

36 37

6
22/06/2021

 Fluxo de leite x temperatura de saída do leite  Fluxo de leite x temperatura de saída do leite
5,0  Linha de regressão  Linha de regressão
Temperatura (°C)

4,0 ▪ 𝑦ො = 1.89 + 0.03 𝑥 ▪ 𝑦ො = 1.89 + 0.03 𝑥


3,0
2,0  95% IC para β:  95% IC para β:
1,0 ▪ 𝛽መ + 1.96 (0.0042) ▪ (0.022 , 0.038)

0,0 ▪ 𝛽መ − 1.96 (0.0042)


0 50 100 ▪ (0.022 , 0.038)  Aumento médio de 0.03 ºC para cada kg/min. de aumento no
Fluxo de Leite (kg/min) fluxo de leite através do resfriador

 Podemos prever a temperatura usando a equação:


▪ Ex → qual seria a temp. média quando o fluxo = 60 kg/min?
▪ 𝑦ො = 1.89 + 0.03 𝑥 → 𝑦ො = 1.89 + 0.03 60 = 3.69 ºC

38 39

 1. Coeficiente de Determinação (𝑅 2 )  2. Gráficos de resíduos - Nuvem aleatória de pontos


▪ 𝑟 de Pearson ao quadrado - Todas as
suposições OK
▪ Varia de 0 a 1 (quadrado)
▪ 𝑅2 = 1: todos os pontos na linha
▪ 𝑅2 = 0: não há uma associação entre x e y

𝑹𝒆𝒔í𝒅𝒖𝒐
▪ Proporção da variabilidade entre os valores observados de Y
que é explicada pela regressão linear de y em x 𝒚
𝟎
𝑆𝑄𝐸
 𝑅2 = 1 − 𝑆𝑄𝑇

𝒙
𝑽𝒂𝒍𝒐𝒓 𝑷𝒓𝒆𝒗𝒊𝒔𝒕𝒐 𝒅𝒆 𝒀

40 41

- Gráficos de Quantis
- Variância aumentando com Y - Dados não lineares - QQ plot - Dados não normais
- Avaliar normalidade
2

2
𝑸𝒖𝒂𝒏𝒕𝒊𝒔 𝒅𝒆 𝒀

𝑸𝒖𝒂𝒏𝒕𝒊𝒔 𝒅𝒆 𝒀
𝑹𝒆𝒔í𝒅𝒖𝒐

𝑹𝒆𝒔í𝒅𝒖𝒐

𝟎 𝟎
0

0
-1

-1
-2

-2

-2 -1 0 1 2 -2 -1 0 1 2
𝑽𝒂𝒍𝒐𝒓 𝑷𝒓𝒆𝒗𝒊𝒔𝒕𝒐 𝒅𝒆 𝒀 𝑽𝒂𝒍𝒐𝒓 𝑷𝒓𝒆𝒗𝒊𝒔𝒕𝒐 𝒅𝒆 𝒀 𝑸𝒖𝒂𝒏𝒕𝒊𝒔 𝒅𝒆 𝒙 𝑸𝒖𝒂𝒏𝒕𝒊𝒔 𝒅𝒆 𝒙

42 43

7
22/06/2021

 β é uma medida de associação


𝑽𝒂𝒓𝒊á𝒗𝒆𝒍 𝑿
▪ Relação pode não ser causal

2
𝑸𝒖𝒂𝒏𝒕𝒊𝒔 𝒅𝒆 𝒀
 Não devemos extrapolar resultados para valores
𝑵𝒐𝒓𝒎𝒂𝒍 𝒑𝒂𝒅𝒓ã𝒐 0 1 fora do intervalo analisado
▪ Relação pode mudar fora do intervalo
𝑽𝒂𝒓𝒊á𝒗𝒆𝒍 𝒀
▪ Ex: Tornar-se não linear
-1 -2

𝑨𝒔𝒔𝒊𝒎é𝒕𝒓𝒊𝒄𝒂 à 𝒅𝒊𝒓𝒆𝒊𝒕𝒂 -2 -1 0 1 2
𝑸𝒖𝒂𝒏𝒕𝒊𝒔 𝒅𝒆 𝒙

44 45

 Quando a relação entre X e Y não é linear  Gráficos de dispersão


▪ Podemos aplicar uma transformação para torná-la linear
 Correlação

 Regressão linear
𝒍𝒐𝒈(𝒀)

▪ Teste estatístico
𝒀

 Interpretação de resultados

𝒙 𝒙

46 48

Você também pode gostar