Escolar Documentos
Profissional Documentos
Cultura Documentos
Aula 10 - Correlação e Regressão Linear
Aula 10 - Correlação e Regressão Linear
1 2
Temp Fluxo
3.89 25.20
3.89 39.60
3.89 53.10
3.33 44.55
2.78 31.95
2.22 21.60
1 2 1.67 11.25
1.67 4.95
1.11 3.15
Perguntas de interesse:
▪ Há uma relação entre o fluxo (kg/min) e a temperatura (C)
do leite que passa no refrigerador?
3 ▪ Se soubermos o fluxo, podemos prever a temperatura?
3 4
2,0
Cada ponto representa ത (𝑦𝑖 −𝑌)
Σ (𝑥𝑖 −𝑋) ത
uma combinação 1,0 𝑟= ത 2 ] Σ[(𝑦𝑖 −𝑌)
ത 2]
Σ[(𝑥𝑖 −𝑋)
▪ (𝑋𝑖 , 𝑌𝑖 ) 0,0
0 20 40 60 80
Interpretação? Fluxo de Leite (kg/min)
5 6
1
22/06/2021
7 8
9 10
11 12
2
22/06/2021
Suposições
r possui várias limitações ▪ Amostras normalmente distribuídas
▪ Amostras aleatórias
▪ Quantifica apenas uma relação linear entre duas ▪ Suposições provavelmente violadas...
variáveis
▪ Relação poder ser uma curva
13 14
15 17
4,8 4,8
▪ r = 0.94 4,8
Correlação linear 4,8 5 5,2 5,4 5,6 4,8 5 5,2 5,4 5,6
Fossomatic (log10 células/mL)
4,8 5 5,2 5,4 5,6
Fossomatic (log10 células/mL)
▪ “…demonstrate that the DCC Fossomatic (log10 células/mL)
▪ Ignora a escala das medidas
can be an efficient and r = 1.0 r = 1.0 r = 1.0
accurate method for ▪ Não detecta viés de ▪ Todas as ▪ Teste 2 resulta em ▪ Teste 1 resulta em
counting somatic cells in medição observações estão
medidas maiores medidas maiores
na linha de
ovine milk”. ▪ Sensível a valores extremos concordância sistematicamente no intervalo de
perfeita valores maiores
18 19
3
22/06/2021
20 21
Associação entre fluxo de leite pelo refrigerador e a Usar um modelo matemático para quantificar a
temperatura de saída do leite relação linear
▪ Relação parece linear
𝜇𝑦/𝑥 = 𝛼 + 𝛽𝑥
5,0
4,5
4,0 𝜇𝑦/𝑥 = média de temperatura quando o fluxo de leite é 𝑥
3,5
3,0 Este modelo é a linha de regressão populacional
Temperatura (°C)
22 23
𝛼 = intercepto
𝜇𝑦/𝑥 = 𝛼 + 𝛽𝑥 𝜇𝑦/𝑥 = 𝛼 + 𝛽𝑥 → linha populacional
𝛽 = inclinação
Para cada valor de 𝑥, os valores de y seguem um
𝛼 é a média da resposta Y distribuição 𝑁𝑜𝑟𝑚𝑎𝑙
quando x = 0
▪ Com média 𝜇𝑦/𝑥 e desvio padrão 𝜎𝑦/𝑥
𝛽 é a mudança da média de Y ▪ Para cada x, há vários pontos espalhados ao redor de Y
que corresponde a uma
mudança de uma unidade em O modelo abaixo é usado para acomodar esse “erro”
X (variação aleatória) ao redor de Y
▪ Se 𝛽 é positivo → 𝜇𝑦/𝑥 aumenta
𝑦 = 𝛼 + 𝛽𝑥 + 𝜀
quando 𝑥 aumenta
▪ 𝜀 é a distância entre cada valor de Y e a linha de regressão na
▪ Se 𝛽 é negativo → 𝜇𝑦/𝑥 diminui
população
quando 𝑥 aumenta
24 25
4
22/06/2021
𝒙 𝒙
26 27
5,0
2) A relação entre 𝜇𝑦/𝑥 e 𝑥 é descrita por uma reta
4,0
ෝ𝒊 )
(𝒙𝒊, 𝒚 𝑒 = 𝒚𝒊 − 𝒚
ෝ𝒊
▪ 𝜇𝑦/𝑥 = 𝛼 + 𝛽𝑥 𝑒 = resíduo
(𝒙𝒊, 𝒚𝒊 )
3,0
Temperatura (°C)
Objetivo
3) O 𝜎𝑦/𝑥 é constante entre os valores de 𝑥 2,0
▪ Encaixar uma
▪ Homoscedasticidade 1,0 linha que resulta
0,0 nos menores
4) As observações y são independentes 0 20 40 60 80 resíduos
Fluxo de Leite (kg/min) possíveis
28 29
Soma dos quadrados dos resíduos (SQR) Variação ao redor da linha prevista
2 𝜎 2 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙 grande 𝜎 2 residual pequena
SQR = Σ 𝑒𝑖 = Σ (𝑦𝑖 − 𝑦ො𝑖 )2
▪ O objetivo é minimizar a SQR
▪ Se a relação linear entre x e y for perfeita, a SQR = 0
𝑆𝑄𝑅 Σ (𝑦𝑖 −𝑦ො 𝑖 )2 𝒚
▪ 𝜎 2 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙 = = 𝒚
𝑛−2 𝑛−2
30 31
5
22/06/2021
Soma dos quadrados dos resíduos (SQR) Soma dos quadrados dos resíduos (SQR)
▪ Quantidade da variabilidade não explicada pelo modelo
▪ Outros fatores diferentes de X podem influenciar Y
2
Σ 𝑒𝑖 መ 𝑖 )2
= Σ (𝑦𝑖 − 𝑦ො𝑖 )2 = Σ (𝑦𝑖 − 𝛼ො − 𝛽𝑥
Variabilidade em Y
▪ Soma dos quadrados total = SQT = Σ (𝑦𝑖 ത 2
−𝑦) ▪ Usando conhecimentos de cálculo
▪ Desvios de cada y de sua média
Ordenada na origem 𝛼ො = 𝑦ത − 𝛽መ 𝑥ҧ
𝑦ത
𝒙 𝒙
32 33
Associação entre fluxo de leite pelo refrigerador e a Objetivo é usar a regressão da amostra para fazer
temperatura de saída do leite inferências sobre a linha de regressão populacional
Linha de regressão
5,0 መ
𝑦ො = 𝛼ො + 𝛽𝑥 𝜇𝑦/𝑥 = 𝛼 + 𝛽𝑥
Temperatura (°C)
4,0
▪ 𝑦ො = 1.89 + 0.03 𝑥
3,0
Interpretação 𝛼ො & 𝛽መ = estimativas de ponto da população
2,0
1,0 ▪ α = média da temp. quando 𝛼ො & 𝛽መ vão ser diferentes para cada amostra que
0,0 fluxo = 0 (faz sentido???) obtivermos da população
0 50 100 ▪ β = aumento médio na
Fluxo de Leite (kg/min) temperatura para cada kg de Precisamos do erro padrão desses estimadores para
aumento do fluxo de leite fazer testes de hipóteses e intervalos de confiança
34 35
População Hipótese
𝜷 = 0.05 ത 2
Σ (𝑦𝑖 −𝑦)
𝑠𝑦 = 𝑛−2
▪ 𝐻0 : 𝛽 = 0
▪ Não há relação linear
𝜷 = 0.06
𝑠𝑦
𝜷 = 0.05 𝑝 𝛽መ =
𝑒ෞ 𝛽
𝛽− (𝐻0) 𝛽
𝜷 = 0.04 Σ (𝑥𝑖 −𝑥)ҧ 2 𝑡= ෞ 𝛽 = ෞ 𝛽
𝑒𝑝 𝑒𝑝
𝑋ത𝜷 = 𝟎. 𝟎𝟓
▪ n-2 graus de liberdade
𝜷 = 0.05
Erro padrão de 𝜷
95% Intervalo de confiança
▪ 𝛽መ ± 1.96 𝑒ෞ
𝑝 𝛽መ
36 37
6
22/06/2021
Fluxo de leite x temperatura de saída do leite Fluxo de leite x temperatura de saída do leite
5,0 Linha de regressão Linha de regressão
Temperatura (°C)
38 39
𝑹𝒆𝒔í𝒅𝒖𝒐
▪ Proporção da variabilidade entre os valores observados de Y
que é explicada pela regressão linear de y em x 𝒚
𝟎
𝑆𝑄𝐸
𝑅2 = 1 − 𝑆𝑄𝑇
𝒙
𝑽𝒂𝒍𝒐𝒓 𝑷𝒓𝒆𝒗𝒊𝒔𝒕𝒐 𝒅𝒆 𝒀
40 41
- Gráficos de Quantis
- Variância aumentando com Y - Dados não lineares - QQ plot - Dados não normais
- Avaliar normalidade
2
2
𝑸𝒖𝒂𝒏𝒕𝒊𝒔 𝒅𝒆 𝒀
𝑸𝒖𝒂𝒏𝒕𝒊𝒔 𝒅𝒆 𝒀
𝑹𝒆𝒔í𝒅𝒖𝒐
𝑹𝒆𝒔í𝒅𝒖𝒐
𝟎 𝟎
0
0
-1
-1
-2
-2
-2 -1 0 1 2 -2 -1 0 1 2
𝑽𝒂𝒍𝒐𝒓 𝑷𝒓𝒆𝒗𝒊𝒔𝒕𝒐 𝒅𝒆 𝒀 𝑽𝒂𝒍𝒐𝒓 𝑷𝒓𝒆𝒗𝒊𝒔𝒕𝒐 𝒅𝒆 𝒀 𝑸𝒖𝒂𝒏𝒕𝒊𝒔 𝒅𝒆 𝒙 𝑸𝒖𝒂𝒏𝒕𝒊𝒔 𝒅𝒆 𝒙
42 43
7
22/06/2021
2
𝑸𝒖𝒂𝒏𝒕𝒊𝒔 𝒅𝒆 𝒀
Não devemos extrapolar resultados para valores
𝑵𝒐𝒓𝒎𝒂𝒍 𝒑𝒂𝒅𝒓ã𝒐 0 1 fora do intervalo analisado
▪ Relação pode mudar fora do intervalo
𝑽𝒂𝒓𝒊á𝒗𝒆𝒍 𝒀
▪ Ex: Tornar-se não linear
-1 -2
𝑨𝒔𝒔𝒊𝒎é𝒕𝒓𝒊𝒄𝒂 à 𝒅𝒊𝒓𝒆𝒊𝒕𝒂 -2 -1 0 1 2
𝑸𝒖𝒂𝒏𝒕𝒊𝒔 𝒅𝒆 𝒙
44 45
Regressão linear
𝒍𝒐𝒈(𝒀)
▪ Teste estatístico
𝒀
Interpretação de resultados
𝒙 𝒙
46 48