Você está na página 1de 22

CAR00080

Correlação e Modelos Lineares

Prof. Lucas Helal

08-11-2023

1
Exemplo motivador

Sejam X e Y duas v.a. contínuas, respectivamente a altura e o peso de crianças de até 1 ano.
Xaltura ∼ x = 78, 6 cm, σ = 5 cm
Ypeso ∼ y = 9.800 g, σ = 100 g
NX,Y = 100 crianças

2
Exemplo Motivador

As variáveis A e B possuem alguma relação de dependência?

3
O Quarteto de Anscombe

x1 x2 x3 x4 y1 y2 y3 y4
10 10 10 8 8.04 9.14 7.46 6.58
8 8 8 8 6.95 8.14 6.77 5.76
13 13 13 8 7.58 8.74 12.74 7.71
9 9 9 8 8.81 8.77 7.11 8.84
11 11 11 8 8.33 9.26 7.81 8.47
14 14 14 8 9.96 8.10 8.84 7.04
6 6 6 8 7.24 6.13 6.08 5.25
4 4 4 19 4.26 3.10 5.39 12.50
12 12 12 8 10.84 9.13 8.15 5.56
7 7 7 8 4.82 7.26 6.42 7.91
5 5 5 8 5.68 4.74 5.73 6.89

O Quarteto de Anscombe

$Médias de x e y

Set x y
Anscombe Set 1 9 7.500909
Anscombe Set 2 9 7.500909
Anscombe Set 3 9 7.500000
Anscombe Set 4 9 7.500909

4
O Quarteto de Anscombe

Desvios médios de x e y

Set x y
Anscombe Set 1 3.316625 2.031568
Anscombe Set 2 3.316625 2.031657
Anscombe Set 3 3.316625 2.030424
Anscombe Set 4 3.316625 2.030578

5
Quarteto de Anscombe

As correlações entre x e y

Set r
Anscombe Set 1 0.8164205
Anscombe Set 2 0.8162365
Anscombe Set 3 0.8162867
Anscombe Set 4 0.8165214

6
O Quarteto de Anscombe

Os modelos, assumindo:
Y1 ∼ β0 + β1 x1 + ε
Y2 ∼ β0 + β2 x2 + ε
Y3 ∼ β0 + β3 x3 + ε
Y4 ∼ β0 + β4 x4 + ε

7
O Quarteto de Anscombe

Os coeficientes de cada modelo...

A B C D
(Intercept) 3.0000909 3.000909 3.0024545 3.0017273
x 0.5000909 0.500000 0.4997273 0.4999091

8
O Quarteto de Anscombe

E uma grata surpresa!


Anscombe Set 1 Anscombe Set 2

Anscombe Set 3 Anscombe Set 4

9
O Quarteto de Anscombe

Sempre faça o diagnóstico do seu modelo e dos seus dados!!

Modelo 1

Standardized residuals
Residuals vs Fitted Q−Q Residuals
2

9 9
Residuals

1
0

−1
−2

10 3 10
3

5 6 7 8 9 10 −1.5 −0.5 0.5 1.5

Fitted values Theoretical Quantiles


Standardized residuals

Standardized residuals
Scale−Location Residuals vs Leverage
10 9 3
2 9
1
0.5
0.8

0.5
Cook's distance
10
0.0

−2

3 1

5 6 7 8 9 10 0.00 0.10 0.20 0.30

Fitted values Leverage

10
Modelo 3

Standardized residuals
2 Residuals vs Fitted Q−Q Residuals
9 9
Residuals

1
0

−1
−2

10 3 10
3

5 6 7 8 9 10 −1.5 −0.5 0.5 1.5

Fitted values Theoretical Quantiles


Standardized residuals

Standardized residuals
Scale−Location Residuals vs Leverage

2
9 3 1
10 9 0.5
0.8

0
0.5
Cook's distance
10
0.0

−2
3 1

5 6 7 8 9 10 0.00 0.10 0.20 0.30

Fitted values Leverage

11
Questões

1. Quão forte é a relação linear entre duas variáveis?

Correlação Linear Simples

2. Qual a reta que melhor representa a relação linear entre as duas variáveis?

Regressão Linear Simples

12
Correlação Linear
A correlação linear simples é primariamente baseada na Correlação Linear de Pearson, também
compreendida por Coeficiente de Correlação Produto-Momento.

O Coeficiente de Correlação de Pearson avalia o quanto duas séries numéricas repousam sobre
uma linha reta, indicando assim o grau de sua associação linear.

Coeficiente de Correlação de Person (r):

covxy
r=
sx · sy

onde:

(x − x)(y − y)
P
covxy =
(n − 1)

13
Correlação Linear
• O coeficiente de Person (r) varia entre −1 e +1
• Valores negativos indicam relação inversa: x ↑ e y ↓

• Valores positivos indicam relação direta: x ↑ e y ↑


• Os valores rmax e rmin ocorrem quando todos os pontos estão sobre a reta
• r = +1

• r = -1

14
15
Correlação Linear

Exemplo Prático - Recém Nascido

E1: Em uma amostra de N = 42 nascimentos, foram observadas as v.a.:

• PAS do recém-nascido P ASRN = {70, 73, 73, 68, 76, 71, 71, 72, 73, 70, . . . }
• PAS da mãe P ASM ae = {114, 113, 114, 110, 118, 110, 124, 113, 118, 104, . . . }

Questiona-se:

1. A PAS de um recém-nascido e a PAS da mãe são variáveis linearmente correlacionadas?


2. A PAS da mãe pode ser explicada pela PAS do RN por meio de uma reta?
3. A PAS do RN pode ser explicada pela PAS da mãe por meio de uma reta?

16
Correlação Linear

Suposições do Teste

Homocedasticidade: a variabilidade de uma variável é influenciada pelo valor da outra?

Teste de Hipóteses

Teste de Correlação Linear de Pearson


Hipóteses estatísticas:
H=
H0 : ρ = 0
H1 : ρ ̸= 0
onde ρ é o coeficiente de correlação de Pearson entre a PAS do RN e da mãe.

17
Modelo de Regressão Linear
y β 0 + β1 x 1
X: é variável independente –> P ASM ae
Y : é variável dependente –> P ASRN
β0 : é o coeficiente linear da reta ∴ y = 0
β1 : é o coeficiente angular da reta ∴ o efeito de x em y, dada uma unidade em x, y se altera em k unidades

18
Modelo de Regressão Linear

Criando um banco de dados fictício para PAS da mãe e do RN.

PAS_MAE <- rnorm(50, 114, 6)


PAS_RN <- PAS_MAE*0.7 + rnorm(50, 0, 1)
PAS <- data.frame(
PAS_MAE = PAS_MAE,
PAS_RN = PAS_RN
)

Teste de Hipóteses

Assume que o coeficiente angular da relação linear PAS_MAE e PAS_RN é igual a zero.

H=
H0 : β1 = 0
H1 : β1 ̸= 0

19
Modelo de Regressão Linear

Ajuste linear amostral

# Modelo de Regressão Linear Simples m1

m1 <- lm(PAS_RN ~ PAS_MAE, data = PAS)


summary(m1)

##
## Call:
## lm(formula = PAS_RN ~ PAS_MAE, data = PAS)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.1420 -0.4700 -0.1773 0.6302 1.7343
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.80193 2.37363 -0.759 0.451
## PAS_MAE 0.71602 0.02059 34.768 <2e-16 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 0.8803 on 48 degrees of freedom
## Multiple R-squared: 0.9618, Adjusted R-squared: 0.961
## F-statistic: 1209 on 1 and 48 DF, p-value: < 2.2e-16

20
Interpretação da Reta

P ASRN (estimado) = β0 + β1 · P ASM ae , ⇐⇒ P ASmin ≤ P ASM ae ≤ P ASmax

21
Vamos ao R!

22

Você também pode gostar