Escolar Documentos
Profissional Documentos
Cultura Documentos
Semestre: 2023-2
Correlação e Regressão Linear
Frequentemente, estamos interessados em estudar a relação en-
tre duas variáveis quantitativas. Exemplos:
P
n
(yi − y )(xi − x)
i=1
corr (X , Y ) = r = s .
P
n
2
P
n
(yi − y ) (xi − x)2
i=1 i=1
Yi = β0 + β1 Xi + εi ,
em que:
Y : variável dependente (resposta ou regredida);
X : variável independente (explicativa ou regressora);
β0 e β1 são os parâmetros desconhecidos do modelo e precisam
ser estimados;
ε: é o erro (ou componente) aleatório. Esse erro pode ser pen-
sado como uma “falha” da equação linear em se ajustar aos da-
dos. Por exemplo, erro pode ser devido ao efeito de variáveis não
consideradas no modelo e de erros de medição.
Estimação dos parâmetros por Mínimos Quadrados Ordinários (MQO)
Y
bi = b0 + b1 xi , i = 1, 2, . . . , n,
X
n X
n
SQR(β0 , β1 ) = ε2i = (Yi − β0 − β1 xi )2
i=1 i=1
∂SQR(β0 , β1 ) X n
= −2 (yi − β0 − β1 xi ) = 0.
∂β0
i=1
∂SQR(β1 , β1 ) X n
= −2 (yi − β0 − β1 xi )xi = 0.
∂β1
i=1
Encontrando um sistema de duas equações. Resolvendo este
sistema de equações simultaneamente, obtemos os estimadores
de Mínimos Quadrados de β0 e β1 .
P
n
(xi − x)(yi − y )
b1 = i=1
P
n
e b0 = y − b1 x,
(xi − x)2
i=1
1P n 1P n
em que x = xi e y = yi
n i=1 n i=1
Exemplo
Os técnicos da empresa de refrigerador suspeitaram que a ocorrência do corte de gave-
tas de legumes fora de esquadro pudessem estar relacionada com a variação de tensão
na rede elétrica. Os dados sobre a tensão na rede elétrica (x) e a variação no corte (y)
estão apresentados adiante.
Será que há uma relação entre a variação no corte da gaveta de legumes fora de esquadro com a variação de tensão
na rede elétrica?
Exemplo
O coeficiente de correlação linear para os dados da figura acima é r = −0, 9764 (valor próximo de - 1). Portanto,
conclui-se que existe uma forte correlação linear negativa entre a tensão na rede elétrica e a variação no corte das
gavetas de legumes do refrigerador produzido pela indústria.
As estimativas dos parâmetros do modelo de regressão linear
simples para o exemplo das gavetas de legumes do refrigerador
e dado por:
y = β0 + β1 Xi + εi , i = 1, 2, . . . , 35.
Residuals:
Min 1Q Median 3Q Max
-0.49073 -0.24984 0.05056 0.20238 0.44287
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 94.95741 3.03084 31.33 <2e-16 ***
RedeEletrica -0.35627 0.01385 -25.72 <2e-16 ***
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
X
n X
n X
n
(yi − y )2 = (ybi − y )2 + (yi − yb)2 (3)
i=1 i=1 i=1
MQregressão = SQregressão
1 e MQresidual = SQ(n−2)
residual
Ajuste do modelo de regessão linear simples para o exemplo das gavetas de legumes do refrigerador.
Response: Corte
Df Sum Sq Mean Sq F value Pr(>F)
RedeEletrica 1 50.394 50.394 661.6 < 2.2e-16 ***
Residuals 33 2.514 0.076
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Tabela: A Tabela Anova para o modelo.
Total 34 52,908 — —
SQregressão = 1 − SQresidual
R2 =
SQtotal SQtotal
Outra forma de encontrar R 2 para o caso de regressão linear
simples.
R2 = r 2,
em que r é o coeficiente de correlação amostral de Pearson.
yb = b0 + b1 x ∗ .
O resultado é uma estimativa pontual para o novo valor da re-
sposta.
Suponha o interesse do técnico é predizer o valor da variação
do corte da gaveta quando a tensão da rede elétrica é 220 volts.
Para saber o valor da variação do corte, substitua o valor 220 na
equação abaixo.
A equação de regressão ajustada
Y = Xβ + ϵ
em que Yn é um vetor de dimensão n × 1 da variável resposta, Xn é uma matriz de dimensão n × p das variáveis
X
n X
n
S= ϵ2i = [Yi − (β0 + β1 Xi1 + . . . + βk Xik )]2 (4)
i=1 i=1
Response: Dano
Df Sum Sq Mean Sq F value Pr(>F)
Altura 1 90.957 90.957 41.644 5.952e-06 ***
Dens 1 52.610 52.610 24.087 0.0001329 ***
Residuals 17 37.131 2.184
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
> ModeloPes=lm(Dano~Altura + Dens, data=DadosPessego)
> summary(ModeloPes)
Call:
lm(formula = Dano ~ Altura + Dens, data = DadosPessego)
Residuals:
Min 1Q Median 3Q Max
-3.4916 -0.5827 -0.0393 1.0103 2.3167
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -37.79232 7.33560 -5.152 7.98e-05 ***
Altura 0.01115 0.00411 2.712 0.014787 *
Dens 39.79177 8.10778 4.908 0.000133 ***
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
ei = yi − ybi , i = 1, 2, . . . , n,
A Figura (c) indica que os erros não têm variância constante. Ocorre quando a variância
dos erros é maior para valores intermediários de ybi e, portanto, também indica que os
erros não têm variância constante. Quando é detectado que a variância do erro não
é constante uma solução para este problema consiste em realizar transformações na
variável resposta para estabilizar a variância.
Figura: Gráfico dos Resíduos (ei ) contra os Valores Preditos (ybi ).
shapiro.test(residuals(Modelo))
data: residuals(Modelo)
W = 0.9514, p-value = 0.1251