Você está na página 1de 56

Correlação e Regressão Linear

Disciplina MAT236 - Métodos Estatísticos

Professora: Silvia Regina

Universidade Federal da Bahia


Departamento de Estatística

Semestre: 2023-2
Correlação e Regressão Linear
Frequentemente, estamos interessados em estudar a relação en-
tre duas variáveis quantitativas. Exemplos:

Rendimento do produto e a temperatura de operação do pro-


cesso.
A porcentagem da pureza do oxigênio e a porcentagem de
hidrocarbonetos presentes no condensador da unidade de
destilação.
Tempo de estudo e a nota na prova.
A correlação e a regressão são técnicas utilizadas para verificar
se há uma relação entre variáveis na população. A correlação
linear tem a finalidade medir a força, ou grau, de relacionamento
entre duas variáveis e regressão investiga a relação entre duas
ou mais variáveis relacionadas.
Correlação Linear

Geralmente, a investigação da relação entre variáveis começa


com a construção do gráfico de dispersão. Esse gráfico é um
dispositivo útil porque permite verificar de forma visual se existe
ou não relação entre as variáveis e se essa relação pode ser
linear.
Correlação Linear
Verificar se há relação entre a resistência à compressão (em
Mpa) do cimento e a porcentagem (0 a 9%) da cinza de carvão
mineral usando na composição de cimento.

Parece existir uma relação entre as variáveis, porque, no con-


junto de dados, observa-se que à medida que aumenta a por-
centagem de carvão menor é a resistência do cimento.
Correlação Linear
No processo de queima de massa cerâmica para pavimento, cor-
pos de prova foram avaliados por três variáveis: retração linear
(%), resistência mecânica (MPa) e absorção de água (%). Os
resultados são apresentados a seguir:
Correlação Linear

Para uma amostra de tamanho n, em que para cada elemento


i (i = 1, . . . , n) observamos os pares de valores (xi , yi ), o coefi-
ciente de correlação linear entre X e Y é calculado por:

P
n
(yi − y )(xi − x)
i=1
corr (X , Y ) = r = s .
P
n
2
P
n
(yi − y ) (xi − x)2
i=1 i=1

O valor do coeficiente correlação varia no intervalo [−1; 1].


Correlação linear - mede a intensidade ou grau de associação
linear entre duas variáveis aleatórias X e Y .
A correlação pode ser forte, moderada, fraca ou nula. Os limites
destas faixas não são claramente definidos e podem variar de-
pendendo do fenômeno estudado.
Quanto mais próximo de −1 e 1, mais forte é o grau de relação
linear existente entre X e Y . Por outro lado, quanto mais próximo
de 0 (zero), mais fraco é o grau, ou a força, desta relação.
Interpretação gráfica
Interpretação dos valores da correlação linear:

r = 1 =⇒ correlação linear positiva e perfeita.

0 < r < 1 =⇒ correlação linear é positiva.

r = −1 =⇒ correlação linear negativa e perfeita.

−1 < r < 0 =⇒ correlação linear é negativa.

r = 0 =⇒ inexistência de correlação linear.


O coeficiente de correlação linear para os dados da figura acima,
r = −0.666 . Portanto, conclui-se que existe uma correlação
linear negativa entre a porcentagem de carvão e a resistência do
cimento.
Observações envolvendo correlação

É incorreto concluir que correlação implica causalidade.

O valor da correlação (r) não é afetado pela escolha de X


ou Y . Permutando todos os valores de X e Y , o valor de r
permanecerá inalterado.

Pode haver alguma relação entre X e Y mesmo quando não


há correlação linear significativa.
Um outro cuidado que deve ser tomado ao se interpretar corre-
lação é associar um diagrama de dispersão ao conjunto de da-
dos.

X = 9, 00, Y = 7, 50, sX = 3, 32, sY = 2, 03 e r = 0, 816


Para cada um dos conjuntos de dados acima, temos: r = 0, 816.
Porém, esses conjuntos apresentam disposições completamente
diferentes no diagrama de dispersão.
Regressão Linear Simples
O modelo mais simples de regressão linear, em que apenas uma
variável explicativa é estudada e a função de regressão é linear,
é definido por:

Yi = β0 + β1 Xi + εi ,

em que:
Y : variável dependente (resposta ou regredida);
X : variável independente (explicativa ou regressora);
β0 e β1 são os parâmetros desconhecidos do modelo e precisam
ser estimados;
ε: é o erro (ou componente) aleatório. Esse erro pode ser pen-
sado como uma “falha” da equação linear em se ajustar aos da-
dos. Por exemplo, erro pode ser devido ao efeito de variáveis não
consideradas no modelo e de erros de medição.
Estimação dos parâmetros por Mínimos Quadrados Ordinários (MQO)

Os valores dos parâmetros β0 , β1 , na prática, são desconhe-


cidos. O objetivo é estima-los baseados em dados amostrais.
Tais dados são constituídos de n pares de observações (yi ; xi ).

O método Mínimos Quadrados é frequentemente usado para


ajustar o modelo de regressão. A reta estimada, por meio da
amostra, pelo método de Mínimos Quadrados é denotada por:

Y
bi = b0 + b1 xi , i = 1, 2, . . . , n,

em que b0 e b1 são as estimativas de β0 e β1 , respectivamente.


Exemplo
Suponha que o interesse seja construir um modelo de regressão
que relacione o efeito do ar condicionado, usando por hora, e o
consumo de energia elétrica (em kilowatt/hora).
O Método dos Mínimos Quadrados consiste em estimar β0 e β1
que determinam a reta de regressão de forma que

X
n X
n
SQR(β0 , β1 ) = ε2i = (Yi − β0 − β1 xi )2
i=1 i=1

seja o menor possível.


Os estimadores de β0 e β1 são obtidos tomando as derivadas
parciais SQR(β0 , β1 ) em relação a β0 e β1 e igualando a zero.
Assim, obtemos

∂SQR(β0 , β1 ) X n
= −2 (yi − β0 − β1 xi ) = 0.
∂β0
i=1

∂SQR(β1 , β1 ) X n
= −2 (yi − β0 − β1 xi )xi = 0.
∂β1
i=1
Encontrando um sistema de duas equações. Resolvendo este
sistema de equações simultaneamente, obtemos os estimadores
de Mínimos Quadrados de β0 e β1 .

P
n
(xi − x)(yi − y )
b1 = i=1
P
n
e b0 = y − b1 x,
(xi − x)2
i=1

1P n 1P n
em que x = xi e y = yi
n i=1 n i=1
Exemplo
Os técnicos da empresa de refrigerador suspeitaram que a ocorrência do corte de gave-
tas de legumes fora de esquadro pudessem estar relacionada com a variação de tensão
na rede elétrica. Os dados sobre a tensão na rede elétrica (x) e a variação no corte (y)
estão apresentados adiante.

Será que há uma relação entre a variação no corte da gaveta de legumes fora de esquadro com a variação de tensão
na rede elétrica?
Exemplo

O coeficiente de correlação linear para os dados da figura acima é r = −0, 9764 (valor próximo de - 1). Portanto,
conclui-se que existe uma forte correlação linear negativa entre a tensão na rede elétrica e a variação no corte das
gavetas de legumes do refrigerador produzido pela indústria.
As estimativas dos parâmetros do modelo de regressão linear
simples para o exemplo das gavetas de legumes do refrigerador
e dado por:

y = β0 + β1 Xi + εi , i = 1, 2, . . . , 35.

As estimativas dos parâmetros são dadas por:

1675792, 38(595, 3) − 7657, 60(130103, 39)


b0 = = 94, 96
35(1675792, 38) − (7657, 6)2
e
35(130103, 39) − 595, 3(7657, 6)
b1 = = −0, 3563 ≈ −0, 36
35(1675792, 38) − (7657, 6)2
Modelo=lm(Corte~RedeEletrica, data=Dados)
summary(Modelo)
Call:
lm(formula = Corte ~ RedeEletrica, data = Dados)

Residuals:
Min 1Q Median 3Q Max
-0.49073 -0.24984 0.05056 0.20238 0.44287

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 94.95741 3.03084 31.33 <2e-16 ***
RedeEletrica -0.35627 0.01385 -25.72 <2e-16 ***

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 0.276 on 33 degrees of freedom


Multiple R-squared: 0.9525,Adjusted R-squared: 0.9511
F-statistic: 661.6 on 1 and 33 DF, p-value: < 2.2e-16
Ajustado um modelo de regressão linear simples para o exemplo
das gavetas de legumes do refrigerador produzido pela indústria,
obtemos

b0 = 94, 96 e b1 = −0, 36.

A equação de regressão ajustada é portanto dada por:

ybi = 94, 96 − 0, 36xi , i = 1, 2, 3, . . . , 35. (1)


Interpretação dos parâmetros

Se o modelo de regressão linear simples for considerado ad-


equado para descrever a relação linear entre Y e X , os coefi-
cientes β0 e β1 são interpretados do seguinte modo:

Se a variação dos dados em X incluir x = 0, então o inter-


cepto β0 é a resposta esperada (resposta média) em x = 0.
Caso contrário, β0 não apresenta interpretação prática;

O parâmetro β1 é interpretado como a mudança no valor


esperado de Y produzido por uma unidade de mudança
em X .
A equação de regressão ajustada:

ybi = 94, 96 − 0, 36xi , i = 1, 2, 3, . . . , 35. (2)

O valor b1 = −0, 36 informa que para cada aumento de 1 volt na


tensão na rede elétrica, a variação no corte das gavetas diminui,
em média, 0,36 mm.
Observe que o intervalo dos valores coletados para a tensão da
rede elétrica não contempla o valor zero. Neste exemplo, o valor
94,96 não tem uma interpretação prática como termo separado
do modelo de regressão.
Após o ajuste do modelo de regressão é importante verificar se ,
de fato, existe uma relação linear entre as variáveis x e y.

Uma forma de avaliar relação entre x e y é testar o coeficiente β1


do modelo de regressão. Realizar o seguinte teste de hipóteses
adiante.
H0 : β1 = 0 versus H1 : β1 ̸= 0

Se rejeitar H0 significa que existe uma relação linear entre x e y;


ou seja, que x é importante para explicar a variabilidade em y.
Análise de Variância no Modelo de Regressão

A Analise de Variância é baseada na partição da variação total


da variável dependente Y que pode ser decomposta em duas
partes: uma explicada pelo modelo de regressão ajustado e outra
não explicada, conforme mostra a equação abaixo.

X
n X
n X
n
(yi − y )2 = (ybi − y )2 + (yi − yb)2 (3)
i=1 i=1 i=1

Simbolicamente, podemos representar a equação (3) por:

SQtotal = SQregressão + SQresidual


Tabela: Análise de Variância para o Modelo de Regressão Linear
Simples.

Fonte de Graus de Soma de Quadrados Estatística


Variaçao Liberdade Quadrados Médios

SQregressão MQregressão MQregressão


Regressão 1 F = SQresidual
Residual n−2 SQresidual MQresidual

Total n−1 SQtotal

MQregressão = SQregressão
1 e MQresidual = SQ(n−2)
residual
Ajuste do modelo de regessão linear simples para o exemplo das gavetas de legumes do refrigerador.

> Modelo=lm(Corte~RedeEletrica, data=Dados)


> anova(Modelo)
Analysis of Variance Table

Response: Corte
Df Sum Sq Mean Sq F value Pr(>F)
RedeEletrica 1 50.394 50.394 661.6 < 2.2e-16 ***
Residuals 33 2.514 0.076

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Tabela: A Tabela Anova para o modelo.

Fonte de Graus de Soma de Quadrados Estatística P-valor


Variaçao Liberdade Quadrados Médios

Regressão 1 50,394 50,394 661,6 2, 2e−16

Residual 33 2,514 0,076

Total 34 52,908 — —

Estatística de teste: F = 50,4 0,08 = 661, 3 > F0,05;1;33 =


4, 139(Tabela) ⇒ rejeitar H0 . O p-valor = 2, 2e−16 < α = 0, 05
⇒ rejeitar H0 . Os dois resultados informam que existe uma re-
lação linear entre x e y.
Coeficiente de Determinação - Regressão Simples
Para avaliar a qualidade do ajuste do modelo, podemos utilizar
o coeficiente de determinação, R 2 , que mede a porcentagem da
variação total de Y explicada pela regressão. Em regressão line-
ar esse coeficiente pode ser obtido por

SQregressão = 1 − SQresidual
R2 =
SQtotal SQtotal
Outra forma de encontrar R 2 para o caso de regressão linear
simples.
R2 = r 2,
em que r é o coeficiente de correlação amostral de Pearson.

O valor de R 2 varia no intervalo [0; 1].


Quanto maior for o coeficiente de determinação, maior será a
redução na variação total de Y pela introdução da variável in-
dependente X . Para o exemplo do refrigerador, o coeficiente de
determinação é:
SQregressão = 50, 394 = 0, 95.
R2 =
SQtotal 52, 908
O valor acima revela que aproximadamente 95% da variabilidade
no corte das gavetas produzidas pela indústria é explicada pela
tensão na rede elétrica (por meio do modelo proposto) e que 5%
são atribuídas a outras causas.

O coeficiente de determinação dever ser empregado com muita


cautela. Isso porque, R 2 alto, pode ser espúrio (não refletir a
verdadeira relação linear entre as variáveis envolvidas).
Predição de novas observações

É possível utilizar o modelo de regressão para predizer valores


para a variável resposta. Voltando ao exemplo, o técnico da
indústria deseja conhecer quanto será a variação do corte da
gaveta para uma determinada tensão de rede elétrica x ∗ .
Quando o interesse for predizer uma nova observação y corres-
pondendo a um nível especificado da variável preditora x. Deno-
tando x = x ∗ como sendo este o valor de interesse, então,

yb = b0 + b1 x ∗ .
O resultado é uma estimativa pontual para o novo valor da re-
sposta.
Suponha o interesse do técnico é predizer o valor da variação
do corte da gaveta quando a tensão da rede elétrica é 220 volts.
Para saber o valor da variação do corte, substitua o valor 220 na
equação abaixo.
A equação de regressão ajustada

ybi = 94, 96 − 0, 36xi , i = 1, 2, 3, . . . , 35.

Substituíndo 220 volts na equação acima.

ybi = 94, 96 − 0, 36(220) = 15, 76mm.

O resultado 15,76 mm é uma estimativa pontual para a variação


média do corte da gaveta de legume.
Predição no RStudio
# Predição ---------------------------------------------
newdata = data.frame(RedeEletrica= 220)
y_Predicao <- predict(Modelo, newdata)
y_Predicao
1
16.57697

Usando os valores dos coeficientes com aproximação

ybi = 94, 96 − 0, 36(220) = 15, 76mm.

Usando os valores dos coeficientes sem aproximação

ybi = 94, 95741 − 0, 35627(220) = 16, 57801mm.


Observações importantes

Deve-se tomar muito cuidado quando estender uma reta


de regressão ajustada para se fazer predições fora do
intervalo de variação dos valores de x.

Fora do intervalo de variação dos valores observados de x,


o padrão da relação entre as variáveis pode mudar drasti-
camente para valores distantes de x. Os dados coletados
podem não apresentar indicação sobre a natureza desta
mudança.
Modelo de Regressão Linear Múltipla
Suponha o modelo de regressão linear múltipla definido abaixo

Yi = β0 + β1 Xi1 + β2 Xi2 + . . . + βp Xik + ϵi , para i = 1, . . . , n

O modelo acima na notação matricial é dado por

Y = Xβ + ϵ

em que Yn é um vetor de dimensão n × 1 da variável resposta, Xn é uma matriz de dimensão n × p das variáveis

independentes, βn é um vetor de dimensão p × 1 dos parâmetros a serem estimados com p = k + 1 e ϵ é um vetor

de dimensão n × 1 dos erros.


De forma análoga para o modelo de regressão simples, a esti-
mação de mínimos quadrados para o modelo de regressão linear
múltipla baseia-se na determinação de β0 , . . . , βk que minimizem
a soma de quadrados dos erros:

X
n X
n
S= ϵ2i = [Yi − (β0 + β1 Xi1 + . . . + βk Xik )]2 (4)
i=1 i=1

Para minimizar S deve-se derivar a equação (3) em relação a β


e igualar a zero. Dessa forma, encontra-se que o estimador de
mínimos quadrados de β é dado por
Um artigo no Journal of Agricultural Engineering and Research
(2001, pg. 75) apresenta um modelo de predição para o dano
ao pêssego causado pela altura que cae como uma diretriz para
as operações de colheita e pós-colheita. Dados são exibidos na
tabela abaixo.
Análise descritiva para verificar se há uma relação entre as vari-
áveis. Na figura abaixo são apresentadas as correlações, os dia-
gramas de dispersão e as curvas de densidades das variáveis do
exemplo do dano no pêssego.
Ajuste do modelo de regessão linear múltiplo para o exemplo dos pessêgos.

Yi = β0 + β1 Alturai + β2 Densidadei , para i = 1, . . . , 20.

> ModeloPes=lm(Dano~Altura + Dens, data=DadosPessego)


> anova(ModeloPes)
Analysis of Variance Table

Response: Dano
Df Sum Sq Mean Sq F value Pr(>F)
Altura 1 90.957 90.957 41.644 5.952e-06 ***
Dens 1 52.610 52.610 24.087 0.0001329 ***
Residuals 17 37.131 2.184

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
> ModeloPes=lm(Dano~Altura + Dens, data=DadosPessego)
> summary(ModeloPes)

Call:
lm(formula = Dano ~ Altura + Dens, data = DadosPessego)

Residuals:
Min 1Q Median 3Q Max
-3.4916 -0.5827 -0.0393 1.0103 2.3167

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -37.79232 7.33560 -5.152 7.98e-05 ***
Altura 0.01115 0.00411 2.712 0.014787 *
Dens 39.79177 8.10778 4.908 0.000133 ***

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 1.478 on 17 degrees of freedom


Multiple R-squared: 0.7945,Adjusted R-squared: 0.7703
F-statistic: 32.87 on 2 and 17 DF, p-value: 1.441e-06
Coeficiente de Determinação - Regressão Múltipla

No caso do modelo de regressão linear múltiplo, o coeficiente de


determinação ajustado é definido por:
SQRes
(n−p)
Ra2 = 1 − SQTotal
n−1

O Ra2 penaliza a inclusão de variáveis não importantes no mode-


lo, permitindo comparar adequadamente, por exemplo, modelos
com diferentes complexidades (números de variáveis indepen-
dentes). O valor de Ra2 varia no intervalo [0; 1].
Adequação do modelo de regressão linear ajustado

Após ajustar o modelo de regressão linear simples devemos,


antes de adotá-lo definitivamente para fazer predições, verificar:

Se o modelo se ajusta bem aos dados;

Se as suposições básicas para o modelo encontram-se satis-


feitas.
Diagnóstico Básico em Regressão
As suposições do modelo de regressão que devem ter sua vali-
dade verificada são:
1. O relacionamento entre y e x é linear;
2. O erro ε tem média zero;
3. O erro ε tem variância constante;
4. Os erros são não correlacionado;
5. Os erros tem distribuição normal.

Se algumas das suposições acima não se confirmarem, o mode-


lo é considerado inadequado para fazer as inferências de interes-
se. Neste caso, deve-se procurar outro modelo mais adequado
ou ser empregada outra abordagem para a análise do problema.
Um resíduo é definido por:

ei = yi − ybi , i = 1, 2, . . . , n,

em que yi é o valor observado e ybi é o correspondente valor


estimado por meio do modelo de regressão.

É conveniente visualizar os resíduos como valores observados


para o erro εi que aparecem no modelo.

Portanto, é razoável esperar que quaisquer desvios das su-


posições feitas sobre o erro poderão ser detectados se for re-
alizada uma análise de resíduos.
Figura: Gráfico dos Resíduos (ei ) contra os Valores Preditos (ybi ).

Representa a situação satisfatória; ou seja, esperada. Neste gráfico,


os resíduos estão situados, aproximadamente, em uma faixa horizontal
centrada em ei = 0. Os resíduos apresentam uma distribuição aleatória
e sem tendência.
Figura: Gráfico dos Resíduos (ei ) contra os Valores Preditos (ybi ).

Representa a situação não satisfatória. No gráfico, os resíduos apre-


senta um padrão semelhante a forma de um funil. Indica que a variân-
cia do erro não é constante. Observa-se que a variância do erro é uma
função crescente de ybi . No entanto, também, existem situações onde a
variância do erro aumenta com o decréscimo de ybi .
Figura: Gráfico dos Resíduos (ei ) contra os Valores Preditos (ybi ).

A Figura (c) indica que os erros não têm variância constante. Ocorre quando a variância
dos erros é maior para valores intermediários de ybi e, portanto, também indica que os
erros não têm variância constante. Quando é detectado que a variância do erro não
é constante uma solução para este problema consiste em realizar transformações na
variável resposta para estabilizar a variância.
Figura: Gráfico dos Resíduos (ei ) contra os Valores Preditos (ybi ).

Indica não linearidade. Este padrão pode indicar a necessidade da


inclusão no modelo de um termo quadrático em x.
Figura: Gráfico dos Resíduos (ei ) Contra o Tempo Indicando a
Presença de Autocorrelação.

As Figuras acima são usadas para verificar evidência de suposição de


que os erros não são correlacionados. As duas figuras indicam a pre-
sença de correlação entre os erros, que representam uma séria vio-
lação das suposições associadas ao modelo de regressão.
Verificando os resíduos para o modelo linear simples

Figura: Gráfico de Probabilidade Normal.

Representa a situação satisfatória; ou seja, esperada. Os pontos do


gráfico estão localizados, aproximadamente, ao longo de uma linha
reta. Caso isso aconteça, indica que há evidências de que os erros
têm distribuição normal.
Verificando os resíduos para o modelo linear simples

Figura: Histograma dos resíduos.

O histograma dos resíduos serve para verificar normalidade dos erros.


O gráfico indica simetria, sugerindo que os erros parece que seguem
uma distribuição normal.
Suposição de Normalidade

A validade da suposição de normalidade pode ser verificada por


meio do gráfico de probabilidade normal para os resíduos.

A suposição de normalidade será considerada válida se os pon-


tos do gráfico estiverem localizados, aproximadamente, ao longo
de uma linha reta.

Por ser uma avaliação subjetiva, existem testes estatísticos que


podem ser utilizados para complementar a avaliação.
Verificando os resíduos do exemplo da gaveta
Analise de resíduo no RStudio

#Teste de normalidade -----------------------

#As hipóteses estatísticas:

#H0: Os resíduos seguem distribuição normal.


#H1: Os resíduos não seguem distribuição normal.

shapiro.test(residuals(Modelo))

Shapiro-Wilk normality test

data: residuals(Modelo)
W = 0.9514, p-value = 0.1251

Você também pode gostar