Aula 06 - Regressão Linear Simples e Mútipla

CURSO DE ANÁLISE DE DADOS EM R
Aula 6 – Regressão
Maio/2018
Análise de dados em R
Análise de Regressão
Análise de regressão é um conjunto de métodos

estatísticos que utiliza a relação entre duas ou mais
variáveis a fim de que o comportamento de uma
dessas variáveis seja predito a partir das demais.
São técnicas amplamente utilizadas em disciplinas

como administração, economia, ciências sociais e
comportamentais, ciências biológicas, dentre outras.
2 UFC
Regressão Linear
Um modelo de regressão é um meio formal de

expressar dois ingredientes essenciais de uma relação
estatística:
1. A tendência da variável resposta Y conforme haja

variação na variável preditora X.
2. Como os dados se espalham ao redor da curva de

relação estatística.
3 UFC
Regressão Linear Simples
Um modelo de regressão linear com apenas uma

variável preditora pode ser expresso como:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖
Yi é o valor da variável resposta para o i-ésimo indivíduo

𝛽0 e 𝛽1 são os parâmetros do modelo
Xi é o valor da variável preditora para o i-ésimo indivíduo
𝜀𝑖 é o resíduo do modelo, isto é, a diferença entre o valor
observado de Yi e o valor estimado pelo modelo.
4 UFC
Estimação do 𝛽0 e do 𝛽1 por mínimos quadrados

ordinários:
𝛽0 = 𝑌ത − 𝛽1 𝑋ത
𝐶𝑜𝑣(𝑋, 𝑌) σ𝑛𝑖=1(𝑋𝑖 − 𝑋)
ത (𝑌𝑖 − 𝑌)
ത
𝛽1 = =
𝑉𝑎𝑟(𝑋) ത 2
σ𝑛𝑖=1(𝑋𝑖 − 𝑋)
5 UFC
Isola-se o termo do erro:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖 → 𝜀𝑖 = 𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖
Eleva-se ambos os termos ao quadrado e somam-se todos os
valores:
(𝜀𝑖 )² = (𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 )²
𝑛 𝑛
෍(𝜀𝑖 )² = ෍(𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 )²
𝑖=1 𝑖=1
Para descobrir os coeficientes que minimizam o erro, deriva-se

a expressão em relação a 𝛽0 e 𝛽1 e iguala-se o resultado a 0.
6 UFC
Para 𝛽0 tem-esse:
𝑛 𝑛
𝑑 σ𝑛𝑖=1 𝜀𝑖 2
= ෍ −2(𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 ) = −2 ෍ (𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 )
𝑑𝛽0
𝑖=1 𝑖=1
𝑛 𝑛 𝑛
−2 ෍ 𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 = 0 → ෍ 𝑌𝑖 − 𝑛𝛽0 − 𝛽1 ෍ 𝑋𝑖
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛
σ𝑛𝑖=1 𝑌𝑖 σ𝑛𝑖=1 𝑋𝑖
𝑛𝛽0 = ෍ 𝑌𝑖 − 𝛽1 ෍ 𝑋𝑖 → 𝛽0 = − 𝛽1 →
𝑛 𝑛
𝑖=1 𝑖=1
𝛽0 = 𝑋ത − 𝛽1 𝑌ത
7 UFC
Para 𝛽1 tem-esse:
𝑛 𝑛
𝑑 σ𝑛𝑖=1 𝜀𝑖 2
= ෍ −2𝑋𝑖 (𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 ) = −2 ෍ (𝑌𝑖 𝑋𝑖 − 𝛽0 𝑋𝑖 − 𝛽1 𝑋𝑖 ²)
𝑑𝛽1
𝑖=1 𝑖=1
Trocando 𝛽0 pela relação 𝑋ത − 𝛽1 𝑌ത

𝑛
−2 ෍ 𝑋𝑖 𝑌𝑖 − 𝑋𝑖 𝑌ത + 𝛽1 𝑋𝑖 𝑋ത − 𝛽1 𝑋𝑖2 = 0
𝑖=1
𝑛 𝑛
෍ 𝑋𝑖 𝑌𝑖 − 𝑋𝑖 𝑌ത − 𝛽1 ෍ 𝑋𝑖2 − 𝑋𝑖 𝑋ത = 0
𝑖=1 𝑖=1
8 UFC
Como saber se o modelo é válido?

• Boa capacidade explicativa.
• O coeficiente 𝛽1 é estatisticamente diferente de zero.
Qualidade dos resíduos:

• Valor esperado igual a zero. Os resíduos são independentes e
• Variância constante. identicamente distribuídos (i.i.d),
• Ausência de correlação serial. seguem uma distribuição normal
9 UFC
Avaliando a capacidade explicativa do modelo:
Coeficiente de
SQT SQE SQR determinação
(R²)
Soma dos Soma dos Soma dos Capacidade

quadrados quadrados quadrados dos explicativa do
totais explicados resíduos modelo
𝑛 𝑛 𝑛
ത 2
෍(𝑌𝑖 − 𝑌) ෍(𝑌෠𝑖 − 𝑌)
ത 2 ෍(𝑌𝑖 − 𝑌෠𝑖 )2 SQE/SQT
𝑖=1 𝑖=1 𝑖=1
SQE+SQR 1 – SQR/SQT
10 UFC
Teste para significância de 𝛽1 :
• Estatística de teste:
𝛽1
𝑡=
𝑆𝑄𝑅
𝑛−2
𝑛
σ𝑖=1(𝑥𝑖 − 𝑥)ҧ 2
• Tabela a ser usada: t

• Graus de liberdade: n – 2
• Hipótese nula: 𝛽1 = 0
• Hipótese alternativa: 𝛽1 ≠ 0
11 UFC
Testes para os resíduos:
• Normalidade dos resíduos: Teste de normalidade de

Kolmogorov-Smirnov ou Teste de Shapiro-Wilk/Análise
por histograma dos resíduos
• Variância constante (homocedasticidade): Teste de

Breusch-Paga/Análise pelo diagrama de dispersão dos
resíduos
• Independência dos resíduos: Teste de Durbin-Watson.
12 UFC

Avaliando a normalidade dos resíduos:
13 UFC
Avaliando a normalidade dos resíduos:

• Teste de normalidade de Shapiro-Wilk
• Como deseja-se que os resíduos sigam uma distribuição normal,

espera-se um valor P elevado para esse teste de modo que a hipótese
nula de normalidade não possa ser rejeitada.
14 UFC
Independência dos resíduos:

• Os resíduos devem ser independentes, para que se possa afirmar que o
modelo não possui vieses, isto é, os erros cometidos são aleatórios.
• Para avaliar isso, utilizamos o teste de Durbin-Watson, cuja hipótese
nula é a de que os resíduos são independentes (ou seja, não há
correlação entre eles)
15 UFC
Homocedasticidade dos resíduos

• Os resíduos devem ser homocedásticos, isto é, ter variância constante,
para que possamos afirmar que a magnitude dos erros se distribui de
modo homogêneo ao longo de todas as observações
• Para avaliar isso, utilizamos o teste de Breush-Pagan, cuja hipótese
nula é a de que os resíduos têm variância constante (ou seja, são
homocedásticos)
16 UFC
Regressão Linear Múltipla
• Modelo de regressão linear múltipla:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽1 𝑋2𝑖 + ⋯ + 𝛽𝑝 𝑋𝑝𝑖 + 𝜀𝑖
• Y é a variável dependente (quantitativa).

• X1, X2, ...,Xp são as variáveis explicativas, que podem ser
quantitativas ou dummies.
• 𝛽0 é o intercepto (constante).
• 𝛽𝑘 (k = 1, 2, ...,p) são os coeficientes associados às p variáveis
explicativas.
• 𝜀 é o erro do modelo
 𝜀𝑖 ~𝑁 0, 𝜎 2 e 𝐶𝑜𝑣(𝜀𝑖 , 𝜀𝑗 ) = 0, 𝑖 ≠ 𝑗
17 UFC
• Matricialmente:
𝐘n×1 = 𝐗 n× 𝑝+1 𝜷 𝑝+1 ×1 + 𝜺𝑛×1
• Os estimadores dos mínimos quadrados dos coeficientes do

modelo são:
−1 T
෡ T
𝛃= 𝐗 𝐗 𝐗 𝐘
18 UFC
Se quiséssemos agora explicar a Taxa de Fertilidade dos países a partir da

Taxa de Alfabetização, PIB per capita, Taxa de Desemprego,
Investimento em Saúde e sua Região, poderíamos utilizar no R, o mesmo
comando lm(), informando como essas variáveis se relacionam:
19 UFC
20 UFC
Variáveis significantes quando α = 5%

• Taxa de Alfabetização – influencia negativamente a Taxa de Fertilidade. Pode-se dizer que o
aumento de 1% na taxa de alfabetização de um país, reduz, em média, a taxa de fertilidade
em 0,05125.
Variáveis significantes quando α = 10%
• PIB per capita – influencia negativamente a Taxa de Fertilidade. Pode-se dizer que o
aumento de U$ 1,00 no PIB per capita, reduz, em média, a taxa de fertilidade em 0,000074 .
• Países na Região Asiática – pode-se dizer que os países asiáticos da amostra têm, em média,
uma taxa de fertilidade 1,275 menor que os países da África.
21 UFC
• Teste da signficância do modelo:

𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = ⋯ = 𝛽𝑝 = 0
𝐻1 : ∃𝛽𝑖 : 𝛽𝑖 ≠ 0, 𝑖 = 1, 2, … , 𝑝
• Os estimadores dos mínimos quadrados dos coeficientes do modelo são:

Fonte da Graus de Quadrados
Soma dos quadrados F
variação liberdade Médios
𝑛
Regressão S𝑄𝐸 = ෍(𝑌෠𝑖 − 𝑌)

ത 2 P QME QMR/QME
𝑖=1
𝑛
Resíduos 𝑆𝑄𝑅 = ෍(𝑌𝑖 − 𝑌෠𝑖 )2 n–p–1 QMR

𝑖=1
𝑛
Total ത 2
S𝑄𝐸 = ෍(𝑌𝑖 − 𝑌) n–1
𝑖=1
22 UFC
23 UFC
• Capacidade explicativa do modelo (R²): 91,30%
• Capacidade explicativa do modelo, penalizando a entrada de novas variáveis (R²

ajustado): 87,71%
• Quando comparamos o R² ajustado deste modelo com o R² ajustado utilizando
apenas a variável (86,91%), percebemos que a adição das outras variáveis não
contribui para incrementar a capacidade explicativa do modelo.
• Teste de significância do modelo (Estatística F): 25,48
• Valor p da estatística F: 0,0000 (Rejeita-se a hipótese nula de que todos os

coeficientes são iguais a zero. Podemos afirmar que existe pelo menos uma variável
que de fato influencia a Taxa de Fertilidade, validando assim o modelo)
24 UFC
Normalidade dos resíduos
• Como o valor p para o teste de Shapiro-Wilk foi alto (acima de 0,10), não podemos
rejeitar a hipótese nula de que os resíduos seguem uma distribuição normal. Assim,
não há violação desse pressuposto.
25 UFC
Independência dos resíduos
• Como o valor p para o teste de Durbin-Watson foi alto (acima de 0,10), não
podemos rejeitar a hipótese nula de que os resíduos são independentes. Assim, não
há violação desse pressuposto.
26 UFC
Homocedasticidade dos resíduos
• Como o valor p para o teste de Breusch-Pagan foi alto (acima de 0,10), não
podemos rejeitar a hipótese nula de que os resíduos têm variância constante. Assim,
não há violação desse pressuposto.
27 UFC
Pressuposto adicional: ausência de multicolinearidade
Quando escolhemos variáveis explicativas para compor um modelo de

regressão, assumimos que cada uma delas explica um aspecto diferente da
variável dependente, isto é, assumimos que não existe relação de
dependência entre as variáveis explicativas.
Quando adicionamos duas ou mais variáveis que estão muito

correlacionadas, acabamos por enviesar o modelo gerado, e a este
problema damos o nome de multicolinearidade
Para testar a multicolinearidade de um modelo, utilizamos o Variance

Inflation Factor (VIF). As variáveis com VIF superiores a 5, podem ser
excluídas do modelo.
28 UFC
Pressuposto adicional: ausência de multicolinearidade
• Para calcular o VIF no R, podemos utilizar o comando vif(), do pacote car.

• Observando a última coluna, não existem valores acima de 5, o que indica que
não há problemas de multicolinearidade no modelo de regressão estimado.
29 UFC

Aula 06 - Regressão Linear Simples e Mútipla

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula 06 - Regressão Linear Simples e Mútipla

Enviado por

Direitos autorais:

Formatos disponíveis

CURSO DE ANÁLISE DE DADOS EM R

Análise de regressão é um conjunto de métodos

São técnicas amplamente utilizadas em disciplinas

Um modelo de regressão é um meio formal de

1. A tendência da variável resposta Y conforme haja

2. Como os dados se espalham ao redor da curva de

Regressão Linear Simples

Um modelo de regressão linear com apenas uma

Yi é o valor da variável resposta para o i-ésimo indivíduo

Regressão Linear Simples

Estimação do 𝛽0 e do 𝛽1 por mínimos quadrados

Regressão Linear Simples

Isola-se o termo do erro:

Para descobrir os coeficientes que minimizam o erro, deriva-se

Regressão Linear Simples

Regressão Linear Simples

Trocando 𝛽0 pela relação 𝑋ത − 𝛽1 𝑌ത

Regressão Linear Simples

Como saber se o modelo é válido?

Qualidade dos resíduos:

Regressão Linear Simples

Avaliando a capacidade explicativa do modelo:

Soma dos Soma dos Soma dos Capacidade

Regressão Linear Simples

Teste para significância de 𝛽1 :

• Tabela a ser usada: t

Regressão Linear Simples

Testes para os resíduos:

• Normalidade dos resíduos: Teste de normalidade de

• Variância constante (homocedasticidade): Teste de

• Independência dos resíduos: Teste de Durbin-Watson.

Regressão Linear Simples

Regressão Linear Simples

Avaliando a normalidade dos resíduos:

• Como deseja-se que os resíduos sigam uma distribuição normal,

Regressão Linear Simples

Independência dos resíduos:

Regressão Linear Simples

Homocedasticidade dos resíduos

Regressão Linear Múltipla

• Modelo de regressão linear múltipla:

• Y é a variável dependente (quantitativa).

Regressão Linear Múltipla

𝐘n×1 = 𝐗 n× 𝑝+1 𝜷 𝑝+1 ×1 + 𝜺𝑛×1

• Os estimadores dos mínimos quadrados dos coeficientes do

Regressão Linear Múltipla

Se quiséssemos agora explicar a Taxa de Fertilidade dos países a partir da

Regressão Linear Múltipla

Regressão Linear Múltipla

Variáveis significantes quando α = 5%

Regressão Linear Múltipla

• Teste da signficância do modelo:

• Os estimadores dos mínimos quadrados dos coeficientes do modelo são:

Regressão S𝑄𝐸 = ෍(𝑌෠𝑖 − 𝑌)

Resíduos 𝑆𝑄𝑅 = ෍(𝑌𝑖 − 𝑌෠𝑖 )2 n–p–1 QMR

Regressão Linear Múltipla

Regressão Linear Múltipla

• Capacidade explicativa do modelo (R²): 91,30%

• Capacidade explicativa do modelo, penalizando a entrada de novas variáveis (R²

• Teste de significância do modelo (Estatística F): 25,48

• Valor p da estatística F: 0,0000 (Rejeita-se a hipótese nula de que todos os

Normalidade dos resíduos

Independência dos resíduos