Você está na página 1de 29

CURSO DE ANÁLISE DE DADOS EM R

Aula 6 – Regressão

Maio/2018
Análise de dados em R

Análise de Regressão

Análise de regressão é um conjunto de métodos


estatísticos que utiliza a relação entre duas ou mais
variáveis a fim de que o comportamento de uma
dessas variáveis seja predito a partir das demais.

São técnicas amplamente utilizadas em disciplinas


como administração, economia, ciências sociais e
comportamentais, ciências biológicas, dentre outras.

2 UFC
Análise de dados em R

Regressão Linear

Um modelo de regressão é um meio formal de


expressar dois ingredientes essenciais de uma relação
estatística:

1. A tendência da variável resposta Y conforme haja


variação na variável preditora X.

2. Como os dados se espalham ao redor da curva de


relação estatística.

3 UFC
Análise de dados em R

Regressão Linear Simples

Um modelo de regressão linear com apenas uma


variável preditora pode ser expresso como:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖

Yi é o valor da variável resposta para o i-ésimo indivíduo


𝛽0 e 𝛽1 são os parâmetros do modelo
Xi é o valor da variável preditora para o i-ésimo indivíduo
𝜀𝑖 é o resíduo do modelo, isto é, a diferença entre o valor
observado de Yi e o valor estimado pelo modelo.
4 UFC
Análise de dados em R

Regressão Linear Simples

Estimação do 𝛽0 e do 𝛽1 por mínimos quadrados


ordinários:

𝛽0 = 𝑌ത − 𝛽1 𝑋ത

𝐶𝑜𝑣(𝑋, 𝑌) σ𝑛𝑖=1(𝑋𝑖 − 𝑋)
ത (𝑌𝑖 − 𝑌)

𝛽1 = =
𝑉𝑎𝑟(𝑋) ത 2
σ𝑛𝑖=1(𝑋𝑖 − 𝑋)

5 UFC
Análise de dados em R

Regressão Linear Simples

Isola-se o termo do erro:


𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖 → 𝜀𝑖 = 𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖
Eleva-se ambos os termos ao quadrado e somam-se todos os
valores:
(𝜀𝑖 )² = (𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 )²
𝑛 𝑛

෍(𝜀𝑖 )² = ෍(𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 )²
𝑖=1 𝑖=1

Para descobrir os coeficientes que minimizam o erro, deriva-se


a expressão em relação a 𝛽0 e 𝛽1 e iguala-se o resultado a 0.

6 UFC
Análise de dados em R

Regressão Linear Simples

Para 𝛽0 tem-esse:
𝑛 𝑛
𝑑 σ𝑛𝑖=1 𝜀𝑖 2
= ෍ −2(𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 ) = −2 ෍ (𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 )
𝑑𝛽0
𝑖=1 𝑖=1
𝑛 𝑛 𝑛

−2 ෍ 𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 = 0 → ෍ 𝑌𝑖 − 𝑛𝛽0 − 𝛽1 ෍ 𝑋𝑖
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛
σ𝑛𝑖=1 𝑌𝑖 σ𝑛𝑖=1 𝑋𝑖
𝑛𝛽0 = ෍ 𝑌𝑖 − 𝛽1 ෍ 𝑋𝑖 → 𝛽0 = − 𝛽1 →
𝑛 𝑛
𝑖=1 𝑖=1

𝛽0 = 𝑋ത − 𝛽1 𝑌ത

7 UFC
Análise de dados em R

Regressão Linear Simples

Para 𝛽1 tem-esse:
𝑛 𝑛
𝑑 σ𝑛𝑖=1 𝜀𝑖 2
= ෍ −2𝑋𝑖 (𝑌𝑖 − 𝛽0 − 𝛽1 𝑋𝑖 ) = −2 ෍ (𝑌𝑖 𝑋𝑖 − 𝛽0 𝑋𝑖 − 𝛽1 𝑋𝑖 ²)
𝑑𝛽1
𝑖=1 𝑖=1

Trocando 𝛽0 pela relação 𝑋ത − 𝛽1 𝑌ത


𝑛

−2 ෍ 𝑋𝑖 𝑌𝑖 − 𝑋𝑖 𝑌ത + 𝛽1 𝑋𝑖 𝑋ത − 𝛽1 𝑋𝑖2 = 0
𝑖=1
𝑛 𝑛

෍ 𝑋𝑖 𝑌𝑖 − 𝑋𝑖 𝑌ത − 𝛽1 ෍ 𝑋𝑖2 − 𝑋𝑖 𝑋ത = 0
𝑖=1 𝑖=1

8 UFC
Análise de dados em R

Regressão Linear Simples

Como saber se o modelo é válido?


• Boa capacidade explicativa.
• O coeficiente 𝛽1 é estatisticamente diferente de zero.

Qualidade dos resíduos:


• Valor esperado igual a zero. Os resíduos são independentes e
• Variância constante. identicamente distribuídos (i.i.d),
• Ausência de correlação serial. seguem uma distribuição normal

9 UFC
Análise de dados em R

Regressão Linear Simples

Avaliando a capacidade explicativa do modelo:

Coeficiente de
SQT SQE SQR determinação
(R²)

Soma dos Soma dos Soma dos Capacidade


quadrados quadrados quadrados dos explicativa do
totais explicados resíduos modelo
𝑛 𝑛 𝑛
ത 2
෍(𝑌𝑖 − 𝑌) ෍(𝑌෠𝑖 − 𝑌)
ത 2 ෍(𝑌𝑖 − 𝑌෠𝑖 )2 SQE/SQT
𝑖=1 𝑖=1 𝑖=1

SQE+SQR 1 – SQR/SQT

10 UFC
Análise de dados em R

Regressão Linear Simples

Teste para significância de 𝛽1 :

• Estatística de teste:
𝛽1
𝑡=
𝑆𝑄𝑅
𝑛−2
𝑛
σ𝑖=1(𝑥𝑖 − 𝑥)ҧ 2

• Tabela a ser usada: t


• Graus de liberdade: n – 2
• Hipótese nula: 𝛽1 = 0
• Hipótese alternativa: 𝛽1 ≠ 0

11 UFC
Análise de dados em R

Regressão Linear Simples

Testes para os resíduos:

• Normalidade dos resíduos: Teste de normalidade de


Kolmogorov-Smirnov ou Teste de Shapiro-Wilk/Análise
por histograma dos resíduos

• Variância constante (homocedasticidade): Teste de


Breusch-Paga/Análise pelo diagrama de dispersão dos
resíduos

• Independência dos resíduos: Teste de Durbin-Watson.

12 UFC
Análise de dados em R

Regressão Linear Simples


Avaliando a normalidade dos resíduos:

13 UFC
Análise de dados em R

Regressão Linear Simples

Avaliando a normalidade dos resíduos:


• Teste de normalidade de Shapiro-Wilk

• Como deseja-se que os resíduos sigam uma distribuição normal,


espera-se um valor P elevado para esse teste de modo que a hipótese
nula de normalidade não possa ser rejeitada.

14 UFC
Análise de dados em R

Regressão Linear Simples

Independência dos resíduos:


• Os resíduos devem ser independentes, para que se possa afirmar que o
modelo não possui vieses, isto é, os erros cometidos são aleatórios.
• Para avaliar isso, utilizamos o teste de Durbin-Watson, cuja hipótese
nula é a de que os resíduos são independentes (ou seja, não há
correlação entre eles)

15 UFC
Análise de dados em R

Regressão Linear Simples

Homocedasticidade dos resíduos


• Os resíduos devem ser homocedásticos, isto é, ter variância constante,
para que possamos afirmar que a magnitude dos erros se distribui de
modo homogêneo ao longo de todas as observações
• Para avaliar isso, utilizamos o teste de Breush-Pagan, cuja hipótese
nula é a de que os resíduos têm variância constante (ou seja, são
homocedásticos)

16 UFC
Análise de dados em R

Regressão Linear Múltipla

• Modelo de regressão linear múltipla:


𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽1 𝑋2𝑖 + ⋯ + 𝛽𝑝 𝑋𝑝𝑖 + 𝜀𝑖

• Y é a variável dependente (quantitativa).


• X1, X2, ...,Xp são as variáveis explicativas, que podem ser
quantitativas ou dummies.
• 𝛽0 é o intercepto (constante).
• 𝛽𝑘 (k = 1, 2, ...,p) são os coeficientes associados às p variáveis
explicativas.
• 𝜀 é o erro do modelo
 𝜀𝑖 ~𝑁 0, 𝜎 2 e 𝐶𝑜𝑣(𝜀𝑖 , 𝜀𝑗 ) = 0, 𝑖 ≠ 𝑗

17 UFC
Análise de dados em R

Regressão Linear Múltipla

• Matricialmente:

𝐘n×1 = 𝐗 n× 𝑝+1 𝜷 𝑝+1 ×1 + 𝜺𝑛×1

• Os estimadores dos mínimos quadrados dos coeficientes do


modelo são:
−1 T
෡ T
𝛃= 𝐗 𝐗 𝐗 𝐘

18 UFC
Análise de dados em R

Regressão Linear Múltipla

Se quiséssemos agora explicar a Taxa de Fertilidade dos países a partir da


Taxa de Alfabetização, PIB per capita, Taxa de Desemprego,
Investimento em Saúde e sua Região, poderíamos utilizar no R, o mesmo
comando lm(), informando como essas variáveis se relacionam:

19 UFC
Análise de dados em R

Regressão Linear Múltipla

20 UFC
Análise de dados em R

Regressão Linear Múltipla

Variáveis significantes quando α = 5%


• Taxa de Alfabetização – influencia negativamente a Taxa de Fertilidade. Pode-se dizer que o
aumento de 1% na taxa de alfabetização de um país, reduz, em média, a taxa de fertilidade
em 0,05125.
Variáveis significantes quando α = 10%
• PIB per capita – influencia negativamente a Taxa de Fertilidade. Pode-se dizer que o
aumento de U$ 1,00 no PIB per capita, reduz, em média, a taxa de fertilidade em 0,000074 .
• Países na Região Asiática – pode-se dizer que os países asiáticos da amostra têm, em média,
uma taxa de fertilidade 1,275 menor que os países da África.

21 UFC
Análise de dados em R

Regressão Linear Múltipla

• Teste da signficância do modelo:


𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = ⋯ = 𝛽𝑝 = 0
𝐻1 : ∃𝛽𝑖 : 𝛽𝑖 ≠ 0, 𝑖 = 1, 2, … , 𝑝

• Os estimadores dos mínimos quadrados dos coeficientes do modelo são:


Fonte da Graus de Quadrados
Soma dos quadrados F
variação liberdade Médios
𝑛

Regressão S𝑄𝐸 = ෍(𝑌෠𝑖 − 𝑌)


ത 2 P QME QMR/QME
𝑖=1
𝑛

Resíduos 𝑆𝑄𝑅 = ෍(𝑌𝑖 − 𝑌෠𝑖 )2 n–p–1 QMR


𝑖=1
𝑛

Total ത 2
S𝑄𝐸 = ෍(𝑌𝑖 − 𝑌) n–1
𝑖=1

22 UFC
Análise de dados em R

Regressão Linear Múltipla

23 UFC
Análise de dados em R

Regressão Linear Múltipla

• Capacidade explicativa do modelo (R²): 91,30%

• Capacidade explicativa do modelo, penalizando a entrada de novas variáveis (R²


ajustado): 87,71%
• Quando comparamos o R² ajustado deste modelo com o R² ajustado utilizando
apenas a variável (86,91%), percebemos que a adição das outras variáveis não
contribui para incrementar a capacidade explicativa do modelo.

• Teste de significância do modelo (Estatística F): 25,48

• Valor p da estatística F: 0,0000 (Rejeita-se a hipótese nula de que todos os


coeficientes são iguais a zero. Podemos afirmar que existe pelo menos uma variável
que de fato influencia a Taxa de Fertilidade, validando assim o modelo)

24 UFC
Análise de dados em R

Normalidade dos resíduos

• Como o valor p para o teste de Shapiro-Wilk foi alto (acima de 0,10), não podemos
rejeitar a hipótese nula de que os resíduos seguem uma distribuição normal. Assim,
não há violação desse pressuposto.

25 UFC
Análise de dados em R

Independência dos resíduos

• Como o valor p para o teste de Durbin-Watson foi alto (acima de 0,10), não
podemos rejeitar a hipótese nula de que os resíduos são independentes. Assim, não
há violação desse pressuposto.

26 UFC
Análise de dados em R

Homocedasticidade dos resíduos

• Como o valor p para o teste de Breusch-Pagan foi alto (acima de 0,10), não
podemos rejeitar a hipótese nula de que os resíduos têm variância constante. Assim,
não há violação desse pressuposto.

27 UFC
Análise de dados em R

Pressuposto adicional: ausência de multicolinearidade

Quando escolhemos variáveis explicativas para compor um modelo de


regressão, assumimos que cada uma delas explica um aspecto diferente da
variável dependente, isto é, assumimos que não existe relação de
dependência entre as variáveis explicativas.

Quando adicionamos duas ou mais variáveis que estão muito


correlacionadas, acabamos por enviesar o modelo gerado, e a este
problema damos o nome de multicolinearidade

Para testar a multicolinearidade de um modelo, utilizamos o Variance


Inflation Factor (VIF). As variáveis com VIF superiores a 5, podem ser
excluídas do modelo.

28 UFC
Análise de dados em R

Pressuposto adicional: ausência de multicolinearidade

• Para calcular o VIF no R, podemos utilizar o comando vif(), do pacote car.


• Observando a última coluna, não existem valores acima de 5, o que indica que
não há problemas de multicolinearidade no modelo de regressão estimado.

29 UFC