Você está na página 1de 23

FUNDAMENTOS EM MODELOS LINEARES

REGRESSÃO LINEAR SIMPLES

1 / 23
Introdução
Um modelo estatı́stico é constituı́do por duas partes, uma parte
modela a média de uma variável aleatória Y e a outra parte
modela a sua variância.

No caso do modelo de regressão linear simples, dado duas variáveis


(Y, X), com X possivelmente relacionada a Y , escrevemos:

Yi = β0 + β1 xi + ϵi ,

com E(ϵi ) = 0, V(ϵi ) = σ 2 e E(ϵi ϵi′ ) = 0, i, i′ = 1,2, · · · , n e


i ̸= i′ . O termo ”regressão”é devido a Galton (1886) que estudou altura
de filhos em função da altura de pais e concluiu que a altura de novas
gerações tende a ”regredir”para uma média populacional.
2 / 23
Introdução

12

e11

11
● ●
e10

10
e8 ●e ●
9

yi = β0 + β1xi + ei
Ganho de peso (y)

● e7
9


8

e5 e6

● e4

7

e3
● ● e2
6

e1 ●


5

5 6 7 8 9 10

Concentração do sal (x)

Figura 1: Regressão Linear Simples.

3 / 23
Introdução
De fato, embora não explı́cito na equação, esse é um modelo
condicional, ou seja, para Y |X = x, se X também for uma variável
aleatória.

E(Yi |Xi = xi ) = β0 + β1 xi e V(Yi |Xi = xi ) = σ 2 .

Assim
ϵi = Yi − E(Yi |Xi = xi )

e o modelo tem 3 parâmetros: β0 (intercepto), β1 (inclinação) e


σ 2 (variância da parte aleatória). Na notação que segue, o número
de parâmetros na equação será denotado por p (p = 2).
4 / 23
Introdução
Interpretação
β0 é E(Y |X = 0).

β1 é o efeito linear de X, mede a diferença esperada em Y


quando comparamos duas subpopulações, uma com X = x e
a outra com X = (x + 1) (∆x = 1), independente do valor x.
É um efeito transversal (cross-sectional), não é longitudinal.

σ 2 é a variância da parte aleatória se a equação incorporar


todas as variáveis relevantes para explicar Y . Caso contrário,
esta componente tem uma parte devido ao vı́cio ou falta de
ajuste do modelo.
5 / 23
Introdução

É comum assumir que ϵ ∼ N ormal(0; σ 2 ), porém tal suposição


não é necessária, a não ser para amostras muito pequenas.

Os parâmetros do modelo são estimados, ou seja, o modelo é


ajustado, via a seleção de uma amostra aleatória de n valores de
(X, Y ). Existem diversos métodos de estimação, sendo o método
de mı́nimos quadrados dos erros (OLS=Ordinary Least Squares), o
mais popular.

Os estimadores de mı́nimos quadrados, β̂0 e β̂1 , são as soluções


que minimizam a soma dos quadrados dos erros.
6 / 23
Estimação via Mı́nimos Quadrados
Definição de algumas estatı́sticas úteis.
Estatı́sticas Conceito

1
n
P Média Amostral
x̄ = n xi
i=1 de X
n n
(xi − x̄)2 =
P P
SXX = (xi − x̄)xi SQ de X
i=1 i=1

1
n
P Média Amostral
Ȳ = n Yi
i=1 de Y
n n
(Yi − Ȳ )2 =
P P
SY Y = (Yi − Ȳ )Yi SQ de Y =SQTOTAL
i=1 i=1
n
P n
P Soma de produtos
SXY = (xi − x̄)(Yi − Ȳ ) = (xi − x̄)Yi
i=1 i=1 cruzados de X e Y.
7 / 23
Estimação via Mı́nimos Quadrados

A soma de quadrados (SQ) dos erros é


n
X n
X
SQERROS = ϵ2i = [Yi − (β0 + β1 xi )]2 ,
i=1 i=1

que, diferenciando com respeito a cada coeficiente resulta em:


n
∂SQERROS X
=2 [Yi − (β0 + β1 xi )](−1)
∂β0
i=1
n
∂SQERROS X
=2 [Yi − (β0 + β1 xi )](−xi )
∂β1
i=1

8 / 23
Estimação via Mı́nimos Quadrados

Igualando a zero:
n
X n
X
nβ̂0 + β̂1 xi = Yi
i=1 i=1
n
X n
X n
X
β̂0 xi + β̂1 x2i = xi Yi
i=1 i=1 i=1

Essas equações são conhecidas como equações normais dos


mı́nimos quadrados, cujas soluções são

SXY
β̂0 = Ȳ − β̂1 x̄ e β̂1 = .
SXX

(demonstre esses resultados)

9 / 23
Propriedades dos Estimadores
β̂0 e β̂1 são não tendenciosos (em média estimam certo);
Prova para β̂1 :
 
SXY 1 1
E(β̂1 ) = E =E(SXY ) = E [Σ(xi − x̄)Yi ]
SXX SXX SXX
1 1
= Σ{E [(xi − x̄)Yi ]} = Σ{(xi − x̄)E [Yi ]}
SXX SXX
1
= Σ{(xi − x̄)E [β0 + β1 xi + ϵi ]}
SXX
1
= Σ{(xi − x̄) [E(β0 ) + E(β1 xi ) + E(ϵi )]}
SXX
1
= Σ{(xi − x̄) [β0 + β1 xi + 0]}
SXX
Σ(xi − x̄)
= β0 + Σ{(xi − x̄) [β0 + β1 xi ]}
SXX
Σ(xi − x̄)xi
= 0 + 0 + β1 = β1
SXX
(demonstre para E(β̂0 )) 10 / 23
Propriedades dos Estimadores

β̂0 e β̂1 são consistentes.

Prova para β̂1 :


 
SXY 1
V(β̂1 ) = V 2 V [Σ(xi − x̄)Yi ]
=
SXX SXX
1 1
= 2 Σ{V [(xi − x̄)Yi ]} = 2 Σ{(xi − x̄)2 V [Yi ]}
SXX SXX
σ2 2 σ2 σ2
= 2 Σ(x i − x̄) = 2 SXX =
SXX SXX SXX

σ2
Como SXX é uma soma de n termos positivos, SXX → 0 se
n → ∞.

11 / 23
Propriedades dos Estimadores
Para β̂0
x̄2
 
2 1
V(β̂0 ) = σ +
n SXX
(demonstre)
β̂1 e β̂0 são correlacionados, exceto quando x é centrada em

zero (x̄ = 0). A covariância é Cov(β̂0 ,β̂1 ) = −σ 2 SXX .
(demonstre)
Como ambos estimadores são combinações lineares de Y , podemos
invocar o TCL. Para n suficientemente grande:
     
1 x̄2 x̄
β̂ β + − SXX
 0  ∼ N2  0  ; σ 2  n SXX 
x̄ 1
β̂1 β1 − SXX SXX

12 / 23
Resposta estimada, predição e resı́duos
Uma vez estimado β0 e β1 podemos:
1. Estimar E(Yi ): E[Y
b i ] = Ŷi = β̂0 + β̂1 xi .

2. Predizer ϵi : ϵ̃i = Yi − Ŷi .


3. Estimar E[Y (x)] para qualquer x (desde que x não extrapole
muito os dados): E[Y
b (x)] = β̂0 + β̂1 x.

4. Predizer Y (x) = β0 + β1 x + ϵ para uma nova observação


(desde que x não extrapole muito os dados):

Ỹ (x) = E[Y
b (x)] + ϵ

= β̂0 + β̂1 x + ϵ

= β̂0 + β̂1 x + 0.
13 / 23
Resposta estimada, predição e resı́duos

A qualidade das estimativas e predições depende da variância dos


estimadores ou preditores. No caso 1 e 3 temos a mesma expressão
para a variância, que depende de x:
2 2
 
b (x)]} = σ 2 1 + x̄ + x − 2 x̄
V{E[Y
n SXX SXX SXX
2
 
1 (x − x̄)
= σ2 +
n SXX

Note que os valores pontuais de Ỹ (x) e E[Y


b (x)] são iguais. Mas

a variância da predição Ỹ (x) é maior devido à incerteza associada


a ϵ.

14 / 23
Resposta estimada, predição e resı́duos
Assim, temos

1 (x − x̄)2 1 (x − x̄)2
   
2 2
V[Ỹ (x)] = σ + + V(ϵ) = σ + + σ2
n SXX n SXX
1 (x − x̄)2
 
2
= σ 1+ +
n SXX

Note que as variâncias de estimativas e predições aumentam


conforme x se distancia de x̄ e que a variância de uma predição é
maior do a que a variâncias de uma estimativa para qualquer x.

Para encontrar a variância de ϵ̃i , V(ϵ̃i ) = V(Yi − Ŷi ), é útil


escrevermos Ŷi como uma função de Y .
(encontrar essa variância (ex. Lista 1))
15 / 23
ANOVA e Estimação de σ 2
Associada ao ajuste do modelo via OLS temos a decomposição de
variabilidade ou ANOVA (análise de variância):
n
X n
X n
X
SQRESIDU OS = ϵ̃2i = (Yi − Ŷi )2 = [Yi − Ȳ + Ȳ − Ŷi ]2
i=1 i=1 i=1
n
X
= (Yi − Ȳ + β̂1 x̄ − β̂1 xi )2
i=1
Xn
= [(Yi − Ȳ ) − β̂1 (xi − x̄)]2
i=1
Xn
= (Yi − Ȳ )2 − β̂12 Sxx
i=1
= SY Y − β̂12 SXX

= SQT OT AL − SQM ODELO . 16 / 23


ANOVA e Estimação de σ 2

Rearranjando os termos temos a identidade

SQT OT AL = SQM ODELO + SQRESIDU OS

As Somas de Quadrados são funções de Y e portanto, são


variáveis aleatórias quadráticas. Seus parâmetros são os graus de
liberdade da soma:

• SQT OT AL ⇒ n − 1 graus de liberdade

• SQM ODELO ⇒ (p − 1) = (2 − 1) = 1 graus de liberdade

• SQRESIDU OS ⇒ (n − p) = (n − 2) graus de liberdade

17 / 23
ANOVA e Estimação de σ 2
Tal decomposição fornece um estimador não tendencioso de σ 2
dado por
SQRESIDU OS
σ̂ 2 = = QMRESIDU OS
n−2
que recebe o nome de Quadrado Médio dos Resı́duos. Os
resultados são organizados na tabela ANOVA:

Tabela de Análise de Variância para o ajuste do ML simples


Fontes Variabilidade SQ GL QM F
QMM ODELO
M odelo SQM ODELO 2−1 QMM ODELO QMRESIDU OS

Residuos SQRESIDU OS n−2 QMRESIDU OS


T otal SQT OT AL n−1

18 / 23
ANOVA e Estimação de σ 2
A ANOVA, por si só, é um tipo de análise descritiva do ajuste do
modelo. A estatı́stica F é a razão entre variabilidades explicada
por X (modelo) e não explicada por X (erro).
Outra quantidade descritiva é o coeficiente de determinação,
popularmente conhecido como R2 dado por:
SQM ODELO SQRESIDU OS
R2 = =1−
SQT OT AL SQT OT AL
interpretado como a proporção de variabilidade em Y explicada
pelo modelo ajustado, no caso, explicada por X. Seu valor varia
entre 0 e 1, com valores altos indicando boa explicação. No caso

do modelo simples, R2 = ρ̂XY .
19 / 23
Inferências
Se os erros ϵi ’s forem Normalmente distribuı́dos (ou usando teoria
assintótica), a hipótese

H0 : β 1 = 0 (X não explica Y linearmente)

pode ser formalmente testada por um teste F . Sob H0 temos que:


(1)
• σ2
QMM ODELO ∼ χ21
(n−2)
• σ2
QMRESIDU OS ∼ χ2n−2

e essas duas variáveis são independentes. Portanto, sob H0

QMM ODELO
∼ F1;n−2
QMRESIDU OS

20 / 23
Inferências

Então, se Fobs > Fα; 1; (n−2) temos evidência para rejeitar H0 .


Esse teste é equivalente ao teste t para H0 : β1 = 0 que veremos
na sequência.

Substituindo σ 2 por σ̂ 2 nas expressões de variâncias para os


estimadores e preditores, e tomando-se a raiz quadrada, temos os
erros padrões estimados dos mesmos. Testes de hipóteses,
intervalos de confiança e bandas de predições podem ser obtidas
utilizando, como referência, a distribuição t-Student com n − 2
graus de liberdade.

21 / 23
Inferências
Assim, para testar hipótese do tipo

H0 : β1 = β10 vs HA : β1 ̸= β10

usamos a estatı́stica T dada por

β̂1 − β10
T = ,
√ σ̂
SXX

que, sob H0 , segue a distribuição t-Student, com n − 2 graus de


liberdade. Se o valor de T , tobs , for superior a |t α2 ; n−2 |, em que α
é o nı́vel de significância do teste, temos indicativa de que β1 não é
igual ao valor especificado na hipótese nula.

22 / 23
Inferências
Intervalos de Confiança a 100 × (1 − α)%:

para β1 :
 
σ̂ σ̂
β̂1 − |t α2 ; n−2 | √ ; β̂1 + |t α2 ; n−2 | √
SXX SXX

para E[Y (x)]:


 q q 
1 (x−x̄)2 1 (x−x̄)2
Ê[Y (x)] − |t α2 ; n−2 |σ̂ n + SXX ; Ê[Y (x)] + |t α2 ; n−2 |σ̂ n + SXX

para E[Y (x)]:


 q q 
1 (x−x̄)2 1 (x−x̄)2
Ỹ (x) − |t α2 ; n−2 |σ̂ 1+ n + SXX ; Ỹ (x) + |t α2 ; n−2 |σ̂ 1+ n + SXX

23 / 23

Você também pode gostar