FML ModeloLinearSimples

FUNDAMENTOS EM MODELOS LINEARES
REGRESSÃO LINEAR SIMPLES
1 / 23
Introdução
Um modelo estatı́stico é constituı́do por duas partes, uma parte
modela a média de uma variável aleatória Y e a outra parte
modela a sua variância.
No caso do modelo de regressão linear simples, dado duas variáveis

(Y, X), com X possivelmente relacionada a Y , escrevemos:
Yi = β0 + β1 xi + ϵi ,
com E(ϵi ) = 0, V(ϵi ) = σ 2 e E(ϵi ϵi′ ) = 0, i, i′ = 1,2, · · · , n e

i ̸= i′ . O termo ”regressão”é devido a Galton (1886) que estudou altura
de filhos em função da altura de pais e concluiu que a altura de novas
gerações tende a ”regredir”para uma média populacional.
2 / 23
Introdução
12
●
e11
●
11
● ●
e10
10
e8 ●e ●
9
●
yi = β0 + β1xi + ei
Ganho de peso (y)
● e7
9
●
8
e5 e6
●
●
● e4
●
7
e3
● ● e2
6
e1 ●
●
5
5 6 7 8 9 10
Concentração do sal (x)
Figura 1: Regressão Linear Simples.
3 / 23
Introdução
De fato, embora não explı́cito na equação, esse é um modelo
condicional, ou seja, para Y |X = x, se X também for uma variável
aleatória.
E(Yi |Xi = xi ) = β0 + β1 xi e V(Yi |Xi = xi ) = σ 2 .
Assim
ϵi = Yi − E(Yi |Xi = xi )
e o modelo tem 3 parâmetros: β0 (intercepto), β1 (inclinação) e

σ 2 (variância da parte aleatória). Na notação que segue, o número
de parâmetros na equação será denotado por p (p = 2).
4 / 23
Introdução
Interpretação
β0 é E(Y |X = 0).
β1 é o efeito linear de X, mede a diferença esperada em Y

quando comparamos duas subpopulações, uma com X = x e
a outra com X = (x + 1) (∆x = 1), independente do valor x.
É um efeito transversal (cross-sectional), não é longitudinal.
σ 2 é a variância da parte aleatória se a equação incorporar

todas as variáveis relevantes para explicar Y . Caso contrário,
esta componente tem uma parte devido ao vı́cio ou falta de
ajuste do modelo.
5 / 23
Introdução
É comum assumir que ϵ ∼ N ormal(0; σ 2 ), porém tal suposição

não é necessária, a não ser para amostras muito pequenas.
Os parâmetros do modelo são estimados, ou seja, o modelo é

ajustado, via a seleção de uma amostra aleatória de n valores de
(X, Y ). Existem diversos métodos de estimação, sendo o método
de mı́nimos quadrados dos erros (OLS=Ordinary Least Squares), o
mais popular.
Os estimadores de mı́nimos quadrados, β̂0 e β̂1 , são as soluções

que minimizam a soma dos quadrados dos erros.
6 / 23
Estimação via Mı́nimos Quadrados
Definição de algumas estatı́sticas úteis.
Estatı́sticas Conceito
1
n
P Média Amostral
x̄ = n xi
i=1 de X
n n
(xi − x̄)2 =
P P
SXX = (xi − x̄)xi SQ de X
i=1 i=1
1
n
P Média Amostral
Ȳ = n Yi
i=1 de Y
n n
(Yi − Ȳ )2 =
P P
SY Y = (Yi − Ȳ )Yi SQ de Y =SQTOTAL
i=1 i=1
n
P n
P Soma de produtos
SXY = (xi − x̄)(Yi − Ȳ ) = (xi − x̄)Yi
i=1 i=1 cruzados de X e Y.
7 / 23
A soma de quadrados (SQ) dos erros é

n
X n
X
SQERROS = ϵ2i = [Yi − (β0 + β1 xi )]2 ,
i=1 i=1
que, diferenciando com respeito a cada coeficiente resulta em:

n
∂SQERROS X
=2 [Yi − (β0 + β1 xi )](−1)
∂β0
i=1
n
∂SQERROS X
=2 [Yi − (β0 + β1 xi )](−xi )
∂β1
i=1
8 / 23
Igualando a zero:
n
X n
X
nβ̂0 + β̂1 xi = Yi
i=1 i=1
n
X n
X n
X
β̂0 xi + β̂1 x2i = xi Yi
i=1 i=1 i=1
Essas equações são conhecidas como equações normais dos

mı́nimos quadrados, cujas soluções são
SXY
β̂0 = Ȳ − β̂1 x̄ e β̂1 = .
SXX
(demonstre esses resultados)
9 / 23
Propriedades dos Estimadores
β̂0 e β̂1 são não tendenciosos (em média estimam certo);
Prova para β̂1 :

SXY 1 1
E(β̂1 ) = E =E(SXY ) = E [Σ(xi − x̄)Yi ]
SXX SXX SXX
1 1
= Σ{E [(xi − x̄)Yi ]} = Σ{(xi − x̄)E [Yi ]}
SXX SXX
1
= Σ{(xi − x̄)E [β0 + β1 xi + ϵi ]}
SXX
1
= Σ{(xi − x̄) [E(β0 ) + E(β1 xi ) + E(ϵi )]}
SXX
1
= Σ{(xi − x̄) [β0 + β1 xi + 0]}
SXX
Σ(xi − x̄)
= β0 + Σ{(xi − x̄) [β0 + β1 xi ]}
SXX
Σ(xi − x̄)xi
= 0 + 0 + β1 = β1
SXX
(demonstre para E(β̂0 )) 10 / 23
β̂0 e β̂1 são consistentes.
Prova para β̂1 :

SXY 1
V(β̂1 ) = V 2 V [Σ(xi − x̄)Yi ]
=
SXX SXX
1 1
= 2 Σ{V [(xi − x̄)Yi ]} = 2 Σ{(xi − x̄)2 V [Yi ]}
SXX SXX
σ2 2 σ2 σ2
= 2 Σ(x i − x̄) = 2 SXX =
SXX SXX SXX
σ2
Como SXX é uma soma de n termos positivos, SXX → 0 se
n → ∞.
11 / 23
Para β̂0
x̄2

2 1
V(β̂0 ) = σ +
n SXX
(demonstre)
β̂1 e β̂0 são correlacionados, exceto quando x é centrada em
x̄
zero (x̄ = 0). A covariância é Cov(β̂0 ,β̂1 ) = −σ 2 SXX .
(demonstre)
Como ambos estimadores são combinações lineares de Y , podemos
invocar o TCL. Para n suficientemente grande:
     
1 x̄2 x̄
β̂ β + − SXX
 0  ∼ N2  0  ; σ 2  n SXX 
x̄ 1
β̂1 β1 − SXX SXX
12 / 23
Resposta estimada, predição e resı́duos
Uma vez estimado β0 e β1 podemos:
1. Estimar E(Yi ): E[Y
b i ] = Ŷi = β̂0 + β̂1 xi .
2. Predizer ϵi : ϵ̃i = Yi − Ŷi .

3. Estimar E[Y (x)] para qualquer x (desde que x não extrapole
muito os dados): E[Y
b (x)] = β̂0 + β̂1 x.
4. Predizer Y (x) = β0 + β1 x + ϵ para uma nova observação

(desde que x não extrapole muito os dados):
Ỹ (x) = E[Y
b (x)] + ϵ
= β̂0 + β̂1 x + ϵ
= β̂0 + β̂1 x + 0.
13 / 23
A qualidade das estimativas e predições depende da variância dos

estimadores ou preditores. No caso 1 e 3 temos a mesma expressão
para a variância, que depende de x:
2 2

b (x)]} = σ 2 1 + x̄ + x − 2 x̄
V{E[Y
n SXX SXX SXX
2

1 (x − x̄)
= σ2 +
n SXX
Note que os valores pontuais de Ỹ (x) e E[Y

b (x)] são iguais. Mas
a variância da predição Ỹ (x) é maior devido à incerteza associada

a ϵ.
14 / 23
Assim, temos
1 (x − x̄)2 1 (x − x̄)2

2 2
V[Ỹ (x)] = σ + + V(ϵ) = σ + + σ2
n SXX n SXX
1 (x − x̄)2

2
= σ 1+ +
n SXX
Note que as variâncias de estimativas e predições aumentam

conforme x se distancia de x̄ e que a variância de uma predição é
maior do a que a variâncias de uma estimativa para qualquer x.
Para encontrar a variância de ϵ̃i , V(ϵ̃i ) = V(Yi − Ŷi ), é útil

escrevermos Ŷi como uma função de Y .
(encontrar essa variância (ex. Lista 1))
15 / 23
ANOVA e Estimação de σ 2
Associada ao ajuste do modelo via OLS temos a decomposição de
variabilidade ou ANOVA (análise de variância):
n
X n
X n
X
SQRESIDU OS = ϵ̃2i = (Yi − Ŷi )2 = [Yi − Ȳ + Ȳ − Ŷi ]2
i=1 i=1 i=1
n
X
= (Yi − Ȳ + β̂1 x̄ − β̂1 xi )2
i=1
Xn
= [(Yi − Ȳ ) − β̂1 (xi − x̄)]2
i=1
Xn
= (Yi − Ȳ )2 − β̂12 Sxx
i=1
= SY Y − β̂12 SXX
= SQT OT AL − SQM ODELO . 16 / 23

Rearranjando os termos temos a identidade
SQT OT AL = SQM ODELO + SQRESIDU OS
As Somas de Quadrados são funções de Y e portanto, são

variáveis aleatórias quadráticas. Seus parâmetros são os graus de
liberdade da soma:
• SQT OT AL ⇒ n − 1 graus de liberdade
• SQM ODELO ⇒ (p − 1) = (2 − 1) = 1 graus de liberdade
• SQRESIDU OS ⇒ (n − p) = (n − 2) graus de liberdade
17 / 23
Tal decomposição fornece um estimador não tendencioso de σ 2
dado por
SQRESIDU OS
σ̂ 2 = = QMRESIDU OS
n−2
que recebe o nome de Quadrado Médio dos Resı́duos. Os
resultados são organizados na tabela ANOVA:
Tabela de Análise de Variância para o ajuste do ML simples

Fontes Variabilidade SQ GL QM F
QMM ODELO
M odelo SQM ODELO 2−1 QMM ODELO QMRESIDU OS
Residuos SQRESIDU OS n−2 QMRESIDU OS

T otal SQT OT AL n−1
18 / 23
A ANOVA, por si só, é um tipo de análise descritiva do ajuste do
modelo. A estatı́stica F é a razão entre variabilidades explicada
por X (modelo) e não explicada por X (erro).
Outra quantidade descritiva é o coeficiente de determinação,
popularmente conhecido como R2 dado por:
SQM ODELO SQRESIDU OS
R2 = =1−
SQT OT AL SQT OT AL
interpretado como a proporção de variabilidade em Y explicada
pelo modelo ajustado, no caso, explicada por X. Seu valor varia
entre 0 e 1, com valores altos indicando boa explicação. No caso
√
do modelo simples, R2 = ρ̂XY .
19 / 23
Inferências
Se os erros ϵi ’s forem Normalmente distribuı́dos (ou usando teoria
assintótica), a hipótese
H0 : β 1 = 0 (X não explica Y linearmente)
pode ser formalmente testada por um teste F . Sob H0 temos que:

(1)
• σ2
QMM ODELO ∼ χ21
(n−2)
• σ2
QMRESIDU OS ∼ χ2n−2
e essas duas variáveis são independentes. Portanto, sob H0
QMM ODELO
∼ F1;n−2
QMRESIDU OS
20 / 23
Inferências
Então, se Fobs > Fα; 1; (n−2) temos evidência para rejeitar H0 .

Esse teste é equivalente ao teste t para H0 : β1 = 0 que veremos
na sequência.
Substituindo σ 2 por σ̂ 2 nas expressões de variâncias para os

estimadores e preditores, e tomando-se a raiz quadrada, temos os
erros padrões estimados dos mesmos. Testes de hipóteses,
intervalos de confiança e bandas de predições podem ser obtidas
utilizando, como referência, a distribuição t-Student com n − 2
graus de liberdade.
21 / 23
Inferências
Assim, para testar hipótese do tipo
H0 : β1 = β10 vs HA : β1 ̸= β10
usamos a estatı́stica T dada por
β̂1 − β10
T = ,
√ σ̂
SXX
que, sob H0 , segue a distribuição t-Student, com n − 2 graus de

liberdade. Se o valor de T , tobs , for superior a |t α2 ; n−2 |, em que α
é o nı́vel de significância do teste, temos indicativa de que β1 não é
igual ao valor especificado na hipótese nula.
22 / 23
Inferências
Intervalos de Confiança a 100 × (1 − α)%:
para β1 :

σ̂ σ̂
β̂1 − |t α2 ; n−2 | √ ; β̂1 + |t α2 ; n−2 | √
SXX SXX
para E[Y (x)]:

q q
1 (x−x̄)2 1 (x−x̄)2
Ê[Y (x)] − |t α2 ; n−2 |σ̂ n + SXX ; Ê[Y (x)] + |t α2 ; n−2 |σ̂ n + SXX
para E[Y (x)]:

q q
1 (x−x̄)2 1 (x−x̄)2
Ỹ (x) − |t α2 ; n−2 |σ̂ 1+ n + SXX ; Ỹ (x) + |t α2 ; n−2 |σ̂ 1+ n + SXX
23 / 23

FML ModeloLinearSimples

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

FML ModeloLinearSimples

Enviado por

Direitos autorais:

Formatos disponíveis

FUNDAMENTOS EM MODELOS LINEARES

REGRESSÃO LINEAR SIMPLES

No caso do modelo de regressão linear simples, dado duas variáveis

com E(ϵi ) = 0, V(ϵi ) = σ 2 e E(ϵi ϵi′ ) = 0, i, i′ = 1,2, · · · , n e

Concentração do sal (x)

Figura 1: Regressão Linear Simples.

E(Yi |Xi = xi ) = β0 + β1 xi e V(Yi |Xi = xi ) = σ 2 .

e o modelo tem 3 parâmetros: β0 (intercepto), β1 (inclinação) e

β1 é o efeito linear de X, mede a diferença esperada em Y

σ 2 é a variância da parte aleatória se a equação incorporar

É comum assumir que ϵ ∼ N ormal(0; σ 2 ), porém tal suposição

Os parâmetros do modelo são estimados, ou seja, o modelo é

Os estimadores de mı́nimos quadrados, β̂0 e β̂1 , são as soluções

A soma de quadrados (SQ) dos erros é

que, diferenciando com respeito a cada coeficiente resulta em:

Essas equações são conhecidas como equações normais dos

(demonstre esses resultados)

β̂0 e β̂1 são consistentes.

Prova para β̂1 :

2. Predizer ϵi : ϵ̃i = Yi − Ŷi .

4. Predizer Y (x) = β0 + β1 x + ϵ para uma nova observação

A qualidade das estimativas e predições depende da variância dos

Note que os valores pontuais de Ỹ (x) e E[Y

a variância da predição Ỹ (x) é maior devido à incerteza associada

Note que as variâncias de estimativas e predições aumentam

Para encontrar a variância de ϵ̃i , V(ϵ̃i ) = V(Yi − Ŷi ), é útil

= SQT OT AL − SQM ODELO . 16 / 23

Rearranjando os termos temos a identidade

SQT OT AL = SQM ODELO + SQRESIDU OS

As Somas de Quadrados são funções de Y e portanto, são

• SQT OT AL ⇒ n − 1 graus de liberdade

• SQM ODELO ⇒ (p − 1) = (2 − 1) = 1 graus de liberdade

• SQRESIDU OS ⇒ (n − p) = (n − 2) graus de liberdade

Tabela de Análise de Variância para o ajuste do ML simples

Residuos SQRESIDU OS n−2 QMRESIDU OS

H0 : β 1 = 0 (X não explica Y linearmente)

pode ser formalmente testada por um teste F . Sob H0 temos que:

e essas duas variáveis são independentes. Portanto, sob H0

Então, se Fobs > Fα; 1; (n−2) temos evidência para rejeitar H0 .

Substituindo σ 2 por σ̂ 2 nas expressões de variâncias para os

usamos a estatı́stica T dada por

que, sob H0 , segue a distribuição t-Student, com n − 2 graus de

para E[Y (x)]:

para E[Y (x)]:

Você também pode gostar