Escolar Documentos
Profissional Documentos
Cultura Documentos
Ax + By + Cz + D = 0 .
D A B
Ax1 + Bx2 + Cy + D = 0 ⇔ y = − − x1 − x2
C C C
⇔ y = b0 + b1 x1 + b2 x2
11111111111111111111111
00000000000000000000000
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
Y = b0 + b1 x1 + b2 x2
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111x1
00000000000000000000000
11111111111111111111111
x2
y = b0 + b1 x1 + b2 x2 + ... + bp xp .
n n
SQRE = ∑ ei2 = ∑ (yi − ŷi )2
i= i=
y = b0 + b1 x1 + b2 x2 + ... + bp xp .
7.5
Sepal.Length
6.0
4.5
4.0
Sepal.Width
3.0
2.0
7
5
Petal.Length
3
1
2.5
1.5
Petal.Width
0.5
Tal hipótese pode ser válida, mesmo que não se verifique linearidade
em qualquer das nuvens de pontos de y vs. um preditor individual, xj .
y = (y1 , y2 , y3 , ..., yn ) .
x1
Ind. 1
1n
Rn
y
x2
Ind. 2
x3
Ind. 3
...
Ind n
Ind. 4
= ŷ
= a0 1n + a1 x1 + a2 x2 + ... + ap xp
Rn y
ŷ = Hy
C (X)
Rn y
√
SQRE = ky − ŷk
ŷ = Hy
C (X)
Logo, temos:
ŷ = Hy
⇔ ŷ = X (Xt X)−1 Xt y
| {z }
=b
s
n √
A norma deste vector é kyc k = ∑ (yi − y)2 = SQT .
i=1
Hyc = H (y − y 1n )
⇔ Hyc = Hy − y H1n
⇔ Hyc = ŷ − y 1n
i=1
c
√ o vector y e a sua projecção ortogonal sobre C (X)
A distância entre
continua a ser SQRE:
yc − Hyc = (y −
y 1 y 1
n ) − (ŷ − n)
c c
⇔ y − Hy = y − ŷ
pelo que
s
n √
kyc − Hyc k = ky − ŷk = ∑ (yi − ŷi )2 = SQRE .
i=1
Hyc
C (X)
√
SQR = kHyc k
SQR
cos2 (θ ) = = R2 ,
SQT
onde θ é o ângulo entre os vectores yc e Hyc .
Rn
yc
√
SQT = kyc k
√
SQRE = ky − Hyk
θ Hyc
C (X)
√
SQR = kHyc k
SQR
O Coeficiente de Determinação na Regressão Linear, R 2 = SQT ,
é o cosseno ao quadrado do ângulo entre yc e Hyc .
y ∼ x1 + x2 + x3
> lm ( y ∼ x1 + x2 + x3 , data=dados)
O hiperplano ajustado é:
−1
⇒ SQRE minimo se b = Xt X Xt y.
Mas, tal como na Regressão Linear Simples, coloca-se o problema
inferencial quando as n observações representam uma amostra
aleatória de uma população mais vasta. É a relação populacional
entre Y e as p variáveis preditoras que se pretende conhecer. Para
esse fim, será necessário admitir alguns pressupostos adicionais.
Y = Xβ + ε ,
onde
Y1 1 x1(1) x2(1) ··· xp(1) β0 ε1
Y2
1 x1(2) x2(2) ··· xp(2)
β1
ε2
Y= Y3
, X = 1 x1(3) x2(3) ··· xp(3)
, β =
β2 , ε =
ε3
..
.. .. .. .. ..
.. ..
. . . . . . . .
Yn 1 x1(n) x2(n) ··· xp(n) βp εn
1 −1
e− 2 (w−µ ) Σ (w−µ )
1 t
f (w) = p , w ∈ Rk . (3)
(2π )k /2 Σ)
det(Σ
Notação: W ∩ Nk (µ ,Σ
Σ).
y
x
Y ∩ Nn (Xβ , σ 2 In ).
β̂j ∩ N βj , σ 2 (Xt X)−1
(j+1,j+1)
β̂j − βj
⇔ ∩ N (0, 1) ,
σβ̂
j
q
onde σβ̂ = σ 2 (Xt X)−1
(j+1,j+1) .
j
β.
SQRE é independente de β̂
Corolário
h i
Dado o Modelo de RLM, E SQRE
n−(p+1) = σ 2.
SQRE
QMRE =
n − (p + 1)
σ̂ 2 = QMRE .
β̂j − βj
Z = q ∩ N (0, 1) .
σ 2 · (Xt X)−1
(j+1,j+1)
Temos ainda:
SQRE
W = ∩ χn−(p+1)
2
e Z , W v.a. independentes .
σ2
Z β̂j − βj
p = q ∩ tn−(p+1) .
W /(n−(p+1)) QMRE · (Xt X)−1
(j+1,j+1)
β̂j − βj
∩ tn−(p+1) ,
σ̂β̂
j
q
com σ̂β̂ = QMRE · (Xt X)−1
(j +1,j +1) .
j
q
com σ̂β̂j = QMRE · (Xt X)−1(j +1,j +1) , e sendo tα /2[n−(p+1)] o valor que na
distribuição tn−(p+1) deixa à direita uma região de probabilidade α /2.
O valor bj é o elemento j +1 do vector das estimativas b (acetato 207).
> summary(iris2.lm)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.24031 0.17837 -1.347 0.18
Petal.Length 0.52408 0.02449 21.399 < 2e-16 ***
Sepal.Length -0.20727 0.04751 -4.363 2.41e-05 ***
Sepal.Width 0.22283 0.04894 4.553 1.10e-05 ***
⇔ ] −0.3012 , −0.1134 [
> confint(iris2.lm)
2.5 % 97.5 %
(Intercept) -0.5928277 0.1122129
Petal.Length 0.4756798 0.5724865
Sepal.Length -0.3011547 -0.1133775
Sepal.Width 0.1261101 0.3195470
> confint(iris2.lm,level=0.99)
0.5 % 99.5 %
(Intercept) -0.70583864 0.22522386
Petal.Length 0.46016260 0.58800363
Sepal.Length -0.33125352 -0.08327863
Sepal.Width 0.09510404 0.35055304
at β = a0 β0 + a1 β1 + a2 β2 + ... + ap βp .
at β = β0 + β1 x1 + β2 x2 + ... + βp xp
= E [Y | X1 = x1 , X2 = x2 , ..., Xp = xp ] .
β − at β
at β̂
p ∩ tn−(p+1) .
QMRE · at (Xt X)−1 a
β − at β
at β̂
∩ tn−(p+1) ,
σ̂at β̂β
p
com σ̂at β̂β = QMRE · at (Xt X)−1 a.
µ̂Y |x − tα /2 [n−(p+1)] · σ̂indiv , µ̂Y |x + tα /2 [n−(p+1)] · σ̂indiv
µ̂Y |x = b0 + b1 x1 + b2 x2 + ... + bp xp
e
q
σ̂indiv = QMRE 1 + at (Xt X)−1 a com a = (1, x1 , x2 , ..., xp ).
H0 : β1 = β2 = ... = βp = 0
[MODELO INÚTIL]
vs.
H1 : ∃ j = 1, ..., p t.q. βj 6= 0
[MODELO NÃO INÚTIL]
Teorema
Dado o Modelo de Regressão Linear Múltipla,
SQR
σ2
∩ χp2 , se β1 = β2 = ... = βp = 0.
SQR e SQRE são variáveis aleatórias independentes.
SQR
Defina-se o Quadrado Médio associado à Regressão, QMR = p .
W = SQR
σ2
∩ χp2
W /p QMR
V = SQRE
σ2
∩ χn−(p+1)
2 ⇒ = ∩ Fp,n−(p+1) .
V /n−(p+1) QMRE
W , V independentes
SQR SQRE
sendo QMR = p e QMRE = n−(p+1) .
0.7
0.6
0.5
df(x, 4, 16)
Rejeitar H0 se Fcalc > fα [p,n−(p+1)]
0.4
0.3
0.2
0.1
0.0
0 1 2 3 4
n − (p + 1) R2
F = · .
p 1 − R2
H0 : R 2 = 0 vs. H1 : R 2 > 0 .
Y = β0 + β1 x1 + β2 x2 + β3 x3 + β4 x4 + β5 x5 ,
Y = β0 + β2 x2 + β5 x5 ,
0.7
0.6
0.5
df(x, 4, 16)
Rejeitar H0 se Fcalc > fα [p−k , n−(p+1)]
0.4
0.3
0.2
0.1
0.0
0 1 2 3 4
n − (p + 1) RC2 − RS2
F = · .
p−k 1 − RC2
0.7
0.6
0.5
df(x, 4, 16)
Rejeitar H0 se Fcalc > fα [p−k , n−(p+1)]
0.4
0.3
0.2
0.1
0.0
0 1 2 3 4
Nesse caso, não apenas as hipóteses dos dois testes são iguais,
como a estatística do teste F parcial é o quadrado da estatística do
teste t referido. Tem-se p − k = 1, e como é sabido (ver os
apontamentos da disciplina de Estatística dos primeiros ciclos do ISA),
se uma variável aleatória T tem distribuição tν , então o seu quadrado,
T 2 tem distribuição F1,ν .
> anova(brix2.lm,brix.lm)
Analysis of Variance Table
Model 1: Brix ~ Diametro + Acucar
Model 2: Brix ~ Diametro + Altura + Peso + pH + Acucar
Res.Df RSS Df Sum of Sq F Pr(>F)
1 11 0.42743
2 8 0.14925 3 0.27818 4.97 0.03104 *
SQREk
AIC = n · ln + 2(k + 1)
n
Neste caso, não se exclui qualquer variável: o AIC do modelo inicial é inferior ao de
qualquer submodelo resultante de excluir uma variável. O submodelo final é o modelo
inicial.
Deve ser usado com bom senso e o submodelo obtido cruzado com
outras considerações (como por exemplo, o custo ou dificuldade de
obtenção de cada variável, ou o papel que a teoria relativa ao
problema em questão reserva a cada preditor).
20
0
0 2 4 6 8 10
400
300
videiras$Area
200
100
4 6 8 10 12 14 16
videiras$NP
R2 = 0.8162
400
y = 7.5951 − 0.2172x + 1.2941x2
300
videiras$Area
200
100
R2 = 0.8003
4 6 8 10 12 14 16
videiras$NP
Y = β0 + β1 |{z}
x +β2 |{z}
x 2 +β3 |{z}
x 3 +... + βp |{z}
xp
=x1 =x2 =x3 =xp
Y = β0 + β1 |{z}
x +β2 |{z}
x 2 +β3 |{z}
z +β4 |{z}
z 2 +β5 |{z}
xz
=x1 =x2 =x3 =x4 =x5
Uma análise de regressão linear não fica completa sem o estudo dos
resíduos e de alguns outros diagnósticos.
εi ∩ N (0 , σ 2 ) ∀ i = 1, ..., n .
simétrica, isto é Ht = H;
idempotente, isto é, H2 = H H = H.
cov(Ei , Ej ) = −σ 2 hij , se i 6= j ,
Ei
Ti = q
QMRE[−i] · (1 − hii )
p+1
h= ,
n
ou seja, a razão entre o número de parâmetros e o número de
observações.
kŷ − ŷ(−i)k2
Di = ,
(p + 1) · QMRE
β (−i) é o vector dos n valores ajustados de Y obtido
onde ŷ(−i) = Xβ̂
estimando os β s sem a observação i. Expressão equivalente é (sendo
Ri o correspondente resíduo estandardizado):
2 hii 1
Di = Ri · · .
1 − hii p+1
13
2
1.5 14
1
1
Standardized residuals
0.5
1
14
Cook’s distance
1.0
0
1
−1
0.5
0.5
−2
13
Cook’s distance
0.0
2 QMRE SQRE
Rmod = 1− = 1− · n−1 = 1 − (1 − R 2) · n−(p+1)
n−1 .
QMT SQT n−(p+1)
2
Tem-se sempre n−1 > n−(p+1), pelo que Rmod < R 2.
2
Se n é pouco maior que o número de variáveis preditoras, Rmod é
2 2
bastante inferior a R , excepto se R fôr muito próximo de 1.
J. Cadima (ISA) Estatística e Delineamento 2014-15 301 / 479
Advertências finais
y = a x1b x2c
Uma relação causal só pode ser afirmada com base em teoria própria
do fenómeno sob estudo, e não com base na relação linear
estabelecida estatisticamente.