Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatstica e Delineamento
2012-13
166 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
167 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
168 / 446
Plano em R3
Qualquer plano em R3 , no sistema x0y0z, tem equao
Ax + By + Cz + D = 0 .
No nosso contexto, e colocando:
no eixo vertical (z) a varivel resposta Y ;
noutro eixo (x) um preditor X1 ;
no terceiro eixo (y) o outro preditor X2 ,
A equao fica
B
D A
x1 x2
C C
C
y = 0 + 1 x1 + 2 x2
Ax1 + Bx2 + Cy + D = 0 y =
Estatstica e Delineamento
2012-13
169 / 446
x2
Estatstica e Delineamento
2012-13
170 / 446
Estatstica e Delineamento
2012-13
171 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
172 / 446
6.5
7.5
4.5
5.5
Sepal.Length
Sepal.Width
Petal.Length
Petal.Width
4.5
J. Cadima (ISA)
5.5
6.5
7.5
Estatstica e Delineamento
2012-13
173 / 446
Advertncia
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
174 / 446
(j = 1, 2, ..., p).
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
175 / 446
A representao grfica em Rn
cada eixo corresponde a um indivduo observado;
cada vector corresponde a uma varivel.
O vector de n uns, representado por 1n , tambm til.
x1
Rn
Ind. 1
1n
y
x2
Ind. 2
x3
Ind. 3
...
Ind n
J. Cadima (ISA)
Ind. 4
Estatstica e Delineamento
2012-13
176 / 446
0 1n + 1 x1 + 2 x2 + ... + p xp
J. Cadima (ISA)
1
1
1
..
.
1
+ 1
x1(1)
x1(2)
x1(3)
..
.
x1(n)
+ ... + p
xp(1)
xp(2)
xp(3)
..
.
xp(n)
Estatstica e Delineamento
2012-13
177 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
178 / 446
O produto matricial Xb
O produto duma matrix X por um vector b uma combinao linear
das colunas de X:
Xb
J. Cadima (ISA)
1
1
1
..
.
1
x1(1)
x1(2)
x1(3)
..
.
x1(n)
x2(1)
x2(2)
x2(3)
..
.
x2(n)
..
.
xp(1)
xp(2)
xp(3)
..
.
xp(n)
b0
b1
b2
..
.
bp
b0 1n + b1 x1 + b2 x2 + ... + bp xp
Estatstica e Delineamento
2012-13
179 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
180 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
181 / 446
= Hy
y
C (X)
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
182 / 446
(yi yi )2 ,
i=1
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
183 / 446
k
SQRE = ky y
= Hy
y
C (X)
SQRE , a soma dos quadrados
O quadrado da distncia de y a y
dos resduos.
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
184 / 446
A projeco ortogonal
A projeco ortogonal de um vector y Rn sobre o subespao C (X)
gerado pelas colunas (linearmente independentes) de X faz-se
pr-multiplicando y pela matriz de projeco ortogonal sobre C (X):
H = X Xt X
Logo, temos:
1
Xt .
= Hy
y
= X (Xt X)1 Xt y
y
|
{z
}
=b
Estatstica e Delineamento
2012-13
185 / 446
SQRE =
(yi yi )2 .
i=1
SQT =
(yi y)2
i=1
yi2 ny 2 .
i=1
SQR =
(yi y)2 =
i=1
J. Cadima (ISA)
Estatstica e Delineamento
yi2 ny 2 .
i=1
2012-13
186 / 446
Pitgoras e a Regresso
O Teorema de Pitgoras aplica-se em qualquer espao euclideano Rn .
Aplicado ao tringulo rectngulo do acetato 184 produz a seguinte
relao:
k2 + ky y
k2
kyk2 = ky
n
yi2
i=1
yi2 ny 2 =
i=1
SQT
J. Cadima (ISA)
i=1
i=1
yi2 + (yi yi )2
n
{z
= SQRE
yi2 ny 2 + SQRE
i=1
= SQR + SQRE
Estatstica e Delineamento
2012-13
187 / 446
Revisitando Pitgoras
Vimos que a relao fundamental da Regresso Linear
(SQT = SQR + SQRE ) resulta duma aplicao do Teorema de
Pitgoras. Mas foi necessrio introduzir a subtraco de ny 2 .
Um outro tringulo rectngulo estatisticamente mais interessante.
Considere-se o vector centrado das observaes da varivel resposta,
isto , o vector cujo elemento genrico yi y. Este vector, que ser
designado yc , obtm-se subtrando a y o vector que repete n vezes y :
yc = y (y) 1n = (y1 y, y2 y, ..., yn y).
J. Cadima (ISA)
SQT =
kyc k
Estatstica e Delineamento
(yi y)2 .
i=1
2012-13
188 / 446
Hyc = H (y (y) 1n )
Hyc = Hy (y) H1n
(y) 1n
Hyc = y
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
189 / 446
SQT = kyc k
C (X)
SQR = kHyc k
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
190 / 446
SQR
= R2 ,
SQT
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
191 / 446
SQT = kyc k
SQRE = ky Hyk
Hyc
C (X)
SQR = kHyc k
Estatstica e Delineamento
SQR
SQT ,
2012-13
192 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
193 / 446
A Regresso Mltipla no
Uma Regresso Mltipla no
estuda-se atravs do mesmo
comando lm usado para a regresso linear simples. A indicao de
qual a varivel resposta y e quais as variveis preditoras x1 , ..., xp
faz-se atravs do argumento formula.
Por exemplo, se a varivel resposta se chama y e existirem trs
variveis de nomes x1, x2 e x3, a frmula que indica a relao ser:
y
x1 + x2 + x3
Estatstica e Delineamento
2012-13
194 / 446
O contexto inferencial
At aqui, apenas se considerou o problema descritivo:
dados n conjuntos de observaes {(x1(i) , x2(i) , ..., xp(i) , y(i) )}ni=1 ,
determinar os p + 1 coeficientes b = (b0 , b1 , b2 , ..., bp ) que
minimizam a soma de quadrados de resduos
n
SQRE =
(yi yi )2
i=1
i=1
SQRE minimo se
b = Xt X
1
Xt y.
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
195 / 446
i = 1, ..., n
J. Cadima (ISA)
Estatstica e Delineamento
+ 1
+ 2
+ 3
.. ..
. .
+ n
2012-13
196 / 446
A notao matricial
Y=
Y1
Y2
Y3
..
.
Yn
X=
J. Cadima (ISA)
1
1
1
..
.
1
x1(1)
x1(2)
x1(3)
..
.
x1(n)
x2(1)
x2(2)
x2(3)
..
.
x2(n)
..
.
xp(1)
xp(2)
xp(3)
..
.
xp(n)
Estatstica e Delineamento
, = 2 , =
..
2012-13
1
2
3
..
.
197 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
198 / 446
i N (0 , 2 ), i = 1, ..., n.
{i }ni=1 v.a. independentes.
i = 1, ..., n.
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
199 / 446
E [W1 ]
E [W2 ]
E [W] =
.
..
.
E [Wk ]
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
200 / 446
V [W1 ]
C[W2 , W1 ]
V [W] = C[W3 , W1 ]
..
C[Wk , W1 ]
J. Cadima (ISA)
C[W1 , W2 ]
C[W1 , W3 ]
...
V [W2 ]
C[W2 , W3 ]
...
C[W3 , W2 ]
V [W3 ]
...
..
.
..
.
..
C[Wk , W2 ]
C[Wk , W3 ]
...
Estatstica e Delineamento
C[W1 , Wk ]
C[W2 , Wk ]
C[W3 , Wk ]
..
V [Wk ]
2012-13
201 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
202 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
203 / 446
(2 )n/2
1
p
)
det(
1
1
t
e 2 (w ) (w )
w Rn .
(3)
).
Notao: W Nn ( ,
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
204 / 446
z
y
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
205 / 446
5
6
).
Se a um vector (no-aleatrio) k 1, ento W + a Nk ( + a,
Estatstica e Delineamento
2012-13
206 / 446
Y = X + .
Nn (0 , 2 In ).
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
207 / 446
Estatstica e Delineamento
2012-13
208 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
209 / 446
Estatstica e Delineamento
2012-13
210 / 446
onde =
j
j j
j , 2 (Xt X)1
(j+1,j+1)
N (0, 1) ,
2 (Xt X)1
(j+1,j+1) .
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
211 / 446
O problema de 2 desconhecido
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
212 / 446
2
n(p+1)
SQRE independente de .
NOTA: Omite-se a demonstrao
Corolrio
Dado o Modelo de RLM,
J. Cadima (ISA)
SQRE
n(p+1)
= 2.
Estatstica e Delineamento
2012-13
213 / 446
SQRE
n (p + 1)
2 = QMRE .
Como se viu no acetato anterior, QMRE um estimador centrado.
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
214 / 446
Revisitando o estimador de j
Vimos (acetato 211) que cada estimador j verifica:
Z = q
j j
2 (Xt X)1
(j+1,j+1)
N (0, 1) .
Temos ainda:
W =
SQRE
2
n(p+1)
2
Z , W v.a. independentes .
W /(n (p + 1))
J. Cadima (ISA)
= q
j j
Estatstica e Delineamento
tn(p+1) .
2012-13
215 / 446
j j
tn(p+1) ,
q
com = QMRE (Xt X)1
(j +1,j +1) .
j
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
216 / 446
q
com = QMRE (Xt X)1
(j +1,j +1) , e sendo t /2[n(p+1)] o valor que na
j
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
217 / 446
O hiperplano ajustado :
PW = 0.24031 + 0.52408 PL 0.20727 SL + 0.22283 SW
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
218 / 446
(cont.)
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
219 / 446
j = c
Estatstica do Teste: T =
vs.
H1 :
<
j 6= c
>
=c
z}|{
j j |H0
tn(p+1)
Estatstica e Delineamento
2012-13
220 / 446
= 0 + 1 x1 + 2 x2 + ... + p xp
= E [Y | X1 = x1 , X2 = x2 , ..., Xp = xp ] .
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
221 / 446
Ou seja, Z =
N (0, 1);
at at
Estatstica e Delineamento
tn(p+1) .
2012-13
222 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
223 / 446
p
QMRE at (Xt X)1 a
J. Cadima (ISA)
at b = a0 b0 + a1 b1 + ... + ap bp .
Estatstica e Delineamento
2012-13
224 / 446
at = c
Estatstica do Teste: T =
vs.
H1 :
<
at 6= c
>
=c
z }| {
at at |H0
at
tn(p+1)
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
225 / 446
Estatstica e Delineamento
2012-13
226 / 446
No
2 +3
p
0.002256837 + 0.002394932 + 2(0.001344002) = 0.04431439 .
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
227 / 446
Estatstica e Delineamento
] 0.4169 , 0.5077 [.
2012-13
228 / 446
Estatstica e Delineamento
2012-13
229 / 446
Estatstica e Delineamento
2012-13
230 / 446
Teorema
Dado o Modelo de Regresso Linear Mltipla,
SQR
2
p2 ,
se 1 = 2 = ... = p = 0.
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
231 / 446
W = SQR
QMR
W /p
SQRE
2
=
Fp,n(p+1) .
V = 2 n(p+1)
V /n(p+1)
QMRE
W , V independentes
sendo QMR = SQR/p e QMRE = SQRE /[n (p + 1)].
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
232 / 446
H0 :
Hipteses:
H1 :
Estatstica do Teste: F =
QMR
QMRE
Fp,n(p+1)
se H0 .
0.4
0.3
0.0
0.1
0.2
df(x, 4, 16)
0.5
0.6
0.7
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
233 / 446
R2
n (p + 1)
.
p
1 R2
vs.
H1 : R 2 > 0 .
Estatstica e Delineamento
2012-13
234 / 446
R 2 = 0 vs.
Estatstica do Teste: F =
n(p+1)
p
H1 :
R 2 > 0.
R
1R
2 F(p,n(p+1))
se H0 .
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
235 / 446
g.l.
SQ
QM
fcalc
Regresso
ni=1 (yi y )2
SQR
p
QMR
QMRE
Resduos
n (p + 1)
ni=1 (yi yi )2
SQRE
np1
n1
ni=1 (yi y )2
Total
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
236 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
237 / 446
Modelo e Submodelos
Se dispomos de um modelo de Regresso Linear Mltipla, com
relao de base
Y = 0 + 1 x1 + 2 x2 + 3 x3 + 4 x4 + 5 x5 ,
chamamos submodelo a um modelo de regresso linear mltipla
contendo apenas algumas das variveis preditoras, e.g.,
Y = 0
+ 2 x2
+ 5 x5 ,
Estatstica e Delineamento
2012-13
238 / 446
j
/S
[SUBMODELO OK]
vs.
H1 : j
/S
tal que j 6= 0.
[SUBMODELO PIOR]
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
239 / 446
Fpk ,n(p+1) ,
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
240 / 446
j
/S
vs. H1 : j
/S
Estatstica do Teste:
S SQREC )/(pk )
F = (SQRE
SQRE /[n(p+1)]
C
j 6= 0.
tal que
0.4
0.3
0.2
0.0
0.1
df(x, 4, 16)
0.5
0.6
0.7
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
241 / 446
n (p + 1) RC2 RS2
.
pk
1 RC2
vs.
Estatstica e Delineamento
2012-13
242 / 446
vs.
Estatstica do Teste:
RC2 RS2
F = n(p+1)
pk 1R 2
C
0.4
0.3
0.2
0.0
0.1
df(x, 4, 16)
0.5
0.6
0.7
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
243 / 446
O teste a submodelos no
A informao necessria para um teste F parcial obtem-se no
atravs da funo anova, com dois argumentos: os objectos lm
resultantes de ajustar o modelo completo e o submodelo sob
comparao.
Estatstica e Delineamento
2012-13
244 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
245 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
246 / 446
J. Cadima (ISA)
2p 2
30
1 022
32 766
1 048 574
Estatstica e Delineamento
2012-13
247 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
248 / 446
Um exemplo
Nos dados relativos ao Exerccio 2 (RLM) das aulas prticas, a tabela
associada regresso da varivel Brix sobre todas as restantes :
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.08878
1.00252
6.073 0.000298 ***
Diametro
1.27093
0.51219
2.481 0.038030 *
Altura
-0.70967
0.41098 -1.727 0.122478
Peso
-0.20453
0.14096 -1.451 0.184841
pH
0.51557
0.33733
1.528 0.164942
Acucar
0.08971
0.03611
2.484 0.037866 *
Estatstica e Delineamento
2012-13
249 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
250 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
251 / 446
pH + Acucar, data=brix))
Pr(>|t|)
0.000220 ***
0.027189 *
0.014050 *
0.336316
0.053031 .
Estatstica e Delineamento
2012-13
252 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
253 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
254 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
255 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
256 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
257 / 446
Regresso Polinomial
Um caso particular de relao no-linear, mesmo que envolvendo
apenas uma varivel preditora e a varivel resposta, pode ser
facilmente tratada no mbito duma regresso linear mltipla: o caso
de relaes polinomiais entre Y e um ou mais preditores.
20
40
60
80
10
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
258 / 446
200
100
videiras$Area
300
400
10
12
14
16
videiras$NP
Estatstica e Delineamento
2012-13
259 / 446
Estatstica e Delineamento
2012-13
260 / 446
200
100
videiras$Area
300
400
R2 = 0.8162
y = 7.5951 0.2172x + 1.2941x2
R2 = 0.8003
4
10
12
14
16
videiras$NP
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
261 / 446
=x2
=xp
=x3
J. Cadima (ISA)
=x2
=x3
Estatstica e Delineamento
=x4
=x5
2012-13
262 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
263 / 446
i N (0 , 2 )
i = 1, ..., n .
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
264 / 446
Estatstica e Delineamento
2012-13
265 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
266 / 446
se i 6= j ,
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
267 / 446
Ei
QMRE[i] (1 hii )
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
268 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
269 / 446
O efeito alavanca
Outras ferramentas de diagnstico visam identificar observaes
individuais que merecem ulterior anlise, tal como na RLS. Mas
importa adaptar as definies ao contexto de Regresso Mltipla.
Numa RLM o valor de efeito alavanca (leverage) o valor hii do
elemento diagonal da matriz de projeco ortogonal H,
correspondente observao i.
O valor mdio das observaes alavanca numa RLM
h=
p+1
,
n
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
270 / 446
Grficos de diagnstico
A distncia de Cook para avaliar a influncia da observao i
define-se agora como:
Di =
y
(i)k2
ky
,
(p + 1) QMRE
1 hii
p+1
Os restantes aspectos da discusso so anlogos aos duma RLS.
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
271 / 446
Residuals vs Leverage
2
1.5
13
14
1
0.5
Standardized residuals
1.0
14
0.5
Cooks distance
0.5
0.0
Cooks distance
2
10
12
14
0.0
Obs. number
0.2
0.4
13
0.6
Leverage
Estatstica e Delineamento
2012-13
272 / 446
O R 2 modificado
Como foi visto no contexto da RLS (acetato 143), define-se uma
variante do Coeficiente de Determinao: o R 2 modificado.
O Coeficiente de Determinao usual:
R2 =
SQR
SQRE
= 1
SQT
SQT
QMRE
SQRE
n1
= 1
.
QMT
SQT n (p + 1)
Estatstica e Delineamento
2012-13
273 / 446
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
274 / 446
Y = 0 x1 1 x2 2
torna-se, aps uma logaritmizao, numa relao linear entre ln(Y ),
ln(x1 ) e ln(x2 ) (com 0 = ln(0 )):
ln(Y) = 0 + 1 ln(x1 ) + 2 ln(x2 ) .
J. Cadima (ISA)
Estatstica e Delineamento
2012-13
275 / 446
Estatstica e Delineamento
2012-13
276 / 446