Escolar Documentos
Profissional Documentos
Cultura Documentos
Construcao de Modelos de Regressao
Construcao de Modelos de Regressao
= |
.
|
\
|
=
Observe que R
2
a
aumenta se e apenas se o
quadrado mdio do erro diminui, pois a
sqtotal/(n-1) fixa dado os valores observados
de y.
Leva em considerao o nmero de parmetros no modelo
41
Exemplo: Na tabela, a coluna 6 fornece os
valores dos quadrados mdios do erro, para
todos os modelos de regresso possveis, para
o dados do experimento sobre demanda de
recursos. Por exemplo, um modelo com X
3
:
6737 3
16
78 58
2 n
X SQE
QME
3
2
,
, ) (
= =
=
42
0
1
41
2
23
3
1
2
3
4
*
*
*
*
*
*
*
*
X
1
X
2
X
3
X
1
X
2
X
1
X
3
X
2
X
3
X
1
X
2
X
3
24
p
4
5
6
QME
43
As concluses so muito semelhantes
quelas feita com o uso do coeficiente de
determinao mltiplo. Os quadrados
mdios encontrados para os subconjuntos X
3
,
X
2
X
3
, X
1
X
3
e X
1
X
2
X
3
so praticamente iguais.
44
3 - Critrio C
p
O critrio C
p
envolve o conceito de erro
quadrtico mdio total, o qual considera o erro
total em cada valor ajustado:
( )
i i
Y
45
i i i i i i
Y E Y Y E Y
+ =
Dois componentes do erro:
Vis Erro
aleatrio
Desvio devido ao uso
de um modelo
incorreto.
46
Portanto, o quadrado do erro total para Y
i
(chapu), fica:
2
i i i i
2
i i
Y E Y Y E Y
O valor esperado dado por:
)
( )
i
2
2
i i
2
i i
Y Y E Y E o
(Veja demonstrao na prxima pgina)
Vis do modelo
47
( ) ( ) ( ) ( ) ( ) | |
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) | |
( ) ( ) ( ) ( ) ( ) | |
( ) ( ) ) (definio ) Y
(
E (3)
0
)
2
2 ) 2 (
E ) 1 (
2
i
2
2
2 2
2 2
2 2
o
=
=
=
=
=
(
+ + =
+ =
i i
i i i i i i
i i i i
i i i i
i i i i i i i i
i i i i i i
Y E Y
Y E Y E Y E Y E
Y E Y Y E E
Y E Y E
Y E Y Y E Y Y E Y E E
Y E Y Y E E Y E
48
O erro quadrtico mdio do total, para todas os n
valores ajustados Y
i
(chapu), a soma de todos os
n erros quadrticos mdios individuais:
= =
=
=
n
1 i
i
2
n
1 i
2
i i
n
1 i
i
2
2
i i
n
1 i
2
i i
Y Y E
Y Y E
Y E
)
( )
(
)
( )
o
o
49
Uma medida do critrio, representado por I
p
,
o erro quadrtico mdio total dividido pela
varincia do erro:
= =
n
1 i
i
2
n
1 i
2
i i
2
p
Y Y E
1
)
( )
( o
o
I
Um estimador de o
2
o QME(X
1
, X
2
,...,X
P-1
),
isto , o quadrado mdio do erro do modelo
com todas as potenciais variveis explanatrias.
Isto equivalente a assumir que o modelo
correto (sem vis).
50
O estimador de I
p
Resultados:
=
=
n
1 i
2
i
2
p Y 1 o o )
( )
2
n
1 i
2
i i
p n Y E 2 o ) ( )
( ) ) + =
=
p
E(SQE
(Demonstrao )
51
.
) (
) ( .
) (
) (
)
(
) (
) (
)
(
2
2
2
2
2
1 1
2
2
2 2
2
2
2 2
2
1
1
1
p
X X
X X
n
n
X X
X X
n
Y
X X
X X
n
Y
i
i
n
i
n
i
i
i
i
i
i
i
|
|
.
|
\
|
+
|
|
.
|
\
|
+ =
|
|
.
|
\
|
+ =
= =
52
Assim, I
p
dado por:
) (
)
) ( ) (
p 2 n
p p n SQE E
1
2
2 2
p
2
p
=
+ =
o
o o
o
p
E(SQE
I
Substituindo E(SQE
p
) pelo estimador SQE
p
, temos:
) (
) ,..., , (
p 2 n
X X X QME
C
1 P 2 1
p
=
p
SQE
SQE
p
a soma de quadrados do erro para o modelo de
regresso com p parmetros, ou seja, p-1 variveis X.
53
Para um modelo com todas as P-1 variveis
X modelo, o valor de C
p
dado por:
( ) P P n P n p n
P n
X X X SQE
X X X SQE
C
P
P
p
= =
) 2 ( ) ( 2
) ,..., , (
) ,..., , (
1 2 1
1 2 1
Quando o modelo de regresso com p-1
variveis X no apresenta vis (o modelo
correto) . O valor esperado de C
p
dado por:
i i
Y E )
(
p C E
p
~ ) (
54
Portanto, num grfico, C
p
versus p, temos:
Modelos com pouco vis, os valores de
C
p
tendem a se posicionarem prximos da
linha C
p
=p
.
Modelos com grande vis, os valores de
C
p
tendem a se posicionarem bem acima
da linha C
p
=p
.
Modelos sem vis, os valores de C
p
tendem
a se posicionarem abaixo da linha C
p
=p
.
Esto abaixo da linha devido ao erro de
amostragem (variao aleatria).
55
O critrio C
p
assume que o QME(X
1
,...,X
P-1
)
um estimador no viesado de o
2
, o que
equivalente a assumir que o modelo no
apresenta vis.
Com o critrio C
p
procuramos identificar
subconjuntos de variveis X para os quais:
1. O valor de C
p
pequeno (o erro quadrtico
mdio total pequeno);
2. O valor de C
p
prximo de p(o vis do
modelo de regresso pequeno).
56
Exemplo: Na tabela, a coluna 7 fornece os
valores C
p
, para todos os modelos de
regresso possveis, para os dados do
experimento sobre demanda de recursos. Por
exemplo, um modelo com X
3
apenas:
70 5 2 2 18
98 2
78 58
C
p
, )) ( (
,
,
= =
Todos os valores de C
p
esto na figura a
seguir:
57
0
1
219
2
114
3
1
2
3
4
*
*
*
*
*
*
*
*
X
1
X
2
X
3
X
1
X
2
X
1
X
3
X
2
X
3
X
1
X
2
X
3
115
p
4
5
6
116
16
17
7
C
p
58
O critrio C
p
, sugere os modelos com as
variveis (X
1
, X
2
e X
3
), X
3
ou (X
1
e X
3
). O
valor de C
p
=4 no muito melhor do que o
valor de C
p
=5,70 para o modelo com apenas a
varivel X
3
.
59
4 - Critrio PRESS
p
O critrio PRESS
p
(soma de quadrados de
predio) uma medida de quo bem os
valores ajustados atravs de um modelo
candidato (de pesquisa) podem predizer
as respostas observadas Y
i
.
60
Como funciona: cada valor ajustado
Y
i
(chapu) para o critrio PRESS obtido
deletando-se o i-simo caso do conjunto de
dados, estimando a funo de regresso para o
modelo candidato com as n-1 observaes
restantes e, ento, usando a equao de
regresso ajustada, obter o valor predito ,
para a i-sima observao.
) (
i i
Y
i-simo caso
omitido
i-simo valor
predito
61
O erro de predio PRESS para o i-simo
caso dado por:
) (
i i i
Y Y
O critrio PRESS
p
a soma de todos esses n
erros de predio quadrticos:
( )
2
1
=
=
n
i
i i i p
Y Y PRESS
) (
\
|
= =
) b ( s
b
) X , X ( QME
) X | X ( QMR
F
k
k
k
k
*
k
72
A varivel X com o maior valor de F
*
candidata a entrar no modelo neste segundo
estgio. Se este valor de F
*
exceder um
determinado valor, a segunda varivel X
includa no modelo, caso contrrio, o
programa finalizado.
73
Suponha que X
1
(acesso ao disco) includa
no modelo no segundo estgio. Neste passo,
a regresso stepwise examina se qualquer
das outras variveis X j includas no
modelo devem ser retiradas. No nosso caso,
s temos uma outra varivel no modelo, X
3
,
assim, s feito um teste F parcial:
) X , X ( QME
) X | X ( QMR
F
*
1 3
1 3
3
=
74
Se este valor de F
*
for menor do que um
determinado valor, a varivel X deletada do
modelo, caso contrrio, ela permanece.
Suponha que ambas as variveis, X
3
e X
1
,
permanecem no modelo. A regresso stepwise
examina qual nova varivel X candidata a entrar
no modelo, ento verifica se qualquer das
variveis j includas no modelo deveriam ser
deletadas, e assim por diante, at que no se tenha
mais variveis que podem ser adicionadas ou
retiradas do modelo. Neste ponto a regresso
encerrada.
75
Exemplo: Sada do SAS, do mtodo stepwise,
para os dados do experimento sobre demanda
de recursos.
Todas as variveis no modelo so
significativas pelo menos ao nvel de 0,15 ou
15% (valor definido pelo pesquisador) (valor
p s0,15).
As variveis deixadas fora do modelo no
alcanaram o nvel de significncia de 0,15
(idem)(valor p > 0,15).
76
Para cada varivel X a estatstica F
*
calculada. Podemos ver estes valores F
*
k
na
penltima coluna da tabela. Vemos que
F
*
tamanho
=175,11 o mais alto valor. Como
o nvel de significncia menor do que
0,15, o valor mximo para uma varivel
entrar no modelo, a varivel tamanho a
primeira a entrar no modelo.
77
Neste estgio, o passo 1 foi completado. O
modelo de regresso contm a varivel
tamanho, e a sada do SAS fornece as
estimativas dos coeficientes de regresso, a
anlise de varincia, e outras informaes
sobre o presente modelo.
78
No prximo passo, todos os modelos de regresso
com a varivel Tamanho e as outras variveis,
acessos e memria, so ajustados e o valor da
estatstica F
*
e o valor p so calculados.
Nenhuma das duas variveis apresentaram valor p
menor ou igual a 0,15, portanto, nenhuma delas vai
entrar no modelo.
Assim, a regresso identificou a varivel X
3
,
tamanho, como nica varivel preditora do modelo.
Parece ser coerente com a anlise anterior
(procedimento de todos os modelos de regresso
possveis).
79
The SAS System
The REG Procedure
Model: MODEL1
Dependent Variable: tempocpu
Stepwise Selection: Step 1
Statistics for Entry
DF = 1,16
Variable Tolerance
Model
R-Square F Value Pr > F
acessos
1.000000 0.4434 12.75 0.0026
memoria
1.000000 0.4569 13.46 0.0021
tamanho
1.000000 0.9163 175.11 <.0001
80
Variable tamanho Entered: R-Square = 0.9163 and C(p) = 5.6949
Analysis of Variance
Source DF
Sum of
Squares
Mean
Square F Value Pr > F
Model
1 643.31837 643.31837 175.11 <.0001
Error
16 58.77941 3.67371
Corrected Total
17 702.09778
Variable
Parameter
Estimate
Standard
Error Type II SS F Value Pr > F
Intercept
2.20365 0.83453 25.61577 6.97 0.0178
tamanho
0.31223 0.02359 643.31837 175.11 <.0001
Bounds on condition number: 1, 1
81
Stepwise Selection: Step 2
Statistics for Entry
DF = 1,15
Variable Tolerance
Model
R-Square F Value Pr > F
acessos
0.551952 0.9174 0.21 0.6548
memoria
0.591907 0.9233 1.37 0.2599
All variables left in the model are significant at the 0.1500 level.
No other variable met the 0.1500 significance level for entry into the
model.
Summary of Stepwise Selection
Step
Variable
Entered
Variable
Removed
Number
Vars In
Partial
R-
Square
Model
R-
Square C(p)
F
Value Pr > F
1 tamanho 1 0.916 0.916 5.69 175.11 <.0001
82
Tolerncia
Definio: definida como:
2
1
k
R
Onde R
2
k
o coeficiente de determinao
quando feita a regresso de X
k
sobre as outras
variveis X no modelo de regresso. Controla a
entrada de variveis preditoras altamente
correlacionadas com as demais do modelo.