Você está na página 1de 82

1

Construo de Modelos: Seleo


de Variveis Regressoras
Etapas para construir modelos:
Seleo das variveis regressoras ou preditoras ;
Diagnstico para verificar se o modelo ajustado
adequado, correto;
Aplicar medidas remediadoras (corretivas) quando
as condies do modelo no so satisfeitas;
Validao do modelo
2
Viso geral do processo de
construo de modelos
1 - Coleta e preparao dos dados
2 - Reduo das variveis preditoras (para
estudos observacionais exploratrios)
3 - Refinamento e seleo do modelo
4 - Validao do modelo
4 fases (veja figura no prximo slide)
3
Coleta de dados
Checagem preliminar da qualidade dos dados
Diagnstico para relaes e interaes
So necessrias
Medidas
Corretivas?
Determinar subconjuntos de variveis regressoras; incluir v. sabidas essenciais
Investigar efeitos de curvatura e interaes
Anlise de resduos e diagnstico
So
necessrias Medidas
Corretivas?

Selecione modelos de pesquisa
Checar
validade
Modelo final
De regresso
Coleta e
preparao dos
dados
Reduo do
nmero de var. reg
Refinamento e
seleo de
modelos
Validao do
modelo
No
Sim
Medidas
corretivas
No
Sim
Medidas
corretivas
Sim
No
4
1 - Coleta de dados
Dados experimentais
Dados experimentais com variveis
adicionais
Estudos observacionais confirmatrios
Estudos observacionais exploratrios
4 tipos de estudos:
5
Dados experimentais
Neste caso, o pesquisador seleciona os nveis das variveis regressoras e,
atribui os tratamentos, consistindo das combinaes dos nveis das variveis
preditoras, s unidades experimentais, e observa a varivel resposta.
Exemplo: uma pesquisadora estudou o efeito do tamanho da cache (X
1
) e tipo
de pr-carregamento (X
2
). Utilizou trs nveis para o fator tamanho da cache
(250.000, 300.000 e 350.000)e cinco nveis para o fator tipo de pr-
carregamento ( ). O primeiro fator quantitativo e o segundo fator
qualitativo. Tm-se um total de 3 x 5 = 15 tratamentos. As variveis respostas
foram a porcentagem de acerto e bytes transferidos. A unidade experimental
foi..................
necessrio fazer algumas repeties dos tratamentos, ou seja, para cada
tratamento, obter resultados de vrias unidades experimentais. A pesquisadora
usou trs repeties.
6
Experimentos com variveis
adicionais (Covariveis)
Os projetos experimentais usam informaes
adicionais, tais como caractersticas das unidades
experimentais, no planejamento do experimento, com o
objetivo de reduzir o termo do erro experimental. Por
exemplo, o pesquisador est usando diversas cpus no
experimento(Variveis passveis de controle). Entretanto,
existem variveis sobre as quais o pesquisador no tem
controle. Assim, o pesquisador vai incluir estas variveis no
modelo de regresso e, assim, reduzir a varincia do erro.
Por exemplo, o tempo de experincia e a idade dos
programadores.

7
Estudos observacionais
confirmatrios
Esses estudos so planejados para testar (confirmar ou no)
hipteses levantadas de estudos anteriores. Aqui, dados so
coletados para variveis preditoras que estudos prvios
demostraram afetar a varivel resposta,so chamadas de
variveis controle e, como tambm variveis envolvidas na
hiptese, so chamadas de variveis primrias.
As variveis controle so usadas para levar em considerao
influncias conhecidas na varivel resposta.
8
Exemplo
Num estudo observacional do efeito do tempo de experincia
em programao sobre a realizao de uma tarefa dentro de um
determinado tempo (realizou ou no realizou), fatores como:
idade e sexo so includas como variveis controle e, o tempo de
experincia, seria a varivel primria. A varivel resposta uma
varivel dicotmica: realizou ou no realizou a tarefa (regresso
logstica).
9
Estudos observacionais
exploratrios
Nesses estudos o pesquisador busca variveis regressoras
que podem estar relacionadas com a varivel resposta.
Possivelmente, o nmero de variveis regressoras
grande.
Exemplo:
As vendas de uma empresa de microcomputadores numa
cidade pode estar relacionada com o tamanho populacional,
renda per capita, porcentagem da populao na rea urbana,
porcentagem da populao com menos de 40 anos e outras.
10
Uma primeira seleo (eliminao) de variveis
preditoras (num estudo observacional exploratrio):
1) uma v. preditora pode no ser fundamental
para o estudo;
2) pode ser sujeita a grandes erros de medidas (baixa
preciso);
3) uma varivel preditora pode estar muito
relacionada com outra (duplicao de informao)
Nmero de observaes a serem coletadas
Regra geral: pelo menos 6 a 10 casos para cada varivel
do conjunto.
11
Preparao dos dados
Coletados os dados Organizar, resumir, explorar,
Verificar erros grosseiros,
outliers
Os erros devem ser corrigidos
antes de iniciar a construo do
modelo (crtico em grandes bases
de dados)
Sempre que possvel
o pesquisador deve
estar presente na
coleta dos dados
12
Investigao preliminar do modelo
Dados fidedignos
Pensar na
construo
do modelo
Diagnsticos:
1) a forma funcional
de como as variveis
preditoras devem
entrar no modelo de
regresso;
2) interaes
importantes que
devem ser includas
no modelo.
Diagrama de disperso, grficos de resduos, ajuste
de funes de regresso para verificar
relacionamentos, interaes, necessidade de
transformaes. Usar a experincia do investigador.
13
2 - Reduo das Variveis
Explanatrias
Dados experimentais
Nesses estudos, no usual pensar em diminuir o
nmero de variveis explanatrias.
14
Dados experimentais com variveis
adicionais (covariveis)
possvel diminuir o nmero de covariveis, pois
nem todas elas diminuiro o erro experimental. Por
exemplo, o tempo de experincia e a idade dos
programadores. Se estas variveis no esto
relacionadas com a varivel resposta, elas podem ser
retiradas do modelo.
15
Estudos observacionais
confirmatrios
As variveis controle deveriam ser mantidas no
modelo para se comparar com os estudos prvios,
mesmo que alguma(s) dela(s) no contribua para a
reduo da varincia do erro.
As variveis primrias so aquelas que estamos
verificando o seu efeito na varivel resposta, portanto,
devem ser mantidas no modelo.
16
Estudos observacionais
exploratrios
O nmero de variveis
regressoras grande e,
geralmente, so
correlacionadas.
Interesse em
reduzir o nmero
dessas variveis.
17
Razes para seleo de variveis regressoras
(estudos observacionais exploratrios)
difcil manter o modelo vlido (verdadeiro)
Um modelo com poucas variveis mais fcil de trabalhar
e entender
A presena de variveis correlacionadas implica num
acrscimo da varincia amostral dos coeficientes de
regresso, diminuindo a capacidade preditiva e, piorando,
tambm o poder descritivo
A capacidade preditiva do modelo diminui quando
variveis explanatrias no relacionadas com a varivel
resposta so mantidas no modelo, dado que as outras
variveis explanatrias esto no modelo.


18
Problema na anlise de regresso:
(estudos observacionais exploratrios)
A identificao de uns poucos subconjuntos de
variveis explanatrias potenciais (alguns modelos)
para serem includos no modelo de regresso final, e
a determinao das adequadas funes relacionais e
termos da interao dessas variveis.
Ateno: como os objetivos da anlise de regresso
so diversos, ento, no existe um subconjunto de
variveis regressoras como sendo sempre o melhor.
Por exemplo: modelos para descrio, para predio.
19
Algumas consideraes sobre construo
de modelos:
(estudos observacionais exploratrios)
A eliminao de variveis preditoras imprescindveis prejudica
o modelo: do poder descritivo at produzir um vis na
estimativa da varincia do erro.
O modelo contiver mais variveis do que o necessrio
a varincia das estimativas dos parmetros ser grande
em comparao com modelos mais simples.
Variveis relevantes cujos resultados esto dentro de uma
pequena faixa no apresenta significncia estatstica.
20
Parte computacional (abordagens): existem diversos para
variveis correlacionadas.
Ser pragmtico e usar julgamento subjetivo. Exemplo:
variveis essenciais devem ser mantidas no modelo.
Comentrio:
A estatstica:
) (
*
k
k
k
b s
b
t =
pode levar retirada de variveis regressoras intercorrelacionadas
importantes. Um bom procedimento de procura deve ser capaz de
lidar com variveis regressoras intercorrelacionadas, de tal forma
que nem todas sejam retiradas do modelo.
21
3 - Seleo e refinamento do modelo
Nesta fase, o(s)
possvel(eis) modelo(s)
de regresso, deve(m)
ser checado(s) para as
relaes funcionais e
interaes das variveis
regressoras.
Grficos de resduos,
grfico das variveis
adicionadas, resduos
semistudentizados,
DFFITS, DFBETAS,
VIF, teste para falta de
ajuste, diagnstico para
observaes influentes,
multicolinearidade etc.
(Captulo 9 do livro
texto).
Ferramentas
22
Grfico de resduos versus interaes e/ou termos
quadrticos, cbicos, etc. ainda no includos no
modelo, til para identificar termos que podem
melhorar o ajuste do modelo.
Aplica regresso stepwise
(processo automtico de
seleo)
Verificar o
nmero de v.
regressoras
retidas no
modelo.
Encontrar outros
possveis modelos
23
4 - Validao do modelo
Refere-se a qualidade (estabilidade e razoabilidade)
dos coeficientes de regresso; ao bom poder descritivo
(plausvel, til) da parte funcional do modelo.
1 - Coleta de novos dados (dados independentes) para checar
o modelo e seu poder preditivo;
2 - Comparar os resultados com valores tericos esperados,
resultados empricos anteriores ou resultados simulados;
3 - Usar uma parte da amostra para checar o modelo e o poder
preditivo do mesmo.
(Captulo 10 do livro texto)
24
O item 3 refere-se a diviso da base de dados em
dois arquivos:
1. Arquivo de treinamento (construo)
2. Arquivo de validao ou predio
Com o arquivo de validao, os coeficientes de regresso
podem ser estimados para o modelo selecionado e, ento,
verificado a sua consistncia com os coeficientes obtidos
com o arquivo de treinamento.
Fazer predies para os dados do arquivo de validao,
com o modelo de regresso desenvolvido com os dados de
treinamento, para verificar a sua habilidade de predio.
25
Exemplo:
Temos um estudo observacional exploratrio com
apenas 3 variveis regressoras, quais sejam:
X
1
acesso ao disco (number of disk I/Os)
X
2
memria (memory size)

X
3
tamanho (data bytes)
Dezoito programas foram monitorados para observar
a demanda de recursos. A varivel resposta
observada foi o tempo de CPU (milisegundos). Os
resultados foram:
26
27
28
Variveis intercorrelacionadas
29
Inicialmente, foi ajustado um modelo de regresso
de primeira ordem, com todas as variveis
explanatrias includas no modelo:
i 3 i 3 2 i 2 1 i 1 0 i
X X X Y c | | | | + + + + =
Normal ProbabilityPlot of Residuals
Residuals
E
x
p
e
c
t
e
d

N
o
r
m
a
l
V
a
lu
e
-2,5
-1,5
-0,5
0,5
1,5
2,5
-3 -2 -1 0 1 2 3 4
No
observamos
muita
discrepncia
da
normalidade
30
Observando a matriz de grficos de disperso,
verificamos que o tempo de cpu est linearmente
relacionado com acesso, memria e tamanho.
Verificamos, tambm, que existe colinearidade entre as
variveis regressoras, ou seja, tamanho est relacionada
com acesso e memria.
Transformao de variveis (existe necessidade?)
Por exemplo: transformar acesso para maior simetria.
Devemos verificar se todas as variveis regressoras
devem permanecer no modelo, se alguma interao deve
ser includa, termos quadrticos.

31
Observa-se um efeito quadrtico do tamanho da cache.
32
Seleo de alguns modelos
candidatos
A idia selecionar alguns modelos (de 3 a
6, por exemplo) que incluem,
possivelmente, um conjunto menor de
variveis explanatrias (se o conjunto de
variveis regressoras for grande) de acordo
com algum(s) critrio(s), e assim selecionar
o modelo de regresso final a ser utilizado.
33
Critrios:
Coeficiente de determinao mltiplo, ;
Coeficiente de determinao mltiplo
ajustado, ;
Critrio C
p
;(Baseado no desvio quadrtico
mdio)
Critrio Press
p
(Soma de quadrados da
predio)

2
p
R
p
QME ou
2
a
R
34
Notao:
Nmero de variveis X: P-1
Um modelo com todas as variveis X,
possui P parmetros (sempre includo o
intercepto).
O nmero de um subconjunto de variveis
regressoras no modelo p-1.
Assume-se que n>P (quanto maior melhor).
35
1 - Coeficiente de determinao mltiplo,

2
p
R
o coef. de determinao
mltiplo para um modelo com p
parmetros, ou p-1 variveis
regressoras no modelo.
2
p
R
Objetivo: identificar os (vrios) modelos
candidatos com maior valor de ou
menor valor de SQE
p
.
2
p
R
SQTO
SQE
R
p
p
= 1
2
P o nmero de parmetros ou p-1 variveis X.
36
Objetivo: a inteno com a utilizao de R
2
p

encontrar o ponto onde a adio de novas
variveis X no modelo no vantajoso, pois
isto conduz a um pequeno acrscimo em R
2
p
.
Exemplo: Na tabela a seguir, as colunas 2, 3,
4 e 5 indicam, o nmero de parmetros do
modelo, graus de liberdade do resduo, soma
de quadrados do erro, e o coeficiente de
determinao.
37
Variveis
X no
modelo
p gl SQE
p
R
2
P
QME
p
C
p
PRESS
P
Nenhuma 1 17 702,10 0 41,30 219.27
787.13
X
1
2 16
390.80 0.4434 24.42
116.95
457.09
X
2
2 16
381.34 0.4569 23.83
113.78
453.94
X
3
2 16
58.78 0.9163 3.67
5.70
70.30
X
1
,X
2
3 15
85.02 0.8789 5.67
16.49
133.27
X
1
,X
3
3 15
57.98 0.9174 3.87
7.43
80.21
X
2
,X
3
3 15
53.87 0.9233 3.59
6.05
71.09
X
1
,X
2
,X
3
4 14
41.78 0.9405
2.98 4
64.80
Observao: SQTotal=SQE
1
=702,10
38
p
0
0,4
1,0
0,5
0,9
0,8
1
2
3
4
*
*
*
*
*
*
*
*
X
1

X
2

X
3

X
1
X
2

X
1
X
3

X
2
X
3
X
1
X
2
X
3

R
2
p

39
O grfico mostra que existe pouco
acrscimo no R
2
p
quando o modelo inclui a
varivel X
3
ou X
2
X
3
. Apresenta um
pequeno acrscimo, com relao aos dois
modelos anteriores, quando inclui as 3
variveis X
1
X
2
X
3
.
Desvantagem: R
2
p
no leva em
considerao o nmero de parmetros no
modelo de regresso, assim, ele nunca
diminui quando p aumenta.
40
2 - Coeficiente de determinao
mltiplo ajustado,

p
QME ou
2
a
R
) /( 1 n SQTOTAL
QME
1
SQTOTAL
SQE
p n
1 n
1 R
2
a

= |
.
|

\
|

=
Observe que R
2
a
aumenta se e apenas se o
quadrado mdio do erro diminui, pois a
sqtotal/(n-1) fixa dado os valores observados
de y.
Leva em considerao o nmero de parmetros no modelo
41
Exemplo: Na tabela, a coluna 6 fornece os
valores dos quadrados mdios do erro, para
todos os modelos de regresso possveis, para
o dados do experimento sobre demanda de
recursos. Por exemplo, um modelo com X
3
:
6737 3
16
78 58
2 n
X SQE
QME
3
2
,
, ) (
= =

=
42
0
1
41
2
23
3
1
2
3
4
*
*
*
*
*
*
*
*
X
1

X
2

X
3

X
1
X
2

X
1
X
3

X
2
X
3

X
1
X
2
X
3

24
p
4
5
6
QME
43
As concluses so muito semelhantes
quelas feita com o uso do coeficiente de
determinao mltiplo. Os quadrados
mdios encontrados para os subconjuntos X
3
,
X
2
X
3
, X
1
X
3
e X
1
X
2
X
3
so praticamente iguais.
44
3 - Critrio C
p


O critrio C
p
envolve o conceito de erro
quadrtico mdio total, o qual considera o erro
total em cada valor ajustado:
( )
i i
Y

amostra dada uma para ajustado valor o


i
Y

regresso de modelo verdadeiro


o com esperada mdia resposta a
i

45
i i i i i i
Y E Y Y E Y

+ =
Dois componentes do erro:
Vis Erro
aleatrio
Desvio devido ao uso
de um modelo
incorreto.
46
Portanto, o quadrado do erro total para Y
i
(chapu), fica:
2
i i i i
2
i i
Y E Y Y E Y


O valor esperado dado por:
)

( )

i
2
2
i i
2
i i
Y Y E Y E o
(Veja demonstrao na prxima pgina)
Vis do modelo
47
( ) ( ) ( ) ( ) ( ) | |
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) | |
( ) ( ) ( ) ( ) ( ) | |
( ) ( ) ) (definio ) Y

(

E (3)
0

)

2

2 ) 2 (

E ) 1 (

2


i
2
2
2 2
2 2
2 2
o




=
=
=
=
=
(

+ + =
+ =
i i
i i i i i i
i i i i
i i i i
i i i i i i i i
i i i i i i
Y E Y
Y E Y E Y E Y E
Y E Y Y E E
Y E Y E
Y E Y Y E Y Y E Y E E
Y E Y Y E E Y E
48
O erro quadrtico mdio do total, para todas os n
valores ajustados Y
i
(chapu), a soma de todos os
n erros quadrticos mdios individuais:
= =
=
=
n
1 i
i
2
n
1 i
2
i i
n
1 i
i
2
2
i i
n
1 i
2
i i
Y Y E
Y Y E
Y E
)

( )

(
)

( )

o
o

49
Uma medida do critrio, representado por I
p
,
o erro quadrtico mdio total dividido pela
varincia do erro:
= =
n
1 i
i
2
n
1 i
2
i i
2
p
Y Y E
1
)

( )

( o
o
I
Um estimador de o
2
o QME(X
1
, X
2
,...,X
P-1
),
isto , o quadrado mdio do erro do modelo
com todas as potenciais variveis explanatrias.
Isto equivalente a assumir que o modelo
correto (sem vis).
50
O estimador de I
p

Resultados:
=
=
n
1 i
2
i
2
p Y 1 o o )

( )
2
n
1 i
2
i i
p n Y E 2 o ) ( )

( ) ) + =
=
p
E(SQE
(Demonstrao )
51
.
) (
) ( .
) (
) (
)

(
) (
) (
)

(
2
2
2
2
2
1 1
2
2
2 2
2
2
2 2
2
1
1
1
p
X X
X X
n
n
X X
X X
n
Y
X X
X X
n
Y
i
i
n
i
n
i
i
i
i
i
i
i
|
|
.
|

\
|

+
|
|
.
|

\
|

+ =
|
|
.
|

\
|

+ =

= =
52
Assim, I
p
dado por:
) (
)
) ( ) (
p 2 n
p p n SQE E
1
2
2 2
p
2
p
=
+ =
o
o o
o
p
E(SQE

I
Substituindo E(SQE
p
) pelo estimador SQE
p
, temos:
) (
) ,..., , (
p 2 n
X X X QME
C
1 P 2 1
p
=

p
SQE

SQE
p
a soma de quadrados do erro para o modelo de
regresso com p parmetros, ou seja, p-1 variveis X.
53
Para um modelo com todas as P-1 variveis
X modelo, o valor de C
p
dado por:
( ) P P n P n p n
P n
X X X SQE
X X X SQE
C
P
P
p
= =

) 2 ( ) ( 2
) ,..., , (
) ,..., , (
1 2 1
1 2 1
Quando o modelo de regresso com p-1
variveis X no apresenta vis (o modelo
correto) . O valor esperado de C
p

dado por:
i i
Y E )

(
p C E
p
~ ) (
54
Portanto, num grfico, C
p
versus p, temos:
Modelos com pouco vis, os valores de
C
p
tendem a se posicionarem prximos da
linha C
p
=p
.

Modelos com grande vis, os valores de
C
p
tendem a se posicionarem bem acima
da linha C
p
=p
.

Modelos sem vis, os valores de C
p
tendem
a se posicionarem abaixo da linha C
p
=p
.
Esto abaixo da linha devido ao erro de
amostragem (variao aleatria).
55
O critrio C
p
assume que o QME(X
1
,...,X
P-1
)
um estimador no viesado de o
2
, o que
equivalente a assumir que o modelo no
apresenta vis.
Com o critrio C
p
procuramos identificar
subconjuntos de variveis X para os quais:
1. O valor de C
p
pequeno (o erro quadrtico
mdio total pequeno);
2. O valor de C
p
prximo de p(o vis do
modelo de regresso pequeno).
56
Exemplo: Na tabela, a coluna 7 fornece os
valores C
p
, para todos os modelos de
regresso possveis, para os dados do
experimento sobre demanda de recursos. Por
exemplo, um modelo com X
3
apenas:
70 5 2 2 18
98 2
78 58
C
p
, )) ( (
,
,
= =
Todos os valores de C
p
esto na figura a
seguir:
57
0
1
219
2
114
3
1
2
3
4
*
*
*
*
*
*
*
*
X
1

X
2

X
3

X
1
X
2

X
1
X
3

X
2
X
3

X
1
X
2
X
3

115
p
4
5
6
116
16
17
7
C
p

58
O critrio C
p
, sugere os modelos com as
variveis (X
1
, X
2
e X
3
), X
3
ou (X
1
e X
3
). O
valor de C
p
=4 no muito melhor do que o
valor de C
p
=5,70 para o modelo com apenas a
varivel X
3
.
59
4 - Critrio PRESS
p


O critrio PRESS
p
(soma de quadrados de
predio) uma medida de quo bem os
valores ajustados atravs de um modelo
candidato (de pesquisa) podem predizer
as respostas observadas Y
i
.
60
Como funciona: cada valor ajustado
Y
i
(chapu) para o critrio PRESS obtido
deletando-se o i-simo caso do conjunto de
dados, estimando a funo de regresso para o
modelo candidato com as n-1 observaes
restantes e, ento, usando a equao de
regresso ajustada, obter o valor predito ,
para a i-sima observao.
) (

i i
Y
i-simo caso
omitido
i-simo valor
predito
61
O erro de predio PRESS para o i-simo
caso dado por:
) (

i i i
Y Y
O critrio PRESS
p
a soma de todos esses n
erros de predio quadrticos:
( )
2
1

=
=
n
i
i i i p
Y Y PRESS
) (

Modelos com valores pequenos de PRESS


p

so os melhores modelos candidatos (tem
menor erro de predio).
62
Exemplo: Na tabela, a coluna 8 fornece os
valores PRESS
p
, para todos os modelos de
regresso possveis, para os dados do
experimento sobre demanda de recursos.
Observao: os valores de PRESS
p
podem ser
calculados sem a necessidade de se fazer n
regresses separadas, cada vez deletando uma
das n observaes. Ver seo 9.2, itens 9.21 e
9.21a.
Prximo slide clculo do PRESS
1
.
63
s
t q
e a m t p
m c e a r
p e m m e
o s o a d
O c s r n i
b p o i h t
s u s a o o
1 2.0 14 70 6.0 -10.0471
2 2.0 10 210 6.5 -10.0471
3 5.0 16 75 12.5 -6.8706
4 5.0 10 250 14.0 -6.8706
5 7.0 27 144 14.0 -4.7529
6 7.0 15 350 15.0 -4.7529
7 9.0 42 190 20.0 -2.6353
8 9.1 15 415 20.5 -2.5294
9 10.0 39 210 30.0 -1.5765
10 10.3 12 380 31.0 -1.2588
11 13.0 50 235 25.0 1.6000
12 13.6 15 450 25.8 2.2353
13 15.0 60 310 32.0 3.7176
14 15.8 13 420 34.0 4.5647
15 20.0 83 400 60.0 9.0118
16 20.5 41 650 61.0 9.5412
17 21.0 90 200 63.0 10.0706
18 21.5 30 560 65.0 10.6000
64
0
1
787
2
454
3
1
2
3
4
*
*
*
*
*
*
*
*
X
1

X
2

X
3

X
1
X
2

X
1
X
3

X
2
X
3

X
1
X
2
X
3

455
p
4
5
60
456
80
133
70
457
PRESS
p
65
Observamos que os modelos com X
3
, X
2
X
3
e
X
1
X
2
X
3
apresentam os menores valores de
PRESS
p
. Na verdade, o modelo com X
1
X
2
X
3

apresenta um valor de PRESS
p
levemente
inferior aos outros dois.

66
Regresso passo a passo frente
(Forward Stepwise Regression)
Mtodo:
feita uma sequncia de modelos de
regresso, em cada passo adicionando ou
retirando uma varivel preditora X do modelo.
67
Critrio para adicionar ou retirar uma
varivel preditora X do modelo:
Reduo na soma de quadrados do erro
coeficiente de correlao parcial
estatstica t
*

estatstica F
*

Deficincia do mtodo: termina com um nico
modelo como sendo o melhor. A experincia
mostra que as vezes se chega a um modelo pobre.
Usar diagnstico do modelo.
68
Recomendao:
Usar o subconjunto de variveis encontrado pelo
mtodo de regresso stepwise como sendo o ponto
de partida para encontrar outros bons
subconjuntos. Uma possibilidade considerar o
nmero de variveis preditoras encontrado pela
regresso stepwise como sendo aproximadamente o
nmero correto e, ento, usar um procedimento que
realiza todas as regresses possveis para
subconjuntos deste tamanho e vizinhana (R
2
p
, R
2
a
,
C
p
, PRESS
p
).

69
Etapas
(Teste F parcial)
Inicia-se ajustando-se um modelo de
regresso linear simples para cada uma das
P-1 variveis explanatrias X. Para cada
modelo a estatstica F
*
calculada:
) X ( QME
) X ( QMR
F
k
k
*
k
=
70
A varivel X com o maior valor de F
*

candidata para a primeira adio. Se este
valor de F
*
ultrapassar determinado valor,
ento, a varivel adicionada no modelo.
Caso contrrio, o programa concludo e
no so includas variveis no modelo.
71
Vamos assumir que a varivel X
3
(tamanho
da memria) entrou no modelo no passo 1.
A regresso stepwise ajusta todos os
modelos com duas variveis X no modelo,
onde X
3
uma do par. Para cada modelo de
regresso calcula-se a estatstica do teste F
parcial:
2
3
3
|
|
.
|

\
|
= =
) b ( s
b
) X , X ( QME
) X | X ( QMR
F
k
k
k
k
*
k
72
A varivel X com o maior valor de F
*

candidata a entrar no modelo neste segundo
estgio. Se este valor de F
*
exceder um
determinado valor, a segunda varivel X
includa no modelo, caso contrrio, o
programa finalizado.
73
Suponha que X
1
(acesso ao disco) includa
no modelo no segundo estgio. Neste passo,
a regresso stepwise examina se qualquer
das outras variveis X j includas no
modelo devem ser retiradas. No nosso caso,
s temos uma outra varivel no modelo, X
3
,
assim, s feito um teste F parcial:
) X , X ( QME
) X | X ( QMR
F
*
1 3
1 3
3
=
74
Se este valor de F
*
for menor do que um
determinado valor, a varivel X deletada do
modelo, caso contrrio, ela permanece.
Suponha que ambas as variveis, X
3
e X
1
,
permanecem no modelo. A regresso stepwise
examina qual nova varivel X candidata a entrar
no modelo, ento verifica se qualquer das
variveis j includas no modelo deveriam ser
deletadas, e assim por diante, at que no se tenha
mais variveis que podem ser adicionadas ou
retiradas do modelo. Neste ponto a regresso
encerrada.
75
Exemplo: Sada do SAS, do mtodo stepwise,
para os dados do experimento sobre demanda
de recursos.
Todas as variveis no modelo so
significativas pelo menos ao nvel de 0,15 ou
15% (valor definido pelo pesquisador) (valor
p s0,15).
As variveis deixadas fora do modelo no
alcanaram o nvel de significncia de 0,15
(idem)(valor p > 0,15).
76
Para cada varivel X a estatstica F
*

calculada. Podemos ver estes valores F
*
k
na
penltima coluna da tabela. Vemos que
F
*
tamanho
=175,11 o mais alto valor. Como
o nvel de significncia menor do que
0,15, o valor mximo para uma varivel
entrar no modelo, a varivel tamanho a
primeira a entrar no modelo.
77
Neste estgio, o passo 1 foi completado. O
modelo de regresso contm a varivel
tamanho, e a sada do SAS fornece as
estimativas dos coeficientes de regresso, a
anlise de varincia, e outras informaes
sobre o presente modelo.
78
No prximo passo, todos os modelos de regresso
com a varivel Tamanho e as outras variveis,
acessos e memria, so ajustados e o valor da
estatstica F
*
e o valor p so calculados.
Nenhuma das duas variveis apresentaram valor p
menor ou igual a 0,15, portanto, nenhuma delas vai
entrar no modelo.
Assim, a regresso identificou a varivel X
3
,
tamanho, como nica varivel preditora do modelo.
Parece ser coerente com a anlise anterior
(procedimento de todos os modelos de regresso
possveis).
79
The SAS System
The REG Procedure
Model: MODEL1
Dependent Variable: tempocpu
Stepwise Selection: Step 1
Statistics for Entry
DF = 1,16
Variable Tolerance
Model
R-Square F Value Pr > F
acessos
1.000000 0.4434 12.75 0.0026
memoria
1.000000 0.4569 13.46 0.0021
tamanho
1.000000 0.9163 175.11 <.0001
80
Variable tamanho Entered: R-Square = 0.9163 and C(p) = 5.6949
Analysis of Variance
Source DF
Sum of
Squares
Mean
Square F Value Pr > F
Model
1 643.31837 643.31837 175.11 <.0001
Error
16 58.77941 3.67371
Corrected Total
17 702.09778
Variable
Parameter
Estimate
Standard
Error Type II SS F Value Pr > F
Intercept
2.20365 0.83453 25.61577 6.97 0.0178
tamanho
0.31223 0.02359 643.31837 175.11 <.0001
Bounds on condition number: 1, 1
81
Stepwise Selection: Step 2
Statistics for Entry
DF = 1,15
Variable Tolerance
Model
R-Square F Value Pr > F
acessos
0.551952 0.9174 0.21 0.6548
memoria
0.591907 0.9233 1.37 0.2599
All variables left in the model are significant at the 0.1500 level.
No other variable met the 0.1500 significance level for entry into the
model.
Summary of Stepwise Selection
Step
Variable
Entered
Variable
Removed
Number
Vars In
Partial
R-
Square
Model
R-
Square C(p)
F
Value Pr > F
1 tamanho 1 0.916 0.916 5.69 175.11 <.0001
82
Tolerncia
Definio: definida como:
2
1
k
R
Onde R
2
k
o coeficiente de determinao
quando feita a regresso de X
k
sobre as outras
variveis X no modelo de regresso. Controla a
entrada de variveis preditoras altamente
correlacionadas com as demais do modelo.

Você também pode gostar