SLIDES Selecção de Variáveis 2019-20

4. SELECÇÃO DE VARIÁVEIS.
4.1. Multicolinearidade
Os EMQ do modelo de regressão linear têm propriedades óptimas, pelo menos

em certo sentido. Mas a qualidade destes estimadores, quando considerada
em termos da grandeza das suas variâncias, pode ser seriamente afectada
se existirem variáveis independentes que estejam relacionadas entre si.
Esta situação pode ter como consequência que o resultado de possíveis testes
nos coeficientes de regressão pode ser enganador.
EXEMPLO
Como exemplo do problema que estamos a tratar, suponhamos que no

modelo de regressão
y = b0 + b1 x1 + b2 x2 + b3 x3 + ε
existe uma relação linear aproximada entre as variáveis x1 e x2, por exemplo,
x2≈ax1. Então o modelo que inclui as três variáveis corresponde, na verdade,
à equação
( )
y = b0 + b1 + ab2 x1 + b3 x3 + ε ,
e a estimação pelos mínimos quadrados pode produzir quaisquer valores para

os coeficientes b1 e b2, desde que b1+ab2 esteja próximo da real contribuição
da variável x1 para a variabilidade de y.
Se mantivermos as duas variáveis relacionadas entre si no modelo, um teste,

por exemplo, no coeficiente da variável x1, poderá basear-se-á numa
estimativa demasiado pequena com uma variância inflaccionada podendo,
erradamente, considerar a variável como não significativa.
Como se define multicolineariedade?
Para compreender com maior rigor o conceito de multicolineariedade,

consideremos a matriz de planeamento
X = ⎡ x[1] x[2] ! x[p] ⎤ ,

⎢⎣ ⎥⎦
em que x[j] representa a coluna j dessa matriz, isto é, o conjunto das

observações da j-ésima variável independente xij, i=1,...,n.
Se existirem colunas da matriz X linearmente dependentes, então X’X é uma

matriz singular e os EMQ do vector de coeficientes b não são únicos. Este
problema resolve-se facilmente, retirando do modelo uma das variáveis
independentes que é combinação linear de outras.
12
Uma situação mais complexa ocorre quando existe um subconjunto de colunas
de X que são apenas aproximadamente linearmente dependentes.
Uma vez que a singularidade pode ser definida em termos da existência de

um vector c, c′ = ⎡ c1 ! c p ⎤ , unitário (cc’ = 1,) tal que Xc = 0 ou, o que é
⎣⎢ ⎦⎥
equivalente, c’X’Xc = 0, podemos também definir quase singularidade em
termos da existência de um vector unitário c tal que
2
Xc = c′X ′Xc = δ ,
em que δ está próximo de zero.
p
Ou seja, para algum vector unitário c, a norma de ∑c x j [ j]
está próxima de
j =1
zero.
Quais as consequências da quase singularidade nos EMQ?
Quando a quase singularidade se verifica nas colunas da matriz de

planeamento, a variância dos estimadores de mínimos quadrados pode ser
muito inflaccionada. Em particular, o resultado de testes t ou F deixa de ser
fiável, porque o aumento da variância diminui o valor da estatística de teste e
conduz à não rejeição da hipótese nula, mesmo quando as variáveis são
significativas.
Isto acontece porque, se escrevermos,
2
⎡ ⎤
( ) ⎢
( ) ( )
2 1/2 −1/2 ⎥
1 = c′ c = ⎢c′ X ′X X ′X c ,
!#"#$ !#"#$ ⎥
⎢⎣ 1xp px1
⎥⎦
pela desigualdade de Cauchy-Schwarz (∑ a b ≤i i ∑a ∑b 2

i
2
i ) vem
( ) ( ) ( )
−1 −1
1 ≤ c′ X ′X c c′ X ′X c = δ c′ X ′X c.
!#"#$
δ
( )
−1
Como Var(b̂) = σ 2 X ′X tem-se
( ) σ2
−1
Var(c′b̂) = σ 2c′ X ′X c≥ ,
δ
que será grande se δ for pequeno em comparação com σ2. Daqui resulta,
regra geral, que alguns dos estimadores dos b̂j ' s têm variâncias grandes.
13
Multicolinearidade é o caso especial da quase singularidade em que existe
uma relação linear aproximada entre duas ou mais colunas x[j]’s. Ou seja, em
p
que a norma do vector ∑c x j [ j]
é pequena com, pelo menos, dois dos x[j]’s e
j =1
correspondentes coeficientes não tão pequenos.
p
Uma vez que a combinação linear ∑c x j [ j]
é afectada pelas unidades em
j =1
que são medidas as diferentes variáveis independentes, é conveniente

investigar a presença de multicolinearidade após reduzir todas as variáveis
independentes à mesma escala.
Em vez do modelo Y=Xb+ε, considera-se o modelo equivalente
Y=X(s)b(s)+ε
−1
em que X(s) = XD(s) e b(s) = D(s)b , com
(
D(s) = diag x[1] , x[2] ,..., x[p] . )
Após esta transformação, tem-se ainda que
b̂(s) = D(s)b̂ ,
com
( )
Cov b̂(s) = D(s)Cov b̂ D(s) . ()
Uma das consequências de fazer esta redução à mesma escala de todas as
variáveis independentes é que impede que se tome em consideração quase
singularidades provocadas por um único x[j] com norma próxima de zero, isto
é, quase singularidades que não são multicolinearidades.
4.2. Detecção da multicolinearidade.
4.2.1. Tolerâncias e factores de inflacção das variâncias.
Uma forma simples de verificar o grau de dependência entre cada variável

independente xj e as restantes variáveis incluídas no modelo é examinar os
valores de R2j , j=1,...,p, em que R2j representa o valor de R2 quando se faz a
regressão de xj sobre o conjunto das restantes variáveis, ou seja, para o
modelo
x j = a1 x1 + ... + aj −1 x j −1 + aj +1 x j +1 + ... + ap x p + η .
14
A tolerância da variável xj, que se designa por TOLj, define-se como
TOLj = 1- R2j .
Se TOLj ≈ 1, a variável xj é independente das restantes; se TOLj ≈ 0, existe

uma relação aproximadamente linear entre xj e alguma das outras variáveis
independentes.
O factor de inflacção da variância (variance inflation factor), que se

representa por VIFj, é simplesmente o inverso da tolerância,
1
VIF j = .
TOL j
• VIFj ≈ 1 ⇒ não há dependência entre a variável xj e as restantes;
• VIFj >> 1 variável xj tem uma relação aproximadamente linear com

algumas outras
Talvez uma das formas mais usadas para detectar multicolinearidade seja a
análise da matriz de correlações R das variáveis independentes xj. Contudo,
esta análise só revela as relações entre variáveis duas a duas e não mostra a
relação que pode existir entre uma variável e duas ou mais das restantes.
Pode-se demonstrar que:
Os elementos na diagonal de R-1 são exactamente os factores de inflacção da

variância, isto é, se R-1 = [rij], então tem-se que rjj = VIFj.
Assim, a análise da diagonal de R-1 aconselha a retirar as variáveis

correspondentes a entradas muito grandes nesta diagonal.
Se houver mais do que um elemento nestas condições, deve-se retirar a

variável que corresponde ao maior deles e, em seguida, recalcular a matriz R-1
e verificar se existe ainda algum elemento na diagonal demasiado elevado.
Nesse caso, deve-se também retirar essa variável, calcular de novo a matriz e
assim sucessivamente até que todas as variáveis que causam
multicolinearidade sejam retiradas.
4.2.2. Valores próprios e números condição.
Considerando X(s)
′ X(s) em vez de X’X, como a soma dos valores próprios de
uma matriz é igual ao seu traço e cada elemento na diagonal de X(s)
′ X(s) é
unitário, tem-se:
15
( )
p
∑λ j
= tr X(s)
′ X(s) = p ,
j =1
em que os λj’s, j=1,...,p, são os valores próprios de X(s)

′ X(s) .
Valores próprios próximos de zero indicam a existência de dependência linear

entre colunas da matriz de planeamento.
Uma forma de avaliar a grandeza de um valor próprio relativamente aos

outros é através dos chamados números condição,
λmax
ηj = em que λmax = max λ j .
λj 1≤ j ≤p
Em geral, um valor próprio para o qual ηj ≥ 30 indica a existência de uma

relação linear entre variáveis da matriz de planeamento, devendo-se procurar
as variáveis intervenientes nessa relação
4.2.3. Componentes da variância.
Uma forma de detectar quais as combinações lineares das colunas da matriz X

que causam multicolinearidade é através da análise da matriz dos vectores
próprios de X(s)
′ X(s) e do cálculo da sua influência na variância dos estimadores
dos coeficientes de regressão.
Consideremos a variância dos elementos b̂(s)

j
do vector de estimadores de
mínimos quadrados de b̂(s) = D(s)b̂ . Uma vez que X(s)

′ X(s) é uma matriz
simétrica podemos escrevê-la como
′ X(s) = ΓDλ Γ ′ ,
X(s)
em que Dλ =diag(λ1,...,λp) e a matriz Γ,
⎡ γ 11 γ 12 ! γ 1p ⎤
⎢ ⎥
⎢ γ 21 γ 22 ! γ 2 p ⎥
Γ=⎢ ⎥,
⎢ " " # " ⎥
⎢
⎢⎣ γ p1 γ p2 ! γ pp ⎥⎥
⎦
é a matriz ortogonal cujas colunas são os vectores próprios de X(s)

′ X(s) .
16
A matriz de covariâncias de b̂(s) pode-se escrever como
( ) ( )
−1
Cov b̂(s) = σ 2 X(s)
′ X(s) = σ 2 ΓD−1
λ
Γ′
e repare-se que
⎡ 1 ⎤ ⎡ γ γ 12 γ 1p ⎤
⎢ 0 ! 0 ⎥ ⎢ 11 ! ⎥
⎡ γ ⎤ ⎢ λ1 ⎥ ⎢ λ1 λ2 λp ⎥
⎢ 11 γ 12 ! γ 1p ⎥⎢ ⎥ ⎢ ⎥
⎢ ⎥⎢ 1 ⎥ ⎢ γ γ 22 γ 2p ⎥
⎢ γ γ 22 ! γ 2p ⎥⎢ 0 ! 0 ⎥ ⎢⎢ 21 ! ⎥
⎥
ΓD−1 = ⎢ 21 λ2 ⎥ ⎢ λ1 λ2 λp
λ ⎥⎢ ⎥
⎢ " " # " ⎥⎢ ⎥=⎢ ⎥
⎢ ⎥⎢ " " # " ⎥ ⎢ " " # "
⎥
⎢⎣ γ p1 γ p2 ! γ pp ⎥⎦ ⎢ 1 ⎥ ⎢ ⎥
⎢ 0 0 ! ⎥ ⎢ γ p1 γ p2 γ pp
⎥
⎢ λp ⎥ ⎢ λ !
⎣ ⎦ ⎣ 1
λ2 λp ⎥
⎦
Como as variâncias dos EMQ dos coeficientes de regressão correspondem à

diagonal principal da matriz σ 2 ΓD−1
λ
Γ ′ vem
⎛γ 2 γ 2 γ 2jp ⎞
( )
p
var b̂(s)
j
= σ 2
⎜
j1
⎜⎝ λ1
+ j2
λ2
+ ... +
λp ⎠
⎟
⎟
= σ 2
∑ λk−1γ 2jk .
k=1
- λk−1γ 2jk → componentes da variância de b̂(s)

j
, k=1,...,p;
- Os coeficientes
p
φkj = λk−1γ 2jk ∑λ −1 2
ℓ
γ
jℓ
ℓ=1
correspondem à proporção da variância do j-ésimo coeficiente de

(s)
regressão, b̂ j
, que é explicada pelo k-ésimo valor próprio.
Como a cada valor próprio próximo de zero corresponde apenas uma

única equação linear entre variáveis, a análise das componentes da
variância para cada um desses valores próprios permite identificar
quais as variáveis envolvidas em cada uma dessas relações.
Para um determinado λk próximo de zero, as componentes da variância φkj

próximas da unidade indicam as variáveis xj envolvidas nessa relação.
Podemos identificar quais as vairáveis que provocam um aumento exagerado
da variância de algum ou alguns estimadores dos coeficientes de regressão
com a ajuda da tabela:
17
Valores Números Proporções de
próprios condição Var b̂1( ) Var b̂2( ) ... Var b̂p( )
σ 2λ1−1γ 11
2
σ 2λ1−1γ 21
2
σ 2λ1−1γ 2p1
λ1 η1 ...
Var b̂1( ) Var b̂2( ) Var b̂p( )
σ 2λ2−1γ 12
2
σ 2λ2−1γ 22
2
σ 2λ2−1γ 2p2
λ2 η2 ...
... ... ... ... ... ...
σ λ γ
2 −1 2
σ λ γ
2 −1 2
σ λ p−1γ 2pp
2
λp ηp p 1p p 2p
...
• A análise tabela consiste, essencialmente, em identificar os valores

próprios ≈ 0 e, na linha correspondente, procurar φ kj’s ≈ 1, isto é, as
variáveis envolvidas na relação linear representada pelo valor próprio
próximo de zero.
• Os elementos em cada coluna da tabela têm soma igual à unidade e

coeficiente associado a essa coluna.
• Se uma variável estiver envolvida em mais de uma relação linear, por

exemplo, duas, a sua contribuição subdivide-se pelas duas linhas
correspondentes aos valores própios associados e, sendo assim, valores de
φkj’s não muito elevados podem ser indicadores de multicolinearidade.
EXEMPLO
5.3. Escolha do modelo.
Frequentemente, iniciamos um problema de regressão múltipla com uma

longa lista de variáveis independentes que julgamos poderem influenciar
a variável resposta mas, por várias razões, pretendemos encurtar essa lista e
reduzir o número de variáveis.
• A utilização de muitas variáveis aumenta a possibilidade da existência de

multicolinearidade. Nesse caso, devemos eliminar variáveis retirar ou
condensá-las utilizando apenas uma combinação linear de duas ou mais
variáveis.
18
• De um modo geral, pretendemos um modelo parcimonioso, isto é,
incluindo o mínimo possível de variáveis mantendo a qualidade do
ajustamento. Quanto maior for o número de parâmetros a estimar maior
será a variância dos estimadores do modelo de regressão, o que
também pode afectar a amplitude dos intervalos de previsão.
• Modelos com muitas variáveis são pouco práticos e difíceis de

interpretar.
Quando as variáveis a incluir no modelo são todas independentes entre si, o

processo de selecção de variáveis é muito simples bastando, por exemplo,
ajustar um modelo incluindo todas as variáveis e eliminar aquelas cujo teste t
seja significativo.
O problema da selecção de variáveis verifica-se na presença de

multicolinearidade, mesmo quando esta não é muito forte. Em todo o caso,
se a multicolineariedade for muito forte, todos os métodos podem funcionar
mal e conduzir a modelos que não são os melhores.
Não se pode dizer que haja um método que, sistematicamente, produza

melhores resultados do que os outros e, em geral, na prática, é conveniente
utilizar mais do que um método. A escolha do modelo final também tem a ver
com os objectivos do ajustamento do modelo, ou seja, se o que se
pretende é avaliar a relação de uma ou mais variáveis com a variável resposta
ou se o que se pretende é um modelo com um bom valor preditivo
Por vezes, métodos diferentes conduzem a resultados diferentes mas

semelhantes e dificilmente se pode dizer qual dos modelos é melhor. Mas
também diferentes métodos podem produzir o mesmo modelo, o que é uma
boa indicação da qualidade do ajustamento.
Uma forma de escolher o modelo é considerar todos os conjuntos de variáveis

possíveis e analisar todos os resultados em termos de uma medida de
ajustamento (R2 ou S2). Mas este método obriga a um enorme esforço
computacional e a analisar uma enorme quantidade de resultados a partir dos
quais é difícil tirar conclusões. Por exemplo, para um conjunto de P variáveis,
o número de regressões possíveis, NP, é dado por
P
⎛ P ⎞
NP = ∑ ⎜⎝ ⎟ −1 = 2 −1.
i ⎠
P
i=0
Se o número de potenciais variáveis a incluir no modelo for 10, teremos de

executar e analisar o resultado de 1023 regressões!
Por vezes, utiliza-se este método obrigando certas variáveis a fazer parte do
modelo, o que reduz significativamente a dimensão do problema.
Por estas razões, os métodos iterativos são a forma de selecção de variáveis

mais utilizada.
19
MÉTODO DA SELECÇÃO REGRESSIVA ("Backward Selection")
Este método inicia-se incluindo todas as variáveis no modelo e vão sendo

retiradas, uma a uma, até que todas as variáveis do modelo sejam
significativas.
Desigando por P o número total de variáveis e por p o número de variáveis no

modelo, este processo pode ser resumido no seguinte conjunto de passos:
PASSO 1. Começar com todas as P variáveis no modelo.
PASSO 2. Ajustar o modelo com as P variáveis e calcular os quocientes t para

cada uma delas.
PASSO 3. Se o quociente t mais pequeno é não significativo, eliminar a

variável correspondente, isto é, aquela com maior valor-P, tomar p=p-1 e ir
para 2.
PASSO 4. Se o quociente t mais pequeno é significativo, nenhuma das

variáveis pode ser omitida e adoptamos o modelo actual.
NOTAS
O modelo final depende do nível de significância α escolhido para o teste t,

mas é usual considerar α=0.05. É de salientar que este método pode produzir
resultados pouco fiáveis na presença de multicolinearidade forte, uma vez que
o quociente t de variáveis envolvidas em relações lineares pode conduzir a
uma escolha pouco adequada da variável a retirar. Em todo o caso, muitas
vezes, este método conduz a bons modelos e é fácil de utilizar na prática.
MÉTODO DA SELECÇÃO PROGRESSIVA ("Forward Selection")
O método da selecção progressiva funciona ao invés da regressiva, começando

com 0 variáveis no modelo e incluindo, sucessivamente, aquelas que
provocam um maior aumento na qualidade do ajustamento. O procedimento
termina quando qualquer variável não incluída no modelo não é significativa.
PASSO 1. Começar com 0 variáveis no modelo. (p = 1)
PASSO 2. Dado que o modelo actual tem p variáveis, considerar cada uma das
restantes P-p variáveis e escolher aquela que provoca maior redução no SQe (ou maior
aumento no R2).
PASSO 3. Testar se a redução na SQe é significativa, fazendo um teste t (ou F) na

variável escolhida.
PASSO 4. Se o resultado do teste em 3 for negativo juntar a variável e ir para 2. Se

não, ir para 5.
20
PASSO 5. Terminar com o modelo actual com p variáveis.
MÉTODO DA SELECÇÃO “STEPWISE”
O método de selecção “stepwise” é um método de selecção progressiva ao

qual se junta, após a inclusão de uma nova variável, um novo passo em que
se testa a significância de todas as variáveis incluídas no modelo e se retiram
aquelas que não forem significativas.
PASSOS 1, 2 e 3. Igual à selecção progressiva.
PASSO 4. Se o resultado do teste em 3 for negativo juntar a variável ao

modelo. Se não, ir para 5.
PASSO 4A. Depois de incluída a nova variável, testar a significância das

restantes variáveis já incluídas no modelo, através de um teste t ou de um
teste F, e retirar aquelas que não forem significativas. Ir para 2.
PASSO 5. Igual à selecção progressiva.
O nível de significância utilizado nos testes para incluir novas variáveis,

usualmente designado por "F to enter" deve ser inferior ao nível de
significância dos testes utilizados para retirar variáveis "F to remove". Assim,
por exemplo, se o teste para a entrada de novas variáveis for feito ao nível
α=0.05, só devem ser retiradas as variáveis cujos coeficientes não sejam
significativos, por exemplo, ao nível 0.1. Esta forma de proceder evita que se
entre em ciclo, introduzindo e retirando sucessivamente as mesmas variáveis.
Variante dos métodos de selecção progressiva
Para reduzir o efeito da multicolinearidade que afecta a justeza da selecção de

variáveis nos métodos de selecção de variáveis progressivos, muitos autores
sugerem que o critério para a escolha da próxima variável a incluir no modelo
se deve basear no coeficiente de correlação parcial em vez de tomar em conta
a redução na soma de quadrados.
Coeficiente de correlação parcial
O coeficiente de correlação parcial entre Y e xj dadas as restantes variáveis

x j ,..., x j , ryx |x ,...,x , é o coeficiente de correlação entre:
1 s j j j
1 s
1. Os resíduos obtidos depois de fazer a regressão de Y em x j ,..., x j e

1 s
2. Os resíduos obtidos depois de fazer a regressão de xj em x j ,..., x j .

1 s
Por outras palavras, o coeficiente de correlação parcial mede a relação linear

entre Y e xj depois de retirado o efeito das variáveis x j ,..., x j . Ou seja, o
1 s
21
coeficiente de correlação parcial procura medir a variabilidade de Y que é
explicada pela informação contida em xj e que não está nas restantes
variáveis. Srivastava (1990) propõe um método de selecção progressiva em
que a escolha de uma nova variável a incluir no modelo é feita com base na
correlação parcial com a variável dependente em vez de procurar aquela que
produz a menor da soma dos quadrados dos resíduos. Evita-se, assim, a
inclusão de variáveis que estão envolvidas em relações lineares com variáveis
já incluídas no modelo.
MÉTODO DA SELECÇÃO PROGRESSIVA (Srivastava)
PASSO 1. Iniciar o modelo sem variáveis, isto é, Y = b0 + ε.
PASSO 2. Escolher a variável que apresenta a maior correlação com Y. Esta

será a primeira variável a entrar no modelo. Testar a sua significância através
de um teste t ou de um teste F. Se não for significativa, o modelo inclui
apenas o termo constante.
PASSO 3. Quando já estão p variáveis no modelo, x j ,..., x j , escolher aquela

1 p
cuja correlação parcial com Y dadas x j ,..., x j é a maior.

1 p
PASSO 4. Refazer a regressão incluindo a variável escolhida em 3 e testar a

sua significância com um teste t ou um teste F.
PASSO 5. Se o teste resultar em rejeição, voltar ao passo 3. Caso contrário,

escolher a próxima variável cuja correlação parcial com Y seja a maior, incluí-
la no modelo e testar a sua significância. Se nenhuma das variáveis for
significativa, o procedimento acaba aqui.
Em vez de utilizar o coeficiente de correlação parcial, também se pode fazer

simplesmente a regressão da variável a entrar no modelo sobre as que já lá
estão. Se o ajustamento for muito bom, pode não ser indicado incluir essa
variável no modelo.
• Não se pode dizer que um destes métodos seja melhor do que os outros e,
em certos casos, o método de selecção “backwards” pode levar ao melhor
modelo e, noutras circunstâncias, o método “stepwise” ou uma das suas
variantes pode produzir o melhor resultado.
• De preferência, deve-se utilizar um método “backwards” e um método

“forward”.
• É sempre conveniente aplicar primeiro algum método de detecção de

multicolinearidade, retirando aquelas variáveis que provocam forte
multicolinearidade, e ter em atenção o resultado na escolha do modelo.
22

SLIDES Selecção de Variáveis 2019-20

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

SLIDES Selecção de Variáveis 2019-20

Enviado por

Direitos autorais:

Formatos disponíveis

4. SELECÇÃO DE VARIÁVEIS.

Os EMQ do modelo de regressão linear têm propriedades óptimas, pelo menos

Como exemplo do problema que estamos a tratar, suponhamos que no

e a estimação pelos mínimos quadrados pode produzir quaisquer valores para

Se mantivermos as duas variáveis relacionadas entre si no modelo, um teste,

Como se define multicolineariedade?

Para compreender com maior rigor o conceito de multicolineariedade,

X = ⎡ x[1] x[2] ! x[p] ⎤ ,

em que x[j] representa a coluna j dessa matriz, isto é, o conjunto das

Se existirem colunas da matriz X linearmente dependentes, então X’X é uma

Uma vez que a singularidade pode ser definida em termos da existência de

em que δ está próximo de zero.

Quais as consequências da quase singularidade nos EMQ?

Quando a quase singularidade se verifica nas colunas da matriz de

Isto acontece porque, se escrevermos,

pela desigualdade de Cauchy-Schwarz (∑ a b ≤i i ∑a ∑b 2

correspondentes coeficientes não tão pequenos.

que são medidas as diferentes variáveis independentes, é conveniente

Em vez do modelo Y=Xb+ε, considera-se o modelo equivalente

4.2. Detecção da multicolinearidade.

4.2.1. Tolerâncias e factores de inflacção das variâncias.

Uma forma simples de verificar o grau de dependência entre cada variável

Se TOLj ≈ 1, a variável xj é independente das restantes; se TOLj ≈ 0, existe

O factor de inflacção da variância (variance inflation factor), que se

• VIFj ≈ 1 ⇒ não há dependência entre a variável xj e as restantes;

• VIFj >> 1 variável xj tem uma relação aproximadamente linear com

Pode-se demonstrar que:

Os elementos na diagonal de R-1 são exactamente os factores de inflacção da

Assim, a análise da diagonal de R-1 aconselha a retirar as variáveis

Se houver mais do que um elemento nestas condições, deve-se retirar a

4.2.2. Valores próprios e números condição.

em que os λj’s, j=1,...,p, são os valores próprios de X(s)

Valores próprios próximos de zero indicam a existência de dependência linear

Uma forma de avaliar a grandeza de um valor próprio relativamente aos

Em geral, um valor próprio para o qual ηj ≥ 30 indica a existência de uma

4.2.3. Componentes da variância.

Uma forma de detectar quais as combinações lineares das colunas da matriz X

Consideremos a variância dos elementos b̂(s)

mínimos quadrados de b̂(s) = D(s)b̂ . Uma vez que X(s)

em que Dλ =diag(λ1,...,λp) e a matriz Γ,

é a matriz ortogonal cujas colunas são os vectores próprios de X(s)

Como as variâncias dos EMQ dos coeficientes de regressão correspondem à

- λk−1γ 2jk → componentes da variância de b̂(s)

correspondem à proporção da variância do j-ésimo coeficiente de

Como a cada valor próprio próximo de zero corresponde apenas uma

Para um determinado λk próximo de zero, as componentes da variância φkj

• A análise tabela consiste, essencialmente, em identificar os valores

• Os elementos em cada coluna da tabela têm soma igual à unidade e

• Se uma variável estiver envolvida em mais de uma relação linear, por

5.3. Escolha do modelo.

Frequentemente, iniciamos um problema de regressão múltipla com uma

• A utilização de muitas variáveis aumenta a possibilidade da existência de

• Modelos com muitas variáveis são pouco práticos e difíceis de

Quando as variáveis a incluir no modelo são todas independentes entre si, o

O problema da selecção de variáveis verifica-se na presença de

Não se pode dizer que haja um método que, sistematicamente, produza

Por vezes, métodos diferentes conduzem a resultados diferentes mas

Uma forma de escolher o modelo é considerar todos os conjuntos de variáveis

Se o número de potenciais variáveis a incluir no modelo for 10, teremos de

Por estas razões, os métodos iterativos são a forma de selecção de variáveis

Este método inicia-se incluindo todas as variáveis no modelo e vão sendo

Desigando por P o número total de variáveis e por p o número de variáveis no

PASSO 1. Começar com todas as P variáveis no modelo.

PASSO 2. Ajustar o modelo com as P variáveis e calcular os quocientes t para