Escolar Documentos
Profissional Documentos
Cultura Documentos
4.1. Multicolinearidade
Esta situação pode ter como consequência que o resultado de possíveis testes
nos coeficientes de regressão pode ser enganador.
EXEMPLO
y = b0 + b1 x1 + b2 x2 + b3 x3 + ε
existe uma relação linear aproximada entre as variáveis x1 e x2, por exemplo,
x2≈ax1. Então o modelo que inclui as três variáveis corresponde, na verdade,
à equação
( )
y = b0 + b1 + ab2 x1 + b3 x3 + ε ,
12
Uma situação mais complexa ocorre quando existe um subconjunto de colunas
de X que são apenas aproximadamente linearmente dependentes.
2
Xc = c′X ′Xc = δ ,
p
Ou seja, para algum vector unitário c, a norma de ∑c x j [ j]
está próxima de
j =1
zero.
2
⎡ ⎤
( ) ⎢
( ) ( )
2 1/2 −1/2 ⎥
1 = c′ c = ⎢c′ X ′X X ′X c ,
!#"#$ !#"#$ ⎥
⎢⎣ 1xp px1
⎥⎦
( ) ( ) ( )
−1 −1
1 ≤ c′ X ′X c c′ X ′X c = δ c′ X ′X c.
!#"#$
δ
( )
−1
Como Var(b̂) = σ 2 X ′X tem-se
( ) σ2
−1
Var(c′b̂) = σ 2c′ X ′X c≥ ,
δ
que será grande se δ for pequeno em comparação com σ2. Daqui resulta,
regra geral, que alguns dos estimadores dos b̂j ' s têm variâncias grandes.
13
Multicolinearidade é o caso especial da quase singularidade em que existe
uma relação linear aproximada entre duas ou mais colunas x[j]’s. Ou seja, em
p
que a norma do vector ∑c x j [ j]
é pequena com, pelo menos, dois dos x[j]’s e
j =1
p
Uma vez que a combinação linear ∑c x j [ j]
é afectada pelas unidades em
j =1
Y=X(s)b(s)+ε
−1
em que X(s) = XD(s) e b(s) = D(s)b , com
(
D(s) = diag x[1] , x[2] ,..., x[p] . )
Após esta transformação, tem-se ainda que
b̂(s) = D(s)b̂ ,
com
( )
Cov b̂(s) = D(s)Cov b̂ D(s) . ()
Uma das consequências de fazer esta redução à mesma escala de todas as
variáveis independentes é que impede que se tome em consideração quase
singularidades provocadas por um único x[j] com norma próxima de zero, isto
é, quase singularidades que não são multicolinearidades.
x j = a1 x1 + ... + aj −1 x j −1 + aj +1 x j +1 + ... + ap x p + η .
14
A tolerância da variável xj, que se designa por TOLj, define-se como
TOLj = 1- R2j .
1
VIF j = .
TOL j
Talvez uma das formas mais usadas para detectar multicolinearidade seja a
análise da matriz de correlações R das variáveis independentes xj. Contudo,
esta análise só revela as relações entre variáveis duas a duas e não mostra a
relação que pode existir entre uma variável e duas ou mais das restantes.
Considerando X(s)
′ X(s) em vez de X’X, como a soma dos valores próprios de
uma matriz é igual ao seu traço e cada elemento na diagonal de X(s)
′ X(s) é
unitário, tem-se:
15
( )
p
∑λ j
= tr X(s)
′ X(s) = p ,
j =1
λmax
ηj = em que λmax = max λ j .
λj 1≤ j ≤p
′ X(s) = ΓDλ Γ ′ ,
X(s)
⎡ γ 11 γ 12 ! γ 1p ⎤
⎢ ⎥
⎢ γ 21 γ 22 ! γ 2 p ⎥
Γ=⎢ ⎥,
⎢ " " # " ⎥
⎢
⎢⎣ γ p1 γ p2 ! γ pp ⎥⎥
⎦
16
A matriz de covariâncias de b̂(s) pode-se escrever como
( ) ( )
−1
Cov b̂(s) = σ 2 X(s)
′ X(s) = σ 2 ΓD−1
λ
Γ′
e repare-se que
⎡ 1 ⎤ ⎡ γ γ 12 γ 1p ⎤
⎢ 0 ! 0 ⎥ ⎢ 11 ! ⎥
⎡ γ ⎤ ⎢ λ1 ⎥ ⎢ λ1 λ2 λp ⎥
⎢ 11 γ 12 ! γ 1p ⎥⎢ ⎥ ⎢ ⎥
⎢ ⎥⎢ 1 ⎥ ⎢ γ γ 22 γ 2p ⎥
⎢ γ γ 22 ! γ 2p ⎥⎢ 0 ! 0 ⎥ ⎢⎢ 21 ! ⎥
⎥
ΓD−1 = ⎢ 21 λ2 ⎥ ⎢ λ1 λ2 λp
λ ⎥⎢ ⎥
⎢ " " # " ⎥⎢ ⎥=⎢ ⎥
⎢ ⎥⎢ " " # " ⎥ ⎢ " " # "
⎥
⎢⎣ γ p1 γ p2 ! γ pp ⎥⎦ ⎢ 1 ⎥ ⎢ ⎥
⎢ 0 0 ! ⎥ ⎢ γ p1 γ p2 γ pp
⎥
⎢ λp ⎥ ⎢ λ !
⎣ ⎦ ⎣ 1
λ2 λp ⎥
⎦
⎛γ 2 γ 2 γ 2jp ⎞
( )
p
var b̂(s)
j
= σ 2
⎜
j1
⎜⎝ λ1
+ j2
λ2
+ ... +
λp ⎠
⎟
⎟
= σ 2
∑ λk−1γ 2jk .
k=1
- Os coeficientes
p
φkj = λk−1γ 2jk ∑λ −1 2
ℓ
γ
jℓ
ℓ=1
17
Valores Números Proporções de
próprios condição Var b̂1( ) Var b̂2( ) ... Var b̂p( )
σ 2λ1−1γ 11
2
σ 2λ1−1γ 21
2
σ 2λ1−1γ 2p1
λ1 η1 ...
Var b̂1( ) Var b̂2( ) Var b̂p( )
σ 2λ2−1γ 12
2
σ 2λ2−1γ 22
2
σ 2λ2−1γ 2p2
λ2 η2 ...
Var b̂1( ) Var b̂2( ) Var b̂p( )
... ... ... ... ... ...
σ λ γ
2 −1 2
σ λ γ
2 −1 2
σ λ p−1γ 2pp
2
λp ηp p 1p p 2p
...
Var b̂1( ) Var b̂2( ) Var b̂p( )
EXEMPLO
18
• De um modo geral, pretendemos um modelo parcimonioso, isto é,
incluindo o mínimo possível de variáveis mantendo a qualidade do
ajustamento. Quanto maior for o número de parâmetros a estimar maior
será a variância dos estimadores do modelo de regressão, o que
também pode afectar a amplitude dos intervalos de previsão.
P
⎛ P ⎞
NP = ∑ ⎜⎝ ⎟ −1 = 2 −1.
i ⎠
P
i=0
Por vezes, utiliza-se este método obrigando certas variáveis a fazer parte do
modelo, o que reduz significativamente a dimensão do problema.
19
MÉTODO DA SELECÇÃO REGRESSIVA ("Backward Selection")
NOTAS
PASSO 2. Dado que o modelo actual tem p variáveis, considerar cada uma das
restantes P-p variáveis e escolher aquela que provoca maior redução no SQe (ou maior
aumento no R2).
20
PASSO 5. Terminar com o modelo actual com p variáveis.
21
coeficiente de correlação parcial procura medir a variabilidade de Y que é
explicada pela informação contida em xj e que não está nas restantes
variáveis. Srivastava (1990) propõe um método de selecção progressiva em
que a escolha de uma nova variável a incluir no modelo é feita com base na
correlação parcial com a variável dependente em vez de procurar aquela que
produz a menor da soma dos quadrados dos resíduos. Evita-se, assim, a
inclusão de variáveis que estão envolvidas em relações lineares com variáveis
já incluídas no modelo.
• Não se pode dizer que um destes métodos seja melhor do que os outros e,
em certos casos, o método de selecção “backwards” pode levar ao melhor
modelo e, noutras circunstâncias, o método “stepwise” ou uma das suas
variantes pode produzir o melhor resultado.
22