Você está na página 1de 11

4. SELECÇÃO DE VARIÁVEIS.

4.1. Multicolinearidade

Os EMQ do modelo de regressão linear têm propriedades óptimas, pelo menos


em certo sentido. Mas a qualidade destes estimadores, quando considerada
em termos da grandeza das suas variâncias, pode ser seriamente afectada
se existirem variáveis independentes que estejam relacionadas entre si.

Esta situação pode ter como consequência que o resultado de possíveis testes
nos coeficientes de regressão pode ser enganador.

EXEMPLO

Como exemplo do problema que estamos a tratar, suponhamos que no


modelo de regressão

y = b0 + b1 x1 + b2 x2 + b3 x3 + ε

existe uma relação linear aproximada entre as variáveis x1 e x2, por exemplo,
x2≈ax1. Então o modelo que inclui as três variáveis corresponde, na verdade,
à equação

( )
y = b0 + b1 + ab2 x1 + b3 x3 + ε ,

e a estimação pelos mínimos quadrados pode produzir quaisquer valores para


os coeficientes b1 e b2, desde que b1+ab2 esteja próximo da real contribuição
da variável x1 para a variabilidade de y.

Se mantivermos as duas variáveis relacionadas entre si no modelo, um teste,


por exemplo, no coeficiente da variável x1, poderá basear-se-á numa
estimativa demasiado pequena com uma variância inflaccionada podendo,
erradamente, considerar a variável como não significativa.

Como se define multicolineariedade?

Para compreender com maior rigor o conceito de multicolineariedade,


consideremos a matriz de planeamento

X = ⎡ x[1] x[2] ! x[p] ⎤ ,


⎢⎣ ⎥⎦

em que x[j] representa a coluna j dessa matriz, isto é, o conjunto das


observações da j-ésima variável independente xij, i=1,...,n.

Se existirem colunas da matriz X linearmente dependentes, então X’X é uma


matriz singular e os EMQ do vector de coeficientes b não são únicos. Este
problema resolve-se facilmente, retirando do modelo uma das variáveis
independentes que é combinação linear de outras.

12
Uma situação mais complexa ocorre quando existe um subconjunto de colunas
de X que são apenas aproximadamente linearmente dependentes.

Uma vez que a singularidade pode ser definida em termos da existência de


um vector c, c′ = ⎡ c1 ! c p ⎤ , unitário (cc’ = 1,) tal que Xc = 0 ou, o que é
⎣⎢ ⎦⎥
equivalente, c’X’Xc = 0, podemos também definir quase singularidade em
termos da existência de um vector unitário c tal que

2
Xc = c′X ′Xc = δ ,

em que δ está próximo de zero.

p
Ou seja, para algum vector unitário c, a norma de ∑c x j [ j]
está próxima de
j =1

zero.

Quais as consequências da quase singularidade nos EMQ?

Quando a quase singularidade se verifica nas colunas da matriz de


planeamento, a variância dos estimadores de mínimos quadrados pode ser
muito inflaccionada. Em particular, o resultado de testes t ou F deixa de ser
fiável, porque o aumento da variância diminui o valor da estatística de teste e
conduz à não rejeição da hipótese nula, mesmo quando as variáveis são
significativas.

Isto acontece porque, se escrevermos,

2
⎡ ⎤
( ) ⎢
( ) ( )
2 1/2 −1/2 ⎥
1 = c′ c = ⎢c′ X ′X X ′X c ,
!#"#$ !#"#$ ⎥
⎢⎣ 1xp px1
⎥⎦

pela desigualdade de Cauchy-Schwarz (∑ a b ≤i i ∑a ∑b 2


i
2
i ) vem

( ) ( ) ( )
−1 −1
1 ≤ c′ X ′X c c′ X ′X c = δ c′ X ′X c.
!#"#$
δ

( )
−1
Como Var(b̂) = σ 2 X ′X tem-se

( ) σ2
−1
Var(c′b̂) = σ 2c′ X ′X c≥ ,
δ

que será grande se δ for pequeno em comparação com σ2. Daqui resulta,
regra geral, que alguns dos estimadores dos b̂j ' s têm variâncias grandes.

13
Multicolinearidade é o caso especial da quase singularidade em que existe
uma relação linear aproximada entre duas ou mais colunas x[j]’s. Ou seja, em
p
que a norma do vector ∑c x j [ j]
é pequena com, pelo menos, dois dos x[j]’s e
j =1

correspondentes coeficientes não tão pequenos.

p
Uma vez que a combinação linear ∑c x j [ j]
é afectada pelas unidades em
j =1

que são medidas as diferentes variáveis independentes, é conveniente


investigar a presença de multicolinearidade após reduzir todas as variáveis
independentes à mesma escala.

Em vez do modelo Y=Xb+ε, considera-se o modelo equivalente

Y=X(s)b(s)+ε

−1
em que X(s) = XD(s) e b(s) = D(s)b , com

(
D(s) = diag x[1] , x[2] ,..., x[p] . )
Após esta transformação, tem-se ainda que

b̂(s) = D(s)b̂ ,

com

( )
Cov b̂(s) = D(s)Cov b̂ D(s) . ()
Uma das consequências de fazer esta redução à mesma escala de todas as
variáveis independentes é que impede que se tome em consideração quase
singularidades provocadas por um único x[j] com norma próxima de zero, isto
é, quase singularidades que não são multicolinearidades.

4.2. Detecção da multicolinearidade.

4.2.1. Tolerâncias e factores de inflacção das variâncias.

Uma forma simples de verificar o grau de dependência entre cada variável


independente xj e as restantes variáveis incluídas no modelo é examinar os
valores de R2j , j=1,...,p, em que R2j representa o valor de R2 quando se faz a
regressão de xj sobre o conjunto das restantes variáveis, ou seja, para o
modelo

x j = a1 x1 + ... + aj −1 x j −1 + aj +1 x j +1 + ... + ap x p + η .

14
A tolerância da variável xj, que se designa por TOLj, define-se como

TOLj = 1- R2j .

Se TOLj ≈ 1, a variável xj é independente das restantes; se TOLj ≈ 0, existe


uma relação aproximadamente linear entre xj e alguma das outras variáveis
independentes.

O factor de inflacção da variância (variance inflation factor), que se


representa por VIFj, é simplesmente o inverso da tolerância,

1
VIF j = .
TOL j

• VIFj ≈ 1 ⇒ não há dependência entre a variável xj e as restantes;

• VIFj >> 1 variável xj tem uma relação aproximadamente linear com


algumas outras

Talvez uma das formas mais usadas para detectar multicolinearidade seja a
análise da matriz de correlações R das variáveis independentes xj. Contudo,
esta análise só revela as relações entre variáveis duas a duas e não mostra a
relação que pode existir entre uma variável e duas ou mais das restantes.

Pode-se demonstrar que:

Os elementos na diagonal de R-1 são exactamente os factores de inflacção da


variância, isto é, se R-1 = [rij], então tem-se que rjj = VIFj.

Assim, a análise da diagonal de R-1 aconselha a retirar as variáveis


correspondentes a entradas muito grandes nesta diagonal.

Se houver mais do que um elemento nestas condições, deve-se retirar a


variável que corresponde ao maior deles e, em seguida, recalcular a matriz R-1
e verificar se existe ainda algum elemento na diagonal demasiado elevado.
Nesse caso, deve-se também retirar essa variável, calcular de novo a matriz e
assim sucessivamente até que todas as variáveis que causam
multicolinearidade sejam retiradas.

4.2.2. Valores próprios e números condição.

Considerando X(s)
′ X(s) em vez de X’X, como a soma dos valores próprios de
uma matriz é igual ao seu traço e cada elemento na diagonal de X(s)
′ X(s) é
unitário, tem-se:

15
( )
p

∑λ j
= tr X(s)
′ X(s) = p ,
j =1

em que os λj’s, j=1,...,p, são os valores próprios de X(s)


′ X(s) .

Valores próprios próximos de zero indicam a existência de dependência linear


entre colunas da matriz de planeamento.

Uma forma de avaliar a grandeza de um valor próprio relativamente aos


outros é através dos chamados números condição,

λmax
ηj = em que λmax = max λ j .
λj 1≤ j ≤p

Em geral, um valor próprio para o qual ηj ≥ 30 indica a existência de uma


relação linear entre variáveis da matriz de planeamento, devendo-se procurar
as variáveis intervenientes nessa relação

4.2.3. Componentes da variância.

Uma forma de detectar quais as combinações lineares das colunas da matriz X


que causam multicolinearidade é através da análise da matriz dos vectores
próprios de X(s)
′ X(s) e do cálculo da sua influência na variância dos estimadores
dos coeficientes de regressão.

Consideremos a variância dos elementos b̂(s)


j
do vector de estimadores de

mínimos quadrados de b̂(s) = D(s)b̂ . Uma vez que X(s)


′ X(s) é uma matriz
simétrica podemos escrevê-la como

′ X(s) = ΓDλ Γ ′ ,
X(s)

em que Dλ =diag(λ1,...,λp) e a matriz Γ,

⎡ γ 11 γ 12 ! γ 1p ⎤
⎢ ⎥
⎢ γ 21 γ 22 ! γ 2 p ⎥
Γ=⎢ ⎥,
⎢ " " # " ⎥

⎢⎣ γ p1 γ p2 ! γ pp ⎥⎥

é a matriz ortogonal cujas colunas são os vectores próprios de X(s)


′ X(s) .

16
A matriz de covariâncias de b̂(s) pode-se escrever como

( ) ( )
−1
Cov b̂(s) = σ 2 X(s)
′ X(s) = σ 2 ΓD−1
λ
Γ′

e repare-se que

⎡ 1 ⎤ ⎡ γ γ 12 γ 1p ⎤
⎢ 0 ! 0 ⎥ ⎢ 11 ! ⎥
⎡ γ ⎤ ⎢ λ1 ⎥ ⎢ λ1 λ2 λp ⎥
⎢ 11 γ 12 ! γ 1p ⎥⎢ ⎥ ⎢ ⎥
⎢ ⎥⎢ 1 ⎥ ⎢ γ γ 22 γ 2p ⎥
⎢ γ γ 22 ! γ 2p ⎥⎢ 0 ! 0 ⎥ ⎢⎢ 21 ! ⎥

ΓD−1 = ⎢ 21 λ2 ⎥ ⎢ λ1 λ2 λp
λ ⎥⎢ ⎥
⎢ " " # " ⎥⎢ ⎥=⎢ ⎥
⎢ ⎥⎢ " " # " ⎥ ⎢ " " # "

⎢⎣ γ p1 γ p2 ! γ pp ⎥⎦ ⎢ 1 ⎥ ⎢ ⎥
⎢ 0 0 ! ⎥ ⎢ γ p1 γ p2 γ pp

⎢ λp ⎥ ⎢ λ !
⎣ ⎦ ⎣ 1
λ2 λp ⎥

Como as variâncias dos EMQ dos coeficientes de regressão correspondem à


diagonal principal da matriz σ 2 ΓD−1
λ
Γ ′ vem

⎛γ 2 γ 2 γ 2jp ⎞
( )
p
var b̂(s)
j
= σ 2

j1

⎜⎝ λ1
+ j2

λ2
+ ... +
λp ⎠


= σ 2
∑ λk−1γ 2jk .
k=1

- λk−1γ 2jk → componentes da variância de b̂(s)


j
, k=1,...,p;

- Os coeficientes

p
φkj = λk−1γ 2jk ∑λ −1 2

γ
jℓ
ℓ=1

correspondem à proporção da variância do j-ésimo coeficiente de


(s)
regressão, b̂ j
, que é explicada pelo k-ésimo valor próprio.

Como a cada valor próprio próximo de zero corresponde apenas uma


única equação linear entre variáveis, a análise das componentes da
variância para cada um desses valores próprios permite identificar
quais as variáveis envolvidas em cada uma dessas relações.

Para um determinado λk próximo de zero, as componentes da variância φkj


próximas da unidade indicam as variáveis xj envolvidas nessa relação.
Podemos identificar quais as vairáveis que provocam um aumento exagerado
da variância de algum ou alguns estimadores dos coeficientes de regressão
com a ajuda da tabela:

17
Valores Números Proporções de
próprios condição Var b̂1( ) Var b̂2( ) ... Var b̂p( )
σ 2λ1−1γ 11
2
σ 2λ1−1γ 21
2
σ 2λ1−1γ 2p1
λ1 η1 ...
Var b̂1( ) Var b̂2( ) Var b̂p( )
σ 2λ2−1γ 12
2
σ 2λ2−1γ 22
2
σ 2λ2−1γ 2p2
λ2 η2 ...
Var b̂1( ) Var b̂2( ) Var b̂p( )
... ... ... ... ... ...
σ λ γ
2 −1 2
σ λ γ
2 −1 2
σ λ p−1γ 2pp
2

λp ηp p 1p p 2p
...
Var b̂1( ) Var b̂2( ) Var b̂p( )

• A análise tabela consiste, essencialmente, em identificar os valores


próprios ≈ 0 e, na linha correspondente, procurar φ kj’s ≈ 1, isto é, as
variáveis envolvidas na relação linear representada pelo valor próprio
próximo de zero.

• Os elementos em cada coluna da tabela têm soma igual à unidade e


coeficiente associado a essa coluna.

• Se uma variável estiver envolvida em mais de uma relação linear, por


exemplo, duas, a sua contribuição subdivide-se pelas duas linhas
correspondentes aos valores própios associados e, sendo assim, valores de
φkj’s não muito elevados podem ser indicadores de multicolinearidade.

EXEMPLO

5.3. Escolha do modelo.

Frequentemente, iniciamos um problema de regressão múltipla com uma


longa lista de variáveis independentes que julgamos poderem influenciar
a variável resposta mas, por várias razões, pretendemos encurtar essa lista e
reduzir o número de variáveis.

• A utilização de muitas variáveis aumenta a possibilidade da existência de


multicolinearidade. Nesse caso, devemos eliminar variáveis retirar ou
condensá-las utilizando apenas uma combinação linear de duas ou mais
variáveis.

18
• De um modo geral, pretendemos um modelo parcimonioso, isto é,
incluindo o mínimo possível de variáveis mantendo a qualidade do
ajustamento. Quanto maior for o número de parâmetros a estimar maior
será a variância dos estimadores do modelo de regressão, o que
também pode afectar a amplitude dos intervalos de previsão.

• Modelos com muitas variáveis são pouco práticos e difíceis de


interpretar.

Quando as variáveis a incluir no modelo são todas independentes entre si, o


processo de selecção de variáveis é muito simples bastando, por exemplo,
ajustar um modelo incluindo todas as variáveis e eliminar aquelas cujo teste t
seja significativo.

O problema da selecção de variáveis verifica-se na presença de


multicolinearidade, mesmo quando esta não é muito forte. Em todo o caso,
se a multicolineariedade for muito forte, todos os métodos podem funcionar
mal e conduzir a modelos que não são os melhores.

Não se pode dizer que haja um método que, sistematicamente, produza


melhores resultados do que os outros e, em geral, na prática, é conveniente
utilizar mais do que um método. A escolha do modelo final também tem a ver
com os objectivos do ajustamento do modelo, ou seja, se o que se
pretende é avaliar a relação de uma ou mais variáveis com a variável resposta
ou se o que se pretende é um modelo com um bom valor preditivo

Por vezes, métodos diferentes conduzem a resultados diferentes mas


semelhantes e dificilmente se pode dizer qual dos modelos é melhor. Mas
também diferentes métodos podem produzir o mesmo modelo, o que é uma
boa indicação da qualidade do ajustamento.

Uma forma de escolher o modelo é considerar todos os conjuntos de variáveis


possíveis e analisar todos os resultados em termos de uma medida de
ajustamento (R2 ou S2). Mas este método obriga a um enorme esforço
computacional e a analisar uma enorme quantidade de resultados a partir dos
quais é difícil tirar conclusões. Por exemplo, para um conjunto de P variáveis,
o número de regressões possíveis, NP, é dado por

P
⎛ P ⎞
NP = ∑ ⎜⎝ ⎟ −1 = 2 −1.
i ⎠
P

i=0

Se o número de potenciais variáveis a incluir no modelo for 10, teremos de


executar e analisar o resultado de 1023 regressões!

Por vezes, utiliza-se este método obrigando certas variáveis a fazer parte do
modelo, o que reduz significativamente a dimensão do problema.

Por estas razões, os métodos iterativos são a forma de selecção de variáveis


mais utilizada.

19
MÉTODO DA SELECÇÃO REGRESSIVA ("Backward Selection")

Este método inicia-se incluindo todas as variáveis no modelo e vão sendo


retiradas, uma a uma, até que todas as variáveis do modelo sejam
significativas.

Desigando por P o número total de variáveis e por p o número de variáveis no


modelo, este processo pode ser resumido no seguinte conjunto de passos:

PASSO 1. Começar com todas as P variáveis no modelo.

PASSO 2. Ajustar o modelo com as P variáveis e calcular os quocientes t para


cada uma delas.

PASSO 3. Se o quociente t mais pequeno é não significativo, eliminar a


variável correspondente, isto é, aquela com maior valor-P, tomar p=p-1 e ir
para 2.

PASSO 4. Se o quociente t mais pequeno é significativo, nenhuma das


variáveis pode ser omitida e adoptamos o modelo actual.

NOTAS

O modelo final depende do nível de significância α escolhido para o teste t,


mas é usual considerar α=0.05. É de salientar que este método pode produzir
resultados pouco fiáveis na presença de multicolinearidade forte, uma vez que
o quociente t de variáveis envolvidas em relações lineares pode conduzir a
uma escolha pouco adequada da variável a retirar. Em todo o caso, muitas
vezes, este método conduz a bons modelos e é fácil de utilizar na prática.

MÉTODO DA SELECÇÃO PROGRESSIVA ("Forward Selection")

O método da selecção progressiva funciona ao invés da regressiva, começando


com 0 variáveis no modelo e incluindo, sucessivamente, aquelas que
provocam um maior aumento na qualidade do ajustamento. O procedimento
termina quando qualquer variável não incluída no modelo não é significativa.

PASSO 1. Começar com 0 variáveis no modelo. (p = 1)

PASSO 2. Dado que o modelo actual tem p variáveis, considerar cada uma das
restantes P-p variáveis e escolher aquela que provoca maior redução no SQe (ou maior
aumento no R2).

PASSO 3. Testar se a redução na SQe é significativa, fazendo um teste t (ou F) na


variável escolhida.

PASSO 4. Se o resultado do teste em 3 for negativo juntar a variável e ir para 2. Se


não, ir para 5.

20
PASSO 5. Terminar com o modelo actual com p variáveis.

MÉTODO DA SELECÇÃO “STEPWISE”

O método de selecção “stepwise” é um método de selecção progressiva ao


qual se junta, após a inclusão de uma nova variável, um novo passo em que
se testa a significância de todas as variáveis incluídas no modelo e se retiram
aquelas que não forem significativas.

PASSOS 1, 2 e 3. Igual à selecção progressiva.

PASSO 4. Se o resultado do teste em 3 for negativo juntar a variável ao


modelo. Se não, ir para 5.

PASSO 4A. Depois de incluída a nova variável, testar a significância das


restantes variáveis já incluídas no modelo, através de um teste t ou de um
teste F, e retirar aquelas que não forem significativas. Ir para 2.

PASSO 5. Igual à selecção progressiva.

O nível de significância utilizado nos testes para incluir novas variáveis,


usualmente designado por "F to enter" deve ser inferior ao nível de
significância dos testes utilizados para retirar variáveis "F to remove". Assim,
por exemplo, se o teste para a entrada de novas variáveis for feito ao nível
α=0.05, só devem ser retiradas as variáveis cujos coeficientes não sejam
significativos, por exemplo, ao nível 0.1. Esta forma de proceder evita que se
entre em ciclo, introduzindo e retirando sucessivamente as mesmas variáveis.

Variante dos métodos de selecção progressiva

Para reduzir o efeito da multicolinearidade que afecta a justeza da selecção de


variáveis nos métodos de selecção de variáveis progressivos, muitos autores
sugerem que o critério para a escolha da próxima variável a incluir no modelo
se deve basear no coeficiente de correlação parcial em vez de tomar em conta
a redução na soma de quadrados.

Coeficiente de correlação parcial

O coeficiente de correlação parcial entre Y e xj dadas as restantes variáveis


x j ,..., x j , ryx |x ,...,x , é o coeficiente de correlação entre:
1 s j j j
1 s

1. Os resíduos obtidos depois de fazer a regressão de Y em x j ,..., x j e


1 s

2. Os resíduos obtidos depois de fazer a regressão de xj em x j ,..., x j .


1 s

Por outras palavras, o coeficiente de correlação parcial mede a relação linear


entre Y e xj depois de retirado o efeito das variáveis x j ,..., x j . Ou seja, o
1 s

21
coeficiente de correlação parcial procura medir a variabilidade de Y que é
explicada pela informação contida em xj e que não está nas restantes
variáveis. Srivastava (1990) propõe um método de selecção progressiva em
que a escolha de uma nova variável a incluir no modelo é feita com base na
correlação parcial com a variável dependente em vez de procurar aquela que
produz a menor da soma dos quadrados dos resíduos. Evita-se, assim, a
inclusão de variáveis que estão envolvidas em relações lineares com variáveis
já incluídas no modelo.

MÉTODO DA SELECÇÃO PROGRESSIVA (Srivastava)

PASSO 1. Iniciar o modelo sem variáveis, isto é, Y = b0 + ε.

PASSO 2. Escolher a variável que apresenta a maior correlação com Y. Esta


será a primeira variável a entrar no modelo. Testar a sua significância através
de um teste t ou de um teste F. Se não for significativa, o modelo inclui
apenas o termo constante.

PASSO 3. Quando já estão p variáveis no modelo, x j ,..., x j , escolher aquela


1 p

cuja correlação parcial com Y dadas x j ,..., x j é a maior.


1 p

PASSO 4. Refazer a regressão incluindo a variável escolhida em 3 e testar a


sua significância com um teste t ou um teste F.

PASSO 5. Se o teste resultar em rejeição, voltar ao passo 3. Caso contrário,


escolher a próxima variável cuja correlação parcial com Y seja a maior, incluí-
la no modelo e testar a sua significância. Se nenhuma das variáveis for
significativa, o procedimento acaba aqui.

Em vez de utilizar o coeficiente de correlação parcial, também se pode fazer


simplesmente a regressão da variável a entrar no modelo sobre as que já lá
estão. Se o ajustamento for muito bom, pode não ser indicado incluir essa
variável no modelo.

• Não se pode dizer que um destes métodos seja melhor do que os outros e,
em certos casos, o método de selecção “backwards” pode levar ao melhor
modelo e, noutras circunstâncias, o método “stepwise” ou uma das suas
variantes pode produzir o melhor resultado.

• De preferência, deve-se utilizar um método “backwards” e um método


“forward”.

• É sempre conveniente aplicar primeiro algum método de detecção de


multicolinearidade, retirando aquelas variáveis que provocam forte
multicolinearidade, e ter em atenção o resultado na escolha do modelo.

22

Você também pode gostar