Multicolinearidade

Multicolinearidade
A multicolinearidade ocorre quando existe uma alta correlação linear entre

duas ou mais variáveis independentes em um modelo de regressão linear. Isso significa
que as variáveis independentes estão altamente relacionadas entre si, o que pode causar
problemas na interpretação dos coeficientes estimados. Além disso, a
multicolinearidade pode levar a estimativas imprecisas dos coeficientes e aumentar a
variabilidade dos mesmos.
No caso de regressão com k variáveis explanatórias X1, X2, ..., Xk (em que X1
= 1 para todas as observações, de modo que permita o termo de intercepto), diz-se
existir uma relação linear exata se a seguinte condição for satisfeita:
(1)
em que λ1, λ 2, ..., λk são constantes tais que nem todas são simultaneamente
zero.
No entanto, no caso de regressão com k variáveis explanatórias X1, X2, ..., Xk,
o caso em que as variáveis X estão intercorrelacionadas, mas não perfeitamente, como
se segue:
(2)
em que vi é um termo de erro estocástico.
Para entender a diferença entre multicolinearidade perfeita e menos que perfeita,
suponha, por exemplo, que λ2 ≠ 0. Então, a Equação (1) pode ser escrita como:
(3)
qual mostra como X2 tem uma relação linear exata com outras variáveis ou
como pode ser derivado de uma combinação linear de outras variáveis X. Nessa
situação, o coeficiente de correlação entre a variável X2 e a combinação linear do lado
direito da Equação (3) será a unidade.
Do mesmo modo, se λ2 ≠ 0, a Equação (2) pode ser escrita como:
(4)
que mostra que X2 não é uma combinação linear exata de outras variáveis X,
porque também é determinado pelo termo de erro estocástico vi.
A abordagem algébrica à multicolinearidade pode ser descrita sucintamente pelo
diagrama de Ballentine (Figura 1). Nesta, os círculos Y, X2 e X3 representam,
respectivamente, as variações de Y (variável dependente) e X2 e X3 (as variáveis
explanatórias). O grau de colinearidade pode ser medido pela extensão da sobreposição
(área sombreada) dos círculos X2 e X3.
Figura 1: Visão da multicolinearidade segundo o diagrama de Ballentine
Na Figura 1a não há sobreposição de X2 e X3; não há colinearidade. Na Figura

1b até 1e, há um grau de colinearidade que vai de “baixo” a “alto” — quanto maior a
sobreposição entre X2 e X3, maior o grau de colinearidade. No extremo, se X2 e X3
estivessem totalmente sobrepostos, a colinearidade seria perfeita.
A propósito, note que a multicolinearidade, como a definimos, refere-se apenas
às relações lineares entre as variáveis X. Ela não descarta relações não lineares entre
elas.
Há várias fontes de multicolinearidade. Como observam Montgomery e Peck, a
multicolinearidade pode ocorrer devido aos seguintes fatores:
1. O método de coleta de dados empregado. Por exemplo, a amostragem de uma
faixa limitada de valores pelos regressores da população.
2. Restrições ao modelo ou à população que está sendo amostrada. Por exemplo,
na regressão do consumo de eletricidade contra renda (X2) e o tamanho da casa (X3), há
uma restrição física na população, no sentido de que famílias com rendas mais altas em
geral têm casas maiores que as com rendas mais baixas.
3. Especificação do modelo. Por exemplo, adicionando termos polinomiais a um
modelo de regressão, especialmente quando a amplitude da variável X é pequena.
4. Um modelo sobredeterminado. Isto acontece quando o modelo tem mais
variáveis explanatórias que o número de observações.
Outra razão para a multicolinearidade, principalmente nos dados de séries
temporais, pode ser que os regressores incluídos no modelo tenham uma tendência
comum: todos aumentam ou diminuem ao longo do tempo.
Consequências práticas da multicolinearidade
Em casos de quase ou de alta multicolinearidade, é muito provável nos
depararmos com as seguintes consequências:
1. Embora sejam os melhores estimadores lineares não viesados, os estimadores
de MQO têm grandes variâncias e covariâncias, tornando difícil uma estimação precisa.
2. Devido à consequência 1, os intervalos de confiança tendem a ser muito mais
amplos, levando à aceitação imediata da “hipótese nula igual a zero” (isto é, o
verdadeiro coeficiente populacional igual a zero). Dados os erros padrão grandes, os
intervalos de confiança dos parâmetros populacionais relevantes tendem a ser maiores.
Portanto, em casos de alta multicolinearidade, os dados da amostra podem ser
compatíveis com um conjunto diverso de hipóteses. A probabilidade de aceitar uma
hipótese falsa (erro tipo II) aumenta.
3. Também, devido à consequência 1, a razão t de um ou mais coeficientes tende
a ser estatisticamente insignificante. Lembre-se: para testar a hipótese nula que, por
exemplo, β2 = 0, usamos a razão t, isto é, β^2/ep (β^2), e comparamos o valor de t
estimado com o valor crítico de t na tabela t. Mas, como vimos, em casos de alta
colinearidade, os erros padrão estimados aumentam acentuadamente, tornando os
valores t menores. Em tais casos, aceita-se cada vez mais a hipótese nula de que o
verdadeiro valor populacional relevante é zero.
4. Embora a razão t de um ou mais coeficientes seja estatisticamente
insignificante, R2, a medida geral da qualidade do ajustamento, pode ser muito alto.
Considere o modelo de regressão linear com k variáveis:
(5)
Em casos de alta colinearidade, é possível constatar, que um ou mais
coeficientes angulares parciais são insignificantes individualmente, com base no teste t.
Nessas situações, R2 pode ser tão alto, por exemplo, superior a 0,9, que de acordo com
o teste F podemos rejeitar convincentemente a hipótese de que .
De fato, esse é um dos indícios de multicolinearidade: valores t insignificantes, mas um
R2 geral alto (e um valor F significativo).
5. Os estimadores de MQO e seus erros padrão podem ser sensíveis a pequenas
alterações nos dados. Contanto que a multicolinearidade não seja perfeita, é possível
estimar os coeficientes de regressão, mas as estimativas e seus erros padrão tornam-se
muito sensíveis até mesmo à menor alteração nos dados.
Detecção da multicolinearidade
A multicolinearidade é uma questão de grau e não de tipo. A distinção
significativa não é entre a presença e a ausência de multicolinearidade, mas entre seus
vários graus. Uma vez que a multicolinearidade refere-se à condição das variáveis
explanatórias que se supõe não serem estocásticas, ela é uma característica da amostra, e
não da população. Portanto, não “fazemos testes para multicolinearidade”, mas, se
quisermos, medimos seu grau em qualquer amostra específica. Não temos um método
único para detectá-la ou para medir sua força. O que temos são regras práticas.
Consideremos algumas delas.
Uma maneira simples de identificar a multicolinearidade é verificar a matriz de
correlação entre as variáveis independentes. Correlações altas (próximas a 1 ou -1)
indicam a presença de multicolinearidade. Para calcular a correlação entre duas
variáveis, é utilizada a fórmula do coeficiente de correlação de Pearson, que é dado por:
r = (Σ[(xᵢ - ẍ)(yᵢ - ẏ)]) / [√(Σ(xᵢ - ẍ)²) √(Σ(yᵢ - ẏ)²)] (6)
onde xᵢ e yᵢ são os valores das duas variáveis em cada observação, ẍ e ẏ são as
médias das variáveis x e y, respectivamente, e Σ indica a soma para todas as
observações.
Ou o Fator de Inflação de Variância (FIV) que mede o grau de
multicolinearidade entre as variáveis independentes. Valores de FIV acima de 5 ou 10
são frequentemente considerados indicativos de multicolinearidade. A fórmula do FIV é
dada por:
FIV = 1 / (1 - Rj²) (7)
onde R² é o coeficiente de determinação da regressão da variável independente
em relação às outras variáveis independentes.
Autovalores e índice condicional. De programas estatísticos, podemos encontrar
autovalores e o índice condicional para diagnosticar a multicolinearidade. Desses
autovalores, no entanto, podemos derivar o que é conhecido como o número condicional
k, definido como:
(8)
e o índice condicional (IC) definido como:
(9)
Então temos esta regra prática: se k está entre 100 e 1.000, há multicolinearidade
de moderada a forte; e, se for maior que 1.000, haverá multicolinearidade grave. Por
outro lado, se o estiver entre 10 e 30, a multicolinearidade será de moderada a
forte e, se for maior que 30, será grave.
Diagrama de dispersão. É uma boa prática usar um diagrama de dispersão para
verificar como as diversas variáveis estão relacionadas em um modelo de regressão.
Medidas corretivas
Exclusão de variável(is) e viés de especificação: Quando nos deparamos com
uma multicolinearidade grave, uma das coisas mais “simples” a fazer é excluir uma das
variáveis colineares. Mas, ao excluirmos uma variável do modelo, podemos cometer um
viés de especificação ou erro de especificação. Este surge de uma especificação
incorreta do modelo usado na análise.
Dados adicionais ou novos: Como a multicolinearidade é um aspecto da
amostra, é possível que, em outra amostra envolvendo as mesmas variáveis, a
colinearidade possa não ser tão grave quanto na primeira. Às vezes aumentar o tamanho
da amostra (se possível) pode atenuar o problema de colinearidade.
Transformar as variáveis: a multicolinearidade pode ser eliminada a partir de
funções das variáveis independentes.
(10)
Outros métodos de remediar a multicolinearidade: Técnicas estatísticas
multivariadas como a análise de fator e componentes principais ou técnicas como a
regressão ridge ou regressão LASSO são empregadas com frequência para “resolver” o
problema da multicolinearidade.
Ao abordar adequadamente a multicolinearidade, os pesquisadores podem
garantir a robustez e a validade de seus modelos estatísticos, fornecendo assim uma base
sólida para suas análises e conclusões.

Multicolinearidade

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Multicolinearidade

Enviado por

Direitos autorais:

Formatos disponíveis

Multicolinearidade

A multicolinearidade ocorre quando existe uma alta correlação linear entre

Na Figura 1a não há sobreposição de X2 e X3; não há colinearidade. Na Figura

Você também pode gostar