Você está na página 1de 45

5

Capítulo I: Modelos e o Erro aleatório

Modelo Econômico

Formulação de uma teoria econômica, uma hipótese que supõe uma relação
entre duas ou mais variáveis. Definição da variável dependente (y) e das variáveis
independentes (x1, x2, x3... xk). A variável dependente tem seus resultados em função
das variáveis independentes e está deve explicar seu comportamento corretamente.
Nesta etapa não se possuem dados, modelos matemáticos e equações, apenas uma
teoria hipotética.

Modelo Econométrico

Para tornar a teoria ou o modelo econômico proposto algo concreto é necessário


construir um modelo econométrico. O modelo econométrico é uma representação
simplificada da realidade, referente à hipótese estabelecida sobre o comportamento de
determinados fenômenos ou variáveis econômicas. Nesta etapa são coletados os
dados e escolhida a formula funcional. As coletas dos dados devem conter amostras
aleatórias, ou seja, amostras que possuem elementos com mesma probabilidade de
seleção, inexistência de fatores que provoquem dependência e devem ser uma parte
representativa e proporcional da população.

Modelo Estimado

Coletados os dados e escolhida a fórmula funcional o modelo é estimado. O


modelo inicialmente usado é o dos Mínimos Quadrados Ordinários, encontrado por
qualquer função linearizável no parâmetro, com a suposição inicial de erro mínimo,
porém existente. Ele minimiza a soma dos erros ao quadrado, e como muitas vezes a
adoção de uma reta não gera bons resultados adota-se outras formas lineares. O
modelo estimado deve expressar de forma concreta e real os fenômenos e variáveis
econômicas hipotéticos formulado no modelo econômico. A partir de um modelo
estimado pronto inicia-se a verificação da teoria apresentada.
6
Erro aleatório

O papel do erro no modelo econométrico tem como fato principal apontar o grau
de irrealidade da teoria proposta no modelo econômico ou falhas em sua formulação. O
erro no modelo representa a falta de conhecimento sobre a variável dependente,
portanto, deve ser o menor possível.
O erro é igual à diferença entre o ponto amostrado (real) e o ponto estimado pela
equação da reta ou curva. Todos os pontos geram valores de erros, para obter o erro
geral do modelo de mínimos quadrados ordinários, somam-se às diferenças ao
quadrado, para eliminar os possíveis efeitos dos negativos.

Erro = y – ŷ
 erro2 =  (y – a0 – a1 x)2

Um modelo econométrico que possua um alto nível de erro apresenta problemas


que tornam o mesmo incapaz de descrever determinada realidade dentro de relações
causais.
As possíveis fontes geradoras de erros são:
 Amostral: amostras coletadas fora do termo aleatório;
 Variáveis Independentes: variáveis que não representem de forma significativa o
conhecimento sobre a variável dependente;
 Fórmula funcional: função matemática escolhida em conjunto com as variáveis
independentes não expressa de forma concreta o comportamento da variável
dependente, não expressa a relação de interesse com realidade.
7
Capítulo II: Estimação do modelo

Estimação do modelo econométrico

O modelo de mínimos quadrados ordinários (MQO) utilizado, como já descrito, é


preferido na estimação do modelo por minimizar a soma dos erros ao quadrado. A
partir de uma regressão via MQO e uma função linearizável encontra-se valores para os
parâmetros ao, a1, a2, a3... ak, que possuam o mínimo de erro possível.
Conforme dados estimados, encontra-se o seguinte modelo econométrico, de função
linear:

ŷ = -âo – â1.x1 – â2.x2 + â3.x3 + e

ŷ = - 4720,907099 -14,13049545 X1 - 38,61928571 X2 + 145,5070497 X3

Interpretação do modelo estimado

Em conseqüência de o modelo conter mais de uma variável independente torna-


se irrelevante a interpretação do parâmetro â 0, portanto, apenas os parâmetros
relacionados com as variáveis X 1, X2 e X3 serão interpretados, todavia, considerando os
demais parâmetros constantes.

â1 = -14,13049545 => para cada aumento de 1 unidade na variável independente X 1


estima-se que a variável dependente diminua 14,13049545, considerando que as
variáveis X2 e X3 sejam constantes.

â2 = - 38,61928571 => para cada aumento de 1 unidade na variável independente X 2


estima-se que a variável dependente diminua 38,61928571, considerando que as
variáveis X1 e X3 sejam constantes.

â3 = 145,5070497 => para cada aumento de 1 unidade na variável independente X 3


estima-se que a variável dependente aumente 145,5070497, considerando que as
variáveis X1 e X2 sejam constantes.
Capítulo III: Diagnósticos Preliminares
8

O propósito do modelo estimado é representar concretamente a relação teórica


de interesse. Sendo ele construído com base em estimativas desde sua formulação
inicial, relações estabelecidas, dados coletados e escolha de funções, sempre
apresentará erro. Neste sentido utilizam-se, inicialmente, duas formas de diagnóstico
preliminar. A significância das variáveis independentes e a capacidade preditiva do
modelo estimado.

Significância das variáveis independentes

Ao considerar a função e as variáveis independentes como o conhecimento


sobre a variável dependente, supõe-se que as variáveis independentes sejam
significativas, de maneira que tragam para o modelo informações relevantes sobre a
variável dependente.
Num modelo linearizável pode-se afirmar que as variáveis independentes serão
significativas somente se seus parâmetros forem diferentes de zero. Como os
parâmetros â1, â2 e â3 são estimados, utilizam-se formas para a verificação de
ocorrência de zero com determinada confiabilidade.

1ª - Construção do intervalo com % de confiabilidade: Apresenta a margem de erro


para a abrangência do possível zero. Se zero pertencer ao intervalo construído a
variável não é significativa, assim como, se zero não pertencer ao intervalo construído a
variável será significativa. O intervalo é construído através da subtração entre o
parâmetro estimado da variável independente (â k) e sua margem de erro (E):
s
E  Z.
n
I = [âk – E; âk + E]
âk = 0 → variável não é significativa
âk ≠ 0 → variável é significativa

Conforme os dados:
â1 = [-16,70998971 ; -11,5510012]
9
Como zero não pertence ao intervalo construído a variável independente X 1 é
significativa.

â 2 = [-74,02362553; - 3,214945889]
Como zero não pertence ao intervalo construído a variável independente X 2 é
significativa.

â 3 = [37,5522669; 153,4618325]
Como zero não pertence ao intervalo construído a variável independente X3 é
significativa.

2ª - Construção do teste t: A partir da hipótese H0: ak = 0 e H1: ak ≠ 0 utiliza-se a


tabela de distribuição de probabilidades t-Student , pois não se possuem dados
populacionais, para encontrar o intervalo em que se aceitam ou rejeitam H 0. Para o uso
da tabela t utilizam-se a significância desejada, que neste caso será de 5% (100% -
95%) e o grau de liberdade encontrado pela diferença entre a quantidade de elementos
pela quantidade de variáveis independentes. Equivale ao teste do efeito individual de X
e do termo constante.

Portanto, segundo dados estimados:

- Número de elementos: 300


 Quantidade de variáveis independentes: 3
 Grau de liberdade : 300 – 3 = 297
 Para grau de liberdade 297 e significância 5% distribuição t é igual a 1,960

Para encontrar a estatística de teste t que identifica, no intervalo de hipótese, a


significância das variáveis independentes usa-se a seguinte fórmula:
aˆ k
t
dp ( aˆ k )

Onde dp(âk) é o erro padrão


10
Como os dados são obtidos via software não serão necessários os cálculos manuais da
estatística de teste para as três variáveis, que serão as seguintes:

X1 = -10,7807822, rejeita-se H0 e conseqüentemente X1 é significativa.

X2 = -2,146718919, rejeita-se H0 e conseqüentemente X2 é significativa.

X3 = 35,99839673, rejeita-se H0 e conseqüentemente X3 é significativa.


11

3ª – Avaliando a significância pelo valor p (probabilidade) (t) : Para uma


determinada variável independente, se o valor p for menor que 5% significa que a
variável é significativa. Se o valor p for maior ou igual a 5% significa que a variável não
é significativa.
De maneira que:

X1 = 4,45102 . 10-23 < 5%, variável X1 é significativa

X2 = 0,032628085 < 5%, variável X2 é significativa

X3 = 3,789 . 10-110 < 5%, variável X3 é significativa

Significância conjunta das variáveis independentes


12
Assim como nos testes individuais das variáveis, ao considerar a função e as
variáveis independentes como o conhecimento sobre a variável dependente, supõe-se
que as variáveis independentes em conjunto sejam significativas, de maneira que
tragam para o modelo informações relevantes sobre a variável dependente.
Da mesma forma, no modelo linearizável, afirma-se que o conjunto das variáveis
independentes será significativo somente se seus parâmetros forem diferentes de zero.

4ª – Construção do teste F : A estatística F tem por finalidade testar o efeito conjunto


das variáveis explicativas sobre a dependente. Isso significa verificar se, pelo menos,
uma das variáveis explicativas do modelo exerce efetivamente alguma influência sobre
a variável dependente.
Conhecidos os graus de liberdade do numerador e do denominador obtém-se o
valor crítico de F que constitui o limite que dividirá o espaço amostral em região da
rejeição de H0 e região de aceitação de H0.

Teste F:
H0: Todas as variáveis independentes não são significativas.
H1: Pelo menos uma variável independente é significativa ou conjuntamente são
significativas.
Conforme dados:
- Grau de liberdade do numerador (gl da regressão): 3
- Grau de liberdade do denominador (gl do resíduo): 296
- Para numerador 3 e denominador 296 distribuição F é igual a 2,60
Para encontrar a estatística de teste F que identifica, no intervalo de hipótese, a
significância das variáveis independentes usa-se a seguinte fórmula:

Quadrado médio da regressão


F 
Quadrado médio do resíduo

Da mesma forma que no teste t, os dados também são obtidos via software,
portanto não serão necessários os cálculos manuais da estatística de teste para o
13
conjunto das variáveis, que será:
F do conjunto das variáveis independentes = 48593,72145, rejeita-se H 0
conseqüentemente o modelo é significativo.

5ª – Avaliando a significância pelo valor p (F) : Continua-se com a mesma


metodologia usada na avaliação da distribuição t, entretanto, no teste F, considera-se
um determinado conjunto de variáveis independentes, se o valor p do conjunto for
menor que 5% significa que o modelo é significativo. Se o valor p do conjunto for maior
ou igual a 5% significa que o modelo não é significativo.
De maneira que:
F de significação = 0 < 5%, modelo é significativo

Capacidade preditiva ou explicativa do modelo estimado

Considerando o erro a diferença entre o ponto amostrado e o ponto estimado,


14
encontra-se a variância das médias na somatória das diferenças ao quadrado para
verificar a capacidade preditiva ou explicativa do modelo estimado. Como é desejável
que o erro seja muito pequeno para que os valores estimados para y (ŷ) sejam
próximos dos valores reais observados, tem-se:
e=y–ŷ
Σe=0
Σ (y – ŷ) = 0
Σy–Σŷ=0
Σ y = Σ ŷ → base da média

Como a expressão corresponde às médias iguais para y e ŷ, comparam-se suas


variâncias:

( y  y)2 ( yˆ  y ) 2
Var ( y )   Var ( yˆ )  
n 1 n 1

Com a divisão das variâncias encontra-se o coeficiente de explicação R 2, que


corresponde à medida da proporção da variabilidade em Y que é explicada por X. É
uma função direta da correlação entre as variáveis.

( yˆ  y ) 2
n 1 ( yˆ  y ) 2
R2  =
( y  y ) 2 ( y  y ) 2
n 1

O modelo deve possuir uma capacidade de explicação de R 2 ≥ 85%.


Conforme resumo de dados estimados o modelo contém:
R2 = 0,997973674, ou seja, 99,80%. Portanto o modelo estimado explica 99,80% da
variabilidade da variável dependente.

Capítulo IV – Suposições Teóricas Sobre o Modelo Estimado


15
Toda estrutura do modelo estimado, bem como todos os testes efetuados para
avaliar a significância e a preditividade, que indicam sua qualidade, dependem da
validação das estruturas estimadas. A validação por meio de determinadas premissas
evidencia os fenômenos ocorridos na coleta e ou formulação que possam prejudicar a
exatidão e a confiança no modelo estimado. Portanto, é necessário verificar se os
seguintes pressupostos estão presentes no modelo estimado:

1- Multicolinearidade;
2- Normalidade dos erros;
3- Autocorrelação;
4- Heterocedasticidade.

1 - Diagnóstico: Multicolinearidade

Ao estimar o modelo é necessário que as variáveis independentes apenas


possuam relação com a variável dependente, ou seja, as variáveis independentes não
devem estar correlacionadas entre si. Duas ou mais variáveis são colineares se
possuem uma relação linear, ou seja, uma relação de proporcionalidade nos dados.
Sendo comum em modelos de regressão múltipla, variáveis independentes com algum
tipo de correlação, este fenômeno é denominado como multicolinearidade.
A multicolinearidade afeta significativamente os coeficientes da equação de
regressão (âk), alterando os valores e distorcendo os coeficientes estimados. Na
presença de uma alta correlação, os coeficientes estimados tendem a serem
imprecisos, com grande variabilidade e sensíveis a pequenas variações dos dados. As
estimativas dos mínimos quadrados ainda são eficientes, porém o erro padrão dos
coeficientes tende a ser grande.
Contudo o problema da multicolinearidade torna-se uma questão de grau e não
de existência, pois na teoria econômica dificilmente encontram-se variáveis que não
possuam qualquer grau de relação, o que acaba por torná-la um problema
administrável.
Para identificar as possíveis colinearidades são elaborados três métodos: regressões
parciais, matriz das variáveis independentes e matriz de correlação linear.
16

1º Método: Regressões Parciais

Como na elaboração de modelos de mínimos quadrados ordinários verifica-se o


grau de associação das variáveis independentes com a variável dependente, utiliza-se,
portanto, um M.Q.O para verificar apenas a possível existência de correlação das
variáveis independentes entre si. Considerando as possíveis combinações:

X1 (dependente) versus X2 (independente)


X2 (dependente) versus X3 (independente)
X1 (dependente) versus X3 (independente)

X1 (dependente) versus X2 e X3 (independente)


X2 (dependente) versus X1 e X3 (independente)
X3 (dependente) versus X1 e X2 (independente)

Conforme analises anteriores, observou-se que é suficiente realizar regressões


de uma variável independente para com outra variável independente, não sendo
necessário efetuar M.Q.O com mais de uma variável independente.
O resultado do teste – t ou do teste F deve apontar um modelo não significativo,
ou seja, ele deve apontar que as variáveis independentes analisadas não possuem
nenhuma correlação, evidenciando a ausência de multicolinearidade. Devido à natureza
da análise apenas a avaliação do valor P dos modelos estimados é necessária para
identificar a significância.
A partir das regressões parciais:

X1 versus X2 → Valor P = 0 < 5% → Significativo, variáveis X1 e X2 estão associadas


X2 versus X3 → Valor P = 0 < 5% → Significativo, variáveis X2 e X3 estão associadas
X1 versus X3 → Valor P = 0 < 5% → Significativo, variáveis X1 e X3 estão associadas

2º Método: Matriz das variáveis independentes


17
Na estimação do modelo M.Q.O, mínimo Σ (y – a0 . a1X1 – a2X2 – ... akXk)2,
tomando as derivadas em forma de matriz tem-se:

a = (Xt X)-1 Xt Y

Sendo X Matriz n x k, onde n é o número de elementos e k o número de variáveis, (X t X)


é uma matriz em que k x n . n x K torna-se k x k. Ao calcular a matriz (X t X) encontra-se
seu determinante que, espera-se que seja um número alto, pois caso seja muito
próximo de zero existe a ocorrência de multicolinearidade.

Calculando matriz (Xt X):

Σ x12 Σ x1.x2 Σ x1.x3


Σ x1.x2 Σ x22 Σ x2.x3
Σ x1.x3 Σ x2.x3 Σ x32

1777114, 556 289732,6 1371899


289732,6 48476,09 233801,9
1371899 233801,9 1142324

Determinante matriz (XtX) = 854676906896,26 >>>0


Como o determinante é muito maior que zero não existe multicolinearidade conjunta
entre as três variáveis independentes.

3º Método: Matriz de correlação linear

Efetuando a matriz de correlação linear podem-se obter os coeficientes de


18
correlação das determinadas variáveis independentes. Sendo os resultados de
correlação maiores que 0,75 identifica-se a existência de associação linear entre as
variáveis correlacionadas.

X1 X2 X3
X1 1

X2 0,998435 1

X3 0,9964 0,998351 1

Resultado correlação X1 e X2 = 0,9984


Como 0,9984 > 0,75 existe associação linear entre as variáveis independentes X 1 e X2

Resultado correlação X1 e X3 = 0,9964


Como 0,9964 > 0,75 existe associação linear entre as variáveis independentes X 1 e X3

Resultado correlação X2 e X3 = 0,9983


Como 0,9983 > 0,75 existe associação linear entre as variáveis independentes X 2 e X3

Conseqüências da multicolinearidade

A presença da multicolinearidade nos dados é um problema relacionando com a


estrutura das variáveis independentes responsável pela estimação dos parâmetros â 0,
â1,â2 e â3, através da equação matricial (X t X)-1 Xt Y. Assim, a multicolinearidade causa
uma distorção no desvio padrão das estimativas de forma a aumentar a margem de
erro a fim de compensar as instabilidades na estimação dos parâmetros.
O aumento no desvio padrão gera de imediato um significativo decréscimo no
valor da estatística de teste t, pois como mostrado anteriormente à estatística de teste t
é obtida pela divisão do parâmetro por seu desvio padrão, inviabilizando a análise da
significância por este método. No que se refere ao teste F, como este é dado pela
divisão entre duas estatísticas t, o quadrado médio da regressão e o quadrado médio
do resíduo, sendo que a que se refere ao resíduo decresce mais rapidamente que a da
19
regressão, gera-se um aumento indevido do valor F. Portanto, têm-se variáveis
independentes individualmente não significativas, mas conjuntamente altamente
significativas tornando o modelo menos confiável.
A presença da multicolinearidade torna difícil a interpretação individual de
determinada variável independente com relação ao comportamento da variável
dependente, pois os coeficientes estimados terão seus valores dependentes da
existência ou não das outras variáveis independentes relacionadas no modelo.

Possíveis correções para a multicolinearidade

1ª Possibilidade: Aumentar o tamanho da amostra. Em muitos casos torna-se uma


possibilidade inviável de ser utilizada.
2ª Possibilidade: Retirar variáveis independentes do modelo. Pode resolver
parcialmente o problema, mas também pode diminuir a capacidade explicativa do
modelo. Não é uma opção recomendável.
3ª Possibilidade: Mudança da fórmula funcional do modelo. A mudança pode ser
realizada por qualquer função linearizável como polinomial, quadrática, logarítmica,
exponencial ou hiperbólica. É considerada a melhor solução possível, pois não
necessita de mais coleta de dados, a remoção de variáveis ou a inclusão de outras
variáveis no modelo.
4ª Possibilidade: Mudar a estrutura explicativa do modelo. Possibilidade de
substituição ou inclusão das variáveis ou modificação do valor temporal das mesmas,
ou seja, utilização de variáveis defasadas.

2 – Diagnóstico: Normalidade dos erros

Como apresentado anteriormente espera-se que a influência de variáveis


omitidas ou esquecidas seja pequena e no máximo aleatória. Com base na teoria do
limite central da estatística, demonstra-se que, se houver um grande número de
variáveis aleatórias independentes e identicamente distribuídas, com poucas exceções,
a distribuição de sua soma tenderá para uma distribuição normal à medida que o
20
número dessas variáveis aumentarem indefinidamente. É este teorema que justifica a
hipótese de normalidade. Sendo que uma variante do teorema afirma que mesmo que
os números das variáveis independentes não sejam grandes e que elas não sejam
necessariamente independentes, ainda sim sua soma apresentará uma distribuição
normal. Outra importante propriedade da distribuição normal é que qualquer função
linear (MQO) de variáveis distribuídas normalmente ocasiona estimadores normalmente
distribuídos.
A normalidade dos erros é motivada pelas seguintes características:
1 – Garantir maior credibilidade aos testes de significância;
2 – Como sabemos que o valor médio dos erros é igual a zero, correspondendo com a
média da padronização normal Z, a suposição de normalidade garante uma alta
freqüência de erros próximos de zero, ou seja, a falta de conhecimento sobre a variável
dependente torna-se mínima.

Caminhos para verificação

De um modo geral, compara-se a distribuição dos erros padronizados com a


distribuição normal padronizada. Inicialmente faz-se uma análise comparativa entre os
gráficos dos resíduos padronizados e o gráfico da tabela de distribuição normal
padronizada – Z. A fórmula abaixo encontra os resultados para o erro padronizado:

erro  média e
Erro padronizado 
dp e

Onde a média e é igual a zero


Para os diagnósticos de verificação da possível normalidade de erros seguem-se
os seguintes caminhos:

1º Caminho: Gráfico de Probabilidade Normal: elabora-se um gráfico de dispersão


relacionando os erros padronizados com os valores da distribuição normal padronizada
Z. Se o erro for normalmente distribuído o gráfico deve ter uma aparência próxima de
uma reta. Cabe ressaltar que a presente análise é especificamente subjetiva, relativo a
cada interpretação, sugerindo que o que é válido para um pode não ser válido para
21
todos. A análise é feita diretamente via software.

Como o gráfico não se aproxima de uma reta, os erros não são, aparentemente,
normais.

2º Caminho: Teste de Kolmogorov – Smirnov: O teste de Kolmogorov e Smirnov é


uma representação algébrica do gráfico de probabilidade normal. Com o objetivo de
avaliar a diferença de ponto a ponto dos erros padronizados em relação à distribuição
normal padronizada. Os erros padronizados devem estar em ordem crescente.
1º Fator → Área da curva normal para cada resíduo padronizado (Zep).
i
2º Fator → Considerar a fração amostral de cada erro, da forma .
n
Fórmula proposta:
22
i
D  Max  ep
n

Valores críticos da tabela de estatística D para o teste:


- Número de elementos.
- Nível de significância.

Teste: Se D calculado ≤ D tabela → normalidade


Se D calculado > D tabela → não normalidade

Portanto, conforme dados:


D calculado = 0,08897
D tabela:
- Número de elementos: 300
- Nível de significância: 5%
D tabela = 1,36/n1/2 = 0,07852

Se 0,08897 > 0,07852 → Erros não possuem distribuição normal

3º Caminho: Teste de Aderência: Conhecido também como teste Qui-Quadrado ou


Teste χ2. Comparam-se as freqüências absolutas (nº de) dos resíduos padronizados
observados (OB) no modelo com a freqüência esperada pela distribuição normal nos
seguintes intervalos:
Freqüência esperada constante da distribuição normal padronizada:
Entre 0 e 1 → 0,34134
Entre 1 e 2 → 0,34134 – 0,47725 = 0,13591
Acima de 2 → 0,34134 + 0,13591 – 0,5 = 0,02275

2,275 13,591 34,134 34,134 13,591 2,275

-2 -1 0 1 2

Onde cada valor é correspondente de n.


23

Freqüência esperada (E): para número de elementos igual a 300:

Entre 0 e 1 → 0,34134 . 300 = 102,40


Entre 1 e 2 → 0,13591 . 300 = 40,8
Acima de 2 → 0,02275 . 300 = 6,83

6,83 40,8 102,4 102,4 40,8 6,83

-2 -1 0 1 2

Onde cada valor é correspondente de n = 300.

Freqüência observada (OB): Com os resíduos padronizados dispostos de ordem


crescente contam-se as freqüências em cada intervalo.

Acima de -2 → 1
Entre -2 e -1 → 49
Entre -1 e 0 → 95
Entre 0 e 1 → 134
Entre 1 e 2 → 10
Acima de 2 → 11

6,83 40,8 102,4 102,4 40,8 6,83

1 -2 49 -1 95 0 134 1 10 2 11

Funcionamento do teste: De posse das freqüências esperadas (E) e observadas


(OB), calcula-se a estatística do Qui-Quadrado (χ 2) que indicará a hipótese de aceitação
ou rejeição de resíduos normais ou não normais.
O valor crítico na tabela de Qui-Quadrado é determinado em:
- Graus de liberdade: diferença entre o número de elementos e o número de variáveis.
- Nível de significância
24
A fórmula abaixo encontra a estatística de comparação X 2:

 ( E  OB) 2 
2    
 E 

Onde: Subtração para encontrar a diferença entre as freqüências;


Elevação ao quadrado para retirar negativos;
E somatória para comparar a diferença total dos resíduos padronizados em
relação à distribuição normal padronizada.

Decisão:
H0: Resíduos normais
H1: Resíduos não normais

Conforme dados:
- Graus de liberdade: 300 – 3 = 297
- Nível de significância: 5%
- Valor crítico = 43,773
- Χ2 = 42,70772

Aceita H0 considerando os resíduos distribuídos de forma normal.

Causas da ausência da normalidade


25

A plausibilidade do pressuposto de média zero deve ser examinada em cada


caso com alguma razão pré-existente, sendo necessário verificar se:
- todas as variáveis importantes foram incluídas no modelo, de maneira que as
excluídas não possuam relevância;
- a não existência de nenhum erro que se apresente de maneira sistemática
positivamente ou negativamente na variável dependente.
Portanto, é a identificação de alguma falha estrutural na variável a ser explicada,
causando valores do termo aleatório que não apresentam distribuição residual
requerida, representa a influência combinada, na variável dependente, de situações em
que este não possua distribuição normal.

Conseqüências e correções para a ausência da normalidade

Quando a hipótese inicialmente pressuposta de distribuição normal dos dados é


invalidada a conseqüência imediata é a incapacidade dos testes de significância
utilizados no modelo. Como o teste t é uma distribuição advinda da distribuição da
tabela da padronização normal e o teste F advém da distribuição t, portanto, quando se
utilizam dados sem normalidade os testes de significância das variáveis tornam-se
comprometidos e propícios a distorções.
São distorcidos os parâmetros estimados no modelo, pois a derivação utilizada
para auferir-los também é baseada em uma função que considera a normalidade dos
dados, comprometendo também os valores para a variável dependente estimada e para
o erro estimado.
Como descrito inicialmente a normalidade dos erros é representada pela
distribuição normal dos dados que conduz a média dos erros a zero, ou seja, a
existência de simetria nos dados. Para que o modelo apresente essa simetria à solução
mais eficiente é alterar a fórmula funcional do modelo utilizando as variáveis em uma
escala logarítmica, sendo elas:
26
- Modelo log-linear → Ln y  a0  a1 X 1  a 2 X 2 ...  a k X k  e

- Modelo linear-log → y  a0  a1 Ln X 1  a 2 Ln X 2  ... a k Ln X k  e

- Modelo log log → Ln y  a 0  a1 Ln X 1  a 2 Ln X 2  ... a k Ln X k  e

Entretanto, se após as análises dos modelos todos se apresentarem favoráveis,


o que possuir a maior capacidade preditiva no modelo, ou seja, o que obter o maior R 2
será adotado.
Portanto foram refeitas as regressões, cada qual em um modelo de função
relacionado acima e a partir dos dados propostos construíram-se os seguintes modelos
e obtiveram-se os seguintes resultados:
D tabela = 1,36/n1/2 = 0,07852

- Log – Linear: ŷ = 6,88532 + 0,00754 . X1 + 0,02500 . X2 + 0,00187 . X3


R2 = 0,996092922 ou 99,60%
D calculado 0,080854 > 0,07852 - Ausência de normalidade

- Linear – Log: ŷ = -799,655. X1 + (-506,413. X2) + 8812,870. X3


R2 = 0,998398503 ou 99,83%
D calculado 0,065874 < 0,07852 - Presença de normalidade

- Log – Log: ŷ = 0,8748330 + 0,028771. X 1 + 0,036619 . X2 + 1,894916 . X3


R2 = 0,999984768 ou 99,99%
D calculado 0,063961 < 0,07852 - Presença de normalidade

Conclui-se que tanto o modelo Linear – Log quanto o modelo Log – Log
apresentam normalidade nos erros, porém como descrito anteriormente como critério
de escolha decidisse pelo modelo Log – Log, pois este possui o maior R 2.

3 - Diagnóstico: Autocorrelação nos erros


27

Também denominada correlação serial nos erros representa a ocorrência de


variáveis no modelo que possuam interdependência temporal, de acordo com Matos
(2000) é a dependência temporal dos valores sucessivos dos resíduos, ou seja, a
correlação entre os resíduos.
O problema da autocorrelação é efetivamente encontrado nas regressões com
variáveis econômicas, pois esta área apresenta freqüentes variáveis que possuem
vícios temporais. O resíduo em um determinado período de tempo é função do resíduo
no período imediatamente anterior.
As fontes de autocorrelação em um modelo residem nas seguintes situações:
- Omissão de variáveis explicativas, erro de especificação, que reflete no termo residual
dado que este tende a ser elevado e correlacionado;
- Má especificação da forma funcional, quando os dados e a teoria proposta sugerem
outra função matemática;
- Variáveis temporais, sendo independentes ou dependentes influenciadas ao longo de
um dado período de tempo;
- Amostragem incorreta, amostras irreais ou não coletadas de forma aleatória.
É valido lembrar que a correlação apresenta-se de forma crescente ou
decrescente e sua ausência e dada pela aleatoriedade das disposições dos dados.
28

Diagnósticos propostos

Parte 1: Gráficos

Inicialmente para diagnosticar a autocorrelação dos erros são feitas análises


gráficas. A partir da plotagem de gráficos que relacionam os resíduos é possível
identificar inicialmente uma possível correlação entre a seqüência dos mesmos.
Entretanto cabe ressaltar que esse tipo de análise possui alto grau de subjetividade,
indicando a necessidade de análises mais aperfeiçoadas que comprovem de forma
mais precisa a ocorrência ou ausência da autocorrelação.
Apresentam-se as seguintes situações típicas evidenciadas na análise gráfica:
29
1ª – Espalhamento aleatório em torno de zero, quantidades semelhantes acima e
abaixo de zero. Sugere ausência de autocorrelação:

2ª – Espalhamento não aleatório, indicando crescimento ou decrescimento. Sugere


autocorrelação:

As situações apresentadas podem ser encontradas através de dois tipos de


plotagem de gráficos. A primeira forma será a plotagem por meio da relação entre os
resíduos normais ou padronizados entre sua série temporal. A segunda estará na
relação entre os resíduos normais ou padronizados e uma série dos mesmos resíduos
defasados. É importante que os dados permaneçam corretamente seqüenciados, ou
seja, para que o diagnóstico seja no mínimo confiável os resíduos não podem ser
dispostos em outra seqüência que não seja a original.
Conforme os dados analisados encontraram-se os seguintes gráficos:

1 – Gráfico relacionando os resíduos estimados e uma série de dados. Neste gráfico


sugere-se a ocorrência de autocorrelação ora positiva e ora negativa.
30

2 – Gráfico relacionando os resíduos estimados e os resíduos estimados defasados.


Neste gráfico sugere-se a ocorrência de autocorrelação positiva.

Parte 2: Análise de testes

1º Teste de Durbin – Watson: Como descrito anteriormente utilizando um gráfico


residual, as violações dos pressupostos do modelo nem sempre são fáceis de
identificar e pode ocorrer apesar dos gráficos não indicarem essa possibilidade. Por
esse motivo à análise gráfica torna-se um método ineficiente. Nesse contexto, a
verificação da ocorrência de autocorrelação no modelo estimado é usualmente feita
através de um teste com embasamento matemático, o teste proposto por Durbin-
Watson. O teste de Durbin-Watson verifica por meio de uma fórmula algébrica a
correlação entre os resíduos sucessivos, é uma soma ponderada dos erros que
identifica algum padrão de comportamento.
Se houver independência entre os resíduos, o valor de um resíduo não influência
31
no valor do resíduo seguinte. Para aferir se a relação entre dois resíduos consecutivos
é estatisticamente significativa utiliza-se a seguinte fórmula da estatística DW:

 (e i  ei 1 ) 2
DW  i 2
n

e
i 2
i
2

A interpretação do teste de DW pode ser entendida através de pequenas


manipulações algébricas, sendo:

  ei2  2 ei ei 1  ei21 
DW 
 ei2

A partir da distributiva da equação acima se tem:

 ei2  2  ei ei 1   ei21
DW 
 ei2

Ao manipular a fórmula identifica-se que o somatório de e i tende a ser igual ao


somatório de ei-1 à medida que o tamanho da amostra aumenta. Assim para grandes
quantidades de amostras pode-se admitir que:

2 2
 ei   ei 1

Então, continuando as manipulações:

DW 
2  ei2  2  ei ei 1
→ DW 
 
2  ei2   ei ei 1  1
 ei2  ei2

As manipulações conduzem a seguinte fórmula que determina a interpretação do


32
DW:

  ei . ei 1 
DW  2 1  2


  e i 

A interpretação dar-se-á nas seguintes hipóteses:

- Correlação positiva → DW = 2 (1-0) = 0


- Correlação negativa → DW = 2 (1+1) = 4
- Ausência de correlação → DW = 2 (1-1) = 2

Além do intervalo utilizado (0,2 e 4) a interpretação do teste ainda conta com os


valores críticos obtidos para referenciar a análise de cada situação dos modelos.
Utiliza-se a tabela construída por Durbin-Watson com base em:

- Quantidade de amostra: n
- Quantidade de variáveis independentes: k

A tabela apresenta limites inferiores (dl) e superiores (du), e estes serão usados
para testar a existência de autocorrelação e o tipo presenciado.
Compara-se o valor obtido para a estatística DW com os valores críticos da
tabela de Durbin-Watson, dL e dU , e toma-se a decisão recorrendo à seguinte tabela:

Com base nos dados encontrou-se a estatística DW = 0,061641649


Os valores críticos dl e du para:
33
- n = 300
-k=3
- Limite inferior dl = 1,738
- Limite superior du = 1,799

Conforme análise realizada o modelo apresenta correlação positiva.

2º Teste dos sinais: Observando os gráficos nota-se um comportamento peculiar em


cada situação de presença ou ausência de correlação. No gráfico de correlação positiva
notam-se as seqüências de erros positivos ou seqüências de erros negativos, ou seja,
existem seqüências constantes de determinado sinal, a troca de um sinal para outro é
baixa. Já no gráfico de correlação negativa notam-se seqüências com trocas
sistemáticas de erros positivos para erros negativos, ou seja, as seqüências
apresentam variações dos sinais, a troca de um sinal para outro é alta.
Para realizar o teste é necessária a notação dos sinais (- e +) dos resíduos da
regressão, examinando como os sinais se comportam em uma seqüência de
observações. Sejam, portanto:

- n = número total de observações (nº de sinais)


- n1 = número de símbolos + (erros de sinal +)
- n2 = número de símbolos – (erros de sinal -)
- w = número de trocas (de erro + para erro – ou inverso)
34
Conforme testes estatísticos anteriores, sob a hipótese nula de sucessivos
resultados independentes, comprovadamente uma seqüência apresenta uma
distribuição independente através da análise de uma média e um desvio padrão, são
eles:
2 . n1 . n 2  n1  n 2
Média 
n1  n 2

2 . n1 . n2  2 . n1 . n2  n1  n2 
Desvio padrão 
 n1  n2  2 .  n1  n2 1 

Com base na média e no desvio padrão constrói-se um intervalo de confiança


que indica valores inferiores e superiores que limitam os valores aceitos para a
presença ou ausência da correlação. O teste pode ser realizado com base nas tabelas
de distribuição Z ou t, dependendo dos dados observados:

- Intervalo = Média ± Z . Dp
- Intervalo = Média ± t . Dp

Para n > 30 utiliza-se a estatística Z e conforme dados observados têm-se:

- Confiabilidade de 95% → 0,95 / 2 → 0,47500 → Z = 1,96


- n = 300
- n1 = 155
- n2 = 145
- w = 16
- Média = 150,83333
- Desvio padrão = 8,6361

Portanto:

Intervalo = Média ± Z . Dp
35
Intervalo = 150,83 ± 1,96 . 8,6361
Intervalo = 150,83 ± 16,93
Intervalo = 150,83 + 16,93 = 167,66
Intervalo = 150,83 - 16,93 = 133,90

Assim como no teste de Durbin-Watson o resultado mostra que o modelo


apresenta correlação positiva. O teste dos sinais geralmente é utilizado quando o teste
de Durbin-Watson indica não conclusivo, ou seja, ele serve como um teste que auxilia
na identificação da autocorrelação no caso de testes DW inconclusivos.

Conseqüências e Correções

Como conseqüência da utilização de um modelo estimado com presença de


autocorrelação tem-se a inconfiabilidade dos resultados auferidos, pois a
autocorrelação fornece ao modelo parâmetros distorcidos e não confiáveis para a
análise da significância do mesmo. Para que os parâmetros estimados sejam os
melhores o modelo influência o desvio padrão e a partir deste se distorcem as
estatísticas de teste que avaliam a significância do modelo.
As correções propostas a seguir somente surtem efeito no modelo MQO se a
autocorrelação encontrada for resultante da presença de dados com correlação serial
ou temporal, a correção não surtirá efeito nenhum sendo a correlação conseqüente de
problemas estruturais do modelo.
A suposição inicial de que a presença de autocorrelação serial corresponde à
correlação de primeira ordem dos resíduos da regressão, causando a ineficiência dos
36
parâmetros estimados pelo modelo MQO, torna essencial a correção do problema.
Como essa correlação indica que os erros possuem relação, um esquema de
regressão pode ser utilizado da seguinte forma:

ei  R ei 1  erro

Considerando que R é a correlação entre os erros admiti-se que o problema da


correlação serial pode ser resolvido através de um modelo econométrico defasado,
onde se o modelo é válido no período i ele também será válido no período i -1. Se o
MQO satisfizer a todas as outras suposições de estruturação, os estimadores se
tornarão eficientes. O modelo defasado implica na regressão de Y sobre X não mais na
forma original, mas sim em uma forma de diferença, obtido pela subtração da proporção
de R do período anterior no período seguinte.

Yi RYi1 a0 1Ra1X1i  XR 1i1a2X2i  XR 2i1a3X3i  XR 3i1er o


Ou seja:
Y *  a 0 *  a1 X 1 *  a 2 X 2 *  a3 X 3 *  e

O parâmetro R pode ser estimado através de dois processos mais práticos e


rápidos:
- Estimar modelo MQO → ei = R ei-1 + erro → o modelo deve ser realizado sem
constante e é necessário o teste de hipótese.
- Em relação à fórmula do DW → com o teste de Durbin-Watson pronto, basta modificar
a fórmula e encontrar o parâmetro R:
DW
R  1
2
Como a maneira mais simples e rápida de obter a estimativa R é por meio da
37
estatística de DW já estimada, para os dados propostos tem-se:

- R= 0,969179
- Teste de Durbin-Watson defasado → 1,9539 → indicando a ausência de
autocorrelação serial no modelo.

4 – Diagnóstico da heterocedasticidade

Quando se estima o modelo de regressão MQO pressupõe-se que a variância


dos erros seja constante, ou seja, que a variabilidade da variável dependente não seja
influenciada pelo comportamento da variável independente. A suposição de que a
variância de cada termo residual seja um número constante igual a σ 2 indica a
ocorrência da homocedasticidade, ou a dispersão igual das variâncias. Logo o inverso,
quando a variabilidade da variável dependente aumenta ou diminui em função de
alguma variável independente tem-se a presença de variância não constante dos erros,
sendo o problema denominado heterocedasticidade. Portanto, na homocedasticidade a
variância de y apresenta-se da mesma forma, independente aos valores assumidos
pela variável Xi. Na heterocedasticidade a variância de y aumenta ou diminui conforme
os valores de Xi variam, de forma que as variâncias de y se tornem diferentes.
Graficamente é possível visualizar o problema da heterocedasticidade
subjetivamente:
38

.
Quando os gráficos apresentarem áreas de dispersão similares, indica-se a
presença de homocedasticidade, quando os gráficos apresentarem áreas de dispersão
diferentes, indica-se a presença de heterocedasticidade.
Possíveis causas da heterocedasticidade

A ocorrência de heterocedasticidade é indicada pela relação particular entre a


variável dependente (Y) e a variável independente (Xi), sendo que a dispersão dos
valores de Y para os valores baixos de Xi é diferente da dispersão para valores altos de
Xi.
Há várias situações em que um modelo estimado apresente a
heterocedasticidade, a seguir citam-se algumas:
- Modelos de aprendizagem: pra modelos que incorporem variáveis que pertencem a
situações que a medida do tempo o aprendizado sobre o fato gera a diminuição dos
erros e, por conseguinte diminua σ2;
- Modelos que incorporem a renda na especificação das relações: a renda é uma
39
variável que tende a aumentar sua variância, conforme a mesma aumente, pela maior
liberdade na disponibilização de seu uso;
- Melhoria nas técnicas de coleta de dados: diminuem os erros ao longo do tempo;
- Observações aberrantes: resultados isolados muito diferentes do que todo o resto da
amostra;
- Erro de especificação: a ausência de uma variável independente importante na
explicação do comportamento da variável dependente.
Nota-se que o problema da heterocedasticidade é mais comum de ser
encontrado em relações dos chamados dados de corte, ou seja, cenários de
determinada população mais específica em um período de tempo do que em dados de
séries temporais onde os dados são coletados para um cenário mais amplo de um
determinado período de tempo.

Diagnósticos propostos

Parte 1: Gráficos

Como visto acima um primeiro diagnóstico para a presença de


heterocedasticidade no modelo estimado pode ser realizado pela análise gráfica.
Podem-se citar dois tipos de plotagem:
1º - Gráfico de dispersão da variável dependente (y) versus cada uma das variáveis
independentes incorporadas ao modelo. Para acusar a presença de
homocedasticidade, espera-se que a figura obtida apresente uma dispersão de y
consideravelmente constante ao longo da relação com Xi.
40

Gráficos apresentam variações constantes indicando presença homocedasticidade


2º - Gráfico de dispersão da variável dependente y versus os erros estimados no
modelo (o resultado esperado deve ser o mesmo).
41

Gráfico apresenta variação não constante indicando possível presença de


heterocedasticidade.

Parte 2: Análise de testes

Assim como nos casos anteriores da normalidade dos erros e na autocorrelação


serial, os testes para diagnosticar a heterocedasticidade são obtidos por adaptações
algébricas das análises gráficas, que como já descrito as análises gráficas tendem a
conduzir representações muito subjetivas necessitando de um diagnóstico com mais
precisão.
Para tanto serão apresentadas três alternativas de testes para diagnosticar a
presença da heterocedasticidade, são eles:

1º - Teste de Park: a suposição inicial é de que no modelo exista uma variável


independente Xi que influencie na variabilidade dos erros estimados, logo:
Var (eˆ)   2 Xi

Ao escolher a variável e2 como uma variável dependente obtém-se o seguinte


modelo econométrico:
eˆ 2  a X ic

Como o modelo utilizado deve ser linearizável, modifica-se para:


Ln eˆ 2  Ln a0  c Ln X i  erro

O teste deve ser realizado pra cada variável independente utilizada no modelo.
42
Estimado o modelo MQO testa-se a significância do parâmetro c com base em um dos
testes de significância já descritos anteriormente para testar as hipóteses de aceitação
ou rejeição, por exemplo, o teste t ou teste F.
- Se H0: c = 0 for aceita acusa-se a presença de homocedasticidade.
- Se H0: c = 0 for rejeitada acusa-se a presença de heterocedasticidade.
Entretanto o teste de Park possui restrição quanto à utilização do logaritmo,
sendo o erro zero ou qualquer variável independente zero e ou negativa, o teste não
funcionará.
De maneira que para os dados analisados se o parâmetro c for significativo
indica-se a presença de heterocedasticidade, portanto:

Para X1 → Ln ê2 = 11,2275 – 1,2164 Ln X1


R2 = 0,1669 ou 16,69%
Valor P = 1,68643.10-13 < 5 % → modelo significativo → heterocedasticidade

Para X2 → Ln ê2 = 11,6528 – 2,1992 Ln X2


R2 = 0,1457 ou 14,57%
Valor P = 7,60453.10-12 < 5% → modelo significativo → heterocedasticidade

Para X3 → Ln ê2 = 22,2103 – 3,8991 Ln X3


R2 = 0,1427 ou 14,27%
Valor P = 1,2973.10-11 < 5% → modelo significativo → heterocedasticidade

2º - Teste de Pesaran: a suposição inicial indica a possibilidade de diagnosticar a


heterocedasticidade pela relação dos erros estimados com o ŷ:
eˆ 2  a 0  a1 yˆ 2  erro

Estimado o modelo MQO testa-se a significância do parâmetro a 1 com base em


um dos testes de significância já descritos anteriormente para testar as hipóteses de
aceitação ou rejeição, por exemplo, o teste t ou teste F.
- Se H0: a1= 0 for aceita acusa-se a presença de homocedasticidade.
- Se H0: a1= 0 for rejeitada acusa-se a presença de heterocedasticidade.
43
Se o parâmetro a1 for significativo indica-se a presença de heterocedasticidade,
conforme dados:

Para o modelo → eˆ 2  3360,939  0,000208 yˆ 2


R2 = 0,092
Valor P = 8,3163.10-8 < 5% → modelo significativo →
heterocedasticidade

Observação: Importante quanto aos testes de Park e de Pesaran é que


comparativamente o teste de Pesaran é mais simples, pois exige apenas um teste para
sua realização, e não tem restrições numéricas, entretanto, não é possível identificar a
variável independente que é fonte da heterocedasticidade. Porém o teste de Park é
mais trabalhoso, mas pode identificar qual a variável independente que é a responsável
pela ocorrência da heterocedasticidade.

3º - Teste de Quandt: O teste F de Quandt supõe inicialmente que comparando o grau


de variabilidade dos extremos pode-se inferir sobre a presença de heterocedasticidade
no modelo estimado. O procedimento para realização do teste consiste em:
- Escolher uma variável independente (Xi);
- Ordenar todas as variáveis em função de Xi;
- Eliminar 25% dos dados centrais e separar o restante em dois grupos de mesmo
tamanho;
- Em cada grupo criado deve-se estimar um modelo MQO e a partir da tabela ANOVA
separar o Quadrado Médio da Regressão para o cálculo da estatística de teste F de
duas formas, lembrando de anotar os graus de liberdade encontrados em cada caso
para realização do teste:

Os testes devem gerar o teste de significância não significativo.


Para o modelo analisado, tem-se:
44

- n = 300
- 25% de 300 = 75 (+1) = 76
- 300 – 76 = 224
- 224 / 2 = 112

Para o 1º modelo gerado em função de X1 → MQ = 2664065,066


gl = 3
Para o 2º modelo gerado em função de X1 → MQ = 7213021,489
gl = 3
Para a variável X1 → F = 2,70752

Para o 1º modelo gerado em função de X2 → MQ = 2664065,066


gl = 3
Para o 2º modelo gerado em função de X2 → MQ = 7213021,489
gl = 3
Para a variável X2 → F = 2,70752

Para o 1º modelo gerado em função de X3 → MQ = 2664065,066


gl = 3
Para o 2º modelo gerado em função de X3 → MQ = 7213021,489
gl = 3
Para a variável X3 → F = 2,70752
Para encontrar o valor crítico F, usa-se o cruzamento dos gls auferidos acima na
tabela de distribuição de Fisher, sendo ele neste caso igual a 9,28. Como as três
variáveis X obtiveram os mesmos resultados colocaram-se no mesmo gráfico os
resultados:
45

Os testes indicam presença homocedástica no modelo.

Conseqüências e correções para a heterocedasticidade

Da mesma maneira ocorrida nos casos já analisados, a presença da


heterocedasticidade gera uma alteração no desvio padrão das estimativas modificando
os resultados dos testes de hipótese. Quando as estimativas do MQO apresentam a
heterocedasticidade os intervalos de confiança são desnecessariamente maiores e
conseqüentemente os testes estatísticos t e F provavelmente fornecerão resultados
ineficientes e imprecisos, já que a variação é extremamente elevada e o que pode
parecer um coeficiente não significativo, pois o valor estimado para t tende a ser menor
do que realmente seria, pode ser na verdade significativos eliminando a presença da
heterocedasticidade.
Para tanto seguem duas alternativas de correção de heterocedasticidade:

1ª – Utilização do modelo log - linear : decorrente a natureza do problema, onde o


mesmo encontra-se na variável dependente (Y), inicialmente tenta-se corrigir o
problema com a utilização de um modelo onde Y seja logaritmo e o restante da função
permaneça linear, estabilizando assim a variação da determinada variável problemática.

2ª – Tornar a variância uma constante : A partir da suposição do teste de Park,


uniformiza-se a variância dividindo todo o modelo por Xi c:
46
Var (e)   2 Xi c

Variância Causador da não constância

Var (e)  2 Xi c Var (e)


c
 c
 c
2
Xi Xi Xi

Considerando, portanto, o MQO:

y a0 X1 X2 X3
  a1  a 2  a 3 e
Xi c Xi c Xi c Xi c Xi c

1
a0
Xi c

Assim, a0 não é mais constante, o modelo não possui mais constante, pois a 0 agora
depende de Xi.

Observações necessárias:
1 – A variável independente Xi e o expoente c, utilizados na correção, serão
identificados pelo teste de Park;
2 – O uso da correção exige a estimação de um MQO sem constante ou intercepto;
3 – o uso da correção insere no modelo econométrico uma nova variável independente
representada sempre pelo inverso da variável X problemática;
4 – Este modelo é conhecido como o modelo de mínimos quadrados ponderados.

Conclusão

Perante todo o trabalho realizado pode-se concluir que o modelo estimado em


47
relação aos seus diagnósticos preliminares apresentou variáveis significativas e
capacidade preditiva indicando inicialmente um modelo que explica as relações
propostas de forma relevante. Preliminarmente afirma-se que a relação entre as
variáveis independentes (X1, X2 e X3) pode explicar de forma eficiente o comportamento
da variável dependente (Y).
Entretanto, para confirmar a confiabilidade do desempenho positivo dos testes de
significância e preditividade foram necessárias as verificações referentes às suposições
teóricas a cerca do modelo de estimação (MQO). A verificação dessas premissas tem a
importância de confirmar a eficiência, confiabilidade, credibilidade e possível
previsibilidade que o modelo estimado deve possuir.
A partir das suposições apresentadas no presente trabalho verificou-se a
possibilidade de ocorrência da multicolinearidade, da normalidade dos erros, da
autocorrelação e da heterocedasticidade. Através de análises gráficas, que possuem
baixa relevância e alto grau de subjetividade e através de testes algébricos mais
precisos foram diagnosticadas as suposições no modelo estimado neste trabalho.
No diagnóstico da multicolinearidade identificou-se preferivelmente com base na
matriz de correlação linear, dentre outros testes especificados, que todas as variáveis
independentes utilizadas no modelo possuem associação linear entre si.
O diagnóstico que indica a presença de normalidade dos erros no modelo,
constatou que os erros, encontrados pela estimação não possuem distribuição
simétrica, ou seja, não estão distribuídos normalmente, a constatação foi obtida mais
precisamente pelo teste de Kolmogorov – Smirnov, pois o Teste de Aderência mesmo
obtendo distribuição normal dos erros para o modelo é menos preciso que o teste de
Kolmogorov – Smirnov.
Já o diagnóstico de autocorrelação dos erros confirmou a presença de
autocorrelação serial indicando dados correlacionados de forma temporal a partir da
precisão do teste de Durbin – Watson, assim como, também acusou no posterior Teste
dos Sinais.
E completando as verificações, o diagnóstico da heterocedasticidade realizado
indicou heterocedasticidade nos testes de Park e Pesaran, mas aceitou a hipótese de
homocedasticidade no teste de Quandt, como houve testes que colocaram em dúvida a
48
presença de homocedasticidade é preferível aceitar a ocorrência de
heterocedasticidade e seguir o que as correções econométricas propõem.
Contudo, para os diagnósticos apresentados que prejudicam a confiabilidade dos
estimadores do modelo, conclui-se com base nas suposições apresentadas que as
correções necessárias, para que o modelo torne-se representativo e confiável, podem
ser resolutivas para todos os problemas. Como alternativas gerais de solução propõem-
se que sejam revistas: a forma funcional, sendo modificada a função incorporada no
modelo por qualquer outra lineárizavel no parâmetro ou a verificação da escolha das
variáveis, bem como a possibilidade de inclusão, exclusão ou modificação da forma em
que as mesmas foram expressas.
Todavia, se mesmo com as referidas alterações e correções propostas no
decorrer do trabalho o modelo permanecer inconfiável e impreciso, representado por
estimadores distorcidos, como última solução propõe-se que seja reformulada a teoria
econômica especificada inicialmente no modelo econômico ou a mudança na estrutura
de estimação do modelo, abandonando a estimação via MQO e incorporando a teoria
em questão outro tipo de estrutura mais avançada que possibilite a explicação da
relação hipotética corretamente.
Objetivamente as alternativas de correção seguem uma ordem sistêmica e
prática de implementação: i) utilizar escala logarítmica de todas as formas possíveis
sobre as variáveis do modelo; ii) utilizar outras formas funcionais como exponencial,
polinomial ou hiperbólico; iii) inflacionar o modelo incluindo diversas variáveis, testando
variadas combinações; iv) revisar e alterar a amostragem.
Cabe considerar finalmente que se deve preservar no máximo a utilização do
modelo MQO, pois este facilita a interpretação da estimação e é de fácil compreensão
para a coletividade.

Referências Bibliográficas
49
Souza. Luiz Gonzada de. Artigos de Economia. Disponível em
<http://www.eumed.net/libros/2006b/lgs-art/1g.htm>.Acesso em: 13 de setembro de
2008.

Gonzalez. Marco Aurélio S. Multicolinearidade. Disponível em

<http://www.exatec.unisinos.br/~gonzalez/valor/inferenc/pressup/colinear.html>. Acesso

em: 27 de setembro de 2008.

Moreira. Luiz Fernando. Multicolinearidade em Análise de Regressão. Disponível em


<http://www.admpg.com.br/2008/cadastro/artigos/temp/315.pdf>. Acesso em: 04 de
outubro de 2008.

GUJARATI, Damodar N. Econometria básica. 3 ed. São Paulo: Makron Books, 2000.

MATOS, Orlando Carneiro de. Econometria básica – Teoria e Aplicações. 3 ed. São
Paulo: Atlas, 2000.