Escolar Documentos
Profissional Documentos
Cultura Documentos
1. INTRODUÇÃO
Existem muitas técnicas para estimação de modelos lineares aplicáveis em transportes (ver
Wooldridge, 2010; Pindyck e Rubinfeld, 2004; e Washington, et al., 2011). Na
comunidade de transportes brasileira, notoriamente para o caso do congresso de
transportes da ANPET, a técnica de regressão simples e múltipla (daqui para frente com o
sinônimo de Mínimos Quadrados Ordinários – MMO) é utilizada largamente, talvez por
sua comodidade e praticidade, uma vez que a mesma encontra-se disponível em
praticamente todos os pacotes computacionais comercial e não comercial. Embora seja
fácil de calibrar, a técnica de MMO repousa sobre premissas que devem ser avaliadas com
esmero para a escolha coerente do modelo linear a utilizar, pois modelos para previsão
apresentam tolerâncias diferentes de modelos feitos para análise de comportamento de
usuários/consumidores e existem vários remédios para problemas como erros de medida,
omissão de variáveis, presença de correlação entre os resíduos entre outros.
De forma objetiva, este artigo está dividido em uma revisão bibliográfica onde é feita uma
visita na técnica de MMQ com apresentação de suas hipóteses, dos problemas decorrentes
da quebra dessas hipóteses, dos testes para detectar essas falhas nas hipóteses e das
técnicas que podem ser adotadas para sanar os efeitos das inadequações do MMQ a
estimação de modelos lineares dos dados. Na sequência se apresenta a metodologia
utilizada neste artigo com as estimações dos modelos com as diferentes técnicas e
apresentação de um quadro comparativo dos resultados e das vantagens e desvantagens de
cada abordagem. Por fim, faz-se uma discussão e conclusão do trabalho.
2. REVISÃO DA LITERATURA
Neste item, faz-se a revisão da literatura de modelos lineares, apresentando testes de
aderência do modelo aos pressupostos do MMQ e de técnicas utilizadas para melhorar as
estimativas de um modelo linear que apresente problemas quanto as hipóteses necessárias
para o uso efetivo do modelo linear.
Matricialmente a Equação (1) pode ser escrita conforme a Equação (2) e no processo de
minimizar o quadrado dos erros, feitas as manipulações necessárias se obtém a Equação
(3) para o vetor de s1.
Y X (2)
ˆ ( X ´ X ) 1 X ´Y (3)
O vetor de s possui propriedades elencadas abaixo e que fazem dele um ótimo estimador
de parâmetros, conhecido como um estimador BLUE – Best: estimador com menor
variância; Linear: melhor estimador entre os estimadores lineares; Unbiased: dado
amostragens repetidas média de s é igual aos s reais; e Estimates: estimador de
parâmetros populacionais. No geral, modelos de geração de viagem utilizam a estatística
R2 para avaliar a aderência do modelo estimado aos dados (Gasparini et.al., 2010; Pereira
e Oliveira, 2014; Silva e Waisman, 2007; Souza et. al, 2010; entre outros), conforme
Equação (4).
ˆ´ X ´Y n Y 2
R2 (4)
Y ´Y n Y 2
1
para o processo de minimização do quadrado dos erros matricialmente sugere-se a leitura do
livro do Pindyck e Rubenfeld (2004) páginas XXXXX
Além do R2 e o R2 ajustado, outras estatísticas devem ser utilizadas para avaliar o modelo,
pois podem haver erros de medida nos valores da matriz X, o erro encontrado pode
apresentar um comportamento inadequado, entre outras possibilidades que serão
detalhadas no próximo item.
ˆ ( X ´ X ) 1 X ´Y ( X ´ X ) 1 X ´ (6)
Estes testes são clássicos e partem da hipótese 11, logo é muito importante para garantir a
propriedade do estimador ser BLUE que i ~ N(0, σ2I), caso não o siga, então os
estimadores não serão BLUE e os testes acima serão inadequados para verificar se o
modelo é relevante estatisticamente para o objetivo do analista. Não obstante o acima
apresentado, pode haver uma relação entre os s do vetor de s, assim, pode-se testar
H 0 : R r frente a H 0 : R r , nesta situação a Restrição apontada frente vetor de s
{( Rˆ r )´[R ( X ´ X ) 1 R´]1 ( Rˆ r )} / q
segue uma distribuição F ~ F( q ,n k ) . Tal teste é
e´e /(n k )
pouco aplicado em estudos de transportes no Brasil Da Silva et.al. (2011) utiliza este teste
para avaliar retornos de escala em funções de produção pré aplicação de uma modelagem
não paramétrica para medição de eficiência de portos.
A hipótese 10 exige que não haja forte correlação entre as variáveis independentes, além
disso, importante é medir quão relacionado é a variável dependente com as variáveis
independentes, elimina, assim, os efeitos das outras variáveis no modelo que são carreadas
nos erros e que podem resultar na quebra das hipóteses 3 a 6, além de fazer com que a
variável Y não seja exógena, surgindo o problema de endogeneidade que será explicado na
próxima seção.
As hipóteses do modelo clássico são restritivas, podendo incorrer em problemas
proveniente dos dados. Os problemas devem ser tratados de tal sorte que se mantenha ás
hipóteses do modelo clássico atendidas. Na impossibilidade de manutenção do modelo
clássico, deve-se apelar para outra estrutura de modelo, o que poderá incorrer na utilização
de outro método de estimação. A quebra das hipóteses do MMQ geram os seguintes
problemas de: Multicolinearidade; Heterocedasticidade; Erros normais IID; Erros de
Medida; Endogeneidade e Autocorrelação Serial que podem ser tratados com modelos ou
procedimentos que minimizem os efeitos conforme explicado na próxima seção.
Como consequência da heterocedasticidade, os s são não viesados, mas não são BLUE,
pois a variância não é mínima, logo não eficiente. De qualquer forma, o parâmetro é
consistente, os estimadores de variância não são assintoticamente eficiente e são viesados,
o que gera os intervalos de confiança inválidos, pois se Yi for positivamente
correlacionado com i, então, conforme Equação (6) o viés será negativo, logo as
estatísticas t serão altas valendo a negativa para viés positivos, ou seja as estatísticas t's
serão pequenas nesse caso. Podem surgir três tipos de heterocedasticidade: Aditiva;
Multiplicativa; ARCH (Autoregressive conditional heteroskedastic) – um problema de
séries temporais. As causas da heterocedasticidade são: causas: Mal especificação do
modelo – omissão de variáveis ou forma funcional imprópria; processo de aprendizagem
durante o tempo; mudanças nos dados ou na definição dos dados; valores extremos ou
pontos de quebra no modelo. Para se avaliar a existência de heterocedasticidade, pode-se
apelar para análise gráfica, procurando um padrão semelhante ao da Figura 01a, ou então
aplicar o teste de Park, fazendo uma regressão (MMQ), tal como na Equação (8), onde se
testa a significância estatística de B, em sendo estatísticamente significante, então a
heterocedasticidade é um problema.
ln uˆ i2 B ln X i vi (8)
Existem testes derivados do teste de Park, por exemplo: o teste de Glejser que utiliza o
valor absoluto dos resíduos e várias transformações dos X’s. E testes procedimentais como
o teste de Goldfeld-Quandt que segue do seguinte algoritmo: ordene os n casos por X que
você acha correlacionado com i2; retire uma subamostra do centro (~1/5); regrida para as
amostras das subamostras acima e abaixo da subamostra retirada; faça o teste F para a
diferença entre a variância dos erros F tem (n - c - 2k)/2 graus de liberdade. Restando
dúvida, podem ser executadas os testes Breusch-Pagan-Godfrey ou o teste de White
Generalizado que exigem um pouco mais de esforço computacional. Todos estes testes
podem ser vistos com mais detalhe em Wooldridge (2010). Para solucionar o problema de
Heterocedasticidade, sugere-se uma das seguintes alternativas: estimar por Mínimos
Quadrados Generalizado – GLS; ou Mínimos Quadrados Ponderados; ou Mínimos
Quadrados Ponderados Interativo; ou estimar via Correção padrão de erros de White.
Caso ocorram erros que não sejam IID - Independentemente Identicamente Distribuídos,
então há Autocorrelação, ou seja, existe a presença de uma correlação padrão entre os
erros adjacentes. Se o resíduo é negativo, então seu sucessor ou predecessor tende a ser
negativo também e vice-versa. Ocorre geralmente entre observações adjacentes, mas
podendo incorporar diferentes defasagens ou sazonalidades. A Autocorrelação é,
geralmente, função do tempo, em transporte ver a aplicação de correção de autocorrelação
em estimativas em painel feitas por Silva (2016). Mas pode ocorrer em outras dimensões,
destacando-se a geográfica, para o caso de autocorrelação geográfica Fotheringham, et. al.
(2002) apresenta formalmente como utilizar o modelo e várias aplicações em transportes no
Brasil do uso de modelos para correção da autocorrelação geográfica são apresentados por
Loureiro et. al. (2006), Silva (2006) e Carvalho et. al. (2006). A hipótese 5 é quebrada, logo
cov (i, j | Xi, Xj) ≠ 0. Classificam-se a autocorrelação pela relação que se mantêm com o
erro vizinho: se a relação se dá entre resíduos vizinhos, então se tem a autocorrelação de
primeira ordem; podendo ocorrer de segunda, terceira, etc., conforme se distancie do
vizinho. Ao quebrar a hipótese 5 obtém-se coeficientes são não viesados, mas não BLUE,
pois as variâncias são baixas e os testes de hipótese (t’s e F) não são confiáveis, uma vez
que os s, conforme a Equação (6) possuem uma relação determinada pela presença do i
no viés. A autocorrelação serial pode ser decorrente de: erro de especificação (variáveis
omitidas); forma funcional errada; efeitos retardados; transformação de dados
(interpolação de dados faltantes e diferenças). Para diagnosticar esse problema devem-se
observar os resíduos no gráfico, verificação de sinais (teste de Geary) e teste de Durbin-
Watson – d, conforme Equação (9)
t n
uˆ uˆt 1
2
t
d t 2 (9)
t n
uˆ
t 2
2
t
Notoriamente, todo modelo é mal especificado. Contudo, um modelo deve ser bom,
confiável para explicar o que estamos estudando e ter fundamento teórico. Existem quatro
tipos de más especificações: forma funcional; inclusão de variáveis irrelevantes; exclusão
de variáveis relevantes; erros de medida nas variáveis; e mal especificação do termo erro.
Se há uma variável omitida e está é correlacionada com uma variável incluída, então
teremos estimadores viesados, inconsistentes, a variância do erro é incorreta e usualmente
superestimada. Por outro lado, se não ha correlação entre a variável omitida e a variável
inclusa, o erro continua viesado, mas os parâmetros não. Ou então, se a forma funcional é
incorreta, então pode ocorrer autocorrelação ou heterocedasticidade. O modelador deve se
questionar: Há algo omitido? Há algo irrelevantemente incluso?; Há variável não
mensurável?; e/ou Há não lineariedade?. As formas funcionais lineares ou linearizadas
mais utilizadas são apresentadas na Tabela 1.
Linear Y = b0 + b1 X Y = b0 + b1 X b1 X/Y
Log-log ou Cobb Douglas ou Potência Y = b0 X b1 ln(Y) = B 0 + b1 B 0 = ln(b0) b1
ln(X)
Log-linear ou Exponencial Y = b0 b1 X ln(Y) = B 0 + B 0 = ln(b0) b1 X
B1*X
B 1 = ln(b1)
Linear-log ou Semi-log ou Logaritmo-X Y = b0 + b1 ln(X) b1 1/Y
Vale nota o fato de Stepwise Regression ser utilizado em estimações de transporte para
especificações de formas funcionais ou variáveis a inserir, entretanto o método apresenta:
modelos completamente “ateóricos”; modelos sujeitos a correlações espúrias; processo
computacional sobrepõe ao científico, dentre outros. Portanto, faz-se necessário utilizá-lo
com parcimônia. Há a possibilidade de erros de medida das variáveis, decorrentes de má
digitação, de métricas más estipuladas, entre outras. Se o erro de medida é aleatório, os
estimadores são não viesados, mas os resultados são fracos. Se as medidas forem viesadas,
os resultados serão viesados, sendo a solução para tal problema a utilização de dados em
painel.
2.4 Técnicas alternativas ao MMQ para mitigar problemas de quebra das hipóteses
Muitas técnicas alternativas ao MMQ podem ser utilizadas para mitigar os problemas
apresentados na seção 2.3. tipo: Variáveis Instrumental - VI; Método Generalizado dos
Momentos - MMG; Máxima verossimilhança - MV; Mínimos Quadrados Generalizados –
MQG; e Mínimos Quadrados Ponderados - MQP.
REFERÊNCIAS
Carvalho, Luís Eduardo Ximenes; Silva, Henrique Nogueira; Loureiro, C. F. G. ; Meneses,
Hamifrancy Brito. Regressão linear geograficamente ponderada em ambiente SIG.
Transportes (Rio de Janeiro), v. 14, p. 18-26, 2006.
DaSILVA, F. G. F.. (2012) Resenha do Livro Statistical and Econometric Methods for
Transportation Data Analysis por Simon P. Washington, Fred l. Mannering , Matthew G.
Karlaftis .. Revista ANTT, v. 4, p. 20-40.
DaSILVA, F. G. F.; MARTINS, Francisco Giusepe Donato; ARAUJO, Carlos Eduardo
Freire ; ROCHA, C. H. (2011) Análise Exploratória da Eficiência Produtiva dos Portos
Brasileiros. Transportes, v. 19, p. 6-12.
Fahrmeir L., Kneib T., Lang S., Marx B. (2013) The Classical Linear Model. In:
Regression. Springer, Berlin, Heidelberg
Flom, P. L. and Cassell, D. L. (2007) "Stopping stepwise: Why stepwise and similar
selection methods are bad, and what you should use," NESUG 2007.
Fotheringham, A. S., Brunsdon, C., & Charlton, M (2002). Geographically weighted
Regression: the analysis of spatially varying relationships . Chichester: John Wiley &
Sons
Hansen, Lars Peter. (1982) Large Sample Properties of Generalized Method of Moments
Estimators. Econometrica 50, no. 4: 1029-054. doi:10.2307/1912775.
HAYASHI, Fumio. Econometrics. Princeton University Press. 2000. ISBN 978-0-691-
01018-2. Capítulo 3.
Hendry, D. F. (2000) Epilogue: The Success of General-to-specific Model Selection,
Chapter20 in D.F.Hendry(ed.) Econometrics: Alchemy or Science? Essays in Econometric
Methodology, Oxford University Press, Oxford, New Edition, 467— 490.
Loureiro, C.F.G.; Silva H. N.; Carvalho, L. E. X. (2006) Metodologia de análise de regressão
geograficamente ponderada aplicada ao fenômeno das viagens intermunicipais. Anais do XX
Congresso de Pesquisa e Ensino em Transportes. ANPET - Associação Nacional de Pesquisa e
Ensino em Transportes, Brasília, DF, 479-491.