Você está na página 1de 130
CURSO DE E CONOMETRI A E SPACIA L A PLICAD A PROF. DR. EDUARDO SIMÕES
CURSO DE E CONOMETRI A E SPACIA L A PLICAD A PROF. DR. EDUARDO SIMÕES

CURSO DE ECONOMETRIA ESPACIAL APLICADA

CURSO DE E CONOMETRI A E SPACIA L A PLICAD A PROF. DR. EDUARDO SIMÕES DE

PROF. DR. EDUARDO SIMÕES DE ALMEIDA ESALQ-USP

Piracicaba, 2004

C urso de E conometria E spacial A plicada SOBRE O AUTOR O professor Eduardo

Curso de E conometria E spacial A plicada

SOBRE O AUTOR

O professor Eduardo Simões de Almeida é economista, mestre e doutor em Economia pela Faculdade de Economia e Administração da Universidade de São Paulo (FEA-USP). Conquistou o 21º Prêmio BNDES de Economia, com a sua dissertação de mestrado em 1997. O título de sua tese de doutorado é "Um Modelo de Equilíbrio Geral Aplicado Espacial para Planejamento e Análise de Políticas de Transporte". Recebeu recentemente o Prêmio CNT de Produção Acadêmica 2003 pelo artigo científico "Quanto Custa o Descaso com as Nossas Estradas", extraído da sua tese de doutorado.

Foi pesquisador visitante, por meio de uma bolsa " sandwich" concedida pela CAPES, no Regional Economics Applications Laboratory (REAL), da Universidade de Illinois (EUA) em 2001-02. Na Universidade de Illinois, desenvolveu a sua tese de doutorado e realizou estudos sobre Econometria Espacial. Foi aluno do Prof. Luc Anselin, da Universidade de Illinois, assistindo aos cursos "Spatial Analysis" e "Spatial Econometrics".

Foi durante dez anos pesquisador científico da Fundação Instituto de Pesquisas Econômicas (Fipe), desenvolvendo vários projetos nas áreas de transportes, logística, modelagem econômica, desenvolvimento regional e índices econômicos. Auxiliou no desenvolvimento do modelo econométrico espacial para projeção consistente de culturas agropecuárias (MEECA).

Publicou dezenas de artigos científicos em revistas e apresentou diversos trabalhos em congressos nacionais e internacionais na área de modelos de equilíbrio geral computável, econometria espacial e análise espacial.

C urso de E conometria E spacial A plicada Tem uma larga experiência de docência.

Curso de E conometria E spacial A plicada

Tem uma larga experiência de docência. Foi professor de Estatística Econômica da

Universidade Mackenzie. Ministrou um minicurso “Econometria Espacial Aplicada”, na

disciplina "Economia Regional", do curso de Pós-graduação do Instituto de Pesquisas

Econômicas da Universidade de São Paulo em 2002. Foi Professor da disciplina Métodos

Quantitativos e Análise de Dados, do MBA - Gestão de Operações, da Fundação Carlos

Alberto Vanzolini, da Escola Politécnica da Universidade de São Paulo, em 2003.

Atualmente, é pesquisador e professor visitante no Departamento de Economia,

Adminstração e Sociologia da Escola Superior de Agricultura “Luiz de Queiroz”, da

Universidade de São Paulo (ESALQ-USP), no campus em Piracicaba.

CONTATOS DO AUTOR

Endereço comercial:

Departamento de Economia, Administração e Sociologia, da ESALQ-USP Av. Pádua Dias, 11 – Cx. Postal 9 CEP 13418-900 Piracicaba – SP Tel.: (019) 3417-8726 (011) 9932-6377 Fax.: (019) 3434-5186

C urso de E conometria E spacial A plicada CAPÍTULO 1 INTRODUÇÃO “ É preciso

Curso de E conometria E spacial A plicada

CAPÍTULO 1 INTRODUÇÃO

É preciso medir tudo o que é mensurável, e tornar mensurável o que não é

Galilei Galileu

1.1. Por que Estudar Econometria Espacial?

Suponha que um pesquisador esteja interessado em estimar uma função de produção agrícola agregada em nível microrregional, ou seja, uma cross-section de microrregiões. Como a teoria da produção recomenda, ele pretende regredir a quantidade agrícola produzida contra insumos, tais como a quantidade de trabalho, capital, terra utilizada etc. A sua primeira idéia é adotar o modelo clássico de regressão linear. Vamos começar especificando o modelo clássico de regressão linear:

y

= Xβ + ε

ε ~ N (0,σI )

(1.1)

em que y é a variável dependente com n linhas, X é uma matriz de variáveis explicativas com n

linhas e k colunas, β é um vetor com k coeficientes de regressão e ε é um vector com n termos aleatórios de erro, seguindo uma distribuição normal. Os pressupostos subjacentes para esse modelo clássico são os seguintes:

a) Uma função linear de um conjunto específico de variáveis independentes relevantes, com coeficientes fixos;

b) Termos aleatórios de erro têm média zero;

c) Todos os termos de erro têm a mesma variância e não são correlacionados entre si (em outros termos, os termos de erro são esféricos);

d) As observações sobre as variáveis independents podem ser fixas em amostras repetidas;

e) matriz X tem pleno posto.

A

O

pesquisador pode se considerar muito sortudo se o fenômeno estudado comportar-se

conforme os pressupostos do modelo clássico de análise de regressão linear. O mundo real é

C urso de E conometria E spacial A plicada muito mais complexo, impondo desafios ao

Curso de E conometria E spacial A plicada

muito mais complexo, impondo desafios ao pesquisador que deseja compreendê-lo e quantificá- lo. O desenvolvimento histórico da econometria é explicado pela tentativa de superar as violações dos pressupostos do modelo clássico, tais como a multicolinearidade, a correlação de X com o termo de erro ε, a heterocedasticidade etc. Existem uma série de livros em nível de graduação ou pós-graduação que fornece as diretrizes para resolver esses problemas. Contudo, uma classe de problemas relacionadas à dificuldade de estudar fenômenos que ocorrem no espaço não é contemplada por esses livros e pela econometria convencional. Vamos voltar à necessidade de estimar a função de produção agrícola. Agora considere que o pesquisador verificou que a produção agrícola é dependente da distribuição de recursos naturais, tais como qualidade do solo, regime pluviométrico, e cuja resposta aos insumos trabalho, capital e terra não é uniforme através dos municípios. Isso pode acarretar que os

β tenham estimativas diferentes para certos subconjuntos dos seus dados (para

algumas regiões). Ou a variância do erro não é constante em todos os municípios. Ou, ainda, a forma funcional, pressuposta ser linear, para alguns grupos de municípios vizinhos entre si pode ser não-linear. O que fazer?, pergunta o pesquisador. Vamos mais adiante no azar do pesquisador e supor que existem interações entre os produtores agrícolas, fornecendo uma dinâmica diferente. Vamos supor que exista um conjunto de produtores que introduz uma inovação agrícola – por exemplo, um novo sistema de irrigação proposto por um órgão do governo como a Embrapa – que ajuda a elevar a produtividade das culturas beneficiadas. Os agricultores vizinhos observam esse efeito sobre a produção e começam a imitar essa inovação, difundindo-a. Os vizinhos desses agricultores vizinhos também vêem os resultados positivos e também imitam. Essa inovação na agricultura, que teve um epicentro num município (ou num conjunto de municípios), começa a passar por um processo de difusão, transcendendo as fronteiras de um município isolado. Essa interação pode acarretar que o nível de produção agrícola de um determinado município dependa dos níveis de produção de seus municípios vizinhos. Diante desse fato, o que fazer?, pergunta novamente o pesquisador.

coeficientes

C urso de E conometria E spacial A plicada Estudar econometria espacial urgentemente , respondo

Curso de E conometria E spacial A plicada

Estudar econometria espacial urgentemente, respondo eu, pois desconsiderá-la, levará a resultados viesados, inconsistente e/ou ineficientes. Isso porque os efeitos apresentados de forma intuitiva nos parágrafos passados não estão sendo levados em consideração. Portanto, o prejuízo para a análise pode ser muito elevado. Chegamos, assim, ao ponto de apresentar um ramo emergente da Econometria com inúmeras aplicações que fornecerá as soluções que você está procurando.

1.2. O que é Econometria Espacial?

A econometria espacial difere da econometria convencional porque leva em consideração os chamados efeitos espaciais na especificação, na estimação e no teste de hipótese e previsão de

modelos, com dados do tipo cross-section ou com um painel de dados. Ao não reservar atenção a esses efeitos espaciais, os resultados proporcionados pela análise econométrica convencional tornam-se inválidos. 1 A diferença entre a econometria espacial e a econometria tradicional concentra-se na preocupação de se incorporar na modelagem o padrão da interação sócio-econômica entre os agentes num sistema, assim como as características da estrutura desse sistema no espaço. Essas interações e as características estruturais – que podem ser instáveis no espaço – geram efeitos espaciais em vários processos econômicos (Anselin, 2003; Anselin, 1988; Anselin e Bera, 1998). No entanto, talvez uma diferença mais profunda possa ser delineada em termos de ponto de partida metodológico. Metodologicamente falando, a econometria convencional procura tratar quantitativamente o comportamento do agente segundo um ponto de partida puramente atomístico, sem se preocupar com o contexto espacial. Em contraste, a econometria espacial busca tratar quantitativamente o comportamento do agente tanto do ponto de vista atomístico (quais são os fatores exógenos independentes do espaço que interferem em sua tomada de decisões) quanto da sua interação com outros agentes heterogêneos ao longo do espaço, este igualmente heterogêneo. Um modelo econométrico de regressão linear tradicional tem a limitação de não ser capaz de controlar para esses efeitos espaciais.

1 De acordo com Anselin (2001b, p. 113), “econometria espacial é um subcampo da econometria que lida com as complicações causadas pela interação espacial (autocorrelação espacial) e pela estrutura espacial (heterogeneidade espacial) em modelos de regressão para dados na forma de cross-section e painel de dados”.

C urso de E conometria E spacial A plicada O primeiro efeito espacial diz respeito

Curso de E conometria E spacial A plicada

O primeiro efeito espacial diz respeito à dependência espacial dada pela interação dos

agentes no espaço. De modo geral, todo processo que se dá no espaço está sujeito à chamada Lei

de Tobler, também conhecida como a Primeira Lei da Geografia, cujo enunciado pode ser estabelecido da seguinte forma: “tudo depende de todo o restante, porém o que está mais próximo depende mais”. A Lei de Tobler destaca, com isso, o papel da proximidade para o estabelecimento da interação espacial entre os fenômenos. Note a particularidade da noção de proximidade nessa lei. Proximidade pressupõe a

noção de distância relativa entre as unidades espaciais (municípios, distritos, bairros, países, estados, microrregiões etc.) e seus efeitos, discutidos acima. Todavia, vale ressaltar que o efeito da “distância” deve ser tomado de modo amplo, não apenas geográfico, porém mais no sentido dado por Isard, ou seja, a distância relativa de renda, espaço de política, correspondendo à força da interação verificada pelas unidades espaciais.

A dependência espacial significa, por sua vez, que o valor de uma variável de interesse

numa certa região i depende do valor dessa variável nas regiões vizinhas j. Generica e formalmente, tal conceito pode ser expresso como:

y

i

= f

(

y

j

)

i = 1,K, n

e

i

j

(1.2)

Podemos representar a dependência espacial, usando um esquema gráfico simplificado para capturar a intuição que está por trás da interação:

Figura 1.1: Representação Gráfica da Interação Espacial

y i y j
y i
y j

Nesse esquema, existe uma interação entre a variável de interesse y da unidade espacial i com a mesma variável localizada na unidade espacial contígua a ela, denominada j. Cabe aqui uma palavra de alerta. Dependência espacial é uma propriedade de funções de densidade conjunta. Conseqüentemente, é difícil de se observar na prática. Assim, procura-se

C urso de E conometria E spacial A plicada avaliar a dependência espacial pelo momento

Curso de E conometria E spacial A plicada

avaliar a dependência espacial pelo momento dessa função de densidade conjunta, ou seja, pela autocorrelação espacial, que pode ser estimada e testada. Portanto, toda a análise a respeito da dependência espacial será feita por intermédio do conceito de autocorrelação espacial. Usaremos os termos autocorrelação espacial e dependência espacial como sinônimos.

É possível destacar algumas fontes de dependência espacial, relacionadas a uma

variedade de processos de interação social. De acordo com Haining (1990, pp. 24-25), existem basicamente quatro processos espaciais. O primeiro refere-se ao processo de difusão que se

caracteriza pela adoção de um atributo de interesse por parte dos elementos de uma população fixa. A qualquer momento, pode-se descobrir qual é a proporção da população que já adotou

determinado atributo. Nesse aspecto, a distribuição espacial da população pode desempenhar um relevante papel para o desenvolvimento do padrão de difusão do atributo em estudo. Um exemplo clássico é a difusão tecnológica.

O segundo processo espacial envolve a troca de mercadorias e a transferência de renda

entre unidades espaciais. Segundo o autor, a renda auferida numa região pode ser despendida em outra. O efeito multiplicador regional da renda desempenha importante papel. No terceiro processo, é destacado o comportamento estratégico como uma característica fundamental, no sentido em que envolve a “‘interação em que eventos em uma região influenciam e são influenciados por eventos em outras regiões”, envolvendo competição e/ou cooperação. Por exemplo, a determinação de preços no varejo depende das condições de mercado e da localização dos vendedores, além de suas ações e reações.

O quarto processo trata da dispersão ou do espraiamento de um atributo. Em contrate

com o processo de difusão, aqui é a própria população que se dispersa. A natureza de tal dispersão gera dependência espacial no atributo (ou atributos) estudado ao longo do processo. No campo das ciências sociais, um bom exemplo seria a migração populacional, ao passo que no campo das ciências naturais seria a dispersão de sementes.

C urso de E conometria E spacial A plicada O outro efeito refere-se à heterogeneidade

Curso de E conometria E spacial A plicada

O outro efeito refere-se à heterogeneidade espacial. Fenômenos que ocorrem no espaço

não apresentam estabilidade estrutural. 2 Em termos intuitivos, a heterogeneidade espacial manifesta-se quando ocorre instabilidade estrutural no espaço, fazendo com que haja diferentes respostas, dependendo da localidade ou da escala espacial. Tal instabilidade pode ser detectada na forma de coeficientes variáveis, de variância não constante ou, ainda, de formas funcionais diferentes para determinados subconjuntos de dados. Nesse caso, a conseqüência prática é a inadequação de se ajustar um mesmo modelo teórico para todo o conjunto de dados. Ao não tratá-la convenientemente no modelo, paga-se um preço alto. O problema da heterogeneidade pode provocar a instabilidade estrutural sobre os resultados da regressão, causando a perda da eficiência. Em alguns casos, como veremos abaixo, é possível acarretar em estimativas viesadas. Como já dissemos, a econometria espacial é um ramo emergente com diversas aplicações práticas em vários campos do saber, tais como economia agrícola, finanças públicas locais, organização industrial, economia regional e urbana, economia internacional, ciências ambientais etc.

1.3. Desafios da Econometria Espacial

Como é possível de se perceber, desconsiderar os efeitos espaciais pode acarretar em estimativas viesadas, inconsistentes e/ou ineficientes. Porém, ao incorporar os efeitos espaciais, a

técnica econométrica, concomitantemente, sofistica-se e torna-se muito mais complexa.

Em contraste com as séries de tempo cuja direção da interação e a dependência no tempo ocorre unidirecionalmente, do passado para o presente e do presente para o futuro, a dependência no espaço é bidirecional, expressa pelo seguinte enunciado: “sou vizinho do meu próprio vizinho”.

É conveniente não se deixar influenciar pela singeleza do enunciado. Ele condensa uma

dificuldade inerente quando se tenta modelar processos espaciais com esse grau de

2 Segundo Boller et al. (2001, p. 566), “heterogeneidade espacial refere-se à situação em que coeficientes ou os padrões de erro variam sistematicamente através das áreas geográficas”. De acordo com Le Sage, heterogeneidade espacial refere-se à variação em relações através do espaço”.

C urso de E conometria E spacial A plicada interdependência. Só para que se possa

Curso de E conometria E spacial A plicada

interdependência. Só para que se possa enxergar a profundidade da interdependência, observe que o meu vizinho, além de ser vizinho meu, é também vizinho dos vizinhos dele que, por sua vez, são meus vizinhos de segunda ordem, e assim por diante. Esse aspecto envolverá a simultaneidade da interação que complicará sobremaneira a estimação, como será visto posteriormente. De modo prático, diversas ferramentas, como, por exemplo, o correlograma, que são úteis em séries de tempo perdem seu sentido prático. Não se pode adotar o correlograma espacial a não ser em situações extremamente estilizadas e raramente verificadas no mundo real. Outro aspecto intrigante é que existem modelos espaciais no qual o termo de erro é aleatório e bem comportado, ou como se costuma dizer, esférico. E mesmo assim, por influência da interdependência e a interação entre os vizinhos surgirá heterocedasticidade junto da dependência espacial. Intuitivamente, a fonte desse imbricamento pode ser encontrada na própria motivação metodológica do campo da econometria espacial apresentada no início de nossa exposição e aqui relembrada: “a econometria espacial busca tratar quantitativamente o comportamento do agente tanto do ponto de vista atomístico (quais são os fatores exógenos independentes do espaço que interferem em sua tomada de decisões) quanto da sua interação com outros agentes heterogêneos ao longo do espaço, igualmente heterogêneo”. Note como as idéias de dependência e a heterogeneidade convivem nesse enunciado. Esse é um dos maiores problemas neste ramo da econometria: o assim chamado imbricamento da heterogeneidade espacial com a dependência espacial, conduzindo a uma extrema dificuldade na correta identificação dos modelos econométricos relevantes para o fenômeno em estudo. Isso implicará uma série de procedimentos para contornar tal dificuldade. Um deles é realizar uma análise exploratória de dados espaciais para ter um conhecimento mais preciso da natureza da estrutura e da interação do processo espacial. Um exemplo claro disso é que a especificação de modelos econométricos espaciais envolve dificuldades em identificar o modelo apropriado. Por isso, é de bom alvitre fazer uma análise exploratória de dados espaciais a fim de que se possa sugerir padrões e prover indicações para auxiliar posteriormente na seleção do modelo mais apropriado.

C urso de E conometria E spacial A plicada O outro modo é a realização

Curso de E conometria E spacial A plicada

O outro modo é a realização de testes para detectar esses efeitos espaciais, como será visto no capítulo 6.

1.4. Um Pouco de História

Em termos quantitativos, o interesse e a preocupação a respeito da influência do espaço em diversos fenômenos é de longa data. Existem relatos indicando que, em 1914, Student já se preocupava com a questão da influência dos efeitos espaciais na estimação de modelos (Antonio,

1999).

Todavia, apenas no final dos anos quarenta, mais precisamente em 1948, com o trabalho de Moran, introduziu-se o primeiro estimador formal da dependência espacial, o chamado teste I, permitindo que a estimação da força da interação espacial pudesse ser realizada. O teste I de Moran, como veremos no capítulo quatro, é do tipo de uma medida de correlação segundo um certo critério de associação de variáveis. Em 1954, é a vez de Geary desenvolver um outro teste, chamado de teste C, para detectar a dependência espacial, também uma medida de correlação, usando um critério distinto de associação entre variáveis. Ainda em 1954, Whittle publica um artigo discutindo a particularidade de processo estocástico no espaço, enfocando a bidirecionalidade da interação. Além disso, o autor propõe o modelo econométrico do erro auto-regressivo espacial, que será visto no quarto capítulo desta apostila. Em 1973, Cliff e Ord escreveram um livro, cuja segunda edição foi lançada em 1981, que aprofundou a análise dos processos espaciais numa abordagem eminentemente estatística, enfocando sobretudo a dependência espacial. De qualquer forma, esse livro expandiu a possibilidade de aplicação de um conjunto de técnicas em vários campos, inclusive na economia. Outro marco no desenvolvimento desse ramo da econometria foi o livro de Jean Paelinck e Klaassen em 1979, intitulado “Spatial Econometrics”. Aliás, Paelinck é considerado até hoje o pai da Econometria Espacial, talvez muito pelo fato de ter cunhado o termo. Segundo Florax e Vlist (2003, p. 225), a partir daí a econometria foi alvo do estudo de dois grupos de pesquisadores: de um lado, os holandeses cujos principais nomes são Bartels,

C urso de E conometria E spacial A plicada Brandsma, Hordjik, Ketellapper e Nijkamp; de

Curso de E conometria E spacial A plicada

Brandsma, Hordjik, Ketellapper e Nijkamp; de outro, os britânicos, despontando nomes como Fingleton, Haining, Ord e Upton. Em 1988, Anselin publica o livro “Spatial Econometrics: Models and Methods”, que teve

o mérito de sistematizar uma série de conceitos e terminologias nesse campo do saber, até então sem um amarramento e uma unidade. É possível afirmar que em algum momento dos anos oitenta o grande centro de desenvolvimento da econometria espacial passou a ser os EUA, com nomes como o próprio Anselin, Keilejian, Prucha e Cressie.

O grande desenvolvimento, no entanto, ocorreu mesmo nos anos noventa com a

confluência de três fatores que impulsionaram a econometria espacial. Em primeiro lugar, o

desenvolvimento da capacidade computacional que permitiu estimar modelos econométricos espaciais, adotando metódos de estimação complexos. Em segundo lugar, a disponibilidade de uma profusão de dados georeferenciados, em grande parte em decorrência da revolução do computador, mais especificamente o surgimento de sistemas de informações geográficas na forma de softwares. Vamos discutir isso na próxima seção.

O avanço das técnicas econométricas espaciais apresenta dois ramos distintos: o

paramétrico e Bayesiano. O ramo bayesiano foi desenvolvido principalmente por Alan Gelfand. Outro nome de destaque é Le Sage. Por esse material cobrir exclusivamente o ramo paramétrico da econometria espacial, não dedicaremos atenção ao ramo Bayesiano.

1.5. A Natureza dos Dados Espaciais

No campo da econometria espacial, não são apenas os modelos que são diferentes, mas também os dados são diferenciados. Para serem incorporados nos modelos, os dados precisam ser espaciais. Uma primeira questão de uma pessoa que esteja aprendendo econometria espacial é saber qual é a diferença entre dados não-espaciais (ou a-espaciais) e dados espaciais. Dados a-espaciais denotam a variação de algum fenômeno sem se preocupar com a determinação em saber onde ocorre tal variação. Dados espaciais denotam a variação de algum fenômeno tendo a preocupação em determinar onde ocorre tal variação. Portanto, dados espaciais apresentam dois componentes. Um primeiro componente referente ao atributo do fenômeno em estudo; e um

C urso de E conometria E spacial A plicada outro, de natureza espacial, que fornece

Curso de E conometria E spacial A plicada

outro, de natureza espacial, que fornece a referência em termos da localização geográfica desse atributo. Nos últimos quinze anos, o mundo vivenciou a emergência de uma pletora de dados espaciais, sobretudo de cunho sócio-econômico. Anselin (1999, p. 6) menciona uma explosão da disponibilidade de bases de dados sócio-econômicos georeferenciados. Isso ocorreu devido ao avanço tecnológico, especialmente vinculado à informática, tanto no que se refere ao hardware quanto ao software, no que tange à coleta de dados. Houve a chamada “Revolução do Sistemas de Informação Georeferenciada (SIG)”, ou seja, o desenvolvimento de programas de computador que permitiram a estocagem, organização, descrição e análise de dados espaciais ou georeferenciados. O SIG disponibilizou uma grande quantidade de dados espaciais, levando a necessidade do desenvolvimento de técnicas tanto de análise exploratória como de análise confirmatória de dados espaciais. A coleta de dados beneficiou-se também do avanço tecnológico do sensoreamento remoto e da rede de satélites em torno da terra que permitiram o desenvolvimento do Global Positioning System (GPS), primeiro para fins militares, e posteriomente, para fins comerciais. Essa pletora de dados georeferenciados contribui para a interpretação de que o campo da econometria espacial é guiada por essa disponibilidade de dados (data-driven). Em terceiro lugar, o avanço da teoria econômica, preocupada em estudar a interação entre os agentes num contexto espacial em modelos como a Nova Geografia Econômica. A grande quantidade de novos avanços da teoria econômica que pressupõe a interação dos agentes no espaço é visto por alguns como a responsável pelo impulso das técnicas econométricas espaciais, guiadas, assim, pelos modelos teóricos (model-driven). Os dados geográficos podem ser representados por três tipos de objetos espaciais Fotheringham et al. (2000, p. 17):

a) pontos;

b) linhas;

c) polígonos.

C urso de E conometria E spacial A plicada No mapa 1.1, estão representados os

Curso de E conometria E spacial A plicada

No mapa 1.1, estão representados os três objetos espaciais na forma da rede ferroviária, hidroviária e aeroportuária. Nesse mapa, os pontos denotam os aeroportos, enquanto as linhas representam as ferrovias. Já os polígonos, extremamente irregulares, simbolizam as hidrovias.

Mapa 1.1: Rede Ferroviária, Hidroviária e Aeroportuária de MG

# # # # # # # # # # # # # # #
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
# #
#
#
#
#
#
#
#
#
#
#
# #
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
# #
#
#
#
#
#
#
#
#
# #
#
#
#
#
# #
#
#
#
#
#
#
#
#
# # #
#
# #
#
#
#
#
#
#
#
#
#
#
#
#
#
#
#
# #
#
# #
#
# #
#
# #
#
#
#
#
#
#
#
#
#
#
#
#
#
# #
#
#
#
#
#
#
#
#
#
200 0
200
400 Miles
# # # # # # # # # # # # # 200 0 200
# # # # # # # # # # # # # 200 0 200
# # # # # # # # # # # # # 200 0 200
# # # # # # # # # # # # # 200 0 200
Mg_ferro_polyline.shp Mg_hidro_region.shp Mg_aero_point.shp # N W E
Mg_ferro_polyline.shp
Mg_hidro_region.shp
Mg_aero_point.shp
#
N
W
E

S

1.6. Processo Estocástico Espacial

Convém destacar um aspecto curioso a respeito dos dados espaciais coletados. Os dados espaciais são uma única realização de um processo estocástico do tipo espacial. Veja o mapa 1.2, mostrando a área colhida per capita para o Estado de Minas Gerais. Pode-se considerar que esse

mapa com dados espaciais é uma realização, dentre inúmeras possíveis, de um processo estocástico espacial. Ou seja, o mapa com a área colhida per capita para Minas Gerais é a única

C urso de E conometria E spacial A plicada amostra que se dispõe de uma

Curso de E conometria E spacial A plicada

amostra que se dispõe de uma população de mapas com a área colhida per capita para Minas Gerais que poderiam ter sido realizados.

Mapa 1.2: Distribuição da Área Colhida per Capita em Minas Gerais

200 0 200 400 Miles
200
0
200
400
Miles
Colhida per Capita em Minas Gerais 200 0 200 400 Miles Área Colhida per Capita -
Colhida per Capita em Minas Gerais 200 0 200 400 Miles Área Colhida per Capita -
Colhida per Capita em Minas Gerais 200 0 200 400 Miles Área Colhida per Capita -
Colhida per Capita em Minas Gerais 200 0 200 400 Miles Área Colhida per Capita -

Área Colhida per Capita

- 0.135Gerais 200 0 200 400 Miles Área Colhida per Capita - 0.293 - 0.485 - 0.726

- 0.293200 0 200 400 Miles Área Colhida per Capita - 0.135 - 0.485 - 0.726 -

- 0.4850 200 400 Miles Área Colhida per Capita - 0.135 - 0.293 - 0.726 - 1.501

- 0.726400 Miles Área Colhida per Capita - 0.135 - 0.293 - 0.485 - 1.501 0.005 0.135

- 1.501Área Colhida per Capita - 0.135 - 0.293 - 0.485 - 0.726 0.005 0.135 0.293 0.485

0.005

0.135

0.293

0.485

0.726

N W E
N
W
E

S

O cerne da questão repousa na representatividade desse único mapa. O que garante que

esse mapa é representativo da população de mapas que poderiam ter sido gerado? Perceba que esse é um problema parecido enfrentado também pela econometria de séries de tempo. Quais são os pressupostos necessários para se fazer a fim de poder considerar um único mapa como representativo de toda uma população de mapas? Por essa característica própria do mecanismo estocástico gerador de dados espaciais, isso coloca um problema de como fazer inferência estatística.

A solução encontra-se em considerar que o mecanismo estocástico gerador de dados

opera com uniformidade através do espaço. Como a discussão envolverá, portanto, mecanismos geradores de dados que estão vinculados a processos estocásticos, vale a pena definir esse último conceito.

C urso de E conometria E spacial A plicada Um processo estocástico é uma seqüência

Curso de E conometria E spacial A plicada

Um processo estocástico é uma seqüência de variáveis aleatórias ordenadas de acordo com um critério. É possível definir formalmente processo estocástico espacial da seguinte forma (Cressie, 1993; Anselin, 1988):

{y

i

:

i

D

}

(1.3)

em que y é uma variável de interesse associada à variável-índice i que designa uma unidade espacial, ou seja, uma locação no espaço pertencente a um subconjunto fixo e finito D que, por

sua vez, pertence a

Para contornar esse problema e poder fazer inferência estatística, é preciso impor certas condições de estabilidade aos dados do mapa, restringindo o grau de dependência e heterogeneidade do processo estocástico espacial. Em outros termos, é necessário estabelecer a noção de estacionariedade. A importância disso repousa no fato de que, ao impor essa noção, é possível considerar, no caso em tela, como se houvesse múltiplos mapas com a área colhida per capita para Minas Gerais. Na ausência da estacionariedade, o único mapa (a única realização do processo estocástico espacial) seria considerado uma amostra não representativa da população, tornando inválida a análise confirmatória implementada a posteriori. A noção de estacionariedade permite expressar essas condições de regularidade em termos do primeiro e segundo momentos da distribuição de probabilidades. Ela envolve a imposição das seguintes restrições à variação dos dados extraídos de um processo estocástico espacial.

d

.

a) média constante: E(y i )=µ;

b) variância constante: Var(y i )=σ y

c) covariância: Cov(y i , y j )=σ y 2 c(φ).

2

Convém tecer alguns comentários a respeito da noção de estacionariedade, condensada nos três itens acima. As duas primeiras condições são triviais e semelhantes a que se admite em séries de tempo para se obter estacionariedade.

C urso de E conometria E spacial A plicada O aspecto interessante reside na terceira

Curso de E conometria E spacial A plicada

O aspecto interessante reside na terceira condição, que trata da covariância. A função geral c(φ) refere-se à posição relativa, determinada pela distância entre as unidades espaciais, bem como da sua orientação relativa (angulação). O problema é que, ao se levar em conta a orientação, para uma mesma distância separadora de duas unidades espaciais, a covariância pode assumir vários valores. A solução implica impor a noção de isotropia. Incorporando a isotropia a última condição pode ser reescrita como:

c’) covariância como função apenas da distância relativa de duas regiões Cov(y i , y j )=σ y 2 c(d ij ).

Note que agora, na definição da covariância, aparece a função c(.) que relaciona as distâncias das regiões i e j, respectivamente d ij . Tal noção de estacionariedade implica um processo isotrópico, ou seja, a função c(.) somente depende da distância entre as regiões e não da direção de separação das duas regiões. Para entender melhor esse conceito de isotropia, considere a figura 2 abaixo.

Figura 2: O Conceito da Isotropia

A

C 100 Km B 100 Km D
C
100 Km
B
100 Km
D

Por exemplo, admitindo a propriedade da isotropia, se duas cidades, digamos A e B, estão distantes (d AB ) entre si por 100 quilômetros no Sul na direção leste-oeste e se houver duas cidades, digamos C e D, cuja distância que as separa (d CD ) também é de 100 quilômetros na

C urso de E conometria E spacial A plicada direção norte-sul, a covariância deveria ser

Curso de E conometria E spacial A plicada

direção norte-sul, a covariância deveria ser igual (ver figura 1.2). Nesse caso, o único elemento que importa é a distância entre as unidades espaciais, não sendo importante a orientação relativa. Essa é a propriedade da isotropia. Para processos isotrópicos, a função de covariância depende da distância e não da direção, isto é, a orientação relativa entre as unidades espaciais é irrelevante.

1.7. Problemas Especiais com os Dados Espaciais A inferência a partir de dados espaciais pode ser enganosa e induzir ao erro, se não forem

tomados os cuidados necessários. Para introduzir esses problemas com os dados espaciais, vamos supor que um pesquisador esteja interessado em estimar uma função de produção Cobb- Douglas para o Brasil para diferentes escalas espaciais, a saber, em nível estadual, macrorregional, microrregional ou municipal:

y i = A.K i α .L i (1-α)

(1.3)

em que y é o nível de produção, K é o estoque de capital, L é a quantidade de trabalho, A é o

parâmetro de eficiência e α é a participação do capital na produção. O índice i denota o nível de escala espacial.

É provável que as participações do capital (α) e trabalho (1-α) sejam diferentes para cada nível de escala espacial. Ou seja, se forem usados dados municipais (uma escala) as

participações de α e (1 - α) serão distintas das participações se os dados em nível microrregional (outra escala) e assim por diante. Esse é o problema de escala. Trata-se do problema mais óbvio e que exibe a maior aplicação prática. A denominação do primeiro problema é concernente à escala espacial e refere-se à sensibilidade dos resultados devido a diferentes níveis de escala. Isto é, os resultados modificam à medida que o número de unidades espaciais (escala) se eleva num determinado agrupamento.

C urso de E conometria E spacial A plicada Figura 3: O Problema de Escala

Curso de E conometria E spacial A plicada

Figura 3: O Problema de Escala

n=9 n=36
n=9
n=36

O segundo problema é uma sofisticação do primeiro: mesmo mantendo constante a escala espacial, existem diversas formas de agregá-las em zonas, ou seja, há várias maneiras de fazer combinações das unidades espaciais contíguas. Tais combinações são chamadas de zoneamento. O problema do zoneamento ou agregação refere-se à sensibilidade dos resultados obtidos em função das várias alternativas de combinações, dada uma mesma escala.

Figura 4: O Problema de Agregação (ou Zoneamento)

Esses dois problemas compõem o que é conhecido na literatura como problema da unidade areal (espacial) modificável, doravante denominado MAUP. 3

3 Do inglês, modifiable areal unit problem (MAUP).

C urso de E conometria E spacial A plicada Uma observação deve ser registrada quanto

Curso de E conometria E spacial A plicada

Uma observação deve ser registrada quanto à estranheza do conceito de unidade areal modificável. Ele existe em contraposição a unidades areais não-modificáveis, que seriam “indivisíveis”. Segundo Openshaw, tal unidade areal indivisível, muitas vezes, é arbitrária, em outras, pode ser determinada com base numa teoria subjacente. O que vale destacar é que, na maioria dos casos, tal unidade areal não-modificável não pode ser identificada com precisão. Portanto, o MAUP manifesta-se na situação em que os resultados da análise são sensíveis à forma que os dados espaciais são organizados, sobretudo com relação ao nível da escala espacial e com respeito ao arranjo (configuração) espacial em zonas (combinação de unidades espaciais contíguas).

O problema do MAUP manifesta-se tanto na análise univariada quanto multivariada

(Fotheringham e Wong, 1991). No contexto multivariado, o MAUP cria incerteza sobre a validade dos resultados derivados da análise econométrica. Além disso, o MAUP estreita a possibilidade de replicação de um modelo a uma outra região de estudo, se a agregação e o

zoneamento forem distintos daqueles da aplicação inicial. De acordo com Anselin (1988, pp. 26-27), a metodologia econométrica espacial pode dar

um tratamento apropriado aos problemas do zoneamento e de escala, uma vez que cada um deles corresponde a um dos efeitos espaciais.

O MAUP está relacionado a um problema econométrico da agregação que se refere ao

efeito da heterogeneidade espacial. Suponha agora o contrário que o espaço fosse absolutamente homogêneo. Nesse caso, qualquer combinação (arranjo) de unidades espaciais forneceria os mesmos resultados. Ou seja, a homogeneidade espacial implica as mesmas respostas em

qualquer parte do espaço, logo, sendo válida essa condição, o problema da agregação (ou zoneamento) não afloraria.

Já o problema da escala vincula-se ao efeito da dependência espacial. Como vimos

acima, uma das fontes da dependência são os erros de medida relacionados à escala. Além disso, esse ramo da econometria enfrenta um grave problema de identificação da estrutura da dependência espacial. Nesse último, assoma a importância da matriz W. Segundo Openshaw e Taylor (1979), o problema de escala (ou seja, a variação da correlação de unidades espaciais espacialmente agrupadas) está relacionado com a

C urso de E conometria E spacial A plicada autocorrelação espacial. Por i sso, o

Curso de E conometria E spacial A plicada

autocorrelação espacial. Por isso, o efeito de escala não aparece em dados espacialmente aleatórios.

1.8. Organização dos Capítulos

Além deste capítulo de cunho introdutório, esta apostila está assim organizada. No próximo capítulo, é apresentada a matriz de pesos espaciais que fornece um arranjo espacial definido para que a interação dos agentes ocorra. No terceito capítulo, a análise exploratória de dados espaciais (AEDE) é desenvolvida com o intuito de começar a contornar o problema do imbricamento da dependência com a heterogeneidade espacial na etapa de identificação dos modelos. O quarto capítulo discorre sobre a tipologia de modelos econométricos que levam em consideração a autocorrelação espacial. O quinto capítulo trata da estimação da autocorrelação espacial na modelagem econométrica. O sexto capítulo apresenta um conjunto de testes tanto para a identificação quanto para o diagnóstico dos modelos. No sétimo capítulo, são expostos e discutidos os modelos que incorporam o outro efeito espacial, a saber, a hetorogeneidade espacial. No oitavo e último capítulo, desenvolve-se uma aplicação à agricultura.

C urso de E conometria E spacial A plicada CAPÍTULO 2 MATRIZES DE PESOS ESPACIAIS

Curso de E conometria E spacial A plicada

CAPÍTULO 2

MATRIZES DE PESOS ESPACIAIS

2.1. Introdução

Vimos no primeiro capítulo que a dependência ou a autocorrelação espacial significa que

o valor de uma variável de interesse numa certa região i depende do valor dessa variável nas

regiões vizinhas j. Isso pode ser expresso pela seguinte equação, medindo a covariãncia dessas

variáveis em regiões distintas:

(

Cov y

i

,

y

j

) =

E

(

y y

i

j

)

E

(

y

i

)

E

(

y

j

) 0

i = 1,K, n

e

i

j

(2.1)

Como a covariância de (2.1) é diferente de zero, existe uma dependência que se dá no

espaço. Representar a dependência espacial dessa forma é correto, porém, não se mostra

operacionalizável na prática.

Considerando que existam n regiões em nossa análise, haverá n*(n-1)/2 interações entre

essas regiões. Esse é um número grande de interações para que o pesquisador possa levar em

conta, pois são muitos parâmetros a serem estimados (um para cada interação). Por exemplo,

usando uma cross-section com os municípios brasileiros, posto que o seu tamanho da amostra

será de aproximadamente n=5.500, haverá 15.122.250 interações!

Assim, para resolver esse problema, é preciso impor um arranjo para a ocorrência das

interações espaciais entre as regiões a fim de se tornar operacionalizável e implementável na

prática. Havendo tal arranjo, o objetivo é reduzir a quantidade de parâmetros a serem estimados.

Na verdade, o que se deseja é ter de estimar um parâmetro que dê a idéia do grau de interação.

Com tal intuito, especifica-se uma matriz de pesos espaciais que procura condensar um

determinado arranjo espacial das interações resultantes do fenômeno a ser estudado. Note que a

determinação de tal arranjo não precisa seguir uma abordagem apenas geográfica, podendo ser

determinada segundo uma abordagem sócio-econômica. Vamos ver mais detalhadamente abaixo

como se constrói tal matriz.

C urso de E conometria E spacial A plicada O conceito de matriz de pesos

Curso de E conometria E spacial A plicada

O conceito de matriz de pesos espaciais é baseado na contiguidade, que, por sua vez,

pode ser definida de acordo com a vizinhança, a distância tanto geográfica quanto sócio- econômica, bem como uma combinação disso. 1 Vários resultados em econometria espacial são sensíveis à escolha da matriz de pesos espaciais. Portanto, a discussão a respeito da tipologia das matrizes é uma questão importante e

espinhosa na literatura.

2.2. Tipologia de Matrizes

2.2.1. Binária

A matriz binária de pesos espaciais pode ser construída segundo a idéia da contiguidade,

cuja definição é que duas regiões são vizinhas, caso elas partilhem de uma fronteira física comum. Com base nesse conceito de contiguidade, é atribuído um valor unitário na matriz a duas regiões vizinhas; caso contrário, atribue-se um valor nulo. Talvez a forma mais simples para definir uma matriz de pesos espaciais seja uma matriz binária de vizinhança: se duas regiões são vizinhas, ou seja, partilham de uma fronteira, atribue- se o valor unitário; caso contrário, atribue-se o valor nulo. Formalmente:

caso contrário, at ribue-se o valor nulo. Formalmente: 1 se i e j são contíguos 0

1 se i e j são contíguos

0 se i e j não são contíguos

w ij =

(2.2)

Por convenção, w ii =0, ou seja, nenhuma região i pode ser vizinha dela mesma. Por que convencionalmente os termos da diagonal principal da matriz W são nulos? Em resposta a isso, alude-se à facilidade computacional: uma vez que se calcula freqüentemente o traço da matriz de pesos espaciais, e como o traço é definido como a somatória dos elementos da diagonal principal da matriz, se esses forem nulos, o traço assumirá, conseqüentemente, o valor nulo também, facilitando uma série de contas.

1 Em vista disso, matriz de pesos espaciais e matriz de contiguidade são sinônimos.

C urso de E conometria E spacial A plicada Apesar da aparente simplicidade desse concei

Curso de E conometria E spacial A plicada

Apesar da aparente simplicidade desse conceito, escondem-se várias possibilidades para definir vizinhança, conforme distintas convenções de contiguidade. O problema reside em como se define o conceito de fronteira geográfica por intermédio da observação de um mapa. O mapa é uma mera representação abstrata da real configuração geográfica. Por isso, contém erros de medida. Levando em conta esses erros de medida, e em alusão ao movimento de peças num tabuleiro de xadrez, a convenção de contiguidade é dita ser rainha (queen), caso, além das fronteiras com extensão diferente de zero, puderem ser considerados os vértices (nós), na visualização de um mapa, como contíguos. Caso apenas as fronteiras físicas com extensão diferente de zero entre as regiões sejam levadas em conta, a convenção de contiguidade é considerada como torre (rook). 2 Essas duas convenções são as mais utilizadas na literatura. As diferentes convenções para a matriz binária de pesos espaciais são mostradas na figura 2.1 abaixo.

Figura 2.1: Convenção “Rainha” de Contiguidade

A
A

2 Na situação em que apenas os vértices são considerados como vizinhos, a convenção é chamada de bispo (bishop).

C urso de E conometria E spacial A plicada Figura 2.2: Convenção “Torre” de Contiguidade

Curso de E conometria E spacial A plicada

Figura 2.2: Convenção “Torre” de Contiguidade

B
B

A tabela abaixo mostra a matriz binária de pesos espaciais do Brasil segundo a convenção

rainha:

Tabela 2.1: Matriz Binária de Pesos Espaciais para as Regiões Brasileiras (Convenção

 

Rainha)

 
 

N

NE

CO

SE

S

N

01100

NE

10110

CO

11010

SE

01101

S

00010

A desvantagem da matriz binária de pesos espaciais reside no fato de que não é garantida

uma conectividade balanceada, uma vez que haja regiões com grande área com muitos vizinhos,

ao passo que existirão regiões com pouca área e com poucos vizinhos.

Para superar esse problema, adota-se a matriz dos k vizinhos mais próximos. Trata-se de

uma matriz binária de contiguidade cuja convenção de vizinhança é baseada na distância

geográfica. Formalmente:

1 se d ij w ij = 0 se d
1
se d
ij
w ij =
0
se d

ij

Curso de E conometria E spacial A plicada

d

> d

em que d é um valor de distância crítico.

(2.3)

A vantagem dessa convenção é combater o desbalanceamento da conectividade de uma

matriz, pois todas as unidades espaciais terão o mesmo número de vizinhos cada uma.

Uma vantagem comum a todas matrizes de pesos espaciais do tipo binário é a possibilidade de definir vizinhanças de ordens superiores. Uma matriz de vizinhança de primeira ordem é composta dos vizinhos das unidades espaciais. Uma matriz de vizinhança de segunda ordem é composta dos vizinhos dos vizinhos das unidades espaciais (os vizinhos de segunda ordem) e assim por diante. Para entender o conceito de vizinho de segunda ordem, considere a matriz binária de pesos espaciais conforme a convenção rainha dos estados do Brasil. Os vizinhos de primeira ordem do estado de São Paulo são Minas Gerais, Rio de Janeiro, Paraná e Mato Grosso do Sul. Os vizinhos de segunda ordem do estado de São Paulo são Santa Catarina (vizinho do Paraná), Bahia (vizinho de Minas Gerais), Espírito Santo (vizinho do Rio de Janeiro e Minas Gerais) e Goiás (vizinho de Minas Gerais).

A importância de se definir matrizes de pesos espaciais de ordens superiores repousa em

capturar processos espaciais que apresentam interações que se amortecem com o seu alastramento. Outro conceito de suma importância é a matriz de pesos espaciais padronizada pela linha. A padronização da matriz de pesos espaciais pode ser formulada em termos formais como:

s

ij

w

=

w ij

j

w

ij

(2.4)

∑ j s ij w = 1 C urso de E conometria E spacial A

j

s

ij

w

=

1

Curso de E conometria E spacial A plicada

(2.5)

A padronização da matriz de pesos espaciais torna a matriz assimétrica, porém, sua

relevância reside basicamente dar a interpretação de média dos valores da variável nos vizinhos

para a defasagem espacial. A interpretação de média dos valores vizinhos é a chave para se

definir posteriormente o conceito de defasagem espacial tanto para a variável de interesse (y i )

quanto para as variáveis explicativas (X) e o termo de erro (u).

Tabela 2.2.: Matriz Binária Padronizada de Pesos Espaciais para as Regiões Brasileiras

 

N

NE

CO

SE

S

N

0,000

0,500

0,500

0,000

0,000

NE

0,333

0,000

0,333

0,333

0,000

CO

0,333

0,333

0,000

0,333

0,000

SE

0,000

0,333

0,333

0,000

0,333

S

0,000

0,000

0,000

1,000

0,000

2.2.2. Distância Inversa

Um outro tipo de matriz geográfica é aquela baseada na distância inversa. A idéia

intuitiva que se encontra por trás pode ser estabelecida como o seguinte: quanto mais distante

duas regiões estiverem, menor será a interação entre elas. Genérica e formalmente:

w

ij

= f

(

d

ij

)

(2.6)

Os pesos espaciais são uma função da distância entre as regiões i e j. Vale destacar que a

função f pode assumir várias especificações, tais como:

C urso de E conometria E spacial A plicada a) função de distância inversa: w

Curso de E conometria E spacial A plicada

a) função de distância inversa:

w

ij

=

d

ij

b

b) função de distância exponencial:

w =

ij

exp(

bd

ij

)

c) função distância linear:

w

ij

= −bd

ij

(2.7)

(2.8)

(2.9)

Um problema com esse tipo de matriz é que o parâmetro b é, muitas vezes, determinado arbitrariamente. Todavia, o principal problema com a convenção da distância surge quando d ij aproxima-se de zero, w ij torna-se muito grande, aproximando-se do infinito. Uma alternativa é estimá-los junto do modelo. Todavia, isso impõe uma dificuldade representada pelo problema de identificação quando os pesos são não-lineares como na função de distância inversa e na distância exponencial. Como na especificação dos modelos os parâmetros espaciais multiplicam os pesos, os parâmetros podem não ser identificados separadamente, pois a sua interação é multiplicativa.

2.2.3. Matriz de Pesos Espaciais Gerais de Cliff e Ord

Intuitivamente, é razoável supor que regiões que compartilham maior extensão de fronteira entre si tenham uma interação maior. Do mesmo modo, quanto mais próximas duas regiões se encontram, maior a interação entre si. Essas duas forças geográficas indutoras de interação estão condensadas na matriz de pesos espaciais gerais de Cliff e Ord (1981).

C urso de E conometria E spacial A plicada Os pesos espaciais gerais ou pesos

Curso de E conometria E spacial A plicada

Os pesos espaciais gerais ou pesos Cliff-Ord consistem no comprimento relativo da fronteira comum, ajustado pela distância inversa entre as duas observações. Formalmente, os pesos Cliff-Ord podem ser expressos como:

w

ij

=

β

b ij

α

d ij

(2.10)

em que b ij é a parcela da fronteira comum entre as observações i e j no perímetro de i, e α e β são parâmetros. Convém notar que b ij não é necessariamente igual a b ji , como pode ser observado na figura abaixo:

Figura 2.3: Representação dos Pesos Espaciais Gerais

R

b

S

Claramente, temos que b RS < b SR . Isto é, a proporção da fronteira comum entre as unidades espaciais A e B com relação ao perímetro de A (b RS ) é menor que a proporção dessa fronteira comum no perímetro de B (b SR ). Isso obviamente acarreta que a matriz W com os pesos Cliff-Ord não é simétrica. Se não forem vizinhos, tem-se que b ij =0 e, portanto, w ij =0. Uma desvantagem dessa matriz é que é necessário obter valores para dois parâmetros a e b, e não apenas um. Ademais, os valores desses parâmetros são, freqüentemente, determinados arbitrariamente. Se forem estimados, o problema da identificação, discutido acima, retorna.

C urso de E conometria E spacial A plicada 2.2.4. Matriz de Distância Sócio-Econômica Nesse

Curso de E conometria E spacial A plicada

2.2.4. Matriz de Distância Sócio-Econômica Nesse outro tipo de matriz, os pesos espaciais são definidos conforme a interação baseada

na distância sócio-econômica. Formalmente:

w ij

=

1

y − y i j
y
y
i
j

(2.11)

Usa-se o módulo da diferença a fim de garantir que os pesos não sejam negativos. Podem-se citar alguns exemplos de interação espacial baseada na distância sócio- econômica, tais como a renda per capita, taxa de desemprego, a proporção de pobres, a proporção de brancos na população. Apesar do grande apelo de se considerar como medida da força da interação algum critério que não seja a distância geográfica, é preciso ter pleno conhecimento dos problemas que podem surgir desta abordagem. Em primeiro lugar, é importante evitar o problema da endogeneidade, isto é, a situação em que a mesma variável que define a distância sócio-econômica na matriz de pesos espaciais seja inserida no modelo econométrico. Anselin destaca o problema com a endogeneidade, sobretudo com a distância sócio-econômica, que ocorre quando o pesquisador põe na definição da distância a mesma variável que está sendo introduzida no modelo da regressão. É preciso garantir que a matriz de pesos espaciais seja exógena. Outro problema é a distância zero, quando y i = y j . Por exemplo, se o critério de distância for a proporção de pobres, pode ocorrer que tanto a região i quanto a região j tenha a mesma proporção de pobres. Logo, nesta casela, temos 1/0, que não é definido matematicamente.

2.3. Propriedades das Matrizes de Pesos Espaciais

Qualquer matriz de pesos espaciais precisa atender às condições de regularidade impostas pela necessidade de invocar as propriedades assintóticas dos estimadores e dos testes. Segundo Anselin (1997, p. 244), “isso significa que os pesos precisam ser não-negativos e finitos e que

correspondam a uma determinada métrica”.

C urso de E conometria E spacial A plicada Por exemplo, os trabalhos pioneiros de

Curso de E conometria E spacial A plicada

Por exemplo, os trabalhos pioneiros de Moran e Geary na elaboração de estatísticas de dependência espacial baseavam-se em matrizes binárias de vizinhança que, além de exibirem as propriedades acima, são simétricas. Um outro aspecto a se considerar durante a construção de uma matriz de pesos espaciais

é a respeito do problema das “ilhas”. Nesse caso, “ilhas” são as regiões que ficam isoladas, ou

seja, que não são contíguas a nenhuma outra. Na matriz, essa situação é representada por alguma linha que contenha apenas zeros. Isso é mais freqüente ocorrer com matrizes binárias de

vizinhança de acordo com as convenções rainha e torre. A conseqüência da existência de ilhas na base de dados é a perda de graus de liberdade, pois essas regiões isoladas (“ilhas”) são eliminadas na estimação e no teste de modelos econométricos espaciais.

2.4. Que matriz de pesos espaciais usar?

A sugestão da escolha da matriz a ser usada deve vir, em primeiro lugar, das características do fenômeno em estudo. Segundo a matriz precisa atender às propriedades apresentadas na seção anterior. Mesmo assim, é possível que o pesquisador fica na dúvida entre duas ou mais matrizes espaciais. Nesse sentido, a seguir é apresentado um procedimento simples para auxiliar na

definição da matriz de pesos espaciais baseado no valor da função de máxima verossimilhança.

O procedimento compreende quatro passos simples:

1 o passo: mesma especificação do modelo; 2 o passo: usar um conjunto de matrizes de pesos espaciais; 3 o passo: estimar as regressões; 4 o passo: selecionar a matriz de pesos espaciais que participou da regressão com o mais alto valor da função de máxima verossimilhança.

C urso de E conometria E spacial A plicada De qualquer modo, às vezes, é

Curso de E conometria E spacial A plicada

De qualquer modo, às vezes, é útil estimar os modelos econométricos usando mais de uma

matriz de pesos espaciais e comparar os resultados, a fim de detectar discrepâncias significativas

nos resultados.

2.5. Defasagem Espacial

No tocante ao operador de defasagem espacial, é valido traçar uma comparação com o

conceito de defasagem temporal, encontrado na literatura de séries de tempo. Autocorrelação em

séries de tempo significa correlação entre o valor de uma variável no período t e o período t-h,

em que h é a defasagem temporal. Por exemplo, em séries de tempo, se y 2003 é o PIB em 2003,

B 2 y 2003 é o PIB dois períodos para trás, ou seja, o PIB em 2001.

No domínio do espaço, o significado do operador de defasagem é muito diferente. Isso

acontece porque não se tem uma clara definição, sem incorrer em ambiguidades, do operador de

defasagem espacial que desloca h regiões no espaço a variável de interesse na análise (digamos,

y). Na verdade, o significado do operador de defasagem espacial de uma variável y, formalmente

Wy, é a média do valor dessa variável nas regiões vizinhas. Para ver isso, vamos computar a

defasagem espacial do PIB macro-regional (Wy).

0,000

0,333

0,333

0,000

0,000

0,500

0,000

0,333

0,333

0,000

0,500

0,333

0,000

0,333

0,000

0,000

0,333

0,333

0,000

1,000

0,000   50,6

0,333  

0,000

0,000

636,4

0,000

144,1

76,5

193,5

=

110,3

277,0

138,0

254,5

636,4

(2.12)

A primeira matriz diz respeito à matriz padronizada de pesos espaciais W da tabela 2.2. O

vetor refere-se ao PIB das regiões Norte, Nordeste, Centro-Oeste, Sudeste e Sul. O último vetor

apresenta a defasagem espacial do PIB macrorregional, isto é, o PIB médio das regiões vizinhas.

A utilidade desse conceito para definir defasagens tanto na variável dependente (Wy),

quanto na variável independente (WX) e defasagem no termo de erro (Wu). A interpretação

sempre continua sendo a média nos vizinhos.

C urso de E conometria E spacial A plicada O conceito de operador de defasagem

Curso de E conometria E spacial A plicada

O conceito de operador de defasagem espacial não é tão simples e direto como o operador de defasagem em séries de tempo devido à natureza bidirecional do processo de interação no espaço.

2.6. Conclusões

A necessidade de se construir uma matriz de pesos espaciais surge a fim de pôr uma

configuração na interação espacial. Existem vários tipos de matrizes baseadas na contiguidade geográfica, tais como as matrizes binárias de vizinhança nas convenções rainha, torre e k vizinhos mais próximos ou nas matrizes de distância inversa. As matrizes de pesos espaciais também podem ser construídas com base no conceito de

contiguidade sócio-econômica. Com relação a esse tipo de matriz, é preciso cuidado a respeito do problema de endogeneidade e da “distância zero”.

A escolha da matriz mais adequada deve respeitar certas propriedades desejáveis e certas

particularidades do estudo em questão. Um procedimento simples apresentado neste capítulo pode auxiliar na seleção da matriz mais apropriada.

C urso de E conometria E spacial A plicada CAPÍTULO 3 ANÁLISE EXPLORATÓRIA DE DADOS

Curso de E conometria E spacial A plicada

CAPÍTULO 3 ANÁLISE EXPLORATÓRIA DE DADOS ESPACIAIS

3.1. Introdução Como já vimos no primeiro capítulo, a interação no espaço tem uma natureza bidimensional, gerando efeitos espaciais que violam o vital pressuposto de que os erros são esféricos. Além do mais, desde que a heterocedasticidade é resistente a vários procedimentos para corrigi-la, é muito provável que as suas fontes venham da intricada relação com a dependência espacial. Conforme destacado por Anselin e Bera (1998), em processos espaciais, existe um imbricamento entre esses dois efeitos: heterogeneidade gera dependência espacial e, por sua vez, dependência espacial pode também induzir heterogeneidade. Essas características provocam sérias dificuldades para identificar modelos econométricos espaciais de forma apropriada. Em conseqüência, o trabalho de identificação pode consumir muito tempo, transformando-se em tedioso, ou pior ainda, pode conduzir a modelos inadequados. Em vista disso, uma análise exploratória de dados espaciais (AEDE) pode auxiliar a superar tal problema de identificação, provendo claras dicas e indicações sobre a existência de padrões de associação espacial – tanto em âmbito global quanto local – ou sobre a presença de clusters nos dados, ou, ainda, sobre a influência de observações discrepantes (outliers). Assim, fazer uma análise exploratória precede uma boa modelagem econométrica espacial. A AEDE é uma coleção de técnicas para a análise estatística de informação geográfica, com o intuito de descobrir padrões espaciais nos dados e para sugerir hipóteses, mas impondo a menor estrutura possível. A AEDE procura descrever distribuições espaciais, identificar observações discrepantes no espaço, descobrir padrões de associação espacial e sugerir clusters espaciais. Assim, o objetivo primordial é deixar os dados espaciais falarem por eles próprios. Um ponto a se destacar é que essa análise é mais apropriada para investigar variáveis espacialmente densas ou intensivas – variáveis que são divididas por algum indicador de intensidade. Encontram-se na literatura diversas maneiras de definir um indicador de intensidade. As formas mais comuns seriam variáveis per capita, ou por área, ou variáveis divididas pela

C urso de E conometria E spacial A plicada quantidade de trabalho ou de capital.

Curso de E conometria E spacial A plicada

quantidade de trabalho ou de capital. É possível achar ainda variáveis divididas por uma combinação linear de população, área, trabalho e capital (Preud’homme, 1996). A sua importância reside no fato de que essas variáveis estariam levando em conta externalidade relevantes na consideração do fenômeno em análise, tais como efeitos de aglomeração, efeitos de vizinhança e/ou congestão. O uso de AEDE para variáveis extensivas pode levar a resultados enganosos.

3.2. Associação Espacial Global Univariada

O primeiro passo num estudo de AEDE é testar a hipótese de que os dados espaciais são distribuídos aleatoriamente. Intuitivamente, aleatoriedade espacial significa que os valores de um atributo numa região não dependem dos valores desse atributo nas regiões vizinhas.

Mapa 3.1: Distribuição da Área Colhida per Capita em Minas Gerais

200 0 200 400 Miles
200
0
200
400
Miles
Colhida per Capita em Minas Gerais 200 0 200 400 Miles Área Colhida per Capita -
Colhida per Capita em Minas Gerais 200 0 200 400 Miles Área Colhida per Capita -
Colhida per Capita em Minas Gerais 200 0 200 400 Miles Área Colhida per Capita -
Colhida per Capita em Minas Gerais 200 0 200 400 Miles Área Colhida per Capita -

Área Colhida per Capita

- 0.135Gerais 200 0 200 400 Miles Área Colhida per Capita - 0.293 - 0.485 - 0.726

- 0.293200 0 200 400 Miles Área Colhida per Capita - 0.135 - 0.485 - 0.726 -

- 0.4850 200 400 Miles Área Colhida per Capita - 0.135 - 0.293 - 0.726 - 1.501

- 0.726400 Miles Área Colhida per Capita - 0.135 - 0.293 - 0.485 - 1.501 0.005 0.135

- 1.501Área Colhida per Capita - 0.135 - 0.293 - 0.485 - 0.726 0.005 0.135 0.293 0.485

0.005

0.135

0.293

0.485

0.726

N W E
N
W
E

S

C urso de E conometria E spacial A plicada Observando o mapa 3.1 acima, um

Curso de E conometria E spacial A plicada

Observando o mapa 3.1 acima, um pesquisador poderia estar tentado em tirar conclusões

sobre a existência de padrões de associação no espaço com base apenas na visualização. Cabe

alertar que o olho humano é treinado para buscar padrões e estruturas em todos os aspectos da

realidade. Portanto, o olho acaba sendo um instrumento “viesado” e, por isso, talvez não seja um

bom conselheiro nessas horas de se extrair informação dos dados espaciais. Para isso, é

necessário usar alguma estatística que meça a associação espacial de forma global.

Existe um conjunto de estatísticas na literatura que averiguam por meio de testes formais

a presença de autocorrelação espacial, ou seja, a existência de coincidência de similaridade de

valores de um atributo com a similaridade de localização desse atributo. Como se trata de

estatísticas de teste, essas medidas apresentam como hipótese nula a aleatoriedade espacial, ou

seja, os valores observados da variável de interesse (atributo) y não dependem da sua localização.

Em outros termos, y parece que é distribuída aleatoriamente ao longo do espaço.

3.2.1. Estatística I de Moran

O coeficiente de correlação espacial I de Moran foi proposto pioneiramente em 1948.

Formalmente, essa estatística é dada por: n ∑∑ w ( y − y )( y
Formalmente, essa estatística é dada por:
n ∑∑
w
(
y
y
)(
y
y
)
ij
i
j
I
=
2
∑∑
(
y
− y
)
w ij
i

(3.1)

em que n é o número de unidades espaciais, y i é a variável de interesse, w ij é o peso espacial para

o par de unidades espaciais i e j , medindo o grau de interação entre elas.

A estatística de I de Moran é um coeficiente de associação linear do tipo produto cruzado,

padronizado por dois termos (Odland, 1988, p. 10). O primeiro termo refere-se à variância dos

dados de interesse [Σ(y i - y ) 2 ], ao passo que o segundo fornece a idéia da configuração espacial

dos dados n/ΣΣw ij . Note ainda que somatória dupla significa que todos os elementos da matriz de

pesos espaciais W devem ser somados, denotando a densidade dessa matriz. Assim, a estatística I

de Moran é baseada nas somas de produtos cruzados de y i para regiões vizinhas, segundo um

critério de vizinhança dado pela matriz de pesos espaciais W.

C urso de E conometria E spacial A plicada A estatística I de Moran tem

Curso de E conometria E spacial A plicada

A estatística I de Moran tem um valor esperado de –[1/(n-1)], isto é, o valor que seria obtido se não houvesse padrão espacial nos dados. O valor calculado de I deveria ser igual a seu valor esperado, dentro dos limites da significância estatística, se y i é independente dos valores de y i nas regiões vizinhas. Valores de I que excedem –[1/(n-1)] indicam autocorrelação espacial positiva. Valores de I abaixo do valor esperado sinalizam uma autocorrelação negativa. Note que, ao contrário de um coeficiente de correlação ordinário, essa estatística não é centrada em zero. À medida que o número de regiões aumenta, o valor esperado da estatística I de Moran aproxima-se de zero. Como um coeficiente de correlação ordinário, tal estatística varia entre –1 e +1. Dessa forma, a estatística I assemelha-se a um coeficiente de correlação, porém, não é idêntico a ele. Uma vez que se trata de uma estatística de correlação linear do tipo produto cruzado, há a necessidade de se ter cuidado na sua interpretação. Uma indicação de autocorrelação espacial positiva revela que há uma similaridade entre os valores do atributo estudado (por exemplo, área colhida per capita) e da localização espacial do atributo (por exemplo, microrregião). Ou seja, a autocorrelação espacial positiva indica que, no geral, alta área colhida per capita de uma microrregião tende a ser rodeada por área colhida per capita também alta das microrregiões vizinhas e/ou uma pequena área colhida per capita de uma microrregião tende a ser rodeada por área colhida per capita também baixa das microrregiões vizinhas. Uma indicação de autocorrelação espacial negativa revela, por sua vez, que existe uma dissimilaridade entre os valores do atributo estudado e da localização espacial do atributo. A autocorrelação espacial negativa indica que, por exemplo, no geral, uma elevada área colhida per capita de uma microrregião tende a ser rodeada por pequena área colhida per capita das microrregiões vizinhas e/ou uma baixa área colhida per capita de uma microrregião tende a ser rodeada por alta área colhida per capita das microrregiões vizinhas. O caso extremo de autocorrelação negativa igual à unidade (I = -1) pode ser representado por uma configuração de tabuleiro de xadrez. Existem duas estratégias de verificar a significância estatística deste teste por intermédio da computação do desvio padrão de I. O pressuposto da normalidade assume que a variável

C urso de E conometria E spacial A plicada padronizada, z ( I ), tem

Curso de E conometria E spacial A plicada

padronizada, z(I), tem uma distribuição amostral que segue uma distribuição normal com média 0 e variância unitária. Uma segunda interpretação, conhecida como o pressuposto da aleatorização, assume que o mecanismo estocástico gerador dos dados é aleatório e o padrão dos dados observados é simplesmente um de muitas possíveis realocações das n observações em n locações. A inferência com base no pressuposto da aleatorização envolve as seguintes etapas. Primeiramente, os valores observados para uma variável são aleatoriamente realocados (embaralhados) para as diversas regiões. Em segundo lugar, a estatística do teste é calculada para uma dessas realocações (embaralhamentos). Conseqüentemente, obtém-se uma distribuição de referência empírica a partir dos cálculos da estatística para as realocações. Finalmente, é possível comparar a estatística do teste computada com os dados observados com a distribuição de referência empírica e verificar se está dentro ou fora de uma região crítica especificada pelo pesquisador. A distribuição de I é assintoticamente normal sob qualquer dos pressupostos acima citados (Fortheringham et al., 2000; Levine, 1999). À guisa de exemplo, vamos calcular a estatística I de Moran para a área colhida per capita em Minas Gerais. De posse das evidências estatísticas exibidas pela tabela 1, é possível rejeitar a hipótese de ausência de autocorrelação espacial num nível de significância de 0,001%. Esses resultados são invariantes com respeito à convenção de contiguidade usada na construção das matrizes de pesos espaciais (rainha ou torre). Além disso, como o valor computado (0,36) é maior que o valor esperado (-0,015) a estatística I fornece clara indicação de que a área colhida per capita é autocorrelacionada no espaço através das microrregiões mineiras. Pelo valor computado de I, há evidências de autocorrelação espacial positiva, ou seja, microrregiões com área colhida per capita acima da média são também adjacentes a microrregiões com elevada área colhida per capita; ou microrregiões com área colhida per capita abaixo da média são vizinhas de microrregiões com reduzida área colhida per capita.

C urso de E conometria E spacial A plicada Tabela 3.1 : Estatística I de

Curso de E conometria E spacial A plicada

Tabela 3.1: Estatística I de Moran para Área Colhida per Capita em Minas Gerais

Normalidade

Aleatorização

Permutação

Convenção

I

Probabilidade

I

Probabilidade

I

Probabilidade

Rainha

0,359

0,000

0,359

0,000

0,359

0,001

Torre

0,361

0,000

0,361

0,000

0,361

0,001

Nota: a pseudo-significância empírica baseada em 999 permutações aleatórias.

Por fim, a fórmula de cálculo da estatística I de Moran para autocorrelação espacial é

semelhante à formula da estatística de Durbin-Watson para detectar autocorrelação temporal. 1

Conseqüentemente, conclui-se que a estatística I é uma medida para capturar principalmente a

autocorrelação espacial de primeira ordem.

3.2.2. Estatística c de Geary

Uma outra medida global de autocorrelação espacial foi proposta por Geary em 1954. É

construída conforme uma diferente medida de covariância, a saber, a soma de diferenças ao

quadrado entre pares dos valores do atributo em estudo. Mais uma vez, o pressuposto subjacente

é a aleatoriedade espacial, isto é, a ausência de dependência espacial nos dados. A fórmula dessa

estatística é dada por:

c =

n

1

∑∑

w

ij

(

y

i

y

j

)

2

2

∑∑

ij

w

(

y

i

y

)

2

(3.2)

Note que também tal medida assume uma forma de qualquer coeficiente de

autocorrelação: o numerador é uma medida de covariância entre y i , ao passo que o denominador

é uma medida de variância.

Posto que essa estatística assume uma medida diferente de covariância, a sua

interpretação é muito distinta do coeficiente I de Moran. O valor de c de Geary situa-se entre 0 e

2, ao passo que o seu valor esperado (teórico) é 1. Valores menores que o seu valor esperado de

1 Para ver formalmente essa semelhança entre as duas fórmulas, consulte Anselin (1988) e Anselin e Bera (1998).

C urso de E conometria E spacial A plicada 1 (i.e., entre 0 e 1)

Curso de E conometria E spacial A plicada

1 (i.e., entre 0 e 1) indicam autocorrelação espacial positiva, enquanto que valores maiores que 1 (i.e., entre 1 e 2) indicam autocorrelação espacial negativa. Calculamos a estatística c para a variável área colhida per capita para as microrregiões de Minas Gerais. A tabela 3.2 apresenta os resultados.

À medida que n eleva-se, a estatística c é distribuída assintoticamente de acordo com uma

normal. Analogamente à medida de I de Moran, a significância estatística do c de Geary pode ser avaliada conforme os pressupostos da normalidade, aleatorização e permutação, já explicados

acima.

Tabela 3.2: Estatística c de Geary para Área Colhida per Capita em Minas Gerais

Normal

Aleatorização

Permutação

Convenção

c

Probabilidade

c

Probabilidade

c

Probabilidade

Rainha

0,566

0,000

0,566

0,000

0,566

0,001

Torre

0,569

0,000

0,569

0,000

0,569

0,001

Nota: a pseudo-significância empírica é baseada em 999 permutações aleatórias.

O valor de c de Geary para área colhida per capita é 0,57, altamente significante do ponto

de vista estatístico, tanto pela convenção rainha quanto torre. Como a estatística c é menor que o

valor esperado de 1, isso sugere evidências de que a área colhida per capita esteja positivamente

autocorrelacionada no espaço. Esse resultado reforça a evidência de autocorrelação espacial encontrada por meio da estatística I de Moran.

3.3. Associação Espacial Global Multivariada Poderíamos estar interessados em saber se a área colhida per capita numa microrregião

mineira está associada à disponibilidade de infraestrutura rodoviária nas microrregiões vizinhas.

A existência de boas estradas pode facilitar o envio de insumos e as possibilidades de

escoamento da produção, incentivando, assim, o crescimento da área colhida per capita. Na verdade, estamos interessados na verificação da existência de um padrão de associação espacial global entre duas variáveis. Para fazer isso, precisamos avançar a análise para incluir a associação espacial global multivariada.

Curso de E conometria E spacial A plicada urso de E conometria E spacial A plicada

multivariado

(Anselin et al. 2003). A idéia intuitiva é descobrir se os valores de uma variável observada numa

dada região guarda uma relação sistemática com os valores de uma outra variável observada em regiões vizinhas. Em termos formais, é possível calcular-se a estatística I de Moran para duas variáveis diferentes:

A autocorrelação

espacial

global

pode

ser

averiguada

num

contexto

I

kl

=

z

'

k

Wz

l

z

'

k

z

k

(3.3)

Como z k e z l são variáveis padronizadas, 2 a soma dos quadrados tanto de z k quanto de z l iguala-se a n:

I

kl

=

z

'

k

Wz

l

n

(3.4)

Essa medida identifica o grau de associação sistemática de uma variável padronizada z k com uma outra (diferente) variável padronizada vizinha z l . Essa estatística tem dois componentes distintos. Como se trata da versão multivariada da estatística I de Moran, o numerador refere-se a uma medida de associação linear do tipo produto- cruzado. O denominador diz respeito a um reescalonamento por dividir tal medida pela soma dos quadrados da primeira variável, que se iguala ao tamanho da amostra n.

A interpretação intuitiva para o I de Moran multivariado positivo é a seguinte: as

microrregiões que apresentam uma área colhida per capita alta tendem a estar rodeadas por microrregiões vizinhas com elevada densidade de infraestrutura rodoviária, bem como microrregiões com pequena área colhida per capita são circunvizinhas de microrregiões com baixa densidade rodoviária. Analogamente, um I multivariado negativo significa que microrregiões com elevada área colhida per capita são circundadas por microrregiões com baixa

2 Logo, temos que:

z

k

= (y

k

y) /σ

k

.

C urso de E conometria E spacial A plicada densidade rodoviária, ao passo que microrregiõe

Curso de E conometria E spacial A plicada

densidade rodoviária, ao passo que microrregiões com reduzida área colhida são vizinhas de microrregiões com boa infraestrutura de estradas. Vamos exemplificar I de Moran multivariado, usando as variáveis densidade rodoviária pavimentada (z k ) e área colhida per capita (z l ) em Minas Gerais em nível microrregional. Veremos se existe relação entre a densidade rodoviária pavimentada e a área colhida per capita taxa de crime nas microrregiões vizinhas. 3 A tabela exibe os resultados do cálculo da estatística.

Tabela 3.3: Estatística I Multivariada para Densidade Rodoviária e Área Colhida per Capita

Estatística I

E(I)

Desvio-padrão

Probabilidade

0,1804

-0,0154

0,0607

0,008

Os resultados da inferência indicam que existe uma pequena associação linear espacial

positiva (0,18) entre a densidade rodoviária pavimentada e a área colhida per capita em nível

microrregional, porém altamente significante do ponto de vista estatístico.

3.4. Associação Espacial Local Univariada

A indicação de padrões globais de associação espacial pode estar também em

consonância com padrões locais, embora não seja necessariamente o caso que prevalece. Na verdade, existem dois casos distintos. O primeiro caso acontece quando uma indicação de ausência de autocorrelação global oculta padrões de associação local. O caso oposto ocorre quando uma forte indicação de autocorrelação global pode camuflar padrões locais de associação (clusters ou outliers espaciais). Conseqüentemente, as estatísticas de autocorrelação global não têm capacidade de identificar a ocorrência de autocorrelação local, estatisticamente significantes (Anselin, 1995, p. 97). Vamos ver como alguns autores propuseram soluções para equacionar tal problema.

3 Os resultados desse exemplo foram obtidos usando o programa GeoDa.

C urso de E conometria E spacial A plicada 3.4.1. I de Moran local A

Curso de E conometria E spacial A plicada

3.4.1. I de Moran local

A fim de superar esse obstáculo, um novo indicador foi sugerido na literatura por Anselin

(1995), com a capacidade de capturar padrões locais de associação linear, estatisticamente

significantes. Segundo Anselin (1995), o indicador de I de Moran local faz uma decomposição do indicador global de autocorrelação na contribuição local de cada observação em quatro categorias, cada uma individualmente correspondendo a um quadrante no diagrama de dispersão de Moran.

A interpretação intuitiva é que o I local provê uma indicação do grau de agrupamento dos

valores similares em torno de uma determinada observação, identificando clusters espaciais, estatisticamente significantes.

De acordo com Anselin (1995), a estatística I local de Moran para uma observação i pode ser estabelecida como:

I

i

=

ou

I

i

=

(

y

i

y

)

j

w

ij

(

y

j

y

)

 

i

(

y

 

)

2

/

 

i

y

n

z

i

j

w

ij

z

j

(3.5)

(3.6)

em que z i e z j são variáveis padronizadas e a somatória sobre j é tal que somente os valores dos vizinhos jJi são incluídos. O conjunto Ji abrange os vizinhos da observação i. Sob o pressuposto da aleatorização, o valor esperado da estatística I i é dado por:

E [

I

i ]

=− w

i .

(
(

n

1)

(3.7)

em que w i é a soma dos elementos da linha. A variância é dada por:

Var ( I i ) 2 = w V i . C urso de E

Var(I

i

)

2

= w V

i .

Curso de E conometria E spacial A plicada

(3.8)

em que V é a variância de I sob o pressuposto da aleatorização (Fotheringham et al., 2000, p.

102).

3.5.

Associação Espacial Local Multivariada

Assim como se pôde obter uma estatística de autocorrelação espacial global num contexto multivariado, também é possível conseguir uma medida de autocorrelação espacial local multivariada. Vamos readaptar a fórmula do I de Moran local como:

I

i

kl

=

z

i

k

j

w

ij

z

i

l

(3.9)

Essa estatística dá uma indicação do grau de associação linear (positiva ou negativa)

entre o valor para uma variável em uma dada locação i e a média de uma outra variável nas

locações vizinhas” (Anselin et al., 2003, p. 7).

3.6. Análise de Clusters Espaciais

Uma abordagem alternativa para visualizar diagramaticamente a associação espacial é baseada no diagrama de dispersão de Moran, que mostra a defasagem espacial da variável de interesse (ou seja, a média do atributo nos vizinhos) no eixo vertical e o valor da variável de interesse no eixo horizontal. Convém observar que tanto a variável de interesse (y) quanto a sua defasagem espacial (Wy) são padronizadas quando apresentadas no diagrama. Assim sendo, a estatística I de Moran pode ser interpretada como o coeficiente angular da regressão da defasagem espacial (Wy) contra a variável de interesse (y):

b = ' y Wy y y ' C urso de E conometria E spacial

b =

'

y Wy

y y

'

Curso de E conometria E spacial A