Escolar Documentos
Profissional Documentos
Cultura Documentos
Cap5 Areas PDF
Cap5 Areas PDF
Gilberto Cmara
Marilia S Carvalho
Oswaldo Gonalves Cruz
Virginia Correa
5.1 INTRODUO
1
O ndice de excluso/incluso social uma medida agregada das disparidades
socioeconmicas, que varia de 1 a +1, onde o valor 0 (zero) indica o um nvel bsico de
incluso social.
abrupta, e verificamos a existncia de distritos com altos ndices de
excluso/incluso social prximos a reas excludas.
==
Figura 5-1 ndice de Excluso/Incluso Social dos Bairros da Cidade de So Paulo para os
dados de 1991, com 96 distritos agrupados por sextis.
Grande parte dos usurios limita seu uso de SIG a essas operaes de
visualizao, tirando concluses intuitivas. Mas possvel ir muito alm.
Quando visualizamos um padro espacial, muito til traduzi-lo em
consideraes objetivas: o padro que observamos aleatrio ou apresenta
uma agregao definida? Esta distribuio pode ser associada a causas
mensurveis? Os valores observados so suficientes para analisar o fenmeno
espacial a ser estudado? Existem agrupamentos de reas com padres
diferenciados dentro da regio de estudo?
Para abordar estas questes, este captulo apresenta um conjunto de
tcnicas de anlise espacial de dados agregados por reas. O primeiro passo
escolher o modelo inferencial a ser utilizado. A hiptese mais comum supor
que as reas so diferenciadas, e que cada uma delas possui uma identidade
prpria. Do ponto de vista estatstico, isto implica em que cada rea
apresenta uma distribuio de probabilidade distinta das demais, o chamado
modelo espacial discreto. A alternativa supor que o fenmeno estudado
apresenta continuidade espacial, formando uma superfcie, o chamado
modelo espacial contnuo estudado no captulo anterior. Neste caso, as reas
so consideradas apenas um suporte para coleta de dados, e o modelo
inferencial desconsidera os limites de cada rea. A produo de superfcies a
partir de dados de rea ser discutida no final deste captulo.
A questo de agregao de contagens em reas levanta ainda problemas
conceituais importantes: Pode-se estimar comportamentos individuais a
partir de dados agregados? Em que medida a comportamento dos
A l ld d f
agregados reflete mais do que a soma dos indivduos? Qual o erro cometido
ao estimar indicadores onde as contagens so muito pequenas? Neste
captulo, aps a apresentao dos modelos adequados anlise de dados
agregados por reas sero abordados os conceitos bsicos da anlise
espacial, para dados agregados por rea.
A l ld d f
5.3 PROBLEMAS DE ESCALA E A RELAO REA-INDIVDUO
Um dos problemas bsicos com dados agregados por rea que, para
uma mesma populao estudada, a definio espacial das fronteiras das
reas afeta os resultados obtidos. As estimativas obtidas dentro de um
sistema de unidades de rea so funo das diversas maneiras que estas
unidades podem ser agrupadas; pode-se obter resultados diferentes
simplesmente alterando as fronteiras destas zonas. Este problema
conhecido como problema da unidade de rea modificvel.
Em muitos dos estudos envolvendo dados de rea, o dado agregado a
nica fonte disponvel, porm o objeto de estudo diz respeito a
caractersticas e relacionamentos individuais. Alguns destes estudos
procuram estabelecer relaes de causa-efeito entre diferentes medidas,
como o uso de modelos de regresso; um exemplo clssico correlacionar
anos de estudo do chefe de famlia e sua renda, que usualmente apresenta
forte correlao. Note-se, no entanto, que devido aos efeitos de escala e de
agregao de reas, os coeficientes de correlao podem ser inteiramente
diferentes no indivduo e nas reas. Este fenmeno, nas cincias sociais e na
epidemiologia, chamado de falcia ecolgica.
Considere um conjunto de indivduos onde so medidas duas
caractersticas de cada um dos indivduos, conforme estimado na Figura
5-2. Uma regresso considerando todos os indivduos (linha negra do
quadro esquerda) resulta em coeficiente positivo de 0,1469. Esses
indivduos pertencem a grupos distintos, separando cada grupo conforme o
atributo cor, obtm-se correlao negativa, variando entre 0,5 e 0,8.
Utilizando as mdias de cada grupo (linha negra do quadro direita), o
coeficiente vai a 0,99. importante observar que cada modelo mede um
aspecto diferente e que no h modelo correto. No primeiro caso, pode-se
dizer que sem informaes que permitam separar os indivduos nos grupos
coloridos, as variveis se relacionam positivamente. No ltimo exemplo, o
interesse do estudo o efeito da variao na mdia de uma varivel sobre a
mdia da outra, nos grupos. So perguntas diferentes, e modelos diferentes.
A l ld d f
Figura 5-2 Modelos de regresso: indivduos, indivduos em estratos diferentes e grupos.
Para ilustrar o problema das mudanas de unidade de anlise, estudou-
se os dados de censo de Belo Horizonte para o ano de 1991, em duas
escalas: os setores censitrios e as unidades de planejamento (UP),
mostradas na Figura 5-2. Os setores censitrios foram utilizados pelo IBGE
para o censo de 1991, e as unidades de planejamento correspondem a
agregamentos de reas utilizados pela prefeitura de Belo Horizonte.
A l ld d f
setores censitrios que para as UPs. Apenas 40 (4%) tem o comportamento
oposto. Em algumas situaes, ocorre inclusive mudana de sinal, isto ,
variveis correlacionadas negativamente no nvel dos setores censitrios
passam a ser correlacionadas positivamente. Verifica-se que a reduo de
escala (reas maiores) tende a homogeneizar os dados, reduzir a flutuao
aleatria e reforar correlaes que, assim, aparentam ser mais fortes que
em reas menores.
Os resultados acima indicam que no se pode afirmar que qualquer
escala seja a certa, mas apenas qual dos modelos melhor serve ao que se
deseja esclarecer: correlaes mais fracas e maior flutuao aleatria, porm
com mais homogeneidade interna, ou mais fortes com o vis ocasionado
por desconsiderar a disperso e a heterogeneidade em torno da mdia nas
grande reas. Como regra geral, quanto mais desagregado o dado, maior a
flexibilidade na escolha de modelos; pois agregar em regies maiores fcil,
mas desagregar impossvel.
Tabela 5-1
CORRELAES ENTRE PARES DE VARIVEIS SEGUNDO
DIFERENTES UNIDADES DE REAS SETOR CENSITRIO E UNIDADE DE
PLANEJAMENTO - PARA O CENSO DE 1991 EM BELO HORIZONTE
Correlaes por Unidade de Planejamento
-0,8/-0,6 0 0 1 1 1 0 2 5
-0,6/-0,4 2 11 7 4 2 7 0 33
Correlao por Setor Censitrio
-0,4/-0,2 3 23 14 11 10 3 6 70
-0,2/0,0 3 5 9 27 34 13 21 112
0,0/0,2 0 1 2 42 75 32 55 207
0,2/0,4 0 2 0 17 44 50 68 181
0,6/0,8 0 0 2 7 8 9 75 101
A l ld d f
espacial possvel, usualmente denominadas micro-reas, por exemplo, setores
censitrios. E utilizar tcnicas de agregao ou de otimizao combinatria
para obter regies mais agregadas, mas que preservem o fenmeno estudado
da melhor forma possvel. Deste modo, deve-se reconhecer que o problema
da escala um efeito inerente aos dados agregados por reas. Ele no pode
ser removido e no pode ser ignorado. Para minimizar seu impacto com
relao a esses estudos, deve-se procurar utilizar a melhor escala de
levantamento de dados disponvel e utilizar tcnicas que permitam tratar a
flutuao aleatria, sempre buscando critrios de agregao dos dados que
sejam consistentes com os objetivos do estudo.
A l ld d f
grande desigualdade social com o Brasil. Em resumo, parte importante da
anlise exploratria experimentar diferentes pontos de corte da varivel na
visualizao dos mapas.
As diferentes tcnicas de visualizao esto ilustradas no exemplo a
seguir, em que mostramos a distribuio espacial do indicador que mede a
proporo de recm-natos que nasce em boas condies de sade (ndice de
APGAR) para os bairros do Rio de Janeiro, no ano de 1994. Foram geradas
duas visualizaes, ambas com 5 pontos de corte e 5 cores. Na Figura 5-4,
utilizou-se quintis; na Figura 5-5, cinco classes de igual tamanho. Como a
distribuio da varivel no simtrica, quando se divide em classes de
amplitudes iguais as de valores mais baixos (ou piores), assinaladas em
vermelho ficam reduzidas a poucas reas, enquanto que na diviso em
quintis, por definio, um quinto das reas ficar em cada classe. A pergunta
ento : o que se deseja mostrar? Certamente o responsvel pela assistncia
peri-natal da regio no ficar satisfeito visualizando um quinto dos bairros
como sendo de alto risco. Por outro lado, como as reas onde o ndice
mais baixo tm populao pequena, a confiabilidade dos valores encontrados
pode ser efeito apenas da flutuao aleatria descrita anteriormente. Vale a
pena ento olhar mapas? Claro que sim, da mesma forma como olhamos
histogramas e box-plots, e procurando sempre ver a distribuio utilizando
diferentes pontos de corte. Os SIGs em geral tem uma forma padro, mas
dezenas de possibilidades podem e devem ser exploradas.
A l ld d f
Figura 5-5 - Distribuio do ndice de APGAR, agrupada em classes de igual amplitude.
Outra questo interessante a comparao de mapas. Supondo a
distribuio espacial de um indicador em diferentes anos: como visualizar a
evoluo temporal? Certamente os pontos de corte da varivel nos diferentes
perodos devem ser os mesmos. Observe na Figura 5-4 a evoluo temporal
da mortalidade por homicdios para os trinios 79-81 e 90-92, no Estado do
Rio de Janeiro. A apresentao dos quintis da distribuio conjunta dos
indicadores permite visualizar bem o espalhamento desta doena.
Figura 5-6 Mortalidade por homicdios no Rio de Janeiro, para os trinios 79-81 e 80-92.
A l ld d f
Grficos de Mdias e Medianas
Os grficos de mdias e medianas segundo linhas e colunas permitem
explorar simultaneamente a presena de tendncia (no-estacionariedade de
primeira ordem), e no-estacionariedade de segunda ordem, onde a varincia
e a covarincia entre vizinhos no se mantm constante. Para construir estes
grficos, utiliza-se as coordenadas dos centrides das reas, aproximando-as
para um espaamento regular de forma a montar uma matriz. Calcula-se
ento as mdias e as medianas do indicador ao longo das linhas (eixo Leste-
Oeste) e colunas (eixo Norte-Sul) desta matriz. Esta tcnica permite
identificar a flutuao das medidas ao longo de duas direes, sugerindo a
presena de valores discrepantes quando a diferena entre estas grande, e a
tendncia ao longo de uma direo quando os valores variam suavemente.
o = Mediana
S-N
x = Mdia
L-O
o
x
o x
ox x
ox o
xo
2
x x
o x o
xo ox
oox
30
ox
x x o ox x o
o o o x xo
RENDA
o x o
o x
o o xo x
linhas
1
x xo x x xx
o x
o ox
x o
20
o x o o ox
o x
o x ox x x o
o x x xx o o x
o x oo x xo x o
x x o
x o
x o
x o x x
0
o o xoox o
x o x ox
o oo o x o
10
x x x
o x oo
xo xx x x oo xx
x xoxx o x
o x
o
oo oxo o xx x x
o
-1
o o
x o x
o x
o
oo x
o
0
0 10 20 30 40 -1 0 1 2
colunas RENDA
ESCOLARIDADE
0.8
o
x x
o
40
o
xox o
x xo
o x
o x
xo o o xo
x o x o x xo o
o o
x x o o x
o o x x xoxx o
oxx
x
o
xx x oo o
0.6
o o
ESCOLARIDADE
x
x o
xo
30
xo o x ox
x o x o
x x o o
x o o x x o x
o
o o
x o
x o o x x
linhas
o xx x x
o o x
o
0.4
x o
20
x ox
xx
o
x x x oo x o
x x o x
o o
x o x o xoo
xx x o x x o
10
x x
o
o x x o
0.2
xx ox x ox o
o x o ox
x x
o
oo oo x
o x
o
o o
x o x
o x
o
0
colunas ESCOLARIDADE
A l ld d f
Na Figura 5-7, apresenta-se o resultado desta tcnica aplicada a dois
indicadores socioeconmicos do censo 1991 renda mdia do chefe da
famlia e proporo de chefes de famlia com escolaridade igual ou superior
ao segundo grau para setores censitrios da Ilha do Governador, no Rio de
Janeiro. Esta composta por 225 setores censitrios, cujos centrides esto
assinalados no primeiro quadro da figura: observe que nas extremidades do
mapa a quantidade de pontos muito pequena, e, consequentemente,
qualquer medida nesta rea ser pouco robusta.
No eixo Norte-Sul (colunas) pode-se observar que a renda mdia do
chefe da famlia apresenta tendncia varivel, bem menor no centro da
regio. A mesma coisa acontece para escolaridade, embora com maior
flutuao. No eixo Leste-Oeste (linhas), tambm parece haver algum
deslocamento para valores mais altos no sentido leste, mas o descolamento
de mdias (x) e medianas (o) sugere a presena de valores extremos dos
indicadores. A variao na mdia dos indicadores na regio est,
aparentemente, dividida entre as duas direes analisadas, e pode-se explorar
melhor a tendncia atravs da rotao dos eixos de referncia.
Anlise de Autocorrelao Espacial
Outra etapa da anlise exploratria visa identificar a estrutura de
correlao espacial que melhor descreva os dados. A idia bsica estimar a
magnitude da autocorrelao espacial entre as reas. Neste caso, as
ferramentas utilizadas so o ndice global de Moran, o ndice de Geary e o
variograma. Quando se dispe de grande nmero de reas, resultantes por
exemplo de escalas espaciais detalhadas, a natureza dos processos envolvidos
tal que muito provvel a existncia de diferentes regimes de correlao
espacial em diferentes sub-regies. Para evidenciar estes regimes espaciais,
pode-se utilizar os indicadores locais de autocorrelao espacial e o mapa de
espalhamento de Moran, descritos tambm nesta seo. Todas estas
estatsticas dependem da definio de vizinhana adotada, discutida a seguir.
Matrizes de Proximidade Espacial
Para estimar a variabilidade espacial de dados de rea, uma ferramenta
bsica a matriz de proximidade espacial, tambm chamada matriz de
vizinhana. Dado um conjunto de n reas {A1,..,An}, construmos a matriz
W(1) (n x n), onde cada um dos elementos wij representa uma medida de
proximidade entre Ai e Aj. Esta medida de proximidade pode ser calculada a
partir de um dos seguintes critrios:
A l ld d f
wij = 1, se Ai compartilha um lado comum com Aj , caso contrrio wij =
0
A B C D E
C A 0 0,5 0 0,5 0
B B 0,25 0 0,25 0,25 0,25
A C
D
0 0,5
0,33 0,33 0
0 0
0
0,5
0,33
E 0 0,33 0,33 0,33 0
E
D
Figura 5-8- Matriz de proximidade espacial de primeira ordem, normalizada pelas linhas.
A idia da matriz de proximidade espacial pode ser generalizada para
vizinhos de maior ordem (vizinhos dos vizinhos). Com critrio anlogo ao
adotado para a matriz de vizinhana de primeira ordem, pode-se construir as
matrizes W(2), ..., W(n). Por exemplo, na Figura 5-6, as reas A e C so
vizinhas na matriz de proximidade espacial de ordem 2. No que segue, por
simplicidade, os coeficientes da matriz de primeira ordem so designados
simplesmente por wij, e os das matrizes de ordem k por wij(k) e que essas
matrizes esto normalizadas por linhas.
Mdia Mvel Espacial
Uma forma simples de explorar a variao da tendncia espacial dos
dados calcular a mdia dos valores dos vizinhos. Isto reduz a variabilidade
espacial, pois a operao tende a produzir uma superfcie com menor
flutuao que os dados originais. A mdia mvel i associada ao atributo zi,
relativo i-sima rea, pode ser calculada a partir dos elementos wij da
matriz normalizada de proximidade espacial W(1), tomando-se simplesmente
a mdia dos vizinhos:
A l ld d f
n
i = wij zi
j =1
(5.1.)
A Figura 5-9 ilustra o uso do estimador de mdia mvel para o
percentual de idosos (mais de 70 anos) para os 96 distritos da cidade de So
Paulo. Estes dados so indicadores da grande disparidade social da cidade,
com uma grande variao entre o centro (onde a proporo de idosos chega
a 8%) com a periferia (onde h vrias regies com menos de 1%). O valor
mximo do percentual de idosos de 8,2% e o mnimo de 0,8%, com um
desvio padro de aproximadamente 2%. Com a mdia local, h um
alisamento: o valor mnimo de 1% e o mximo reduzido a 6,8%. Pode-se
notar, ao comparar os dois mapas da Figura 5-9, que a mdia mvel local
fornece uma viso das grandes tendncias do fenmeno em estudo e no caso
do percentual de idosos, mostra um forte gradiente centro-periferia.
Figura 5-9- Distribuio dos idosos na cidade de So Paulo (censo de 1991). esquerda,
apresentao dos valores por distribuio estatstica. direita, mdia mvel local.
Indicadores Globais de Autocorrelao Espacial: ndices de Moran e Geary
Um aspecto fundamental da anlise exploratria espacial a
caracterizao da dependncia espacial, mostrando como os valores esto
correlacionados no espao. Neste contexto, as funes utilizadas para estimar
quanto o valor observado de um atributo numa regio dependente dos
valores desta mesma varivel nas localizaes vizinhas so a autocorrelao
espacial e o variograma. O ndice global de Moran I, a expresso da
autocorrelao considerando apenas o primeiro vizinho:
A l ld d f
n n
wij ( zi z )( z j z )
i =1 j =1
I=
n
( zi z ) 2
i =1 (5.2.)
Na equao acima, n o nmero de reas, zi o valor do atributo
considerado na rea i, z o valor mdio do atributo na regio de estudo e
wij os elementos da matriz normalizada de proximidade espacial. Neste caso
a correlao ser computada apenas para os vizinhos de primeira ordem no
espao, conforme estabelecido pelos pesos wij. O mesmo clculo feito para
matrizes de proximidade de maior ordem permite estimar a funo de
autocorrelao para cada ordem de vizinhana (ou lag).
n n
n wij( k ) ( zi z )( z j z )
i =1 j =1
I(k ) = N
(5.3.)
( zi z ) 2
i =1
A l ld d f
parte variao ampla, ou tendncia, parte dependncia espacial entre
vizinhos.
i =1 j =1 i =1
A l ld d f
um componente intra-reas e outro inter-reas, que podem ser apresentados
sob forma percentual nos resultados. A hiptese nula (H0) assume que a
variao geogrfica do nmero de casos segue a variao geogrfica do
tamanho da populao, sendo particularmente til quando a populao das
reas no homognea.
m m m m
N 2
wij (ei di )(e j d j ) N(1 2b )wijei Nb wiidi
i =1 j =1 i =1 i =1
Ipop =
m m m
(X 2 di d j wij X di wii )b (1 b )
i =1 j =1 i =1
(5.5.)
W== = k==~==
k== = k=~==~==~=~=~K=
== = k==~=~=~==
= = m==~=~=~==EZLkF=
u= = m~=~==~=~=~=
== = q~~=~=~=~=~==
== = m==~=~=~==EZLkF=
w== = a~==~=~~=u==~=~==u=
= == m=~==~===~=~====
== = m~~=~=EkLuF=
A tabela 5.2 apresenta os resultados dos testes de aglomerado espacial
para a mortalidade por homicdios no Estado do Rio. Observe que o grau de
significncia do teste Ipop maior que o Moran, e que aproximadamente
metade da agregao deve-se a fatores intra-municipais. Ou seja, alm de
municpios prximos apresentarem padres semelhantes, existe um excesso
de casos dentro dos municpios violentos, que ultrapassa o esperado em
funo da populao.
TABELA 5.2
RESULTADOS DOS TESTES DE AGLOMERADOS ESPACIAIS:
HOMICDIOS NO RIO DE JANEIRO, 90-92
Moran I Ipop
Indicador 0,5861 0,00015
p-valor 7,5091 88,9238
% entre reas - 54,3
% intra reas - 45,7
A l ld d f
Variograma
De maneira anloga ao apresentado no captulo 3, podemos utilizar o
variograma como indicador da dependncia espacial. Para tanto, associamos
o valor nico do atributo de cada rea a um ponto, usualmente o centro
geomtrico ou populacional do polgono. Com base nestas localizaes,
calcula-se a funo variograma. Note-se quando o dado no-estacionrio,
tambm o variograma no se estabiliza, mas continua crescendo sempre com
a distncia. Como exemplo de uso do variograma para dados de rea, a
Figura 5-11 ilustra o ndice de Desenvolvimento Humano IDH para o
estado de So Paulo, calculado pelo IPEA, com base no censo de 1991. A
Figura 5-12 apresenta o variograma do IDH, computado a partir dos
centride de cada municpio.
Figura 5-12 Variograma experimental do IDH para So Paulo (censo de 1991). Passo de
amostragem: 40 km (tolerncia : 20 km).
A l ld d f
O que mostra o variograma da Figura 5-10? No eixo dos X,
apresentam-se as distncias entre os municpios, e no eixo Y, a mdia do
quadrado das diferenas do IDH, para municpios separados por faixas de
distncia, com intervalos de 40 km e tolerncia de 20 km. Assim, o primeiro
ponto calcula a diferena de IDH entre os municpios cuja distncia entre os
centros seja de 20 a 60 Km, e assim por diante, at a distncia de 400 km. O
grfico evidencia uma forte dependncia espacial entre os indicadores de
qualidade de vida dos municpios de So Paulo. Trata-se de um resultado dos
processos de ocupao do estado, que seguiram perspectivas regionais. A
partir da lgica de expanso do caf do sculo XIX, observa-se hoje uma
regio de forte produo agrcola situada ao longo do eixo da rodovia
Anhanguera, a predominncia da pecuria na regio do Oeste Paulista, e
uma forte concentrao industrial na regio metropolitana de So Paulo, no
ABC e no mdio Vale do Paraba. Assim, todos os processos histricos
apontam para uma dependncia espacial no desenvolvimento econmico no
estado.
Para considerar um exemplo adicional, considere-se o estudo sobre
mortalidade por homicdios na regio Sudeste. que so a causa de mais de
20% dos bitos dos homens entre 15 e 45 anos no Brasil. A Figura 5-13
ilustra a distribuio espacial da mortalidade por homicdios, usando como
indicador o logaritmo do coeficiente de mortalidade especfico , por 100.000
residentes do mesmo grupo etrio. Entendendo o processo da violncia
como o de uma "epidemia" da modernidade, que se "propaga" no espao,
uma simples observao visual permite identificar uma elevada ocorrncia de
mortes violentas no RJ, com uma tendncia espacial capital-interior. No caso
de ES e SP, h uma concentrao prxima da capital e grandes cidades. No
entanto, em MG, as reas mais violentas situam-se longe das regies
metropolitanas, o que indica um padro espacial distinto. Adicionalmente,
h uma marcada transio na fronteira entre MG e RJ, indicando uma
mudana nas condies de disseminao da "epidemia da violncia". Cabe
lembrar que foi utilizado o logaritmo do indicador, dado ser a distribuio
do mesmo bastante concentrada em torno de valores muito baixos, com
uma grande cauda a direita.
A l ld d f
Figura 5-13 - Mortalidade por homicdos, regio Sudeste do Brasil
O correlograma da Figura 5-14 apresenta a autocorrelao espacial
entre os municpios de cada estado, expressa atravs da funo definida pela
equao 5.3. O grfico indica a existncia de uma forte tendncia espacial no
RJ, pois a funo de autocorrelao no se estabiliza com a distncia, mas
continua decrescente, ao contrrio de MG, que no apresenta dependncia
espacial marcante. Em outras palavras, no RJ, se o municpio vizinho ao seu
violento, altamente provvel que a sua cidade tambm o seja; todo o
estado apresenta uma estrutura de violncia regionalizada, e a violncia decai
no interior do estado. Em MG, esta padro no observado: a violncia
parece flutuar aleatoriamente.
MG RJ
0.6
0.4
Autocorrelao
0.2
0.0
-0.2
0 100 200 300 400 500 600 0 100 200 300 400 500 600
A l ld d f
normalizados (valores de atributos subtrados de sua mdia e divididos pelo
desvio padro), permite analisar o comportamento da variabilidade espacial.
A idia comparar os valores normalizados do atributo numa rea com a
mdia dos seus vizinhos, construindo um grfico bidimensional de z (valores
normalizados) por wz (mdia dos vizinhos), que dividido em quatro
quadrantes, como mostrado na Figura 5-15 para o ndice de
excluso/incluso social de So Paulo, censo de 1991. Os quadrantes podem
ser interpretados como:
Q1 (valores positivos, mdias positivas) e Q2 (valores negativos, mdias
negativas): indicam pontos de associao espacial positiva, no sentido
que uma localizao possui vizinhos com valores semelhantes.
Q3 (valores positivos, mdias negativas) e Q4 (valores negativos, mdias
positivas): indicam pontos de associao espacial negativa, no sentido
que uma localizao possui vizinhos com valores distintos.
0,8
0,6
Q4 Q1
0,4
0,2
WZ
0,0
-0,2
-0,4 Q2 Q3
-0,6
-0,8
-1,0 -0,5 0,0 0,5 1,0 1,5
Z
Z = 0,642*WZ
A l ld d f
O ndice de Moran I equivalente ao coeficiente de regresso linear que
indica a inclinao da reta de regresso () de wz em z. Para o caso dos
dados apresentados na Figura 5-15, este coeficiente igual a 0,642, o mesmo
valor calculado aplicando-se a frmula da equao 5.3. O diagrama de
espalhamento de Moran tambm pode ser apresentado na forma de um
mapa temtico bidimensional, no qual cada polgono apresentado
indicando-se seu quadrante no diagrama de espalhamento, como ilustra a
Figura 5-16, em que mostramos o mapa do espalhamento do ndice de
Moran para o ndice de excluso/incluso social da cidade de So Paulo em
1991. Nesta figura, Alto-Alto, Baixo-Baixo, Alto-Baixo e Baixo-Alto
indicam, respectivamente, os quadrantes Q1, Q2, Q3 e Q4, mostrados na
Figura 5-15. Nota-se uma forte polarizao centro-periferia e observa-se que
os distritos localizados nos quadrantes Q3 e Q4 (indicados pela cor azul)
podem ser entendidos como regies de transio entre o centro da cidade
(que tende a apresentar valores positivos do ndice de excluso/incluso
social) e as duas grandes periferias de So Paulo (zona Sul e zona Leste).
A l ld d f
valor especfico para cada rea, permitindo assim a identificao de
agrupamentos. O ndice local de Moran pode ser expresso para cada rea i a
partir dos valores normalizados zi do atributo como:
n
zi wij z j
j =1
Ii = n
(5.6.)
z 2j
j =1
A l ld d f
5.5 ESTIMAO DE INDICADORES:
Figura 5-18 - Taxa total de mortalidade infantil por mil nascidos vivos no Rio de
Janeiro, em 1994.
Numa primeira leitura, este mapa choca pelas altas taxas de mortalidade
de vrios bairros, com 15 bairros apresentando uma taxa maior que 40
bitos por mil nascidos, e 2 casos com taxas acima de 100 por mil nascidos.
Um observador desatento poderia concluir que todos estes bairros
apresentam um grave problema social. Na realidade, muitos destes valores
extremos ocorrem nos bairros com pequenas populaes, pois a diviso da
cidade utilizada esconde enormes diferenas na populao em risco, variando
de 15 at 7500 crianas por bairro. Por exemplo, considere uma regio com
15 crianas nascidas e nenhuma morte, o que aparentemente indicaria uma
situao ideal. Se apenas uma criana morre neste ano, a taxa passa de 0 por
mil para 66 por mil !
Tais problemas so tpicos de recobrimentos espaciais sobre divises
poltico-administrativas, onde se analisam reas com valores muito distintos
de populao em risco. Vrios estudos tm mostrado que em divises
polticas como bairros e municpios apresentam relaes inversas de rea e
populao, isto , os maiores bairros em populao tendem a ter menores
A l ld d f
reas, e vice-versa. Por isso mesmo, freqentemente o que mais chama a
ateno num mapa temtico de taxas, que so os valores extremos, muitas
vezes so resultado de um nmero reduzidssimo de observaes, sendo
portanto menos confivel, ou seja, apenas flutuao aleatria .
Para suavizar a flutuao aleatria, considera-se que a taxa estimada
pela diviso simples entre contagem de bitos e de populao taxa
observada apenas uma realizao de um processo no observado, e que
tanto menos confivel quanto menor a populao. Assim, prope-se re-
estimar uma taxa mais prxima do risco real ao qual a populao est
exposta. A primeira providncia fazer um grfico que expresse a taxa em
funo da populao em risco, como mostrado na Figura 5-19.
A l ld d f
A idia do estimador bayesiano supor que a taxa i uma varivel
aleatria, que possui uma mdia i e uma varincia i2 . Pode ser
demonstrado que o melhor estimador bayesiano dado por uma combinao
linear entre a taxa observada e a mdia i :
i = wi ti + ( 1 wi ) i , (5.7.)
i2
wi = (5.8.)
i2 + i ni
=
yi (5.9.)
ni
E estima-se a varincia i2 a partir da varincia das taxas observadas
com relao mdia estimada:
2
=
ni (ti ) 2
(5.10.)
ni n
A l ld d f
corrigida de 36 por mil. Bairros com pouca populao no grupo de risco
apresentaram redues semelhantes, enquanto que bairros mais populosos
mantiveram as taxas originalmente medidas. A comparao entre a taxa
primria e o valor estimado est apresentada na Figura 5-18. Em resumo,
preciso extremo cuidado ao produzir mapas temticos, especialmente em
~= = ~~= ~~= ~= = ~= = ~=
K=
Figura 5-18. Comparao entre a taxa de mortalidade infantil observada e a taxa estimada
A l ld d f
N
W E
0
0 - 2.28 1.07 - 2.53
2.53 - 4.35
2.28 - 4.63 4.35 - 5.83
4.63 - 8.79 5.83 - 8.43
8.79 - 144.33 8.43 - 13.59
A l ld d f
5.6 MODELOS DE REGRESSO
Y1 1 X 11 .. X 1k 1 0 1
Y 1 X .. X 2k 1 1 2
2 21
.. = .. .. .. .. .. + .. (5.12.)
.. .. .. .. .. .. ..
Yn 1 X n1 .. X nk 1 k 1 n
A l ld d f
No entanto, no caso de dados espaciais, onde est presente a
dependncia espacial, muito pouco provvel que a hiptese padro de
observaes no correlacionadas seja verdadeira. No caso mais comum os
resduos continuam apresentando a autocorrelao espacial presente nos
dados, que pode se manifestar por diferenas regionais sistemticas nas
relaes do modelo, ou ainda por uma tendncia espacial contnua.
A investigao dos resduos da regresso em busca de sinais de estrutura
espacial o primeiro passo em uma regresso espacial. As ferramentas usuais
de anlise grfica e o mapeamento de resduos, podem dar as primeiras
indicaes de que os valores observados esto mais correlacionados do que
seria esperado sob uma condio de independncia. Neste caso, utilizar os
testes de autocorrelao espacial Moran e Geary nos resduos da
regresso informa sobre sua presena. Em caso de existir autocorrelao,
deve-se especificar um modelo que considere a interferncia causada pela
mesma.
No restante desta seo, apresentamos vrios tipos de modelos de
regresso que permitem incorporar efeitos espaciais, desde aqueles que
tratam a estrutura espacial de forma global (como um nico parmetro) at
modelos em que os parmetros variam continuamente no espao.
Modelos com Efeitos Espaciais Globais
A incluso explcita de efeitos espaciais em modelos de regresso pode
ser feita de diferentes formas. A classe de modelos de regresso espacial mais
simples, chamados de modelos com efeitos espaciais globais, supe que
possvel capturar a estrutura de correlao espacial num nico parmetro,
que adicionado ao modelo de regresso tradicional. Neste caso, tem-se
duas alternativas para tratar a autocorrelao global em um modelo de
regresso. Na primeira, a autocorrelao espacial ignorada atribuda
varivel dependente Y. Esta abordagem denominada como modelo espacial
autoregressivo misto (Spatial AutoRegressive SAR ou ainda como spatial
lag model), dado que se considera a dependncia espacial atravs da adio
ao modelo de regresso de um novo termo na forma de uma relao espacial
para a varivel dependente. Formalmente isto expresso como:
Y = WY + X + , (5.13.)
A l ld d f
yi =
j
wij y j +
i =1
xi i + i (5.14.)
O segundo tipo de modelo de regresso espacial com parmetros globais
considera que os efeitos espaciais so um rudo, ou perturbao, ou seja,
fator que precisa ser removido. Neste caso, os efeitos da autocorrelao
espacial so associados ao termo de erro e o modelo pode ser expresso por:
Y = X + , = W + , (5.15.)
ou ainda como
( I W )Y = ( I W ) X + (5.17.)
o que pode ser visto como uma regresso no-espacial nas variveis
filtradas
Y * = ( I W )Y , X * = ( I W ) X (5.18.)
A l ld d f
exemplo, pelos indicadores locais de autocorrelao espacial, est na origem
aos modelos cujos parmetros variam no espao, discutidos a seguir.
Modelos de Regresso com Efeitos Espaciais Locais
(a) Caso Discreto Modelos de Regresso com Regimes Espaciais
Quando o processo espacial no-estacionrio, os coeficientes de
regresso precisam refletir a heterogeneidade espacial. Para tanto, h duas
grandes alternativas: (a) modelar a tendncia espacial de forma contnua,
com parmetros variantes no espao; (b) modelar a variao espacial de
forma discreta, ao dividir o espao em sub-regies estacionrias, chamadas
de regimes espaciais.
A idia de regimes espaciais dividir a regio de estudo em sub-regies,
cada uma com seu padro espacial prprio, e realizar regresses em
separado, uma para cada regio. As observaes so classificadas em dois ou
mais subconjuntos, a partir de uma varivel por indicao, a saber:
Y1 = X 11 + 1 , ind = 1 (5.19.)
Y2 = X 2 2 + 2 , ind = 2 (5.20.)
A l ld d f
de superfcies de tendncia considera um processo espacial onde o valor da
varivel uma funo polinomial de sua posio no espao. O modelo de
regresso mltipla utilizando notao vetorial :
Y ( s) = X (s) + (s ) (5.21.)
=~~~=~====~=~W=
( s) = ( X T W (s) X ) 1 X T W (s)Y (5.24.)
A l ld d f
O ajuste local feito de forma a garantir uma influncia maior dos
pontos mais prximos, de forma semelhante aos estimadores de densidade
por kernel, discutidos no captulo 2 do livro. Um exemplo o uso de uma
funo gaussiana, do tipo
d 2
exp
1 ij
wij ( s, ) = (5.25.)
2 2
2
A l ld d f
Usualmente a comparao de modelos feita utilizando o logaritmo da
mxima verossimilhana, que o que possui melhor ajuste para os dados
observados. O critrio de informao de Akaike (AIC) expresso por:
AIC= 2 * LIK +2k (5. 26.)
A l ld d f
cidade (centro, periferia e a transio centro-periferia). O modelo padro
expresso como:
PERIDOSO = 0 + 1 PERREN20 + (5. 27.)
Utilizando-se a matriz de vizinhana W dos distritos, o modelo spatial
lag pode ser expresso como:
PERIDOSO = 0 + 1 PERREN20 + W(PERIDOSO) + (5. 28.)
Considerando-se trs regies da cidade, o modelo de regimes espaciais
pode ser expresso como
PERIDOSO_1 = 10 + 11 PERREN20_1, reg=1 (5. 29.)
PERIDOSO_2 = 20 + 21 PERREN20_2, reg=2 (5. 30.)
PERIDOSO_3 = 30 + 31 PERREN20_3, reg=3 (5. 31.)
Os resultados destes modelos de regresso so apresentados na Tabela
5-3. No modelo de regresso tradicional, a relao entre renda e longevidade
em So Paulo muito reduzida, o que d suporte a idia do IDH de que
tratam-se de dimenses complementares da desenvolvimento humano. No
entanto, quando os efeitos espaciais so levados em conta, verifica-se que a
existncia de real dependncia entre os dois fatores. Na Figura 5-22,
apresenta-se a distribuio espacial dos resduos da regresso para os
modelos de mnimos quadrados e spatial lag. Uma anlise visual dos resduos
da regresso tradicional indica uma prevalncia de resduos positivos no
centro da cidade e resduos negativos na periferia, principalmente nas Zonas
Leste e Sul. Os resultados numricos confirmam esta anlise, pois o ndice de
Moran dos resduos altamente significativo. Com relao ao desempenho
global, as medidas R2 so indicadores limitados e devem ser encaradas com
cuidados, e deve-se preferir as medidas baseadas em verossimilhana (LIK,
AIC). Neste caso, o modelo spatial lag teve um desempenho muito superior
ao modelo padro. Este efeito esperado, pela existncia de um ndice de
Moran significativo nos resduos, que capturado no coeficiente de efeito
espacial ().
Os regimes espaciais escolhidos para So Paulo so mostrados na Figura
5-23, bem como os resduos da regresso considerando estes regimes. Da
anlise visual dos resduos, verifica-se a no-existncia de forte tendncia
espacial, o que evidenciado pelo baixo ndice de Moran dos mesmos,
indicado na Tabela 5-3. No geral, o modelo de regimes espaciais apresentou
o melhor desempenho, por qualquer dos critrios (R2, LIK e AIC). O
resultado reflete a forte polarizao centro-periferia da cidade de So Paulo,
e compatvel com estudos que mostram os resultados da violncia urbana
nas taxas de mortalidade, especialmente de homens dos 15 aos 25 anos.
A l ld d f
Tabela 5-3
Resultados da Regresso para Longevidade e Renda em So Paulo, 1991
Regresso MMQ Spatial Lag Regimes
Espaciais
R2 ajustado 0,280 0,586 0,80
Log verossimilhana -187,92 -150,02 -124,04
AIC (Crterio de Inf. Akaike) 379,84 306,51 260,09
ndice de Moran dos resduos 0,620 - 0,020
A l ld d f
5.7 ESTIMAO DE MODELOS CONTNUOS A PARTIR DE DADOS DE REA
A l ld d f
de intensidade, que nos d uma idia da distribuio espacial da varivel
estudada. Na Figura 5-24(a) apresentado um mapa com os valores de
indicadores de taxa de mortalidade, agregados por municpio. Na Figura
5-24(b), apresentamos o resultado do estimador de intensidade, que nos d
uma idia melhor da distribuio espacial da varivel estudada.
Quando as observaes nas reas representam contagens, como as
obtidas pelo censo, o estimador de kernel apresentado acima no
apropriado. Um valor mdio de um atributo como nmero de domiclios
precrios no faria sentido, e deve-se pensar em termos de nmero de
domiclios precrios por unidade de rea. Neste caso, pode-se utilizar o
numerador da equao (5.32), dividido pela rea do crculo definido pelo
raio de busca:
n
2
1 ij d
zi = k( ) z j , d ij (5.33.)
j =1
(a)
(b)
Figura 5-24 (a) Mortalidade por homicdios no RJ (1990-1992). Mapa temtico com
valores por municpio. (b) Superfcie obtida por estimador de intensidade no-paramtrico
A l ld d f
Uso de Interpoladores Geoestatsticos
No captulo 3, apresenta-se a teoria bsica da geoestatstica, cuja
motivao tradicional est associada a dados do meio fsico como medidas de
teor mineral ou de poluio. No caso da krigagem ordinria, a hiptese
subjacente que os dados apresentam distribuio gaussiana, e neste caso as
propriedades timas dos estimadores (como a mnima varincia do
resultado) so garantidas. Para o caso de dados socioeconmicos ou de sade
coletiva, a hiptese da normalidade dos dados muito raramente realista,
sendo mais comum supor uma distribuio de Poisson, por se tratar de
contagens de eventos. No entanto, as propriedades timas do estimador de
krigagem e sua ampla disponibilidade em diferentes sistemas de informao
geogrfica fazem com que seja importante investigar seu uso para dados
socioeconmicos. Neste caso, a primeira providncia investigar quo
aproximados da distribuio normal se apresentam os dados; se for
necessrio, pode-se aplicar transformaes apropriadas (com a transformao
logartmica) para simetrizar a distribuio emprica e assim aproximar-se
da distribuio normal. Para considerar uma situao concreta, Figura 5-25
apresenta a distribuio da taxa de homicdios por 100 mil habitantes, para
os 96 distritos de So Paulo em 1996, acompanhada do grfico de
probabilidade normal, que indica o quanto estes dados se aproximam de uma
distribuio gaussiana. Da anlise dos dois dados, e considerando-se ainda
que a mdia (43,6) suficientemente prxima da mediana (39,3), e como o
teste de normalidade de Shapiro-Wilk indica um valor de 0,9653 (p-valor de
0,012), a hiptese de normalidade no pode ser rejeitada e permite aplicar
uma interpolador de krigagem.
14
12
10
Freqncia
0
0
0
10
20
30
40
50
60
70
80
90
10
Taxa de homicdios
Figura 5-25. Distribuio da taxa de homicdios por 100 mil habitantes para So Paulo em
1996. direita: frequncia relativa; esquerda: grfico de probabilidade normal.
A l ld d f
Com base nestas hipteses, e com o objetivo de entender os padres
espao-temporais em So Paulo, utilizou-se a krigagem ordinria para
produzir superfcies das taxas de homicdio para os 96 distritos de So Paulo
para os anos de 1996 e 1999 (a distribuio de taxas de 1999 apresentou
padres semelhantes que a de 1996). Para tal, o conjunto de pontos obtido
pela associao do valor do parmentro de cada rea, ao seu centride, foi
tomado como uma amostra, usada para computar um variograma que
modelou a estrutura de correlao espacial. A superfcie obtida est
apresentada na Figura 5-26 e mostra uma queda significativa nas reas com
as menores taxas de homicdios (menos que 30 mortes por 100,000 pessoas)
em 1999 com relao a 1996. Como as reas de menor taxa de homicdio
correspondem s reas mais ricas da cidade (compare com as figuras 5.1), o
resultado mostra um espalhamento espacial do crime, com a violncia
ocupando progressivamente toda a cidade.
Taxa Homicdios
(por 100,000)
A l ld d f
para taxas permitem a correo de efeitos associados a pequenas populaes.
Modelos de regresso espacial permitem estabelecer as relaes entre as
variveis, levando em conta os efeitos espaciais; neste caso, o poder
explicativo dos modelos pode ter ganhos significativos. A gerao de
superfcies um maneira eficiente de apreenso visual dos padres espaciais.
Em resumo, estudiosos de dados scio-econmicos podem se beneficiar
substancialmente das tcnicas deste captulo.
5.9 REFERNCIAS
A l ld d f
Os estimadores bayesianos empricos foram inicialmente propostos em
(Marshall, 1991). Uma discusso geral sobre o assunto, incluindo uma
discusso sobre os estimadores bayesianos completos, pode ser encontrada
no excelente trabalho de Renato Assuno (Assuno, 2001) ou na reviso
abrangente de Trevor Bailey, publicada nos Cadernos de Sade Pblica
(Bailey, 2001).
Os dados de So Paulo do censo de 1991 foram extrados do trabalho
"Mapa de Excluso/Incluso Social na Cidade de So Paulo", coordenado
pela prof. Aldaza Sposati, da PUC/SP (Sposati, 1996). As taxas de homicdio
para os distritos de So Paulo em 1996 e 1999 foram produzidas pela
Fundao SEADE e a gerao de superfcies por krigeagem foi feita por Jos
Luiz Rodriguez Yi.
Os dados do censo de Belo Horizonte para o ano de 1991 foram
cedidos pela PRODABEL, e o estudo do problema das mudanas de unidade
de anlise foi realizado por Taciana Dias e Maria Piedade Oliveira.
Os dados de mortalidade infantil para a cidade do Rio de Janeiro foram
organizados pela FIOCRUZ e esto apresentados no trabalho de Eleonora
DOrsi e Marilia Carvalho (D'rsi & Carvalho, 1998). Os dados do estudo
sobre mortalidade por homicdios na Regio Sudeste tambm foram
publicados pela equipe da FIOCRUZ, e podem ser acessados nas pginas
pessoais dos autores: http://www.procc.fiocruz.br/~marilia/ e
www.procc.fiocruz.br/~oswaldo/.
O nmero especial dos Cadernos de Sade Pblica sobre o tema de
estatsticas espaciais em sade (volume 17(5), outubro-novembro 2001),
disponvel na Internet (www.scielo.br) representa um bom ponto de partida
sobre o tema, com vrios estudos relevantes.
1. ANSELIN, L. SpaceStat tutorial: a workbook for using SpaceStat in the
analysis of spatial data. Santa Barbara, NCGIA (National Center for
Geographic Information and Analysis), 1992.
2. ANSELIN, L. Local indicators of spatial association - LISA. Geographical
Analysis v.27, p.91-115, 1995.
3. ANSELIN, L. The Moran scatterplot as ESDA tool to assess local
instability in spatial association. In: M. Fisher, H. J. Scholten and D.
Unwin (ed). Spatial Analytical Perspectives on GIS. London, Taylor &
Francis, 1996. v., p.111-126.
4. ASSUNO, R. Estatstica Espacial com Aplicaes em Epidemiologia,
Economia e Sociologia. So Carlos, SP, UFScar, 2001. Disponvel na
homepage www.est.ufmg.br/~assuncao.
A l ld d f
5. BAILEY, T. Spatial Statistics Methods in Health. Cadernos de Sade
Pblica v.17, n.5,, 2001.
6. BAILEY, T. and A. GATTREL. Spatial Data Analysis by Example.
London, Longman, 1995.
7. BRUNSDON, C. A.S. FOTHERINGHAM AND M.E. CHARLTON,
Geographically Weighted Regression: A Method for Exploring Spatial
Nonstationarity. Geographical Analysis, 28(4), 281-298, 1996.
8. CRUZ, O. C. Homicdios no Estado do Rio de Janeiro: anlise da
distribuio espacial e sua evoluo. Dissertao de mestrado/Faculdade
de sade Pblica-USP, 1996.
WLL~~~KKKL~LLJK=
9. DIGGLE, P. Spatial statistics in the biomedical science: future directions.
Lancaster, Lancaster University, 2001.
10. D'RSI, E. and M. S. CARVALHO. Perfil de Nascimentos no Municpio
do Rio de Janeiro - Uma Anlise Espacial. Cadernos de Sade Pblica
v.14, n.1, p.367-379, 1998.
11. FOTHERINGHAM, A.S., C. BRUNSDON AND M.E. CHARLTON,
2000, Quantitative Geography, London: Sage
12. FOTHERINGHAM, A.S., M.E. CHARLTON AND C. BRUNSDON,
The Geography of Parameter Space: An Investigation into Spatial Non-
Stationarity. International Journal of Geographic Information Systems,
10: 605-627, 1996.
13. GELMAN, A., CARLIN, J.B., STERN, H.S., RUBIN, D.B. (1995)
Bayesian Data Analysis Chapman & Hall/CRC.
14. GILKS, W.R., RICHARDSON, S., SPIEGELHALTER, D.J. (orgs) (1998),
Markov Chain Monte Carlo in Practice, Chapman & Hall.
15. MARSHALL, R. Mapping disease and mortality rates using empirical
Bayes estimators. Applied Statistics v.40, p.283-294, 1991.
16. MARTIN, D. Geographic Information Systems: Socioeconomic
Applications. London, Routledge, 1995.
17. MARTIN, D. An assessment of surface and zonal models of population.
International Journal of Geographical Information Systems v.10, p.973-
989, 1996.
18. MARTIN, D. Optimizing census geography: the separation of collection
and output geographies. International Journal of Geographical
Information Science v.12, p.673-685, 1998.
A l ld d f
19. OPENSHAW, S. Developing GIS-relevant zone-based spatial analysis
methods. In: P. Longley and M. Batty (ed). Spatial Analysis: Modelling
in a GIS Environment. New York, John Wiley, 1997. v., p.55-73.
20. OPENSHAW, S. and S. ALVANIDES. Applying Geocomputation to the
analysis of spatial distributions. In: P. A. Longley, Goodchild, M. F.,
Maguire, D. J. and Rhind, D. W (ed). Geographical Information
Systems: Principles, Techniques, Management and Applications.
Chichester, Wiley, 1999. v., p.267-282.
21. SPOSATI, A. Mapa de Excluso/Incluso Social de So Paulo. So Paulo,
EDUC, 1996.
A l ld d f