Escolar Documentos
Profissional Documentos
Cultura Documentos
Gilberto Cmara
Marilia S Carvalho
Oswaldo Gonalves Cruz
Virginia Correa
5.1 INTRODUO
Este captulo discute mtodos de anlise de dados espaciais cuja
localizao est associada a reas delimitadas por polgonos. Este caso ocorre
com muita freqncia quando lidamos com eventos agregados por
municpios, bairros ou setores censitrios, onde no se dispe da localizao
exata dos eventos, mas de um valor por rea. Alguns desses indicadores so
contagens, como o caso da maior parte das variveis coletadas no censo:
por exemplo, o IBGE fornece, para cada setor censitrio, o nmero de chefes
de famlia em cada uma das faixas de renda consideradas. Diversos
indicadores de sade tambm so deste tipo: o Ministrio e Secretarias de
Sade organizam e disponibilizam dados de bitos, partos, doenas
transmissveis por municpio. Utilizando duas contagens bitos e
populao, por ex. taxas de densidade de ocorrncia, como taxas de
mortalidade ou incidncia so estimados. Outros indicadores bastante teis
so: (a) propores, como percentual de adultos analfabetos; (b) mdias,
como renda mdia do chefe da famlia por setor censitrio; e (c) medianas,
como mediana etria em homens.
A forma usual de apresentao de dados agregados por reas o uso
de mapas coloridos com o padro espacial do fenmeno. A Figura 5-1
mostra a distribuio espacial do ndice de excluso social1 para os 96
distritos da cidade de So Paulo, para os dados do censo de 1991. Verificase que 2/3 dos 96 distritos de So Paulo estavam abaixo dos ndices
mnimos de incluso social em 1991. Uma forte polarizao centro-periferia
claramente perceptvel no mapa, que apresenta duas grandes regies de
excluso social, as zonas Sul e Leste da cidade. Na zona Leste, nota-se um
gradiente do ndice de excluso/incluso social, que piora medida que nos
afastamos do centro. Na zona Sul, a descontinuidade do ndice mais
Figura 5-1 ndice de Excluso/Incluso Social dos Bairros da Cidade de So Paulo para os
dados de 1991, com 96 distritos agrupados por sextis.
Grande parte dos usurios limita seu uso de SIG a essas operaes de
visualizao, tirando concluses intuitivas. Mas possvel ir muito alm.
Quando visualizamos um padro espacial, muito til traduzi-lo em
consideraes objetivas: o padro que observamos aleatrio ou apresenta
uma agregao definida? Esta distribuio pode ser associada a causas
mensurveis? Os valores observados so suficientes para analisar o fenmeno
espacial a ser estudado? Existem agrupamentos de reas com padres
diferenciados dentro da regio de estudo?
Para abordar estas questes, este captulo apresenta um conjunto de
tcnicas de anlise espacial de dados agregados por reas. O primeiro passo
escolher o modelo inferencial a ser utilizado. A hiptese mais comum supor
que as reas so diferenciadas, e que cada uma delas possui uma identidade
prpria. Do ponto de vista estatstico, isto implica em que cada rea
apresenta uma distribuio de probabilidade distinta das demais, o chamado
modelo espacial discreto. A alternativa supor que o fenmeno estudado
apresenta continuidade espacial, formando uma superfcie, o chamado
modelo espacial contnuo estudado no captulo anterior. Neste caso, as reas
so consideradas apenas um suporte para coleta de dados, e o modelo
inferencial desconsidera os limites de cada rea. A produo de superfcies a
partir de dados de rea ser discutida no final deste captulo.
A questo de agregao de contagens em reas levanta ainda problemas
conceituais importantes: Pode-se estimar comportamentos individuais a
partir de dados agregados? Em que medida a comportamento dos
ld
agregados reflete mais do que a soma dos indivduos? Qual o erro cometido
ao estimar indicadores onde as contagens so muito pequenas? Neste
captulo, aps a apresentao dos modelos adequados anlise de dados
agregados por reas sero abordados os conceitos bsicos da anlise
espacial, para dados agregados por rea.
ld
ld
ld
-0,2/0,0
0,0/0,2
0,2/0,4
0,4/0,6
0,6/0,8
0,8/1,0
Pares
-0,8/-0,6
-0,6/-0,4
11
33
-0,4/-0,2
23
14
11
10
70
-0,2/0,0
27
34
13
21
112
0,0/0,2
42
75
32
55
207
0,2/0,4
17
44
50
68
181
0,4/0,6
10
42
110
168
0,6/0,8
75
101
0,8/1,0
112
123
Totais
45
38
114
187
159
449
1000
ld
5.4
ANLISE EXPLORATRIA
ld
ld
Figura 5-6 Mortalidade por homicdios no Rio de Janeiro, para os trinios 79-81 e 80-92.
A
ld
o = Mediana
x = Mdia
Eixo Leste-Oeste
Eixo Norte-Sul
RENDA
x
x
oo
o
o
xo x
x
x
o
30
o
x
o
x o
o
x
o
x xx
o
x x
o
x x
o
o
-1
10
o
x
o
x
xoo
x
oo o x o
x
xx
xo
x
x
x xo
xx
o
xo o
oo o
xx x
o
o
x o
oo
o
xx o
x oo
x
o
x
linhas
x
o
o
x
20
30
o
x
o
x
o
40
ox o
xo
x o
ox
ox
x o ox x o
x xo
o xo x
ox
ox
o
x
ox
x
o x
o
x x
o
x
x
o
oo xx
x
o
x
o
x
o
xo
10
x
o
ox
o
x
o
x
o
x
o
0
RENDA
40
x
o
20
S-N
L-O
x
o
-1
xo
x
ox
oo
x
o
RENDA
colunas
x
o
o
xx
x
x
10
o
xx
o
o
x
o
x o
xx
xx ox x
x
oo
oo
o
20
o
x
o
x x
o
30
o x
x
xo o
x
o o
xx x oo o
x
o
x
o
x
o
30
xo
x
o
x o
x
o
xo
o
40
o
x
o
x
o
20
o
x
o
x
o
oxx
x
linhas
o
x o
xo
x o
x
o
x x o
o x x
x
o
ox
o
x
o
40
colunas
x
o
x
o
0.2
x
ox
o
x
10
o
xo
x
0.4
0.6
o
xo
o
x x xo
xx
o o
o
xo
x
o
x
0.2
ESCOLARIDADE
0.8
ESCOLARIDADE
ox
x oo x
o
x o
x
x o
x
o
x
o
o
x x
o
x
o
x
o
x
o
x
o
x
o
0.4
xoo
x
o
0.6
ESCOLARIDADE
ld
ld
A
B
C
D
E
A
B
C
D
E
0
0,5
0
0,5
0
0,25
0
0,25 0,25 0,25
0
0,5
0
0
0,5
0,33 0,33
0
0
0,33
0
0,33 0,33 0,33
0
Figura 5-8- Matriz de proximidade espacial de primeira ordem, normalizada pelas linhas.
A idia da matriz de proximidade espacial pode ser generalizada para
vizinhos de maior ordem (vizinhos dos vizinhos). Com critrio anlogo ao
adotado para a matriz de vizinhana de primeira ordem, pode-se construir as
matrizes W(2), ..., W(n). Por exemplo, na Figura 5-6, as reas A e C so
vizinhas na matriz de proximidade espacial de ordem 2. No que segue, por
simplicidade, os coeficientes da matriz de primeira ordem so designados
simplesmente por wij, e os das matrizes de ordem k por wij(k) e que essas
matrizes esto normalizadas por linhas.
Mdia Mvel Espacial
Uma forma simples de explorar a variao da tendncia espacial dos
dados calcular a mdia dos valores dos vizinhos. Isto reduz a variabilidade
espacial, pois a operao tende a produzir uma superfcie com menor
flutuao que os dados originais. A mdia mvel i associada ao atributo zi,
relativo i-sima rea, pode ser calculada a partir dos elementos wij da
matriz normalizada de proximidade espacial W(1), tomando-se simplesmente
a mdia dos vizinhos:
A
ld
i =
wij zi
j =1
(5.1.)
Figura 5-9- Distribuio dos idosos na cidade de So Paulo (censo de 1991). esquerda,
apresentao dos valores por distribuio estatstica. direita, mdia mvel local.
Indicadores Globais de Autocorrelao Espacial: ndices de Moran e Geary
Um aspecto fundamental da anlise exploratria espacial a
caracterizao da dependncia espacial, mostrando como os valores esto
correlacionados no espao. Neste contexto, as funes utilizadas para estimar
quanto o valor observado de um atributo numa regio dependente dos
valores desta mesma varivel nas localizaes vizinhas so a autocorrelao
espacial e o variograma. O ndice global de Moran I, a expresso da
autocorrelao considerando apenas o primeiro vizinho:
ld
wij ( zi z )( z j z )
I=
i =1 j =1
( zi z ) 2
i =1
(5.2.)
I(k ) =
n wij( k ) ( zi z )( z j z )
i =1 j =1
( zi z )
(5.3.)
2
i =1
ld
C=
( n 1)
wij ( zi z j )2
i =1
j =1
i =1
j =1
i =1
wij zi
(5.4.)
2
ld
N
Ipop =
W==
k==
==
=
u=
==
==
w==
=
==
i =1
i =1
m m
i =1 j =1
i =1
(X 2 di d j wij X di wii )b (1 b )
=
=
=
=
=
=
=
=
==
=
(5.5.)
k==~==
k=~==~==~=~=~K=
k==~=~=~==
m==~=~=~==EZLkF=
m~=~==~=~=~=
q~~=~=~=~=~==
m==~=~=~==EZLkF=
a~==~=~~=u==~=~==u=
m=~==~===~=~====
m~~=~=EkLuF=
ld
Moran I
Ipop
Indicador
0,5861
0,00015
p-valor
7,5091
88,9238
% entre reas
54,3
% intra reas
45,7
Variograma
De maneira anloga ao apresentado no captulo 3, podemos utilizar o
variograma como indicador da dependncia espacial. Para tanto, associamos
o valor nico do atributo de cada rea a um ponto, usualmente o centro
geomtrico ou populacional do polgono. Com base nestas localizaes,
calcula-se a funo variograma. Note-se quando o dado no-estacionrio,
tambm o variograma no se estabiliza, mas continua crescendo sempre com
a distncia. Como exemplo de uso do variograma para dados de rea, a
Figura 5-11 ilustra o ndice de Desenvolvimento Humano IDH para o
estado de So Paulo, calculado pelo IPEA, com base no censo de 1991. A
Figura 5-12 apresenta o variograma do IDH, computado a partir dos
centride de cada municpio.
Figura 5-12 Variograma experimental do IDH para So Paulo (censo de 1991). Passo de
amostragem: 40 km (tolerncia : 20 km).
ld
ld
MG
Autocorrelao
0.6
0.4
0.2
0.0
-0.2
100
200
300
400
500
600 0
100
200
300
400
500
600
ld
0,8
0,6
0,4
Q4
Q1
Q2
Q3
WZ
0,2
0,0
-0,2
-0,4
-0,6
-0,8
-1,0
-0,5
0,0
0,5
1,0
1,5
Z = 0,642*WZ
ld
ld
zi
wij z j
j =1
n
Ii =
z 2j
(5.6.)
j =1
ld
Figura 5-18 - Taxa total de mortalidade infantil por mil nascidos vivos no Rio de
Janeiro, em 1994.
Numa primeira leitura, este mapa choca pelas altas taxas de mortalidade
de vrios bairros, com 15 bairros apresentando uma taxa maior que 40
bitos por mil nascidos, e 2 casos com taxas acima de 100 por mil nascidos.
Um observador desatento poderia concluir que todos estes bairros
apresentam um grave problema social. Na realidade, muitos destes valores
extremos ocorrem nos bairros com pequenas populaes, pois a diviso da
cidade utilizada esconde enormes diferenas na populao em risco, variando
de 15 at 7500 crianas por bairro. Por exemplo, considere uma regio com
15 crianas nascidas e nenhuma morte, o que aparentemente indicaria uma
situao ideal. Se apenas uma criana morre neste ano, a taxa passa de 0 por
mil para 66 por mil !
Tais problemas so tpicos de recobrimentos espaciais sobre divises
poltico-administrativas, onde se analisam reas com valores muito distintos
de populao em risco. Vrios estudos tm mostrado que em divises
polticas como bairros e municpios apresentam relaes inversas de rea e
populao, isto , os maiores bairros em populao tendem a ter menores
A
ld
ld
i = wi ti + ( 1 wi ) i ,
(5.7.)
i2
(5.8.)
i2 + i ni
partir dos dados. Neste caso, calcula-se i a partir das taxas observadas:
yi
ni
(5.9.)
ni (ti ) 2
=
ni
(5.10.)
ld
ld
N
W
E
S
Alisamento Bayesiano
Emprico
0
0 - 2.28
2.28 - 4.63
4.63 - 8.79
8.79 - 144.33
2.53
4.35
5.83
8.43
13.59
ld
Y = X + , ~ N(0, 2 ) ou
.. X 1k 1 0 1
.. X 2k 1 1 2
..
.. .. + ..
..
.. .. ..
.. X nk 1 k 1 n
Y1 1 X 11
Y 1 X
21
2
.. = .. ..
.. .. ..
Yn 1 X n1
(5.11.)
(5.12.)
ld
Y = WY + X + ,
(5.13.)
ld
yi =
wij y j +
xi i + i
j
i =1
(5.14.)
Y = X + ,
= W + ,
(5.15.)
Y WY = X WX +
(5.16.)
( I W )Y = ( I W ) X +
(5.17.)
ou ainda como
o que pode ser visto como uma regresso no-espacial nas variveis
filtradas
Y * = ( I W )Y , X * = ( I W ) X
(5.18.)
ld
Y1 = X 11 + 1 , ind = 1
(5.19.)
Y2 = X 2 2 + 2 , ind = 2
(5.20.)
ld
Y ( s) = X (s) + (s )
(5.21.)
Y ( s) = ( s ) X + ,
(5.22.)
= ( X T X) 1 X T Y
(5.23.)
=~~~=~====~=~W=
( s) = ( X T W (s) X ) 1 X T W (s)Y
ld
(5.24.)
d 2
ij
exp
2
2
2
1
(5.25.)
ld
(5. 26.)
ld
(5. 27.)
(5. 28.)
(5. 29.)
(5. 30.)
(5. 31.)
ld
Tabela 5-3
Resultados da Regresso para Longevidade e Renda em So Paulo, 1991
Regresso MMQ
R2 ajustado
Log verossimilhana
AIC (Crterio de Inf. Akaike)
ndice de Moran dos resduos
Spatial Lag
Regimes
Espaciais
0,280
0,586
0,80
-187,92
-150,02
-124,04
379,84
306,51
260,09
0,620
0,020
ld
zi =
k( ij ) z j
j =1
n
k(
dij
, dij
(5. 32.)
j =1
ld
ij
k( ) z j , d ij
2
(5.33.)
j =1
(a)
(b)
Figura 5-24 (a) Mortalidade por homicdios no RJ (1990-1992). Mapa temtico com
valores por municpio. (b) Superfcie obtida por estimador de intensidade no-paramtrico
ld
Freqncia
10
8
6
4
2
90
10
0
80
70
60
50
40
30
20
10
Taxa de homicdios
Figura 5-25. Distribuio da taxa de homicdios por 100 mil habitantes para So Paulo em
1996. direita: frequncia relativa; esquerda: grfico de probabilidade normal.
ld
Taxa Homicdios
(por 100,000)
ld
5.9 REFERNCIAS
A referncia bsica para a maior parte das tcnicas apresentadas neste
captulo o livro de Trevor Bailey, Spatial Data Analysis by Example
(Bailey and Gattrel, 1995) e uma discusso geral sobre os modelos de
distribuio para dados espaciais apresentada em Diggle (2001). A
homepage de Peter Diggle (www.maths.lancs.ac.uk/~diggle) contm material
relevante sobre estatstica espacial.
No caso dos modelos de regresso espacial, o software SpaceStat de Luc
Anselin, e a documentao associada (Anselin, 1992) apresenta em detalhe os
modelos de regresso com efeitos globais (spatial lag e spatial error), e o
modelo de regimes espaciais. O SpaceStat foi utilizado para computar os
modelos no exemplo apresentado no captulo. Os trabalhos de Luc Anselin
no campo de indicadores locais de autocorrelao espacial (Anselin, 1995;
Anselin, 1996) tambm so referncias importantes. O stio do SpaceStat
www.spacestat.com.
O modelo de regresso GWR (geographically weighted regression) foi
idealizado por A.Stewart Fotheringham, e est descrito em seu livro
Quantitative Geography (Fotheringham et al., 2000) e outros trabalhos
(Fotheringham et al., 1996) (Brunsdon et al., 1996). Maiores informaes
podem ser encontradas no stio http://www.ncl.ac.uk/~ngeog/GWR/.
A discusso sobre o problema dos efeitos de escala e a chamada falcia
ecolgica deve muito aos trabalhos de Stan Openshaw; como exemplo,
veja-se Openshaw (1997). Seus trabalho sobre o uso de tcnicas de
otimizao combinatria para obter regies mais agregadas, tambm so
muito importantes (Openshaw and Alvanides, 1999).
A questo da gerao de superfcies a partir de dados socioeconomicos
deve muito aos trabalhos de David Martin, em seu livro Geographic
Information Systems: Socioeconomic Applications (Martin, 1995) e seus
trabalhos sobre os dados censitrios no Reino Unido (Martin, 1996; Martin,
1998).
ld
ld
Systems:
Socioeconomic
ld
ld