Escolar Documentos
Profissional Documentos
Cultura Documentos
Gilberto Cmara
Marilia S Carvalho
2.1 INTRODUO
Neste captulo sero estudados os fenmenos expressos atravs de ocorrncias
identificadas como pontos localizados no espao, denominados processos pontuais.
So exemplos: localizao de crimes, ocorrncias de doenas, e localizao de
espcies vegetais. O objetivo destas anlises estudar a distribuio espacial destes
pontos, testando hipteses sobre o padro observado: se aleatrio, se apresentase em aglomerados ou se os pontos esto regularmente distribudos. O objeto de
interesse a prpria localizao espacial dos eventos em estudo.
O tipo de dado nestes estudos consiste em uma srie de coordenadas de pontos
(p1, p2, ...) dos eventos de interesse dentro da rea de estudo. O termo evento
refere-se a qualquer tipo de fenmeno localizvel no espao que, dentro de nossa
escala de investigao, possa estar associado a uma representao pontual.
Exemplos incluem:
Para ilustrar estes conceitos, considere a figura 2.1, que apresenta a distribuio
de 299 bitos de menores de um ano, registrados no ano de 1998, de crianas
nascidas no mesmo ano na cidade de Porto Alegre, Rio Grande do Sul, divididos
em neonatais (menores de 28 dias de nascidos) e posneonatais (entre 28 dias e um
ano). A anlise de padres neste tipo de dado pode ser utilizada como uma forma
de identificao de possveis reas com maior concentrao de mortes infantis, de
comparao entre os bitos nos dois grupos de idade, e de identificao de fatores
de risco associados a esta ocorrncia.
Os dados de distribuies pontuais tm as seguintes caractersticas:
2-2
( )]
E [N (du )]
,
du
(u ) = lim
du 0
(2.1)
(d (ui ), d (u j )) =
Quando o
( )]
C N (dui ), N du j
du i , du j 0
dui , du j
lim
(2.2)
Vale relembrar a discusso do seo 1, onde caracterizamos os eventos no espao por um processo
estocstico, onde cada ocorrncia uma realizao de uma varivel aleatria distinta.
2-3
{Z i (ui ), ui S i : i = 1,..., n}
(2.3)
2-4
Kernel k()
Largura
Figura 2-2 - Estimador de intensidade de distribuio de pontos.
(u ) =
k(
d (ui , u )
i =1
) , d (ui , u )
(2.4)
Este estimador chamado kernel estimator e seus parmetros bsicos so: (a)
um raio de influncia ( 0) que define a vizinhana do ponto a ser interpolado e
controla o "alisamento" da superfcie gerada; (b) uma funo de estimao com
propriedades de suavizao do fenmeno. O raio de influncia define a rea
centrada no ponto de estimao u que indica quantos eventos ui contribuem para a
estimativa da funo intensidade . Um raio muito pequeno ir gerar uma
superfcie muito descontnua; se for grande demais, a superfcie poder ficar muito
amaciada. No caso da funo de interpolao k(), comum usar funes de terceira
ou quarta ordem, como
Anlise Espacial de Dados Geogrficos
2-5
k ( h) =
(1 h 2 )
(2.5)
ou o kernel gaussiano
k ( h) =
h2
exp 2
2
2
(2.6)
(u ) =
3 h2
2 1 i2
hi
(2.7)
O estimador de intensidade muito til para nos fornecer uma viso geral da
distribuio de primeira ordem dos eventos. Trata-se de um indicador de fcil uso
e interpretao. A figura 2.3 ilustra a aplicao do estimador de intensidade para o
caso de mortalidade por causas externas em Porto Alegre, com os dados de 1996.
A localizao dos homicdios (vermelho), acidentes de trnsito (amarelo) e
suicdios (azul) esta mostrada na figura 2.3 esquerda e o estimador de intensidade
dos homicdios apresentado na figura 2.3. A superfcie interpolada mostra um
padro de distribuio de pontos com uma forte concentrao no centro da cidade
e decrescendo em direo aos bairros mais afastados.
Figura 2.3: Distribuio de casos de mortalidade por causas externas em Porto Alegre em 1996 e
estimador de intensidade.
2-6
(2.8)
Figura 2-4 Funo vizinho-mais-prximo para mortalidade infantil neonatal em Porto Alegre.
Anlise Espacial de Dados Geogrficos
2-7
A anlise de vizinhana pode ser usada como mtodo formal para se comparar
estatsticamente a distribuio dos eventos observados com o que se esperaria na
hiptese da aleatoriedade espacial completa (CSR). Esta metodologia consiste em
se criar envelopes de simulao para a distribuio CSR, a fim de se acessar a
significncia dos desvios. Na hiptese de CSR, a funo de distribuio G(w) seria
dada por um processo de Poisson
G ( h) = 1 e h h 0
2
(2.9)
G ( h) =
G i (h)
i
(2.10)
(2.11)
2-8
Figura 2-5 Grfico de G ( h) (estimado) versus G (h) (CSR), com envelopes superior e inferior,
para os dados de mortalidade neonatal em Porto Alegre
Embora o mtodo do vizinho mais prximo fornea uma indicao inicial da
distribuio espacial, ele considera apenas escalas pequenas. Para se ter informao
mais efetiva para o padro espacial em escalas maiores, o melhor mtodo a ser
utilizado o da funo K.
Funo K
A funo K, tambm denominada medida de momento de segunda ordem
reduzido, definida para o processo univariado como:
K(h) = E(# eventos contidos a uma distncia h de um evento arbitrrio) (2.12)
onde # est associado ao nmero de eventos, E() o operador de estimativa, e
a intensidade ou nmero mdio de eventos por unidade de rea, assumida
constante na regio. Uma estimativa de K(h) :
A
K (h) = 2
n
I h ( d ij )
j ,i j
wij
(2.13)
2-9
L (h) =
K (h)
(2.14)
Figura 2-6 Funo K com simulao para os dados de mortalidade neonatal em Porto Alegre.
2-10
logit( yi ) = xi + g( si ) ,
(2.15)
onde:
xi o vetor de covariveis,
2-11
(2.16)
A interpretao dos resultados razoavelmente direta: os parmetros indicam a
razo de chances estimada pelo modelo (Quadro 2-1), da forma usual da regresso
logstica, e no mapa so apresentadas as reas onde a probabilidade de obter o
valor do kernel estimado est significativamente diferente da intensidade mdia
do processo. O algoritmo para estimar a largura de banda tima para os dados
utiliza validao cruzada de mnimos ponderados para o passo de regresso noparamtrica. No passo de suavizamento (Eq. 2.15) escolhe-se o valor de h que
minimiza:
wi {zi g 1( si )}
n
CV ( h ) =
i =1
(2.17)
2-12
Intercepto
Estimativa
Erro padro
P-valor
4,0717
0,9487
0,0000
Sexo
-0,3674
0,2713
0,1761
Peso ao nascer
-0,0018
0,0002
0,0000
Idade da me
-0,0131
0,0197
0,5059
Instruo da me
0,0718
0,2753
0,7942
Durao da gestao
1,1685
0,3737
0,0018
Tipo de gravidez
-0,2006
0,6558
0,7598
Tipo de parto
-0,5320
0,2838
0,0613
A figura 2-7 mostra os mapas de risco para a mortalidade infantil aps, includas as
co-variveis individuais da criana e da me. interessante observar que no centro
da cidade de Porto Alegre existe uma regio onde o risco da mortalidade
significativamente menor e outra onde maior. Quanto s variveis individuais,
somente foram significativas o peso ao nascer, que reconhecidamente a varivel
mais associada mortalidade neo-natal, e a durao da gestao, indicativo de
prematuridade. Alm de mapeamento do risco, importante avaliar se a superfcie
estimada varia significativamente na regio, ou seja, se existem evidncias
estatsticas suficientes para rejeitar a hiptese nula de risco constante na regio,
tendo-se controlado os fatores individuais de risco. Em termos do modelo, isso
equivale ao teste da hiptese H0: g(s)=0. Tambm de interesse a construo de
contornos de tolerncia que auxiliam na identificao de reas onde o risco
significativamente superior (ou inferior) mdia global. Ou seja, reconhecendo o
papel de um dado fator como um preditor importante da mortalidade infantil e
controlando-o, deseja-se identificar reas onde o risco significativamente mais
elevado, buscando orientar a interveno.
2-13
Figura 2-7. Mapas de risco para a mortalidade infantil, controlando para fatores individuais, com a
largura de banda estimada por validao cruzada, Porto Alegre, 1998
O teste global do risco e a identificao de reas de baixo e alto risco podem
ser feitos utilizando o mtodo de simulao Monte Carlo, seguindo os passos do
algoritmo abaixo:
1. Ajustando-se um modelo de regresso logstica convencional, para cada evento
caso ou controle estima-se a probabilidade ajustada pi . Ou seja, dadas as
covariveis daquele registro, qual a probabilidade ser um caso.
2. Fixando-se as localizaes de cada ponto, amostra-se m dos n indivduos (sem
reposio) com probabilidade proporcional a pi e estes so rotulados como
casos e os n-m restantes como controles.
3. Calcula-se uma nova estimativa de g(s), g 1 ( s ) , a estimativa centralizada em
~ ( s ) = g ( s ) g , onde g = n 1 n g ( s ) e a estatstica
torno da mdia g
1
1
1
1
1
i
n
i =1
2
t 1 = n 1 g~1 ( si ) .
i =1
~ (s).
digamos g
0
2-14
2.7 REFERNCIAS
A referncia das tcnicas mais bsicas apresentadas neste captulo o livro de
Trevor Bailey, Spatial Data Analysis by Example (Bailey and Gattrel, 1995). As
tcnicas de caso-controle espacial foram desenvolvidas por Peter Diggle e
colaboradores, e a maior parte das rotinas e algoritmos est disponvel na pgina
da do Departamento de Matemtica e Estatstica da Universidade de Lancaster
(http://www.maths.lancs.ac.uk). O relatrio tcnico An S+ library on risk
estimation and cluster detection in case-control studies, de Jarner, M. F. and
Diggle, P. J., mostra as funes desenvolvidas e como us-las. Est disponvel em
http://www.maths.lancs.ac.uk/dept/stats/techabstracts02.html.
Os modelos aditivos generalizados, que servem de base para a extenso
espacial podem ser melhor estudados em HASTIE, T. J.; TIBSHIRANI, R. J.,
1990, Generalized Additive Models. London:Chapman and Hall. Um excelente
livro para estudar modelos de regresso o HOSMER, D. W.; LEMESHOW, S.,
1989, Applied Logistic Regression. New York:Wiley.
Os trabalho sobre mortalidade infantil em Porto Alegre foi publicado no
nmero especial dos Cadernos de Sade Pblica sobre o tema de estatsticas
espaciais em sade (volume 17(5), outubro-novembro 2001, 1251-1261),
disponvel na Internet (www.scielo.br).
2-15