Você está na página 1de 16

Problemas de Escala e a Relao rea-Indivduo em Anlise Espacial de Dados Censitrios

Taciana de Lemos Dias1


Analista de Sistemas da Empresa de Informtica e Informao do Municpio de Belo Horizonte - PRODABEL Doutoranda em Computao Aplicada do Instituto Nacional de Pesquisas Espaciais INPE reas de interesse: Modelos para representao espao-temporais urbanos, ontologias, banco de dados, gesto de informao, anlise espacial e geoprocessamento

Maria da Piedade Gomes de Oliveira2


Analista de Sistemas da Empresa de Informtica e Informao do Municpio de Belo Horizonte - PRODABEL Doutoranda em Computao Aplicada do Instituto Nacional de Pesquisas Espaciais INPE reas de interesse: Anlise espacial, geoestatstica, minerao de dados espaciais, ontologias e geoprocessamento

Gilberto Cmara3
Coordenador Geral de Observao da Terra do INPE Instituto Nacional de Pesquisas Espaciais Doutor em Computao Aplicada pelo INPE Professor do Curso de Ps-Graduao em Computao Aplicada do INPE reas de interesse: Tecnologia de Sistemas de Informao Geogrfica, bancos de dados geogrficos, anlise espacial e estatstica espacial, modelagem espao-temporal de informao e processamento de imagens de sensores remotos

Marilia S Carvalho4
Pesquisadora Titular da Escola Nacional de Sade Pblica- ENSP e Fundao Oswaldo Cruz FIOCRUZ Doutora em Engenharia Biomdica, COPPE/UFRJ Ps-doutorado em Estatstica na Universidade de Lancaster/Reino Unido reas de interesse: Mtodos de anlise de dados espaciais e modelagem estatstica de dados dependentes em sade pblica e epidemiologia

PALAVRAS-CHAVE
Anlise espacial Geoestatstica Dados censitrios SIG Sistemas de Informaes Geogrficas
1 2 3 4

E-mail:taciana@pbh.gov.br E-mail:mpiedade@pbh.gov.br E-mail:gilberto@dpi.inpe.br E-mail:carvalho@procc.fiocruz.br

89

Taciana de Lemos Dias, Maria da Piedade Gomes de Oliveira, Gilberto Cmara e Marilia S Carvalho

RESUMO
Este artigo apresenta os problemas relacionados com a manipulao de dados agregados por rea e sua interpretao em diferentes subdivises de unidades de reas. A granularidade da subdiviso territorial interfere nos resultados, podendo gerar concluses imprprias sobre o fenmeno estudado. Assuntos relevantes para a anlise desses dados, tais como agregao e zoneamento, alm de estimativas de taxas em reas de pequenas populaes, so discutidos atravs de exemplos. Solues no campo da anlise espacial so propostas para reduzir as distores causadas pela agregao dos dados em reas.

1. INTRODUO
Compreender a distribuio espacial de fenmenos constitui hoje um grande desafio para a elucidao de questes centrais em diversas reas do conhecimento, tais como sade, meio ambiente, geologia, agronomia, e vrias entre tantas outras. Tais estudos vm se tornando cada vez mais comuns devido crescente democratizao das informaes, evoluo e reduo dos custos das tecnologias e difuso de Sistemas de Informao Geogrfica (SIG) com interfaces amigveis. As informaes esto mais facilmente acessveis devido aos avanos tecnolgicos como Internet, redes e meios de armazenamento com maior capacidade. Os SIG permitem a apresentao espacial de variveis como populao de indivduos, ndices de qualidade de vida e vendas de empresas numa regio, atravs de mapas. Para tanto, basta dispor de um banco de dados e de uma base geogrfica contendo alguma forma de diviso territorial em unidades espaciais de referncia (como um mapa de municpios), e qualquer SIG torna-se capaz de apresentar um mapa colorido (coropltico) que permite a visualizao do padro espacial do fenmeno. Esses mapas so construdos atravs de valores que correspondem a uma combinao de propriedades das reas geogrficas ou que consideram uma propriedade especfica qual associada uma cor [LGMR01]. Alm da percepo visual da distribuio espacial do problema, muito til traduzir os padres existentes com consideraes objetivas e mensurveis, como nos seguintes casos: Epidemiologistas coletam dados sobre ocorrncias de doenas. A distribuio dos casos de uma doena forma um padro no espao? Existe associao com alguma fonte de poluio? Existe evidncia de contgio? Houve variao no tempo? Policiais desejam investigar se existe alguma concentrao espacial na distribuio de crimes. Roubos que ocorrem em determinadas reas esto correlacionados com caractersticas socioeconmicas dessas reas?
90

Problemas de Escala e a Relao rea-Indivduo em Anlise Espacial de Dados Censitrios

Gelogos desejam estimar a extenso de um depsito mineral em uma regio a partir de amostras. Pode-se usar essas amostras para estimar a distribuio do mineral na regio? Planejadores desejam analisar uma regio para fins de zoneamento agrcola. Como escolher as variveis explicativas solo, vegetao, geomorfologia e determinar qual a contribuio de cada uma delas para definir em que local o tipo de cultura mais adequado? Todos esses problemas fazem parte da anlise espacial de dados geogrficos. A nfase da anlise espacial est em mensurar propriedades e relacionamentos, levando em conta a localizao espacial do fenmeno em estudo de forma explcita. Ou seja, a idia central incorporar o espao anlise que se deseja fazer, levando-se em considerao a primeira lei da geografia de Waldo Tobler [LGMR01]: todas as coisas so parecidas mas coisas mais prximas se parecem mais que coisas mais distantes. A taxonomia mais utilizada [BaGa95] para caracterizar os problemas de anlise espacial considera trs tipos de dados: Eventos ou Padres Pontuais - fenmenos expressos atravs de ocorrncias identificadas como pontos localizados no espao, denominados processos pontuais. So exemplos: localizao de crimes, ocorrncias de doenas e localizao de espcies vegetais. Superfcies Contnuas - estimadas a partir de um conjunto de amostras de campo, que podem estar regular ou irregularmente distribudas. Usualmente, este tipo de dado resultante de levantamento de recursos naturais, e que incluem mapas geolgicos, topogrficos, ecolgicos, fitogeogrficos e pedolgicos. reas com Contagens e Taxas Agregadas - trata-se de dados associados a levantamentos populacionais, como censos e estatsticas de sade, e que originalmente se referem a indivduos localizados em pontos especficos do espao. Esses dados so agregados em unidades de anlise, usualmente delimitadas por polgonos fechados (setores censitrios, distritos censitrios e municpios). As origens dos dados geralmente utilizados em anlise de reas so, em grande parte, oriundas de levantamentos realizados por rgos pblicos, tais como os populacionais do censo, os estatsticos de sade e cadastramento de imveis dos municpios. Essas reas usualmente possuem uma delimitao onde se supe haver homogeneidade interna, ou seja, as reas so compostas de agrupamentos aleatrios de indivduos/eventos/moradias que tendem a ser semelhantes em relao a outras reas. A probabilidade dessa semelhana pode ocorrer, por exemplo, nas caractersticas socioeconmicas, demogrficas, de sade e morfologia do solo [WHST96]. Evidentemente, esta premissa nem sempre verdadeira e no h qualquer garantia de que a distribuio do evento seja homognea dentro dessas unida-

91

Taciana de Lemos Dias, Maria da Piedade Gomes de Oliveira, Gilberto Cmara e Marilia S Carvalho

des, visto que freqentemente as unidades de levantamento so definidas por critrios operacionais (setores censitrios), polticos (municpios), ou podem refletir o modo com que os cartgrafos ou ferramentas de SIG interpolam um limite entre pontos amostrais, como na criao de mapas isoplticos. No caso de reas, deve-se ainda considerar que, em pases com grandes contrastes sociais como o Brasil, freqente que estejam agregados em uma mesma regio de coleta grupos sociais distintos favelas e reas nobres , resultando em indicadores calculados que representam a mdia entre populaes diferentes. Adicionalmente, em diversas regies, as unidades amostrais apresentam diferenas importantes em populao e rea [Mart95]. Neste caso, tanto a apresentao em mapas coroplticos quanto os clculos simples de taxas populacionais podem levar a distores nos indicadores obtidos, e ser preciso utilizar tcnicas de ajuste de distribuies. O inverso ocorre em reas com pequenas populaes. Este artigo apresenta um conjunto de procedimentos para responder a esses desafios. Pretende-se auxiliar os interessados a estudar, explorar e modelar processos que se expressam atravs de uma distribuio no espao, aqui chamados de fenmenos geogrficos.

2. EFEITOS DE ESCALA NA ANLISE DE DADOS DE REA


Em muitos dos estudos envolvendo dados de rea, existe a necessidade de preservar o que h de confidencioso nos registros individuais. Os processos de disseminao de dados so projetados para evitar que informaes que possibilitem a identificao dos indivduos sejam disponibilizadas. E a alternativa disponvel para essa preservao a agregao geogrfica [Mart00]. Isso ocorre no caso do Censo, onde os dados j agregados por setores censitrios so o menor nvel de agregao a que a comunidade em geral tem acesso para vrios tipos de anlises. Alguns desses estudos procuram estabelecer relaes de causa-efeito entre diferentes medidas com o uso de modelos de regresso; um exemplo clssico correlacionar anos de estudo do chefe de famlia e sua renda, dados que usualmente apresentam forte correlao. Um setor censitrio, no Brasil, corresponde capacidade de levantamento do recenseador, variando por regio em torno de 200 a 400 domiclios. Um dos problemas bsicos apresentados em dados agregados por rea que, para uma mesma populao estudada, a definio espacial das fronteiras das reas afeta os resultados obtidos. As estimativas obtidas dentro de um sistema de unidades de rea so funo das diversas maneiras segundo as quais essas unidades podem ser agrupadas. Pode-se obter resultados diferentes simplesmente alterando as fronteiras entre essas reas. Este problema conhecido como problema da unidade de rea modificvel (Modifiable Areal Unit Problem- MAUP) [FBC00,LoBa96]. Por exemplo, Openshaw e Taylor, em [OpWy97], descrevem como obter correlaes completamente diferentes entre comportamento eleitoral e

92

Problemas de Escala e a Relao rea-Indivduo em Anlise Espacial de Dados Censitrios

idade no Estado americano de Iowa, apenas modificando a agregao de seus condados. Devido aos efeitos de escala e de agregao de reas, os coeficientes de correlao podem ser inteiramente diferentes no nvel individual do nvel de reas. O efeito de escala a tendncia, dentro de um sistema de unidades de rea modificveis, de prover resultados estatsticos diferentes para o mesmo conjunto de dados quando a informao se agrupa em nveis diferentes de resoluo espacial (por exemplo, setores censitrios, unidades de planejamento, bairros, distritos e regies) [WHST96]. O conceito de escala, neste trabalho, no corresponde noo tradicionalmente usada em cartografia, e sim a diferentes nveis de resoluo espacial. Este fenmeno, nas cincias sociais e na epidemiologia, denominado falcia ecolgica, envolvendo concluses imprprias em nvel individual a partir de resultados agregados por unidades de rea [StHo96]. Sendo assim, os resultados estatsticos tm validade dependente da unidade de rea e do reconhecimento dos problemas existentes nas concluses decorrentes de dados agregados. Deve-se observar que a chamada falcia ecolgica, a rigor, nem uma falcia nem ecolgica. Trata-se de uma propriedade inerente aos dados agregados por reas. A agregao de indivduos em reas tende a aumentar a correlao entre as variveis e a reduzir as flutuaes estatsticas. Por exemplo, considere-se um conjunto de indivduos, dos quais so medidas duas caractersticas, conforme indicado na Figura 1 (a). Uma regresso linear considerando todos os indivduos (linha negra do diagrama esquerda) resulta em um coeficiente positivo de 0,1469. Esses indivduos pertencem a grupos distintos indicados pela tonalidade do ponto no diagrama da direita. Com isso, passa-se a obter correlao negativa, variando entre 0,5 e 0,8. Utilizando as mdias de cada grupo (linha negra do diagrama direita), o coeficiente vai a 0,99. No primeiro caso, pode-se dizer que sem informaes que permitam separar os indivduos nos grupos, as variveis se relacionam positivamente. No segundo, o interesse do estudo o efeito da variao na mdia de uma varivel sobre a mdia da outra nos grupos. So perguntas diferentes e modelos diferentes.

(b) Figura 1 Modelos de regresso: (a) indivduos, (b) indivduos em estratos e grupos diferentes

(a)

93

Taciana de Lemos Dias, Maria da Piedade Gomes de Oliveira, Gilberto Cmara e Marilia S Carvalho

Para ilustrar os efeitos de escala em unidades de rea, tomaram-se os dados oficiais do Censo 1991 em Belo Horizonte, em duas escalas: os setores censitrios e as unidades de planejamento (UPs), mostradas na Figura 2. Os setores censitrios foram utilizados pelo IBGE para o Censo de 1991, totalizando 1998 setores, e as unidades de planejamento correspondem aos agregamentos de reas utilizados pela Prefeitura de Belo Horizonte. As UPs so 81 divises poltico-administrativas do municpio, adotadas para os estudos bsicos do Plano Diretor de BH em 1995. Os limites de cada UP foram definidos considerando: diviso limites das Regies Administrativas da PBH; grandes barreiras fsicas, naturais ou construdas; continuidade de ocupao; padro de ocupao. Os grandes aglomerados de favelas e conjuntos habitacionais de BH foram considerados unidades independentes. As favelas menores, incorporadas s UPs prximas [SMPL96].

Figura 2 Mapas do municpio de Belo Horizonte dividido em Unidades de Planejamento e em Setores Censitrios Para avaliar os efeitos da falcia ecolgica foram computadas 1000 correlaes entre 40 pares de variveis do Censo, primeiramente utilizando os dados agrupados em setores censitrios e posteriormente agrupados por UP. Foram definidos sete intervalos de valores de correlao (de 0,4 a + 1,0) nos quais se enquadraram os valores encontrados. A Tabela 1 mostra o cruzamento dos coeficientes de correlao por setor censitrio com as correlaes por UP. Nas linhas da tabela representam-se os valores absolutos de correlao dos setores censitrios e nas colunas os nveis de correlao por UP.

94

Problemas de Escala e a Relao rea-Indivduo em Anlise Espacial de Dados Censitrios

Tabela 1 - Correlaes entre pares de variveis segundo diferentes unidades de reas setor censitrio e unidade de planejamento - para o Censo de 1991 em Belo Horizonte

Os resultados da Tabela 1 indicam que as correlaes nos setores censitrios so significativamente menores que as correlaes por unidades de planejamento. Nada menos que 802 correlaes entre as 1000 so menores para os setores censitrios que para as UPs. Apenas 40 (4%) tm o comportamento oposto. Em algumas situaes, ocorre inclusive mudana de sinal, isto , variveis correlacionadas negativamente entre setores censitrios passam a ser correlacionadas positivamente entre UPs. Para melhor exemplificar, apresenta-se a Tabela 2 com sete variveis nas colunas correlacionadas com trs variveis (linhas) de rendimentos em salrios mnimos do chefe de famlia variando em trs faixas, de 0,5 a 5. Nessa tabela pode-se observar a mudana de sinal e a diferena de valores nos dois nveis de subdivises, como no caso em que foram tomadas as variveis nmero de chefes de famlia com 1 a 3 anos de estudo e nmero de chefes de famlia com rendimento entre 0,5 e 1 salrio mnimo e computouse a correlao; caso de setores censitrios em 0,793 e para o caso de UP aumentou para 0,969. Para os seguintes pares de variveis o sinal da correlao mudou: o par nmero de chefes de famlia com mais de 15 anos de estudo e nmero de chefes de famlia com 2 a 3 anos de estudo e o par no possui saneamento e nmero de chefes de famlia com rendimento entre 3 e 5 salrios mnimos.

95

Taciana de Lemos Dias, Maria da Piedade Gomes de Oliveira, Gilberto Cmara e Marilia S Carvalho

Tabela 2 Demonstrativo das Correlaes de Variveis por Setor Censitrio x Unidade de Planejamento

Legenda: 1-nmero de chefes de famlia com 1 a 3 anos de estudo, 2- nmero de chefes de famlia com 4 a 7 anos de estudo, 3-nmero de chefes de famlia com mais de 15 anos de estudo, 4-domiclio ocupado prprio, 5-possui gua mas sem canalizao interna, 6-no possui saneamento, 7-possui saneamento com rede gua e esgoto.

Teoricamente, seria possvel lidar com esse problema conhecendo os dados individuais de coleta (ou pelo menos uma amostra deles). Neste caso, Wrigley et al [WHST96] indicam como utilizar os dados no-agregados para realizar correes nas correlaes agregadas. Porm, na prtica os dados individuais raramente esto disponveis. Uma possibilidade trabalhar com os dados mais desagregados possveis (i.e., setores censitrios no caso de censo) e utilizar tcnicas de clustering ou de otimizao combinatria para obter reas mais agregadas, mas que preservem o fenmeno estudado da melhor forma possvel. Deve-se tambm adotar modelos que capturem as caractersticas de uma populao composta em grupos geograficamente definidos. Wrigley et al. [WHST96] apresentam trs modelos: modelos de agrupamento, em que os indivduos no so escolhidos aleatoriamente e so utilizadas restries de semelhana para pertencerem ao mesmo grupo/rea; modelos grupo-dependentes, para o mesmo grupo/rea so consideradas as influncias externas semelhantes que afetam todo o grupo; modelos de feedback, considera-se a interao e influncia entre os indivduos, e esta se torna mais intensa entre indivduos de um mesmo grupo/rea.

96

Problemas de Escala e a Relao rea-Indivduo em Anlise Espacial de Dados Censitrios

Nos recentes censos no Reino Unido, o Ordnance Survey ingls5 produz os dados agregados em output areas (reas de agregao), distintas dos setores censitrios, considerados apenas como unidades de suporte coleta de dados [Mart98]. A agregao dos dados para a gerao de output areas depende da definio de uma propriedade a ser estudada e da aplicao de um algoritmo de otimizao [OpAl99]. Essencialmente, o algoritmo proposto por Openshaw maximiza as correlaes das variveis escolhidas, dentro das novas reas agregadas, com restries de forma dos polgonos resultantes. Como resultados, produz regies mais homogneas com relao ao critrio escolhido. Openshaw criou uma metodologia de procedimentos de diviso em zonas automatizados para uma maior padronizao de modelos existentes de agregao geogrfica para censo. E de acordo com Openshaw [Open84], necessrio projetar um esquema prprio de diviso em zonas, mas isto apenas minimiza em lugar de remover os problemas genricos associados com geografias zonais sobre as quais foram esboadas. Openshaw e Alvanides [OpAl99] desenvolveram uma rotina para diviso em zonas que oferece um nmero de funes de desenho de zonas genricas, o Sistema de Desenho de Zona (ZDES) como um mdulo adicional para o software ARC/INFO6 . Deste modo, deve-se reconhecer que o problema da escala um efeito inerente aos dados agregados por reas. Ele no pode ser removido e no pode ser ignorado [OpWy97]. Para minimizar seu impacto com relao a estudos socioeconmicos, deve-se procurar utilizar a melhor subdiviso de rea para o levantamento de dados disponveis e utilizar tcnicas semelhantes s de Openshaw et al. [OpAl99] para agregar os dados, de acordo com critrios relevantes para o fenmeno a ser estudado. Os resultados acima indicam que no se pode afirmar que qualquer subdiviso de rea seja a certa, mas apenas qual dos modelos melhor serve ao que se deseja esclarecer: correlaes mais fracas e maior flutuao aleatria, porm com mais homogeneidade interna, ou mais fortes com o vis ocasionado por desconsiderar a disperso e a heterogeneidade em torno da mdia nas grandes reas. Como regra geral, quanto mais desagregado o dado, maior a flexibilidade na escolha de modelos, pois agregar em unidades de rea (regies) maiores fcil, mas desagregar impossvel.

5 6

http://www.ordsvy.gov.uk http://www.geog.leeds.ac.uk/research/ccg.html

97

Taciana de Lemos Dias, Maria da Piedade Gomes de Oliveira, Gilberto Cmara e Marilia S Carvalho

3. ESTIMAO DE TAXAS EM REAS COM PEQUENAS POPULAES


As sees anteriores apresentaram o problema de agregao de contagem em reas, com a recomendao final de utilizar a melhor resoluo espacial disponvel. Na prtica, o uso desta estratgia requer um tratamento adicional nos dados, principalmente nos casos de pequenas reas, em que calculamos taxas sobre um universo populacional reduzido. Para entender melhor o problema, considere a Figura 3, que apresenta um mapa temtico com a mortalidade infantil dos bairros do Rio de Janeiro, em 1994. Nesse mapa, o Rio de Janeiro est dividido em 153 bairros, e a taxa de mortalidade infantil anual para cada bairro expressa o nmero de bitos de menores no primeiro ano de vida por mil nascidos vivos [CCB00] .

Figura 3 Taxa total de mortalidade infantil por mil nascidos vivos no Rio de Janeiro, em 1994. Numa primeira leitura, este mapa choca pelas altas taxas de mortalidade de vrios bairros, com 15 bairros apresentando uma taxa maior que 40 bitos por mil nascidos, e dois casos com taxas acima de 100 por mil nascidos. Um observador desatento poderia concluir que todos esses bairros apresentam um grave problema social. Na realidade, muitos desses valores extremos ocorrem nos bairros com pequenas populaes, pois a subdiviso da cidade utilizada esconde enormes diferenas na populao em risco, variando de 15 at 7.500 crianas nascidas por bairro. Por exemplo, considere uma regio com 15 crianas nascidas e nenhuma morte, o que aparentemente indicaria uma situao ideal. Se apenas uma criana morre nesse ano, a taxa passa de 0 por mil para 66 por mil. Tais problemas so tpicos de recobrimentos espaciais sobre divises polticoadministrativas, onde se analisam reas com valores muito distintos da populao em risco. Vrios estudos tm mostrado que as divises polticas como bairros e municpios apresentam relaes inversas de rea e populao, isto , os maiores bairros em populao tendem a ter menores reas, e vice-versa [LoBa96]. Por isso mesmo, os valores extremos freqentemente so os que mais chamam a

98

Problemas de Escala e a Relao rea-Indivduo em Anlise Espacial de Dados Censitrios

ateno num mapa temtico de taxas, muitas vezes so resultado de um nmero reduzidssimo de observaes sendo, portanto, menos confiveis, ou seja, apenas flutuao aleatria. Para suavizar a flutuao aleatria, considera-se que a taxa estimada pela diviso simples entre contagem de bitos e de populao apenas uma realizao de um processo no observado, e que tanto menos confivel quanto menor a populao. Assim, prope-se re-estimar uma taxa mais prxima do risco real ao qual a populao est exposta. A primeira providncia fazer um grfico que expresse a taxa em funo da populao em risco, como mostrado na Figura 4.

Figura 4 Taxa de mortalidade infantil no Rio de Janeiro em 1994 em funo do nmero de nascimentos por bairro Nesse caso, a taxa mdia de mortalidade infantil da cidade, em 1994, foi de 21 bitos por mil nascidos. Neste grfico, observa-se que os bairros com maior populao apresentam taxas prximas da mdia da cidade. medida que diminui a populao em risco, aumenta muito a flutuao da taxa medida, formando o que denominado efeito funil [BaGa95]. Nos bairros de menor populao, esta variao oscilou de 0 a quase 130 por mil. razovel supor que as taxas das diferentes regies esto autocorrelacionadas, e levar em conta o comportamento dos vizinhos para estimar uma taxa mais realista para as regies de menor populao [Anse92,Anse95,Anse96]. Esta formulao sugere o uso de tcnicas de estimao bayesiana [Mars91]. Nesse contexto, considera-se que a taxa real qi associada a cada rea no conhecida, e dispomos de uma taxa observada ti = z i /n i, onde ni o nmero de pessoas observadas, e zi o nmero de eventos na i-sima rea. A idia do estimador bayesiano [Bail01] supor que a taxa qi uma varivel aleatria, que possui uma mdia mi e uma varincia si2. Pode ser demonstrado que o melhor estimador bayesiano dado por uma combinao linear entre a taxa observada e a mdia mi :

99

Taciana de Lemos Dias, Maria da Piedade Gomes de Oliveira, Gilberto Cmara e Marilia S Carvalho

^ q = witi + (1 - wi)mi, O peso wi dado por: wi = si2 si2 + mi /ni

(1)

(2)

O peso wi tanto menor quanto menor for a populao em estudo da i-sima rea e reflete o grau de confiana a respeito de cada taxa. Para o caso de populaes reduzidas, a confiana na taxa observada diminui e a estimativa da taxa se aproxima de nosso modelo a priori (ou seja, se aproxima de m). Regies com populaes muito baixas tero uma correo maior, e regies populosas tero pouca alterao em suas taxas. Neste ponto, deve-se observar que a formulao bayesiana requer as mdias e varincias mi e si2 para cada uma das reas. A abordagem mais simples para tratar a estimao destes parmetros o chamado estimador bayesiano emprico. Esse estimador parte da hiptese que a distribuio da varivel aleatria qi a mesma para todas as reas; isto implica que todas as mdias e varincias so iguais. Pode-se ento estimar mi e si2 diretamente a partir dos dados. Neste caso, calcula-se mi a partir das taxas observadas: ^ m =

S yi S ni

(3)

Tambm estima-se t na varincia si2 a partir da varincia das taxas observadas com relao mdia estimada: ^ s2 = S ni (ti - m)2 ^ m n

S ni

(4)

As regies tero suas taxas re-estimadas aplicando-se uma mdia ponderada entre o valor medido e a taxa mdia global, em que o peso da mdia ser inversamente proporcional populao da regio. Ao se aplicar esta correo s taxas de mortalidade infantil do Rio de Janeiro, observa-se que h uma reduo significativa nos valores extremos. Por exemplo, a Cidade Universitria (Ilha do Fundo), onde nasceram 13 crianas em 1994, apresentou uma taxa aparente de 76 por mil nascidos vivos e uma taxa corrigida de 36 por mil. Bairros com pouca populao no grupo de risco apresentaram redues semelhantes, enquanto que bairros mais populosos mantiveram as taxas originalmente medidas. A compara-

100

Problemas de Escala e a Relao rea-Indivduo em Anlise Espacial de Dados Censitrios

o entre a taxa primria e o valor estimado est apresentada na Figura 5. Em resumo, necessrio tomar extremo cuidado ao produzir mapas temticos, especialmente em casos onde so apresentadas taxas calculadas sobre populaes com valores reduzidos.
TAXAS DE MORTALIDADE APARENTE E ESTIMADA PARA O RIO DE JANEIRO - 1994

Taxa de mortalidade aparente (por mil)

Taxa de mortalidade estimada (por mil)

Figura 5 Comparao entre a taxa de mortalidade infantil observada e a taxa estimada pelo mtodo bayesiano emprico. O estimador bayesiano emprico pode ser generalizado para incluir efeitos espaciais. Neste caso, a idia fazer o clculo da estimativa bayesiana localmente, convergindo em direo a uma mdia local e no a uma mdia global. Basta aplicar o mtodo anterior em cada rea considerando como regio a sua vizinhana. Isto equivalente a supor que as taxas da vizinhana da rea i possuem mdia mi e varincia s i2 comuns. Neste caso, pode-se falar em estimativa bayesiana emprica local. A seguir, apresenta-se a deteco de hansenase no Recife (Figura 6) onde foi utilizado esse mtodo local para estimar a taxa da doena nos bairros da cidade [SBB+01].

Figura 6 Taxas de deteco mdia de hansenase em menores de 15 anos, perodo 1993-1997, por bairro do Recife, e taxas estimadas atravs do mtodo bayesiano
101

Taciana de Lemos Dias, Maria da Piedade Gomes de Oliveira, Gilberto Cmara e Marilia S Carvalho

Atravs do mapa corrigido foi possvel indicar bairros prioritrios para a atuao da vigilncia epidemiolgica por apresentarem valores altos mesmo aps suavizao do indicador.

4. CONSIDERAES FINAIS
Este artigo mostrou que as tcnicas de anlise espacial podem ampliar consideravelmente a capacidade de compreender os padres espaciais associados a dados de rea, especialmente quando se trata de indicadores sociais. No estudo realizado foram discutidas algumas das principais fontes dos problemas advindos dos efeitos de escala e de agregao e apresentados mtodos de estimao bayesiana para taxas que permitem a correo de efeitos associados a pequenas populaes. Em resumo, estudiosos de dados socioeconmicos podem se beneficiar substancialmente das tcnicas apresentadas.

KEYWORDS
Spatial analysis Geostatistics Census data Geographic Information Systems

ABSTRACT
This paper presents problems related to the manipulation of spatial data consolidated by areal units and their interpretation in various scales. The granularity of the territorial subdivision interferes in the results, possibly leading to inappropriate conclusions about the phenomenon under study. Other themes that are relevant in the analysis of these data, such as aggregation and zoning, along with the estimation of rates in sparsely populated areas are discussed through examples. Solutions in the realm of spatial analysis are proposed for the reduction of the distortions caused by the data aggregation according to areas.

REFERNCIAS BIBLIOGRFICAS
[Anse92] ANSELIN, L. SpaceStat tutorial: a workbook for using SpaceStat in the analysis of spatial data. Santa Barbara, NCGIA (National Center for Geographic Information and Analysis), 1992. [Anse95] ANSELIN, L. Local Indicators of Spatial Association - LISA. Geographical Analysis, v.27, p.91-115, 1995.

102

Problemas de Escala e a Relao rea-Indivduo em Anlise Espacial de Dados Censitrios

[Anse96] ANSELIN, L. The Moran scatterplot as ESDA tool to assess local instability in spatial association. In: M. Fisher, H. J. Scholten and D. Unwin (ed). Spatial Analytical Perspectives on GIS. London, Taylor & Francis, p.111-126, 1996. [Bail01] BAILEY, T. C. Spatial Statistics Methods in Health. Cadernos de Sade Pblica, v.17, n.5, 2001. [BaGa95] BAILEY, T.C., GATRELL, A.C. . Interactive spatial data analysis, 1. ed. Essex. Longman Scientific & Technical, 1995. [CCB00] CAMPOS, T.P.; CARVALHO, M.S.; BARCELLOS, C. reas de risco e trajetria dos pacientes aos servios: uma discusso da mortalidade infantil no municpio do Rio de Janeiro. Revista Panam Salud Publica (Panam. J. Public Healht), Washington, v. 8, n. 3, p. 164-171, 2000. [FBC00] FOTHERINGHAM A . S., BRUNSDON C, e CHARLTON M. . Quantitative Geography: perspectives on spatial data analysis. Londres: Salva, 2000. [HSTW96] HOLT, D., STEEL, D., TRANMER, M., WRIGLEY, N. Aggregation and ecological effects in geographically based data. Geographical Analysis, 1996. [LoBa96] LONGLEY, P., BATTY, M... Spatial analysis: modelling in a GIS environment, John Wiley & Sons, 1996. [LGMR01] LONGLEY, P. A., GOODCHILD, M. F., MAGUIRE, D. J. RHIND, D. W. Geographic information systems and science. John Wiley & Sons, 2001. [Mars91] MARSHALL, R. Mapping disease and mortality rates using empirical Bayes estimators. Applied Statistics, v.40, p.283-294, 1991. [Mart00] MARTIN, D. Census 2001: making the best of zonal geographies. Paper presented at The Census of Population: 2000 and Beyond, University of Manchester 22-23. June, 2000. [Mart98] MARTIN, D. Optimizing census geography: the separation of collection and output geographies. International Journal of Geographical Information Science, v.12, p. 673-685, 1998. [Mart95] MARTIN, D. Geographic Information Systems: Socioeconomic Applications. London, Routledge, 1995. [OpAl99] OPENSHAW, S., ALVANIDES, S. Applying geocomputation to the analysis of spatial distributions In: LONGLEY, P. A., GOODCHILD, M. F., MAGUIRE, D. J., RHIND, D. W. (eds) Geographical Information Systems: Principles, Techniques, Applications and Management Chichester: Wiley, v. 1, 267-282, 1999. [Open84] OPENSHAW, S.. Ecological fallacies and the analysis of areal census data. Environment and Planning, 1984. [OpWy97] OPENSHAW, S., WYMER, C.. Artificial Intelligence in Geography. Chichester, John Wiley,1997. [SBBC 01] SOUZA, W. V., BARCELLOS, C., BRITO, A. M., CARVALHO, M. S., et al. Aplicao de modelo bayesiano emprico na anlise espacial da ocorrncia de hansenase. Revista de Sade Pblica, So Paulo, v. 35, n. 5, p. 474-480, 2001. [SMPL96] SECRETARIA MUNICIPAL DE PLANEJAMENTO PBH, 1996 O IQVU ndice de qualidade de vida urbana. http://www.pbh.gov.br/smpl/iqvu/.

103

Problemas de Escala e a Relao rea-Indivduo em Anlise Espacial de Dados Censitrios

[Stee85] STEEL, D. Statistical analysis of populations with group structure. Unpuplished PhD dissertation available from Department of Social Sciences, University of Southampton, Southampton, UK apud Spatial Analysis: modelling in a GIS environment. John Wiley & Sons, 1996. [StHo96] STEEL, D., HOLD, T.. Analysing and adjusting aggregation effects: the ecological fallacy revisited. International Statistical Review, 1996. [WHST96] WRIGLEY, N., HOLD, T., STEEL, D., TRANMER, M. Analysing, modelling, and resolving the ecological fallacy In: LONGLEY, P. BATTY, M.. Spatial analysis: modelling in a GIS environment. John Wiley & Sons, 1996.

104

Você também pode gostar