Você está na página 1de 190

LIVRO:

Anlise Espacial de Dados Geogrficos

AUTORES: Suzana Druck, Marlia S Carvalho, Gilberto Cmara, Antnio Miguel Vieira Monteiro Edio em papel: EMBRAPA, Braslia, 2004, Referncia cientfica: Druck, S.; Carvalho, M.S.; Cmara, G.; Monteiro, A.V.M. (eds) "Anlise Espacial de Dados Geogrficos". Braslia, EMBRAPA, 2004

Apresentao
Este livro objetiva apresentar as principais tcnicas de Anlise Espacial no contexto de estudos de Geoprocessamento, incluindo: Estatstica Espacial, Geoestatstica, Representao de Incerteza e Modelagem Dinmica. O objetivo das tcnicas de Anlise Espacial descrever os padres existentes nos dados espaciais e estabelecer, preferencialmente de forma quantitativa, os relacionamentos entre as diferentes variveis geogrficas.

= PREFCIO
^=~~=~~=~~==~~==~=~I=== ~~=~=~=~~==~~I====I= ~= = ~~= = = ~K= b~I= ~= ~= = I= = = ~= = ~= K= r~= ~= ~= = = = ~= ~= ~= = = = = = = = = = ~I= = =~=~=~====~K=^I===~~= = = = ~= ~~= = ~= = = ~= ~~= = K=q~=~=~=====~==~==~= ~~I= = = = ~= ~= ~= ~K= l~= ~= = ~=~~I=~=~===~==~=== ~~==~=~I=~=~=====~~=~~==pfdI= ~= = = = ~= = ~~= ~= ~= ~~~= = ~~= = pfd= = = = ~~= = ~= = ~~I= ~= ~= ~= ~= = ~= = = I= ~~= = ~==~~K== = f~~=====~~==~==`~= = pI= d~I= l~~~I= p~= `~= = m~= m~I= = = = ~= = ~~= ~~~= = ~= ~= ~= ~= = ~=~~===~=~K=_~===== ===~=~==I=~=~==~==~~= ~= =K=m~~= ~I= ~~= ~= ~~=~I= ~= ~===~==~=~~====~=~~K= l=~===E~F====~===~= ==~===~===J~~=~==~= =fkmbI=~=rpm==~=cfl`orw=K=b=~~=~==~==~== = = ~= ~= = = = ~= = ~= = ~= = = _~K= ^= = = = ~~= = = = ~~= ~~I= ~~~= ~= ~= = ~= = = = = ~~== ~I= ~= ~= ~= ~~== = ~== = K= p= = = I= ~= = = ~~= ~= ~I= ~==~=====~I====~== ==~=~=~~~= = `=~~=~I=~===~=~== ==I========~~=~~= = = = ~= J= = ~~JI= = == YKKKLLL~~[K= ^= ~= ~= ~= ~= = =

~~= = ~= pmofkd= = ~= ~= ~= ~= = = pmofkd= = ~=~~I===p~p~K=l=pmofkd===== fkmb= = = = ~= = = YKKKL[K= ^= I= = ~= ~= o= YKJK[I= = = I= ~= = ~~=~=~=~=~=~=~~~K== = l= = = ~= = \= ^= = ~= ~= ~~~I= ~=====~=~=~~~I=~==~= = I= = = = = ~K= d~~= ~~= = ~~= = = = ~= = = = ~= ~= = ~= = = ~= ~~~~==~~=~~I=~~=~=~=~~=~=~~=~K== = j= = ~= = ~~= = `~= `~= c~I= b~=`~~I=`~=c~==g=^==`~~=m~~=EfkmbFI= b~= ^~= Ebj_o^m^FI= j~~= i= ^~= Er_FI= c= k= E`lmmbLrcogFI= l~= d~= `I= `~= _~I= q~= j~~= i~~I= t~= s~= =p~= Ecfl`orwFI= o~= ^= ErcjdF= = ^~~= p~= = a= h~= Emr`LpmFI= m~= g~= o= gK= = p~= p~~= ErcmoFI= q= _~= Er~= = bI= f~~F= ~= ~= = = = ~= = ~= ~~K= o~~= ~~= = ~= = = = ~~= = ~= = I= ~= = ~~====~==J~~==fkmb==~=bkpmK= m~==~~=~W=j~=kI=p=_I=p~~=^~~= h~I= g= i= o= vI= t~~= _~I= c= o~= o~I= m~~= d= = s~= o~= `~I= ~= = fkmbI= = q~~~= `~I= b~= alI= j~= `~~= = p~I= p= j~~= = p~I= o~= p= mI= ~= ~= bkpmLcfl`orwK= c~I= ~= = = = = = ~= ~~= ~~= ~= b~~J`~I= = = ~= ~= = `~= j~I= = K= k= ~= ~= ~= o~= `~~= j= = p~I= ~= = ~~= ~= = = = ~= a== m~= = f~= = fkmbI= = = ~= I= ~= = = = ~I= = = = ~~~= ~= ~= = ~= ====~=~~===K== = `=~=~=~==I==~==~==~W= ==f~=p~~=a~~=^~I==q=_~==^=d~I=~= =~=~=I====~=~~==~I==~=~~= b~~=b~~==^~==b~I=b~==p~I== o~=^=ErcjdFI===~=~=KKKL~~K== = ^= ~= = ~= ~~= ~= ~~= = = ~= = d~= = _~I= ~= ~= ~= ~= = ~= = ~~= = ~= ~~~= = = ~= = ~= ~~K= k~= = = =~~===~~K=`~=~=~=~=

= ~= = d~I= = ~= = ~= = ~= ~= ========~==~=~=~~== = J~K= ^~= = = = ~= = ~= = ~= ~==K=

p=g==`~I=o==g~I=_~~I=c~~I=m~~=~=cI= g==OMMO

Suzana Druck Marilia S Carvalho Gilberto Cmara Antnio Miguel Vieira Monteiro
==

1 ANLISE ESPACIAL E GEOPROCESSAMENTO


=
Gilberto Cmara Antnio Miguel Monteiro Suzana Druck Fucks Marilia S Carvalho=

1.1 INTRODUO `= ~= = ~~= = ~= = = = == ~= = = = ~= ~= ~~= ~= ~= = = ~= = ~= ~= = I= ~= = ~I= = ~I==~I==~~I==~~=~K=q~=== =~=~~==~=I===~==~== ~=~=EpfdF==~====~=~K=b= ~= = ~= ~~= ~~= = ~= = ~= = I===~~==~==~==~=~== ~~==~~K=m~~=~I=~~====~==~===~= ~= ~= E= = ~~= = FI= = = pfd= = ~~= = ~~= = ~~= = = ~= ~~= = ~= ~~= =K== = ^=~==~=~==~~==~I=== = ~= = ~= = = ~= ~= = I====~W= b~= ~= ~= = ~= = ~K= ^= = = ~= = ~= ~= ~= = ~= = ~\= b=~~==~~===\=b~==\= s~==\= a~J= ~= = = ~~= ~= ~~= ~= = = K= o= = = = ~~= ~= =~~==~~~=J~=~=~\= d= ~= ~= ~= = = = = ~= = ~= = ~= ~== ~~K=mJ= ~= ~= ~~= ~~= ~= ~= ==~=~=\== a~J= ~~~= ~= = ~~= = = ~= ~~K= `= = ~= ~= ~~= = I= ~I= ~= = =

~= ~= ~= = = ~~= ~= ~= ~~= = = = ~====~==~=~~\= = q= = ~= ~= ~= ~= ~= ~~= = ~= K= ^= ~= ~= ^= b~~= = ~= ~= = ~~I= ~= = ~= ~= ~~= ~~= = = = = = ~= ~K= l= ~I= ~= ~= ~= = ~= = ~= = ~===~=~K=b==~~====~~= ~= = ~= ~= K= mJ= ~~= = ~= ~= ~I= ~= = ~= = = = ~= ~~= = ~= ==~I=~=~~===K== = r= = I= = ~= = = ~= ~~= ~==~=~~~==~~===ufu==g=pK=b= NURQI= ~= = i= ~= ~= ~= ~= = ~= ~~= ~= ~K= m= = ~~= = = = ~= ~~= ~=~K= a~= =~=~~=J~W=~=~~J~=~=~~I= ~= ~== ~~= = ~~~= ~=~I= = ~= = = = ~= ~K= l= ~~= Ec~= NJNF= ~~= ~= ~= = = ~~= ~= ~= = ~= ~= = ~= = ~~~= ~= ~I= = ~~= ~~= ~= ~= = = _~= p= = = = = ~= ~K= b= = ~~= ~= I= ~~= = ~= ~= ~= = ~= ~~= = = = ~~= = ~= ~= ~= ~= ~= E= ~~F= ~= ~I= = ~= =~=~==I===~==~=~K= b~==~=~=~==~=~=~~===~== ~~= ~~= = ~~= ~= = = I= = = ===~=~=~~K=

Figura 1-1 - Mapa de Londres com bitos por clera identificados por pontos e poos de gua representados por cruzes.= 1.2 TIPOS DE DADOS EM ANLISE ESPACIAL = ^= ~~= ~= ~~= ~~= ~~~= = ~= = ~= ~~=~====~W=

b= = m~= m~= J= = = ~~= = ~= ~~= = = ~~= = ~I= ~= = ~K= p= W= ~~= = I= ~==~I==~~===~K== p=`~==J= ~~=~=~=====~~= =~I===~=~==~=~K= r~I====~==~==~~=== ~~I= = = = ~~= I= I= I= ==K= ~==`~==q~~=^~~=J=~~J==~=~~= ~=~~=~~I====~~==~I=== ~= = = ~= = ~~= = = = =~K=m=~==~~I==~==~~== ~= = ~I= ~= ~~= = = ~= E=I=~==~=~I=FK==

= ^= ~= ~= = ~~I= ~J= = = ~= = ~= ~~= ~= = ~= ~~= = = ~= K= b= ~= = ~I= ~= ~= ~~= = ~= = = = =

= ~~= ~= ~~= = ~= ~= = = = ~= = = ~= = ~~= ~~= ==K=b=~I====~==== ~=~==~=~~I=~~~==~~=~==~= = ~== = = ~~= = ~= ~== ~== ~= ~~====K== = k= ~= = ~= = ~= = I= = = = = = ~= ~= ~~= ~~= = = = K= `= ~= ~= ~~~~= = pI= = = = ~= ~= = ~~= = I= ~= = = = ~= ~W= = = ~~I= = ~= = = ~~J= = ~~= = ~= K= = ~= = ~= = = ~= ~= = J= = ~= ~= = = ~= ~K= l= ~= = ~= = ~~= = ~= = = = ~~~= = I= ~= ~= ~= = ~= ~= ~= ~~I= = ~= = = = = ~K= m= I= = = ~= ~~= = I= = ~==~===I=~~===~==~= = ~\= ^= ~= ~= = ~~= = = = ~= = ~~~==`~=OK= = `= I= ~=c~=NJO= ~= ~=~~= ~= ~= = ~= ~= ~~= = ~= = ~~= = ~~= ~= = m= ^I= ==~==NVVSI=~~~==p=p~===`~=_~I= ~= cfl`orwK= ^= ~~= = = EFI= = ~= = =E~~F===E~F=~=~~=~=c~=NJO=E=~FK= =~I=~~J=~==~~=~=~=~~I=== = ~~= = ~= ~~= ~= ~K= ^= = ~~= ~==~======~==~== =~=~=====~=~=~=~~~K=

Figura 1-2 Distribuio de casos de mortalidade por causas externas em Porto Alegre em 1996 e estimador de intensidade.

= m~~=~=~==I=====~==~=~= ====~=~~K=`=I=J=~=== ==~~===~~==~==p~~=`~~~==~=~I== =~~===~~=~=~=~~==~I== =p=_I==fkmbI==~~=~=c~=NJPKK= =

55,437 (%)

* Perfis * Amostras
8,250

Figura 1-3 - Distribuio de perfis e amostras de solo em Santa Catarina (esquerda) e = distribuio contnua estimada para a varivel saturao por bases (direita). = `= = = = ~~\= ^= = ~~~= ~= ~= ~~= = = = ~= = ~~= = X= ~= ~= ~= ~I= = ~= = = = ~= ~~I= = = ~= ~= ~= = ~~~= = ~~K= l= = ~I= ==~=~==~=P==QI====~~= ~=~=~~===~=~=~~K=b==~=~= ~= ~= ~~I= ~= = ~= = = = = ~~~I====~==~=~== ~= ~~=~= = = I= = ==~= = NKQ== ~K= `= ~= ~~= = ~= = = ~~= = ~= = ~= ~= E= = = FI= ~= = = ~~~= = = ~= ~~= ~~= = X= ~= ~I==~==~=~~~====~== = ~K= a= = ~= = ~= ~~~= = ~= = = ~~= = ~= ~= ~~= = ~= J~K= j= = ~= ~I= ~JI= ~= ~I= ~= ~~I=~=~==~J=~=~~==== ~K= = k=~==~==~I=~==`~=RI==~=I= =~=~I===~~=~~=~==I= ~~==~==~~~==K=b~=~==~= ~~= = = ~= = = = ~= ~= ~I= = ~I= ~~= ~= = = = K= bI= ~= = ~= ~= = = ~~I= ~= = = ~= ~= = ~~= = ~= = =

~~=E=F===EF====~= ~~~= = ~= = = = ~= ~= = ~= ~K= b= ~= = ~= ~= ~= = = _~I= = = = = ~= = ~= ~~= = ~= ~= = = ~= = ~~= = ~= = = ~= = ~= ~~==~=~=~==~=K=b=~= I= ~= ~= ~~= ~~= ~~=~= ~= = ~= = ~K= k= ~I= ~= ~= ~~= = ~~= = =====~=~~==~=~== = ~= = = = = ~= ~= = ~= = K== = `===~=~~==~I=J=~=c~=NJQ= E~FI= = ~~= ~= = ~~= = = = L= ~= = p= m~I= = ~= = ~~= ~= K= ^~~= p~= Emr`LpmFK= l= ~= = L= ~= ~==~=~==~=~==VS===p=m~I= = ~= = = = NVVNK= ^= ~= = ~~I= = = ~= = ~~= = = = = ~I= ~= ~= c~= NJQ== E~FI==~=======~=~=~K=

Figura 1-4- Mapa de Excluso/Incluso Social de So Paulo (1991) e agrupamentos de = excluso social (Zonas Leste e Sul) e incluso social (centro).= = 1.3 REPRESENTAO COMPUTACIONAL DE DADOS GEOGRFICOS = l= = p~= = f~= d~= EpfdF= = ~~= ~~= ~= = ~~= = ~~= ~~= = ~= = == ~~~=~=~===~==~===~I= = I= ~~= ~= = = = ~= ~= = ~~K= k~= = ~~I= J= ~= = = pfd= = = =I==~=~=c~=NJRW==

f~==X= b~~==~==~X= c==~====~X= s~~==~X= ^~~= = ~= = ~= E~~= = ~== ~===~==~=FK== = b= = = ~~= = ~= ~K= ^= ~= J~= = = = ~= = ~= = ~K= k= = I= = pfd= = = ~= = ~= = ~= ~~= E~~I= I= ~I= ~~= = ~~FK= f~= ~= ~I= = ~= = ~= = ~~~= = ~= = ~= ~~K= `~~= ~I= = = = = = = ~I= ~= = = = ~=~I=~= == ~= ~====pfdK= =
Interface

Entrada e Integr. Dados

Consulta e Anlise Espacial

Visualizao Plotagem

Gerncia Dados Espaciais

Banco de Dados Geogrfico

== Figura 1-5 - Arquitetura de Sistemas de Informao Geogrfica. = ^=~~==~==~==~=~~==== J~~= E= ~~= ~FI= = ~= = ~= ~= = ~= = ~= Epd_aF= ~~I= = = a_^pb= = ^``bppI= ~~= ~~~= = ~= ~~= = ~= = = I= = ~= =~~=~~=~~=~=~=~==K== = ^= ~= ~~= = = J~~= = = ~= = pd_a= ~~= = ~K= a= = = ~= = I= ~= ~~= = = ~~= ~I= ~= = ~= = = ~= = pd_a= ~~I= ~= =

~===K=k=~I===pd_a=~~== = ~= ~= ~= ~I= = = = = = = = ~==~==~=K=f~JI==I== = = = ~~= ~= ~~~= ~= = = =~~I=~======~=~~=~= ~~= ~= ~K= b~= ~= ~= ~~= ~= = = ~= ~I= ~J= K= ^I= = ~= ~= ~= ~~= = ~= = = = = = = ~~= ~I= == = ==~= = ~= ~= ~~I= ~= = = = = J~~= = = ~= = ~~= ~= ~~~=~~=~=~==~K= = ^= ~= ~= ~~= = ~= = ~~~W= m= OaW= r=Oa= == ~= ~= EI=F= = ~~= ~~K= = r= = ~= = ~= = ~= = = I= = = ~= ~= ~~= = ~~= ~I= ~~= ~= c~=NJOK== mW=r======~=~=EI=F== ~~=~~I==~=~=====~== ~= I= ~= ~= = ~~= = ~K= k~= ~= ~=I=~~==~=~==~=E== ~= = = = p= m~= ~= c~= NJQFX= = ~= ~= ~I= ~= = ~= = = = = ~~= = = K= ^~W===~=~=EI=I=F==~==~= EI= F= ~= ~= ~~= ~= = = ~= = ~= ~= = ~= ~~= ~= ~~K= r~= ~= ~~= =~~~=~=~~==~I===~==~= I= = = ~K= l= = = ~~= = = ~~= ~~= = ~= = ~= ~= = ~= ~=~~K== d~=~W==~=~==~~===~~=~== ~=K=b~=~==~~~=~=~==~== I= ~= ~= = ~~= ~I= ~= ~= ~= ~= = = ~= ~I= = = ~~= ~= ~= =~==~K== f~W==~=~==~~===~~=~==~= = E~= ~= ~~= = M= = ORRFI= ~~= ~~= ~~K=b~=~==~~=~~=~~=~==~= ~=~K=l=~==~=~==~~=~~==

~= = ~~= ~= ~X= = ~= ~= = ~====~=~=~I======= ~=~=K=k~=~=~==pfdI==~=~= = ~~= ~= ~= ~= ~= ~= = ~= E= = = ~===FI===~~==~~== K= ^=c~=NJP= E~F= ~= ~= ~=~==~= ~=~~==~==p~~=`~~~K= = ^= ~= ~~~= ~= I= ~~= = = = ~~~= ~= c~= NJS= = ~= ~= ~= = ~~= ~= c~= NJUK= r~I= ~= ~= ~= = ~= = ~~~= ~= ~~= ~= ~= = ~I= = = ~~~= ~= ~= = ~~= ~~I= = ~= ~= = ~= E~~= vF= = = E~~=uFK=

= Figura 1-6 Geometrias: Ponto2D, Amostra e Polgono =

= Figura 1-7 Representao Geomtrica de Grade Regular = k= = J~~I= = ~= = = ~~= = = ~~=~=~==~=~~I==~=~==~=~=

= ~= = ~= ~= = ~= == ~K= `~~= ~= ~=~~==~=~=~~=~===X=~=~~= ===~~=~==~===I=~~= = ~= = ~= ~= ~= ~= = = ~= = ~= ~= ~K== = `= ~= ~= = = = = ~= ~= = ~= ~~I= ~= ~= = ~~~~= = pfd= = ~~= ~= ~= ~= ~~~= ~= c~= NJUK= `~~= ~I= = = = = = I= ==~==I==~~=~~==== ~===~==~~=~=~~===pd_a=~~K= ^= c~= NJU= ~= ~= ~~= = ~= ~= ~I= ~= = ~I=~~===K=`~~=~===~=== ~~= ~= = = ~= = = = ~= = = ~= ~= ~~= ===~K=k=I=~=~==~=~~=== =~=q^ielK==l====~~====== ===~I===W=~===I=== ~= ~~I= ~~= = ~I= ~= = ~= ~X= ~= = ~~====~===~=~~X===== ~~=~===~=~K=

= Figura 1-8 - Estratgia dual para bancos de dados geogrficos. = k= ~= = I= = ~= = = ~~= ~= = pd_a= ~~I= = = ~~= ~~~= = = ~= ~= = = ==~=~=~~K=^~J====~~==~==~W= ~~= = = ~~= ~= = ~I= = = ~= ~= = = ~==~~=~==~=~~==~==~K==

= m~~=~=I=~=~=~===~~=~~==~= I= = = ~~~= = ~= = = pd_a= ~~K= k=~I=~=~=~=~====~==~~==~~~= = ~~I= ~~~= ~= = = = = = ~= = = K=l===~==~=~=~==== ~= ~~~= = = ~= = = K= b~= ~= = = ~~~=~=~=~~===~~=E=~==c~=NJPFK= 1.4 CONCEITOS BSICOS EM ANLISE ESPACIAL a~=b~~= = r==~=~===~===~~==~= ~= ~~K= b~= = ~= = = t~= q= ~~= = ~= = ~= ~~W= ~= ~= ~= = ~~I= ~= ~= ~= ~==~=~==~=~=~K=lI==~~=k= `I= ~= ~= x~~z= = = = ~= ~= = = ~= ~=~~==~===~~=~==~=~~==~K= = d~~I=J=~~==~=~=~=~=~I=~= ~= ~~= = ~I= ~~= = = ~= ~= = = ~= ~K=l======\=p=~=== = = = ~I= = = = ~== ~= ~= ~~= ~= ~= K= l= = = ~= ~= = ~= = ~~= = = = = ~I= ~= = = = ~= ~I= = ~= ~=~=~==~==~~K== ^~=b~~= = ^= = ~~= = = = ~= ~~= = ~= ~~= ~~K= b= = = ~= = = ~= = ~I= ~= ~~= ~= = ~~= = ~= ~= ~~~K= ^= = ~= ~= = ~= ~= = ~= = ~~~= = ~= ~= ~= ~~~I= ~= = ~= = = ~K= m~~= = ~= ~~= ~~I= J= ~= = ~I= = ~~= ~= ~= ~W= ~= = ~~= ~= ~= ~~I= ~= ~= ~= ~~= = = ~= = ~= ~~= = = = K= l= ~= = ~~= ~~= = ~=~~==~=~~===~===
(d ) =

wij (d )ij =
i =1 j =1

ENJNF=

= b==~=~=~===~=~~~== = = = ~= ~K= a~~= ~= ~= I= ~= ~= = = ~=~==~=~~==~=~=~~~===I==

I=~===~~~==~===K=^=~== =~=~==~==~=~=~~~I=== ===~=~I===~====j~=~~=~I= ==~=R==I=~====

I=

w ( z
i =1 j =1 ij n i =1

z )( z j z )
=
i

= ENJOF=

( z

z )2

= = = N= = ~= ~= ~= ~~~= ~= = = = = ~I= = M= ~= K=l===~===~~~I===~= PI===~==~~=~=~==~I===~=~= =~==

(d ) =

1 N (d ) [ z ( xi ) z ( xi + d )]2 = 2 N ( d ) i=1

ENJPF=

=kEF=====~~=~~~=~=~=K== = b= ~= = ~I= = ~= = = = ~~= = = ~==~===~===~=~~=~~== ~= ~K= s~= ~= = == ~~= ~~= = ~= = ~= ~~= = ~= = = ~= = ~= ~= ~~I= ~= ~= ~= ~= = = = ~=~~I=======~=~~==~= =~=~==~==~==~=~K== f~=b~~=~~=a~=b~~= = =r~= ~= ~= ~= ~= ~~= = = ~= ~=~~====~=====~== ~==~~====~~K=b=~=~~~I=~= ~=~~=~=~=~=~===~K=a=~=~I= = = = = ~~= ~= ~~= ~= ~~I= = = = ~= = = = = = = ~= = ~~= = = ~I= ~~= ~= ~= = ~= = = ~= ~K= = k~=~=~==~I=~=~=~=~~~==~== ~= ~~= = = = = = ~~= I= ~= =~=~=~~====K==~=~== ~~= ~~I= = = ~~= ~= ~= ~= ~= I== ~== == = ~=~= ~= = ~~==~=~=~~===~=~~=== ~K= ^= = ~= = I= ~~= = ~~= = u = = ~= = A =

~= = 2 I= = ~= = = = ~= z = = = z (u ) = = = = ~~==== {Z (u ), u A} K== k= ~I= = = ~=


= = ~= ~~= = = I= ~= = = = = = = = = ~= ~= L= I= = =~=K= b~~~==f~= = l=~==~===~=~=~~== ~= ~~J= ~= = = N= = O= K= b= = N= = = = ~=~I==I=~=~====~K=b==O===~= ~~==~=~===K=r==~===== ===~~~K=l===~=~==== =N==O===~I==~=~==~~I==~I=== ~K= r= = = = I= ~= = ~I= ~= ~~= ==~=~======~===K= = r=== Z ====~==~===~= ~~= = Z (u ) = = ~= = ~= ~= = = = A I= = ~= = =~=~==

E{Z (u)} = m =

ENJQF=

= ~= ~= = ~~= ~~= = ~= = = ~= == h = u u =

C (h) = E{Z (u ) Z (u + h)} E{Z (u )}E{Z (u + h)} =

ENJRF=

= a~= = = ~~= I= ~= = ~= ~~~= = = ~~= ~= ~= = = = ~= ~~= = ~~= ~I= = = = ~= ~= ~= ~~=~~K=k~=~~=~~= C h I=== h ==~= ~ h =~=K=n~=~=~==~~I=~==~~= =~=~I=~~=~~===~=I=~==~== ~~K=k=~===~=~=~~==~=~==~=~= I=J= = = = = K= ^= ~=~= ~== ~~=~~===~~~==~===K=m=~= = ~= ~~= ~= ~~~= ~= = ~= ~= = ~~=~~==~=~=~====~= =K=

1.5 O PROCESSO DA ANLISE ESPACIAL = ^= ~= ~~= = ~= = = = = = ~~= ~= ~~= = ~= ~= = = = ~= = = ~= = ~~= ~~= = = K= l= = ~= ~= ~= = = = = = ==~=~~==~=~~==~I==~=~~= = ~~K= b~= ~== = ~==~= ~= = I=~=~= ~~= EF== = = ~= ~= = = I= ~= ~= = ~= ~= I= = ~=~= ~= =~=~==~~K=^~===== ~= = = ~= ~I= = ~= ~= ~= = = ~==~==~K=== = l= = ~= ~~= = ~= ~~= = = ~=W=~~=~I=~~=~====~K= ^====~=~~===~=~==== = ~= ~= = ~= = = = K= l== ~~= ~= ~= ~===I====~===~= = = = = = = = I= ~~~= = ~= ~I= ==~K= = ^= i~= ~= = ~= ~= ~= = ~~I= ~= =~=~==K=l=~=~==~=~= ~~= = = I= = ~= ~~= ~~= K= ^= ~= = ~~==I========~~=~= =I====~~~==~=~~K=k==~= ~=~=~====~=~~==_= eI=^~~~I=`~I=q~==k~~K=l==~=~== ~~==~=~===~=~====~=~= = I= = = OMM= = = = = ~= ~= = ~K= b~I=~=~=~~=~=~=~~==== =~=~I=~J=~=~K=m==~I=~=~I= ~= = = = I= ~= ~= ~= = ~= ~= ~I= = = = = ~~= ~= = = ~~= ~=~=~==K=l=~==~I==~~==I== =~~~=~=~=~=~~=====~K= r~= ~= ~~= = ~= ~~I= ~~= = = ~~==~~==~==~K=`==W=

n~==~=========~~\== = k~= ~= ~= = = = ~= i~I= ~= ~~= ~==~=======~=~==~=~= ==~=~=~I=====~W=

l= = ~~= ~I= = = = = ~= = ~= ~=~=~==~==~=~==~=~~==~= ===~=~===E~~===FK= l= = ~I= = = = = ~= ~= ~~= = ~~= = K= k= ~I= ~= ~= ~~~= = = = ~= = = ~= E~= = ~~= = F= ~= = ~= = = ~~K=

b=~=~~I=~===~=~====\== = m~~= ~= = ~= ~== = = = = ~= ~= ~~= = ~= ~= = ~= = ~= ~== ~~==~==~~====== ~= ~= ~~= ~= = = = = K= k= ~= = ==~~=~=~==~=~~=== ==~==~K== b= ~= = ~~= ~~= = = ~= ~= ~\== = ^~= = I= ~~I= = ~= ~= ~K= = == ~~= ~~== = ~= = = ~= I== I==K=b~I==~==~=~=~==~== ==~===~=~===~=~= ~I==~~=~=~==~~==~= =~~~==~K=^===~=~=~=~= ~= ~= = I= = = = ~= ~= = ~= ~= ~~= = ~= ~K= l= = = ~= = ~= = ~= = ~I= = I= ~= K= f= I= ~= ~= = = ~= = ~= I= = ~= ~~= = ~K= ^= = = = ~= = ~= ~= ~= = = = ~= ~= ~= ~= ~~K= k= ~I= ~J= = ==~~=~K==

r~= = ~= ~= ~= = = ~= = = = = = = = = ~= ~= = = ~~= I= = = = = ~~= = = = ~~=~=K=

j=f~= = j~= = = ~= = ~~I= = = ~= ~= = ~~~= ~~= ~~= ~= ~= ~= ~~= ~K= ^= ~= = ~= ~~= = = ~= ~I= = ===~~=~=====~=~== ==~I=======~~K=n~=~== ~= ~~= = ~= ~= = ~= ~\= `~= = ~~= = = = = = ~~= ~~= ~~=~I= = = = = ~==~I==~======~== ~= = = ~I= ~= = ~= ~= = ~= ~==~K=r~=~=~~======~= ~= = = ~= ~= ~= ~~~= ~K= m= = ~I= = = I= ~= ~= ~= ~= = ~~==~K=^=~=~===~I==~== ===I=~==~======~=~= ~= = ~= ~= ~= = = ~~= ~= = = ==K= m=~== = m= ~= = = = = = = = ~= = = = I= ~= ~~= = ~~= = = ~= K= ^= ~~= = = = = = = I= ======~=~K=`~J== = = = (u1 , u 2 ,........) ~= ~~= = A = = ~= K= m= I= = = = = = = ==~=~~=I=~J=~====~= =~~====I==~I=~=J== A == ~=~~==~K=== = l= = ~= = ~= ~= = S = = A = ~~= = ~= ~~= E [N (S )] = = ~= ~~= C N (S i ), N S j I= = N (S ) =~======pK=p===~=~=~=

( )]

~= ~~= = = ~= = ~= I= ~= ~~===~=~==~==~=~~== = = ~K= b= ~= = = = ~~= = N (S ) = ~~= ~= ~= = du = = = = u I= ~= ~= = ~= K= b~= ~~= =~~= ~= E~= =~= FI= =~=X==

(u ) = lim du 0

E [N (du )] I= du

ENJSF=

= m~= = ~= = = = ~= ~= ~= ~I= ~=~=~=~ ui , u j ==~==~=

du == du j ===== u i == u j K==

(d (ui ), d (u j )) =
=

C N (dui ), N du j du i , du j 0 dui , du j lim

( )]

==

ENJTF=

~==I= u i , u j ==== ( h ) I== h =~=~=== = K= n~= = = = = ~I= = ~I= ~= ~= ~=~~=~==^I=~=~=~=~==~= ui , u j =

n~= = = = = ~I= (u ) = = ~= ~= (u ) = X= =

=~=~=~~== (u ) K=l==~==~~== ~=OK= s~~=~=

= l= = ~= = ~~= ~= ~= = = = { Z (u ), u A, A 2 } I= = ~= = = = = ===~=~==K=^=~==~=~~===~= z I=~~==== u === A I {z (u ), = 1,.., n} I=~J= =~==~==~== z K=^=~=== = = = ~= = ~= ~= J~~~= = ~= ~= = ~= = ~I= = = = = ~= P= = Q= = K= b= = ~= = = ~= = = =~==~~K== = ^= ~~= ~= = = = = = ~W= ~= ~==~=~=~K=k~=~I==~~== uo I== ~=~=~=~~~= Z ==~I= z (uo ) =~J==~I= Z (u ) I= = = = ~= = = ~= = ~= ~= = ~~= ~~=
o

Z (uo ) = f (C , (n )) K= b= ~= ~~= ~~= ~=

~W= = = = = = = = = = ~= ===~K=== = k~= ~= ~I= = = = ~= ~= = ~~~= Z = ~~= = ~~= = = = = = = ~K= `~~= ~~= ~= ~~~= = ~= ~= = ~= ~= ~~= = = = = ~~~= ~K= d~= ~= ~~= = ~= = ~===~====~~~=~~~I= F (z ) I==~= ~==~~=~~=~~K=== = ^=~==~====~== z =~~= = ~~= ~= ~I= z (u ) I= ~= = ~= ~= ~=

= ~= ~~~= ~~= ~= = ~~= = = ~=~=====~~~K=m~~==== ~I=~=~==~=~I=~==~~I=== ~= ~= = = = = = ~= ~= = ~= I= = I= = = ~= ~= = ~= = ~= = ~= ~~==~~===~==~=~~K=k=I= = = = = = = = ~I= ~~= = ~=P==QK= s~~=~= = l= = ~= = ~~= ~= = = = = = = ~= ~~= = ~~~= ~= ~= ~~= =K=b=~===~=~=~=~== = ~~= = I= ~= = = I= = ~I= ~~= = ~K= k= ~I= = = ~= ~~= ~~==I=~===~=~~==~K=l===~= = ~= = ~= ~~= = = = = K= l= ==~~=~==~==~=R==K= = k= = = ~= ~J= = = ~= = = I=~==^I======~=~~K=l=== =~=~=~==== {Z i : i = 1,..., n} I= = = = = = ~= ~~~K= _~J= = ~= ~~= ~~= ~= = ~= ~= ~= Z = {Z1 , ..., Z n } I= = ~~= ~= ~~~= = ~~~= ~= ~= ~= ~= = = ~= =~==~~K=p====~I==~=~== Z i = ~= ~= ~= ~= = = ~= ~= = ~~= = ~=~=~I==~=~==~~==~=~K= 1.6 CONCLUSES = b= ~= ~= = ~= = = ~= ~~= = ~= = = = ~= = = ~= = ~= ~= ~~K= l= = = = ~= = ^= b~~= = ~= = = = ~= q~~= NJNI= = = ~~= ~= ~~=~~==K=

Tabela 1-1 Tipos de Dados e Problemas em Anlise Espacial = Tipos de Dados Analise Padres Pontuais Anlise Superfcies de Eventos Localizados Amostras de Campo e Matrizes Polgonos e Atributos Exemplo Ocorrncia de Doenas Depsitos Minerais Dados Censitrios Problemas Tpicos Determinao de Padres e Agregamentos Interpolao e Medidas de Incerteza Regresso e Distribuies Conjuntas

de

Anlise de reas

= = m~~==~=I==~=~==~=~= ~=^=b~~====~==I=====~= c~= NJVK= l= ~~= = = = = E= `~= = pI= d~= = p~= m~F= = ~= = = I= = = ~= ~= = ~~= = pfdK= b~= ~= ==~===~=~~==~K=^=~= ~= ~I= = = = = ~~= = = ~= ~~I= = = = = ~= = = ~~= = = ~I=~~====^=b~~K=l=~= = = = ~= = = ~~= ~= ~= = ~~=~=~==K== =
Domnios do Conhecimento Teorias Modelos Inferenciais Hipteses Testveis

Conceitos Qualitativos

Anlise Espacial

= Figura 1-9 Relao entre anlise espacial e as teorias disciplinares. = `= = = ~I= = ~= = = ~= ~= ~= ~I= = = = = = ~~= ~~= ~K= l= = ~= = = = ~~= ~~= ~=

==~K=j~====~=~== ~~=E=~I=~~=~==~~=~F=~~= ~~= ~= ~= ~= ~K= k= ~I= = = ~= = = = ~= ~= = = = = I= = ~~= = = ~===~=~=~=~=~~~K== = b~= = ~= ~= = = = ~= = ~= ~= ~= ^=b~~K=^=~=~~~==^=b~~=== ~=~=====~~==~==~~== = = = K= p= = = = = ~= J= ~= ~~W= = = = ~= = = d~= = b~~= b~~= = ~= ~= = ~~= ~I= ~= ~= ~~= = = ~= E~~= ~F= = ~= ~=E~~=~F==~~K= = ^=~==~===~===== ==~=~==~==~=~=~~= =~=K=m~~=~=~=~==j=p~I==~== ~= ~~I= ~= ~= ~~= = ~= = = = = ~= == X= ~= ~~= = ~~= ~= ~= ~~= ~~~K= `= = = = pfd= = = ~= ~~I= = ~~~= ~~~= ~= ~= = ~~= = ~I= ~= = ~= ==~~====X==~~=~=~=~= ~= = ~I= ~= ~= = = = I= ~= = =~=~=~~=~==I=~=~~== ~K= ^= ~= = ~= = = ~~= = = = ~= ~= ~= = ~= ~= ~~~= E= = ~= ~= = ~~= = ~F= = = ~~= E= = ~= ~==FK== = b~= ~~= = = = ~= = = ~~= ~= ~= = ^= b~~= = d~K= k= ~~~= = ==~~=~I=====~~= = ~= ~~I= = = = = ~= ~= ~~= = ~K=b===~=====~==== ~=~===~~===~~==K= 1.7 REFERNCIAS = l=J===~=~~I===~~=~== =~=~~==I==p~~=a~~=^~==b~= E_~=~=d~I=NVVRFK=p===~====K=q= _~= ~= ~= ~= ~= ~~= = ~K= l= = = = = ~= ~= = c~= = ~K= EOMMNFI= I= ~=

======_~==d~I==~=~=K= m~~= = ~= I= = = = j~= ENVVRF= ~~= ~= ~= ~= I= ~= = ~= ~= ~= ~= = ~~= ~~K= b= mI= = = = = o~= ^= EOMMNF= ~=~==~~~~==J~==~I=~== ~= ~= ~= ~~= = ~= = = ~= ~~= ~= = K= = m~~= = = = ~= ~~= ~= ~I= = = = `=ENVVNF=~~=~=~~===~I==~== = = ~~= ~K= r~= ~= ~= = ~~I= = = = = = = = = = = f~= = p~~~= ENVUVFK= ^= = ~= dpif_I= ~= ~= ~= ~= ~~= ~~= = = = ~~= = ~~I= = = ~~= = ==a==g=ENVVOFK= = m~~=~==~=~=d~I====~= `~~= = ~K= EOMMNF= = _= = ja= ENVVUFK= `= ~= = ~= = ~~= = pfdI= = = = J= ~= `~~= ENVVTFI= = = = = = = = ~= = ~= pmofkdK= l= = = p~~= `~~~= = ~~= = ~~= =_=EOMMNFK=^~==^=b~~=~~=~==~= ~==~==`~~=ENVVTFK= ^I=oK=EOMMNFK=b~~=b~~==^~==b~I= b~I= p~K= _= eI= rcjdK= E= = YKKKL~~[F= _~I=qK=~=^K=d~=ENVVRFK=p~~=a~~=^~==b~K=iI= i~K= _I= pK= EOMMNF= d~= ^~= = q~~= = f~W=l=`~==w~=m=~~=~=p~==b~= =p~~=`~~~K=a~=Ej~==p~=oF== f=k~~==m~=b~~I=p=g==`~K= _I= mK^KX= jaI= oKX= m= = d~~= f~= pK=lI=l=r=mI=NVVUK== `~~I=dKX=a~K`KX=jI=^KjKX=aD^I=gK`K=f==`~=~= d~K=p=g==`~I=fkmbI=OMMN=EO~K=I=~== ~~~I===KKKLLFK= `~~I= bK= ENVVTFK= aI= f~= = = = q= = = m= = d~= = Eh~F= = p~= = m~= = f~= d~~= EpmofkdFK=

a~= Ej~= = p~= oF= = f= k~~= =m~=b~~I=p=g==`~K= `~~I= jKpK= ENVVTF= ^~= = j= = ^= b~~= ~= `~~~= = ~= = o= = p~K= q= = a~= = b~~= _~I= `lmmbLrcogK= EfW= YKKKL~~[=FK= `I=kK=ENVVNF=p~==p~~=a~~K=`I=g=tK= aI=`K==^K=g=ENVVOFK=dpif_W=d~~=p~=i~=~= =K=k=vI=l=r=mK= c~I= ^KpKI= `K= _= ^= jKbK= `~= EOMMMFI= n~~= d~I=iW=p~K= f~I=jK==bK=p~~~=ENVUVFK=^=f==^=d~K== k=vI=l=r=mI=NVUVK= j~I= aK= ENVVRFK= d~= f~= pW= p= ^~K=iI=oK= qI=bK=ENVUPFK=q=s~=a~==n~~=f~K=`I= `qI=d~=mK=

= APNDICE SOFTWARE PARA ANLISE ESPACIAL


= ^= ~~= = ~= = ~= ~= = = = = ~~= ~= ~= = ~~= ~~I= ~= = I= = ~= ~= = = ~= = ==~I=~=~=~==~=~=~~K= ^= = I= ~= = = ~= pfd= = = = ~= ~~K=j~=I=~=~==~=~~==~= ~= ~= ~= ~= = = = = ~~= ~= ~= = pfd= ==_~K=b==~=~~~=~=~=~I== ~==~~===~===~~==~== ~==~K== = m~~= ~= = I= = ~= = ~= = = ~= = ~= ~~= = ~= ~~= = = ~= = ~=~======~=~~K=a~~=~= ~=~~I=J=~=====~=~=~=~~== ~~= ~K= m~~= ~= = ~~~~I= ~J= ~= ~= ~= = K~J~KI= ~= = d= aI= = = ~===~===~K=

= ^==~~=~=~=I=J=~~===faofpf=== do^ppI==pfd==~I==~===~=dpq^q== ~= = ~~= ~= ~~K= s~J= = = ~= q~~=NJPK= TABELA 1-2 GSLIB Biblioteca para Geoestatstica Descrio Autores Disponibilidade Funes Biblioteca para desenvolvimento de programas em geoestatstica, escrita em Fortran 90 Clayton Deutsch e Andr Journel Software livre em <www.gslib.com> Anlise Exploratria: estatsticas descritivas, clculo de variograma (2D e 3D). Estimao: krigeagem simples e ordinria, com modelo de tendncia, co-krigagem, krigeagem por indicao, simulao seqencial (gaussiana e por indicao), com suporte a variveis contnuas ou categricas. Aplicabilidade = =TABELA 1-3 GSTAT Software para Geoestatstica Descrio Autores Disponibilidade Funes Ambiente para desenvolvimento de programas em geoestatstica, escrito em C. Possui interface com IDRISI e GRASS. Edsger Predesma Software livre em <www.gstat.org> Anlise Exploratria: estatsticas descritivas, clculo de variograma (2D e 3D). Estimao: krigeagem simples, ordinria e universal (com modelo de tendncia), co-krigagem, krigeagem por indicao, simulao seqencial (gaussiana e por indicao), com suporte a variveis contnuas ou categricas. Aplicabilidade Geoestatstica Linear (cap 3) e por Indicao (cap 4) Geoestatstica Linear (cap 3) e por Indicao (cap 4)

TABELA 1-4 ClusterSeer Clustering de Processos Pontuais= Descrio Autores Disponibilidade Funes Programa para deteco de clusters (conglomerados) associados a eventos Godfrey Jacquez Software comercial em <www.terraseer.com> Deteco de Conglomerados Espaciais: testes focados (Diggle, Bithell, Besag e Newell, Turnbull) e globais (Besag e Newell, funo K de Ripley). Deteco de Conglomerados Espao-Temporais (Kulldorff) Aplicabilidade = TABELA 1-5 CrimeStat Anlise de Estatsticas Criminais= Descrio Autores Disponibilidade Funes Software livre em <www.icpsr.umich.edu/NACJD/crimestat.html> Estatsticas descritivas: centro mdio, elipse dos desvios padres, ndice I de Moran. Deteco de conglomerados: funo K de Ripley, k-mdias e ndices locais de Moran. Estimador de densidade: kernel estimator. Aplicabilidade = Anlise de Eventos (cap 2) Software para anlise de eventos associados a criminalidade Anlise de Eventos (cap 2)

TABELA 1-5 SpaceStat Anlise Espacial de reas = Descrio Autor Disponibilidade Funes Software para anlise espacial de reas, com nfase em tcnicas de regresso espacial. Possui interface com ArcView. Luc Anselin Comercial em http://www.spacestat.com/ Anlise ExploratriaW=estatsticas descritivas, ndice I de Moran (global e local), mapa de Moran, ndice C de Geary, com testes de hipteses sobre autocorrelao espacial. EstimaoW= Regresso por mnimos quadrados, e regresso espacial com vrias tcnicas: modelos SAR (spatial lag e spatial error), com incluso de heterocedasticidade. Aplicabilidade = TABELA 1-6 SPRING = Descrio Software de geoprocessamento de propsito geral, com funes de processamento de imagens, modelagem de terreno, lgebra de mapas e consulta a bancos de dados geogrficos. Possui interface com SpaceStat e suas funes de geoestatstica utilizam a GSLIB. Equipe da Diviso de Processamento de Imagens do INPE Software livre em <www.dpi.inpe.br/spring> Anlise de reas (captulo 5)

Autores Disponibilidade

Funes de Anlise Exploratria: estatsticas descritivas, clculo de variograma (2D Anlise Espacial e 3D), ndice I de Moran (global e local), mapa de Moran, ndice C de Geary, com testes de hipteses sobre autocorrelao espacial. Deteco de conglomerados: funo K de Ripley, vizinho mais prximo e ndices locais de Moran. Estimador de densidade: kernel estimator. Estimao: krigeagem simples e ordinria, krigeagem por indicao, simulao seqencial (gaussiana e por indicao), com suporte a variveis contnuas ou categricas. Aplicabilidade = Anlise de eventos (cap 2), geoestatstica Linear (cap 3) e por Indicao (cap 4), anlise de reas (cap 5).

TABELA 1-7 ArcGIS Geostatistical Analyst= Descrio Autores Disponibilidade Extenso do ArcGIS (software de geoprocessamento de propsito geral) Konstantin Krivoruchko e equipe da ESRI Comercial em <www.esri.com>

Funes de Anlise Exploratria: estatsticas descritivas, clculo de variograma (2D Anlise Espacial e 3D), anlise de tendncias Estimao: krigeagem simples e ordinria, krigeagem por indicao, co-krigagem e krigeagem disjuntiva Aplicabilidade = = Geoestatstica Linear (cap 3) e por Indicao (cap 4)

2 ANLISE ESPACIAL DE EVENTOS


Gilberto Cmara Marilia S Carvalho

2.1 INTRODUO Neste captulo sero estudados os fenmenos expressos atravs de ocorrncias identificadas como pontos localizados no espao, denominados processos pontuais. So exemplos: localizao de crimes, ocorrncias de doenas, e localizao de espcies vegetais. O objetivo destas anlises estudar a distribuio espacial destes pontos, testando hipteses sobre o padro observado: se aleatrio, se apresentase em aglomerados ou se os pontos esto regularmente distribudos. O objeto de interesse a prpria localizao espacial dos eventos em estudo. O tipo de dado nestes estudos consiste em uma srie de coordenadas de pontos (p1, p2, ...) dos eventos de interesse dentro da rea de estudo. O termo evento refere-se a qualquer tipo de fenmeno localizvel no espao que, dentro de nossa escala de investigao, possa estar associado a uma representao pontual. Exemplos incluem:

Epidemiologia: residncia de casos de doenas Sociologia: local de ocorrncia de ofensas criminais Demografia: localizao de cidades Biologia: localizao de espcies vegetais de interesse

Para ilustrar estes conceitos, considere a figura 2.1, que apresenta a distribuio de 299 bitos de menores de um ano, registrados no ano de 1998, de crianas nascidas no mesmo ano na cidade de Porto Alegre, Rio Grande do Sul, divididos em neonatais (menores de 28 dias de nascidos) e posneonatais (entre 28 dias e um ano). A anlise de padres neste tipo de dado pode ser utilizada como uma forma de identificao de possveis reas com maior concentrao de mortes infantis, de comparao entre os bitos nos dois grupos de idade, e de identificao de fatores de risco associados a esta ocorrncia. Os dados de distribuies pontuais tm as seguintes caractersticas:

A rea dos eventos no uma medida vlida apesar de em muitos casos ocuparem espao. Mesmo na anlise do padro de distribuio de cidades estas so consideradas como um ponto no espao do estudo.

Os pontos em geral no esto associados a valores, mas apenas ocorrncia dos eventos considerados. Em alguns estudos os pontos podem estar associados a atributos de identificao, como no exemplo acima, em bitos neonatais e posneonatais. Quando este atributo elemento do estudo, atravs da comparao da distribuio espacial destes atributos, denomina-se processo pontual marcado.

Figura 2-1 - Distribuio espacial de mortalidade infantil neonatal e posneonatal - em Porto Alegre em 1998.

Nosso interesse primrio ao analisar padres de distribuio de pontos determinar se os eventos observados exibem algum padro sistemtico, em oposio uma distribuio aleatria. Busca-se detectar a existncia de padro de conglomerados espaciais (cluster), atravs da constatao de um nmero acima do esperado de casos excessivamente prximos, considerando uma distribuio estocstica, usualmente um processo de Poisson. Se um padro de eventos pontuais apresentar desvios significativos do comportamento esperado para uma distribuio de Poisson, isto indica a existncia de uma distribuio espacial diferente da completa aleatoriedade, que merece ser objeto de maior anlise.

Anlise Espacial de Dados Geogrficos

2-2

2.2 CARACTERIZAO DE DISTRIBUIES DE PONTOS Numa viso estatstica, processos pontuais so definidos como um conjunto de pontos irregularmente distribudos em um terreno, cuja localizao foi gerada por um mecanismo estocstico. Para sua caracterizao, este processo estocstico pode ser descrito em termos dos efeitos de primeira ordem e efeitos de segunda ordem. Os efeitos de primeira ordem, considerados globais ou de larga escala, correspondem a variaes no valor mdio do processo no espao. Neste caso, estamos interessados na intensidade do processo, isto , no nmero de eventos por unidade de rea. Efeitos de segunda ordem, denominados locais ou de pequena escala, representam a dependncia espacial no processo, proveniente da estrutura de correlao espacial. Para medir a dependncia espacial, procuramos estimar o relacionamento entre pares de eventos (por unidade de rea) no espao, o que corresponde a uma aproximao do clculo da covarincia entre as variveis aleatrias que representam cada evento1. Considera-se um conjunto de pontos (u1 , u 2 ,........) numa determinada regio A onde ocorreram eventos. O processo pontual modelado considerando subregies S em A atravs de sua esperana E [N (S )] e a covarincia C N (Si ), N S j , onde

N (S ) denota o nmero de eventos em S. Sendo o objetivo da anlise estimar as

( )]

localizaes provveis de ocorrncia de determinados eventos, essas estatsticas devem ser inferidas considerando o valor limite da quantidade de eventos por rea. Este valor limite corresponde esperana de N (S ) para uma pequena regio
du em torno do ponto u , quando essa tende a zero. Essa esperana denominada intensidade (propriedade de primeira ordem), sendo definida como

(u ) = lim du 0

E [N (du )] , du

(2.1)

Propriedades de segunda ordem podem ser definidas da mesma forma, considerando a intensidade conjunta ui , u j entre duas regies infinitesimais | du |

e du j que contm os pontos u i e u j .

(d (ui ), d (u j )) =
Quando o

C N (dui ), N du j du i , du j 0 dui , du j lim

( )]

(2.2)

tambm isotrpico, u i , u j se reduz ( h ) , sendo h a distncia entre os dois pontos. Quando o processo no estacionrio, ou seja, a intensidade mdia varia

processo estacionrio, (u ) uma constante, ou (u ) = ; se

Vale relembrar a discusso do seo 1, onde caracterizamos os eventos no espao por um processo estocstico, onde cada ocorrncia uma realizao de uma varivel aleatria distinta.

Anlise Espacial de Dados Geogrficos

2-3

na regio A, a modelagem da estrutura de dependncia ui , u j deve incorporar a supe, explcita ou implicitamente, um comportamento estacionrio e isotrpico do processo aleatrio subjacente aos eventos analisados.

variao de (u ) . A maior parte das tcnicas de anlise de distribuio de pontos

No exemplo acima da mortalidade infantil, a ocorrncia dos bitos est condicionada pela distribuio dos nascimentos. Alm disso, caractersticas individuais da criana, tais como prematuridade e peso, so importantes condicionantes do bito. possvel, entretanto, modelar estes eventos e detectar reas de sobre-risco, considerando simultaneamente o padro de distribuio dos nascimentos e bitos, e verificando a variao da intensidade do evento na regio e a estrutura de correlao local. A anlise estatstica dos padres de distribuies de pontos requer um modelo terico de referncia, base para o desenvolvimento de mtodos formais que checam a significncia dos resultados exploratrios. O modelo terico mais simples (e bastante aplicado na prtica) conhecido como aleatoriedade espacial completa (complete spatial randomness - CSR). Este modelo divide a regio de estudo A em subreas Si e modela a distribuio de eventos pontuais como um processo aleatrio

{Z i (ui ), ui S i : i = 1,..., n}

(2.3)

Neste caso, consideramos Zi(ui) como o nmero de eventos que ocorrem na sub-rea Si. No modelo CSR, consideramos que as ocorrncias em cada sub-rea so no-correlacionadas e homogneas, e esto associadas mesma distribuio de probabilidade de Poisson. Numa viso intuitiva, pode-se considerar que a posio dos eventos independente e de que os eventos tem igual probabilidade de ocorrncia em toda a regio A. Esta formulao nos permite estabelecer uma base de comparao entre uma distribuio completamente aleatria (que seria gerada por um processo de Poisson) e os dados coletados em campo. O procedimento mais usual para estimar a probabilidade associada ao padro encontrado ser produzir uma simulao do processo aleatrio na regio de estudo. Dado um nmero fixo de eventos medidos em campo (denotado por n), determinamos o retngulo envolvente da regio A (seja {(x,y) : x1 x x2, y1 y y2} ). Os eventos so gerados a partir de abscissas x, obtidas de uma distribuio uniforme em (x1,x2) e de ordenadas y, obtidas de uma distribuio uniforme em (y1,y2). Pontos que caem fora da regio so rejeitados. Este processo repetido at que n eventos tenham sido obtidos na regio. Podemos gerar um conjunto de simulaes, para que possamos obter uma base de comparao entre o comportamento de um processo aleatrio e a distribuio dos eventos medidos. Os conceitos de CSR so utilizados para
Anlise Espacial de Dados Geogrficos

2-4

caracterizar os efeitos de segunda ordem em distribuio de pontos, utilizando os mtodos do vizinho mais prximo e da funo K, descritos a seguir. So tambm utilizados para avaliao em vrios mtodos de deteco de aglomerados (clusters).

2.3 ESTIMADOR DE INTENSIDADE ("KERNEL ESTIMATION") Uma alternativa simples para analisar o comportamento de padres de pontos a estimar a intensidade pontual do processo em toda a regio de estudo. Para isto, pode-se ajustar uma funo bi-dimensional sobre os eventos considerados, compondo uma superfcie cujo valor ser proporcional intensidade de amostras por unidade de rea. Esta funo realiza uma contagem de todos os pontos dentro de uma regio de influncia, ponderando-os pela distncia de cada um localizao de interesse, como mostrado na Figura 2-2.

Kernel k()

Largura
Figura 2-2 - Estimador de intensidade de distribuio de pontos.

A partir dos conceitos apresentados, suponha e u1,...,un so localizaes de n eventos observados em uma regio A e que u represente uma localizao genrica cujo valor queremos estimar. O estimador de intensidade computado a partir dos m eventos {ui,...ui+m-1} contidos num raio de tamanho em torno de u e da distncia d entre a posio e a i-sima amostra, a partir de funes cuja forma geral :
(u ) = 1

k(
i =1

d (ui , u )

) , d (ui , u )

(2.4)

Este estimador chamado kernel estimator e seus parmetros bsicos so: (a) um raio de influncia ( 0) que define a vizinhana do ponto a ser interpolado e controla o "alisamento" da superfcie gerada; (b) uma funo de estimao com propriedades de suavizao do fenmeno. O raio de influncia define a rea centrada no ponto de estimao u que indica quantos eventos ui contribuem para a estimativa da funo intensidade . Um raio muito pequeno ir gerar uma superfcie muito descontnua; se for grande demais, a superfcie poder ficar muito amaciada. No caso da funo de interpolao k(), comum usar funes de terceira ou quarta ordem, como
Anlise Espacial de Dados Geogrficos

2-5

k ( h) =

(1 h 2 )

(2.5)

ou o kernel gaussiano
k ( h) = h2 exp 2 2 2 1

(2.6)

Nestes estimadores, h representa a distncia entre a localizao em que desejamos calcular a funo e o evento observado. Com o uso desta funo de quarta ordem (equao 2.5), o estimador de intensidade pode ser expresso como:
(u ) = 3 h2 2 1 i2 hi
2

(2.7)

O estimador de intensidade muito til para nos fornecer uma viso geral da distribuio de primeira ordem dos eventos. Trata-se de um indicador de fcil uso e interpretao. A figura 2.3 ilustra a aplicao do estimador de intensidade para o caso de mortalidade por causas externas em Porto Alegre, com os dados de 1996. A localizao dos homicdios (vermelho), acidentes de trnsito (amarelo) e suicdios (azul) esta mostrada na figura 2.3 esquerda e o estimador de intensidade dos homicdios apresentado na figura 2.3. A superfcie interpolada mostra um padro de distribuio de pontos com uma forte concentrao no centro da cidade e decrescendo em direo aos bairros mais afastados.

Figura 2.3: Distribuio de casos de mortalidade por causas externas em Porto Alegre em 1996 e estimador de intensidade.

Anlise Espacial de Dados Geogrficos

2-6

2.4 ESTIMADORES DE DEPENDNCIA ESPACIAL Para a estimao de propriedades de segunda ordem do processo pontual, as tcnicas mais utilizadas so o vizinho mais prximo e a funo K, descritos a seguir. Mtodo do Vizinho Mais Prximo O mtodo do vizinho mais prximo estima a funo de distribuio cumulativa G ( h) baseado nas distncias h entre eventos em uma regio de anlise. Esta funo de distribuio pode ser estimada empiricamente da seguinte forma:
#( d (ui , u j ) h) G ( h) = n

(2.8)

onde o valor normalizado acumulado para uma distncia h corresponde soma dos vizinhos mais prximos de cada evento cuja distncia menor ou igual a h, dividido pelo nmero de eventos na regio. A plotagem dos resultados desta funo de distribuio cumulativa emprica G ( h) pode ser usada como um mtodo exploratrio para se verificar se existe evidncia de interao entre os eventos. Se esta plotagem apresentar um crescimento rpido para pequenos valores de distncia, esta situao aponta para interao entre os eventos caracterizando agrupamentos nestas escalas. Se esta plotagem apresentar valores pequenos no seu incio, e s crescer rapidamente para valores maiores de distncia, esta situao aponta para uma distribuio mais regular. A Figura 2-4 mostra a funo G ( h) para os dados de mortalidade infantil de Porto Alegre (figura 2.1), com distncia mnima de 0 km e distncia mxima de 1 km. Verifica-se que a curva mostra um crescimento acentuado para distncias at 500 m para depois se estabilizar, o que caracteriza agrupamento nesta faixa de distncias.

Figura 2-4 Funo vizinho-mais-prximo para mortalidade infantil neonatal em Porto Alegre.
Anlise Espacial de Dados Geogrficos

2-7

A anlise de vizinhana pode ser usada como mtodo formal para se comparar estatsticamente a distribuio dos eventos observados com o que se esperaria na hiptese da aleatoriedade espacial completa (CSR). Esta metodologia consiste em se criar envelopes de simulao para a distribuio CSR, a fim de se acessar a significncia dos desvios. Na hiptese de CSR, a funo de distribuio G(w) seria dada por um processo de Poisson
G ( h) = 1 e h h 0
2

(2.9)

A estimao simulada para a distribuio G(w) assumindo-se CSR calculada como


G i ( h)
i k

G ( h) =

(2.10)

onde G i ( h) , i=1,2..,k so funes de distribuio empricas, estimadas a partir de

k simulaes independentes dos n eventos, na hiptese de CSR (n eventos independentes e uniformente distribudos). Para verificar a condio de aleatoriedade, calculamos ainda os envelopes de simulao superior e inferior, definidos como se segue:
U (h) = max{ Gi (h)}, i = 1,..., k L( h) = min { Gi (h)}, i = 1,..., k

(2.11)

A plotagem da distribuio estimada G ( h) versus a distribuio simulada


G (h) , com a adio dos envelopes inferior e superior, permite medir a

significncia dos desvios relativo a aleatoriedade. Se a condio CSR for vlida para os dados observados, o grfico da curva de G ( h) versus G (h) deve ser praticamente linear com um ngulo de 45 graus. Se o dado apresenta tendncias para agrupamentos, os traados no grfico estaro acima da linha de 45 graus, ao passo que para padres de regularidade os traados ficaro abaixo da linha de 45 graus. A Figura 2-5 mostra um exemplo de grfico mostrando o posicionamento da distribuio e dos envelopes com relao a linha de 45 graus, para os dados referentes mortalidade infantil neonatal em Porto Alegre. Neste caso percebe-se a posio dos envelopes e da distribuio acima da linha de 45 graus, o que caracteriza agrupamento para as distncias em anlise.

Anlise Espacial de Dados Geogrficos

2-8

Figura 2-5 Grfico de G ( h) (estimado) versus G (h) (CSR), com envelopes superior e inferior, para os dados de mortalidade neonatal em Porto Alegre

Embora o mtodo do vizinho mais prximo fornea uma indicao inicial da distribuio espacial, ele considera apenas escalas pequenas. Para se ter informao mais efetiva para o padro espacial em escalas maiores, o melhor mtodo a ser utilizado o da funo K. Funo K A funo K, tambm denominada medida de momento de segunda ordem reduzido, definida para o processo univariado como: K(h) = E(# eventos contidos a uma distncia h de um evento arbitrrio) (2.12) onde # est associado ao nmero de eventos, E() o operador de estimativa, e a intensidade ou nmero mdio de eventos por unidade de rea, assumida constante na regio. Uma estimativa de K(h) :
A K (h ) = 2 n

I h ( d ij ) wij

(2.13)

j ,i j

onde A a rea da regio, n o nmero de eventos observados, Ih(dij) uma funo indicatriz cujo valor 1 se (dij) <= h e 0 em caso contrrio, e wij a proporco da circunferncia do crculo centrado no evento i que est dentro da regio (correo devido ao efeito de borda). A funo K usada como ferramenta exploratria na comparao entre estimativa emprica K (h) e a resultante de um processo de padro de pontos espacial aleatrio K (h) . Para um processo aleatrio K(h) seria h . Portanto, uma forma de comparar a estimativa K de um conjunto de dados observados com 2 h seria plotar a funo L (h) definida como:
2

Anlise Espacial de Dados Geogrficos

2-9

L (h ) =

K (h )

(2.14)

O grfico de L (h) em funo da distncia h indica atrao espacial entre

eventos ou agrupamentos para valores positivos, sendo o agrupamento mais forte em picos positivos, e indica repulso espacial ou regularidade em pontos de valores negativos. Uma abordagem similar do vizinho mais prximo pode ser feita para se estimar a significncia dos desvios da distribuio L (h) em relao condio de aleatoriedade (CSR). Os envelopes inferior e superior so construdos a partir de k simulaes independentes de n eventos na regio A. Na anlise do grfico com a distribuio e os envelopes, picos positivos na funo estimada L (h) que esto acima do envelope superior evidenciam ocorrncia de agrupamento na escala considerada, portanto, se todos os valores da funo L (h) estiverem acima do envelope superior e com valores positivos, teremos agrupamentos em todas as escalas. Depresses negativas na funo estimada L (h) que estiverem abaixo do envelope inferior, evidenciam regularidade nessa escala, portanto, se todos os valores de L (h) estiverem abaixo do envelope inferior e com valores negativos, tem-se regularidade em todas as escalas.
A Figura 2-6 mostra o grfico da funo L (h) e dos envelopes de simulao

para o dado de Porto Alegre (Figura 2-1). Verifica-se valores positivos para a funo L, estando os mesmos acima dos envelopes, o que caracteriza agrupamento em todas as escalas de distncia.

Figura 2-6 Funo K com simulao para os dados de mortalidade neonatal em Porto Alegre.

Anlise Espacial de Dados Geogrficos

2-10

2.5 PROCESSO PONTUAL MARCADO Um das situaes mais importantes na anlise espacial de pontos a possibilidade de comparao entre dois processos espaciais. Tipicamente, um dos processos representa os casos em estudo, e o outro os casos de um processo pontual que representa um conjunto de casos de controle. Por exemplo, num estudo realizado por Peter Diggle na Inglaterra sobre cncer de laringe, foi utilizado dados de cncer de pulmo como indicadores da distribuio espacial da populao. Esta situao pode ser generalizada supondo dois processos pontuais, o primeiro cujos casos localizam-se em (u1,u2,...,u1) e o segundo cujos casos esto nos pontos (un+1,un+2,...,un+m). Cada tipo de evento pode ser modelado como uma distribuio de Poisson, I e II, com intensidades 1(u) e 2(u). Define-se o risco na localidade u como uma funo da razo entre 1 e 2. O objetivo da anlise investigar a variao espacial desta razo na regio. Se estimarmos a intensidade de cada processo atravs de uma funo kernel, a razo entre as duas funes ser a intensidade do risco. E cada uma das funes estudadas anteriormente pode ser adaptada para verificar a relao entre os pontos do processo I com os pontos do processo II. Por exemplo, visando estudar a disperso de duas espcies vegetais pode-se verificar a relao de cada ponto com o vizinho mais prximo da outra espcie.

2.6 ESTUDOS CASO-CONTROLE Considere-se um tipo de estudo onde temos dois tipos de eventos, por exemplo recm-natos que morrem antes de completar um ano e os que sobrevivem a esta idade. Sendo esta varivel do tipo binomial a resposta do estudo, dependente de diversas covariveis tais como prematuridade, existncia de doenas na gravidez, escolaridade da me, e incluindo sua localizao no espao, pode-se modelar o processo utilizando o mtodo clssico de regresso logstica, prprio para este tipo de distribuio. O que particulariza o contexto espacial a forma de se incluir a localizao dos pontos no modelo. Diversas formas de estimar este risco em cada localidade so possveis, entre as quais utilizar o mesmo kernel da razo como um dos termos da regresso, que toma uma forma semi-paramtrica abaixo:

logit( yi ) = xi + g( si ) ,
onde:

(2.15)

yi a varivel resposta, e tem a forma sim/no, zero/um (bitos/nascimentos), a funo de ligao da regresso o logit, como usual para dados binomiais, xi o vetor de covariveis, 2-11

Anlise Espacial de Dados Geogrficos

o vetor de parmetros estimado pelo modelo, que no caso da regresso


logstica a razo de chances (odds ratio) relacionada a cada covarivel, g(si) a razo do estimador de intensidade kernel de casos e controles.

O ganho deste tipo de modelagem possibilitar a estimativa da variao espacial do risco, controlando pelos fatores conhecidos de variao de risco. Os procedimentos de estimao dos parmetros destes modelos baseia-se em mtodos iterativos usuais de modelos aditivos generalizados, onde se estima os parmetros da regresso, e sobre os resduos estima-se a funo kernel, e assim sucessivamente at que as estimativas no mais se alterem. O mtodo permite identificar reas de sobre ou sub risco significativamente diferente da mdia global. A largura de banda a ser utilizada importante, e pode ser definida atravs de mtodos automticos ou selecionada pelo pesquisdor visando ajustar a uma conhecida estrutura espacial. No estudo da mortalidade infantil em Porto Alegre (figura 2-1) os dados foram analisados segundo esta proposta, incluindo como fatores de risco individuais: (a) peso ao nascer, (b) semanas gestacionais, (c) sexo da criana, (d) (e) idade da me, (f) grau de instruo da me, (g) tipo de gravidez e (h) tipo de parto, numa regresso logstica cuja expresso :
p (s, x ) + sexo + peso + idade + inst + ges + grav + parto + g(s). 1 2 3 4 5 6 7 log = 0 1 p ( s, x )

(2.16) A interpretao dos resultados razoavelmente direta: os parmetros indicam a razo de chances estimada pelo modelo (Quadro 2-1), da forma usual da regresso logstica, e no mapa so apresentadas as reas onde a probabilidade de obter o valor do kernel estimado est significativamente diferente da intensidade mdia do processo. O algoritmo para estimar a largura de banda tima para os dados utiliza validao cruzada de mnimos ponderados para o passo de regresso noparamtrica. No passo de suavizamento (Eq. 2.15) escolhe-se o valor de h que minimiza:
wi {zi g 1( si )}
n i =1 2

CV ( h ) =

(2.17)

onde g 1 ( s i ) a estimativa de g( s i ) construda com o valor de banda h usando


todos os dados com exceo do par (si, zi). Testa-se diferentes valores de h, sendo escolhido o que minimiza o somatrio.

Anlise Espacial de Dados Geogrficos

2-12

Quadro 1: Estimativas dos efeitos de covariveis utilizando o valor da banda obtido por validao cruzada
Fator Estimativa Erro padro P-valor

Intercepto Sexo Peso ao nascer Idade da me Instruo da me Durao da gestao Tipo de gravidez Tipo de parto

4,0717 -0,3674 -0,0018 -0,0131 0,0718 1,1685 -0,2006 -0,5320

0,9487 0,2713 0,0002 0,0197 0,2753 0,3737 0,6558 0,2838

0,0000 0,1761 0,0000 0,5059 0,7942 0,0018 0,7598 0,0613

A figura 2-7 mostra os mapas de risco para a mortalidade infantil aps, includas as co-variveis individuais da criana e da me. interessante observar que no centro da cidade de Porto Alegre existe uma regio onde o risco da mortalidade significativamente menor e outra onde maior. Quanto s variveis individuais, somente foram significativas o peso ao nascer, que reconhecidamente a varivel mais associada mortalidade neo-natal, e a durao da gestao, indicativo de prematuridade. Alm de mapeamento do risco, importante avaliar se a superfcie estimada varia significativamente na regio, ou seja, se existem evidncias estatsticas suficientes para rejeitar a hiptese nula de risco constante na regio, tendo-se controlado os fatores individuais de risco. Em termos do modelo, isso equivale ao teste da hiptese H0: g(s)=0. Tambm de interesse a construo de contornos de tolerncia que auxiliam na identificao de reas onde o risco significativamente superior (ou inferior) mdia global. Ou seja, reconhecendo o papel de um dado fator como um preditor importante da mortalidade infantil e controlando-o, deseja-se identificar reas onde o risco significativamente mais elevado, buscando orientar a interveno.

Anlise Espacial de Dados Geogrficos

2-13

Figura 2-7. Mapas de risco para a mortalidade infantil, controlando para fatores individuais, com a largura de banda estimada por validao cruzada, Porto Alegre, 1998 O teste global do risco e a identificao de reas de baixo e alto risco podem ser feitos utilizando o mtodo de simulao Monte Carlo, seguindo os passos do algoritmo abaixo: 1. Ajustando-se um modelo de regresso logstica convencional, para cada evento p caso ou controle estima-se a probabilidade ajustada i . Ou seja, dadas as covariveis daquele registro, qual a probabilidade ser um caso. 2. Fixando-se as localizaes de cada ponto, amostra-se m dos n indivduos (sem reposio) com probabilidade proporcional a i e estes so rotulados como p casos e os n-m restantes como controles.

3. Calcula-se uma nova estimativa de g(s), g 1 ( s ) , a estimativa centralizada em


n ~ torno da mdia g 1 ( s ) = g 1 ( s ) g 1 , onde g 1 = n 1 g 1 ( si ) e a estatstica 2 ~ t 1 = n 1 g 1 ( si ) . i =1 n

i =1

4. Repete-se os passos 1 e 2 m vezes. 5. Constri-se uma superfcie de p-valores que para cada s fornece a proporo ~ dos valores de g j ( s ) , j=1,,m, menores do que a estimativa original,

~ digamos g 0 ( s ) .

Anlise Espacial de Dados Geogrficos

2-14

6. Adiciona-se os contornos de 0.05 e 0.95 da superfcie de p-valores ao mapa de ~ g 0 ( s ) como contornos de 90% de confiana para indicar reas de alto/baixo risco. 7. Para o teste de hiptese, define-se k o nmero de tj>t0 (obtida a partir de ~ g 0 ( s ) ) e o nvel de significncia correspondente por p = ( k + 1 ) ( m + 1 ) .

2.7 REFERNCIAS A referncia das tcnicas mais bsicas apresentadas neste captulo o livro de Trevor Bailey, Spatial Data Analysis by Example (Bailey and Gattrel, 1995). As tcnicas de caso-controle espacial foram desenvolvidas por Peter Diggle e colaboradores, e a maior parte das rotinas e algoritmos est disponvel na pgina da do Departamento de Matemtica e Estatstica da Universidade de Lancaster (http://www.maths.lancs.ac.uk). O relatrio tcnico An S+ library on risk estimation and cluster detection in case-control studies, de Jarner, M. F. and Diggle, P. J., mostra as funes desenvolvidas e como us-las. Est disponvel em http://www.maths.lancs.ac.uk/dept/stats/techabstracts02.html. Os modelos aditivos generalizados, que servem de base para a extenso espacial podem ser melhor estudados em HASTIE, T. J.; TIBSHIRANI, R. J., 1990, Generalized Additive Models. London:Chapman and Hall. Um excelente livro para estudar modelos de regresso o HOSMER, D. W.; LEMESHOW, S., 1989, Applied Logistic Regression. New York:Wiley. Os trabalho sobre mortalidade infantil em Porto Alegre foi publicado no nmero especial dos Cadernos de Sade Pblica sobre o tema de estatsticas espaciais em sade (volume 17(5), outubro-novembro 2001, 1251-1261), disponvel na Internet (www.scielo.br).

1. DIGGLE, P. J., 1992. Point process modelling in environmental epidemiology. Relatrio Tcnico MA92/70, Lancaster: Department of Mathematics and Statistics, Lancaster University. 2. KELSALL, J. E.; DIGGLE, P. J. , 1995b. Non-parametric estimation of spatial variation in relative risk. Statistics in Medicine, 14:2335-2342. 3. KELSALL, J. E.; DIGGLE, P. J., 1998. Spatial variation in risk of disease: a nonparametric binary regression approach. Applied Statistics, 47:559-573.

Anlise Espacial de Dados Geogrficos

2-15

ANLISE ESPACIAL DE SUPERFCIES


Eduardo Celso Gerbi Camargo Suzana Druck Fucks Gilberto Cmara

3.1 INTRODUO No captulo anterior, apresentamos tcnicas de Anlise Espacial para eventos discretos, associados a ocorrncias pontuais. Neste captulo, apresentamos tcnicas para tratamento e anlise de dados de superfcies. De uma forma geral, estes dados esto disponveis na forma de amostras pontuais, e para utiliz-los de forma efetiva em um ambiente de Geoprocessamento, necessitamos de um procedimento de interpolao, para gerar uma representao na forma de grade regular, como ilustrado na Figura 3-1. As amostras so valores representativos do fenmeno estudado, usualmente obtidas a partir de levantamento de campo, e que apresentam consistncia de metodologia e unidade. Conforme explicado no captulo 1, essas amostras podem representam tanto variveis naturais (como teor de argila no solo) como socioeconmicas (como taxa de homicdios).

Figura 3-1 Ilustrao do processo de interpolao: amostras (cruzes) e aproximao da superfcie por uma grade regular (crculos). Para gerar superfcies que aproximem o fenmeno estudado de forma realista, necessrio modelar sua variabilidade espacial. Os modelos que objetivam gerar superfcies a partir de procedimentos de interpolao, de forma geral, representam a varivel em estudo como uma combinao da variabilidade em larga e pequena

escala. Esse enfoque, entretanto, no nico. Assim, pode-se tomar trs grandes abordagens: Para tanto, pode-se tomar trs grandes abordagens: Modelos determinsticos de efeitos locais: cada ponto da superfcie estimado apenas a partir da interpolao das amostras mais prximas, utilizando funes como inverso do quadrado da distncia. A suposio implcita que predominam os efeitos puramente locais. Neste caso, no feita qualquer hiptese estatstica sobre a variabilidade espacial. Estes interpoladores sero apresentados na seo 3.2 deste captulo. Modelos determinsticos de efeitos globais: a suposio implcita nesta classe de interpoladores que, para a caracterizao do fenmeno em estudo, predomina a variao em larga escala, e que a variabilidade local no relevante. Este caso do interpoladores por superfcies de tendncia, apresentados na seo 3.3 deste captulo. Modelos estatsticos de efeitos locais e globais (krigagem): cada ponto da superfcie estimada apenas a partir da interpolao das amostras mais prximas, utilizando um estimador estatstico. Esses procedimentos requerem que a variabilidade local e global sejam modelada atravs de modelos apresentados como

Z (x ) = j f j + (x )
j =1

Nesse caso E {Z ( x )} =

j =1

f j aonde j um conjunto de parmetros

desconhecidos e f j um conjunto de funes bsicas, em geral, polinomiais. Esses estimadores apresentam propriedades de no ser tendenciosos e de procurar minimizar os erros inferenciais. Eles podem ser estimados atravs de procedimentos como a krigagem universal e as funes intrnsecas de ordem k no abordadas nesse captulo. Neste captulo, iremos dar nfase ao uso de tcnicas de krigagem ordinria, ou seja a um caso particular desse modelo global em que p=1 e k=0 , aonde k representa a ordem da funo f j ,e 1 igual a mdia local. A nfase nesse procedimento devido s suas propriedades, sua grande importncia na modelagem de fenmenos naturais e tambm porque esse capitulo objetiva procedimentos que priorizam a interpolao espacial (predio). A modelagem de tendncias ou variao em larga escala se faz necessria quando a etiologia de um fenmeno deve ser estudada e aonde a estimao da tendncia importante na compreenso do fenmeno. As tcnicas da krigagem so discutidas a partir da seo 3.4. Para a comparao entre os interpoladores, foram utilizados dados da EMBRAPA Solos,

obtidos na Fazenda Canchim, em So Carlos - SP. Trata-se de amostragem de 85 observaes georreferenciadas coletadas no horizonte Bw (camada do solo com profundidade mdia de 1m), conforme ilustra a Figura 3-2. Dentre as variveis disponveis, selecionou-se para estudo o teor de argila, cujas estatsticas bsicas amostrais so apresentadas na Tabela 3.1.

Figura 3-2- Disposio das amostras de teor de argila da Fazenda Canchim (EMBRAPA).

Tabela 3-1 - ESTATSTICAS DA AMOSTRA.


Nmero de observaes Mdia Varincia Desvio Padro Coeficiente de variao Coeficiente de assimetria Coeficiente de curtose Quartil Inferior Mediana Quartil superior 85 33,035 288,034 16,972 0,514 0,214 2,344 10 33 43

O histograma das amostas mostra que a distribuio do teor de argila levemente alongada direita. Neste caso, a distribuio dita ser positivamente assimtrica, com coeficiente de assimetria de 0,214. Quanto ao grau de achatamento, o coeficiente de curtose (2,344) indica que a distribuio

ligeiramente platicrtica. Dentre outros valores apresentados na Tabela 3-1, nota-se que a mdia e a mediana, medidas que procuram caracterizar o centro da mesma distribuio de freqncias, possuem valores prximos (33,035 e 33,0), respectivamente. Assim sendo, a distribuio da varivel em estudo, pode ser considerada aproximadamente simtrica.

3.2 MODELOS DETERMINSTICOS LOCAIS Uma alternativa simples para gerar uma superfcie bidimensional a partir de amostras pontuais ajustar uma funo bidimensional sobre os amostras considerados, compondo uma superfcie cujo valor ser proporcional local intensidade de amostras. A formulao geral para este tipo de interpolao :

wij z j
zi =
j =1 n

wij
j =1

(3.1)

onde: zi o valor de cota de um ponto i qualquer da grade, zj a cota de uma amostra j vizinha do ponto i da grade e wij um fator de ponderao. A Figura 3-3 ilustra o procedimento de estimao.

Figura 3-3 Ilustrao do processo de interpolao por estimador local: (a) configurao original de amostras; (b) grade regular superposta s amostras; (c) interpolao de um valor a partir dos vizinhos; (d) grade regular resultante

Variaes desse esquema bsico so os interpoladores: (a) por vizinho mais prximo; (b) por mdia simples; (c) por mdia ponderada; Nos trs primeiros casos, considera-se uma regio em torno do ponto a ser interpolado como contendo os pontos que influenciam na interpolao. A interpolao por vizinho mais prximo definida pela escolha de apenas uma amostra vizinha para cada ponto da grade. Este interpolador deve ser usado quando se deseja manter os valores de cotas das amostras na grade, sem gerar valores intermedirios. A interpolao por mdia simples considera o valor de cota z do elemento da grade igual a mdia aritmtica dos valores de cota das amostras vizinhas. Neste caso considera-se que o fator de ponderao wij igual a 1/n para qualquer amostra considerada. Na interpolao por mdia ponderada o valor de cota de cada elemento da grade definido pela mdia ponderada dos valores de cota das amostras vizinhas. A ponderao mais usada na prtica o inverso da distncia euclidiana do ponto da grade amostra considerada ou seja:
k wij = 1 d ij ,

(3.2)

onde: k o expoente da distncia, geralmente igual a 1 ou 2 e; dij o valor de distncia da amostra j ao ponto i da grade, expresso por:
dij = ( xi x j ) 2 + ( yi y j ) 2

(3.3)

Uma comparao visual entre os resultados desses interpoladores mostrada na Figura 3-4 para os dados do teor de argila da Fazenda Canchim. Os mapas ilustram os defeitos tpicos dessas funes simples: as funes de vizinho mais prximo e mdia simples tendem a produzir superfcies com variaes abruptas; no caso do inverso do quadrado da distncia, os mximos locais tendem a ser muito acentuados, formando picos artificiais.

Figura 3-4 - Comparao entre interpoladores de mdia mvel, para o mesmo conjunto de amostras. direita, inverso do quadrado da distncia; no centro, mdia simples; esquerda, vizinho mais prximo. Regies mais claras representam alto valores e vice-versa. Um refinamento desses estimadores o uso de uma funo de ponderao mais complexa que a mdia simples ou o inverso do quadrado da distncia. Esta classe de estimadores descrita na literatura como kernel estimators, ou estimadores de densidade no-paramtricos. Estes estimadores generalizam a idia de mdia mvel local, ao supor que a densidade do fenmeno varia localmente de forma suave, sem picos nem descontinuidades. Seu objetivo produzir superfcies mais suaves, que se espera mais representativas de fenmenos naturais e socioeconmicos. Estes estimadores so do mesmo tipo que os discutidos no captulo 2 para o caso de eventos pontuais, agora generalizados para o caso de amostras. Um kernel estimator um estimador cujos parmetros bsicos so: (a) um raio de influncia que define a vizinhana do ponto a ser interpolado; (b) uma funo de estimao com propriedades convenientes de suavizao do fenmeno. Para toda posio zi cujo valor queremos estimar, o estimador de intensidade ser computado a partir dos valores das amostras {z1,...zn} contidos num raio de tamanho , e da distncia euclidiana dij entre a i-sima posio e a j-sima amostra (como expresso na equao 3.3), a partir de funes do tipo

zi =

k( ij ) z j
j =1 n

k(
j =1

dij

, dij

(3.4)

Esta frmula uma generalizao da equao 3.1, na qual o cmputo dos pesos wij foi substitudo por uma funo generalizada dependente da distncia. Exemplos destas funes incluem o kernel gaussiano
k ( x, y, ) = d 2 ij exp , 2 2 2 1

(3.5)

ou o kernel de quarta ordem


k ( x, y, ) = 3
2 d ij 2 (1 )

(3.6)

Para ilustrar esta classe de estimadores, foram geradas duas superfcies a partir das mesmas amostras usadas para produzir os mapas da Figura 3-4. A partir de um kernel de quarta ordem (equao 3.6), foram gerados dois mapas mostrados na Figura 3-5, com raios de busca de 500 e 1500 metros. A comparao entre os mapas mostra a grande importncia de uma seleo apropriada do raio de busca no uso de kernel estimators. No primeiro mapa predominam os efeitos locais, pelo uso de um raio de busca reduzido; o segundo mapa evidencia melhor a distribuio do fenmeno, pelo uso de um raio mais apropriado aos dados. Em resumo, os kernel estimators so uma alternativa vivel a mtodos mais sofisticados de interpolao, pois no requerem a parametrizao da estrutura de correlao espacial (como no caso da geoestatstica). As superfcies interpoladas so suaves e aproximam muitos fenmenos naturais e socioeconmicos. As desvantagens destes estimadores so a forte dependncia no raio de busca e a excessiva suavizao da superfcie, que pode em alguns casos esconder variaes locais importantes.

Figura 3-5- Superfcies de teor de argila interpoladas por kernel de quarta ordem. esquerda, raio de busca de 500m; direita, raio de busca de 1500m.

3.3 SUPERFCIES DE TENDNCIA As superfcies de tendncia so interpoladores determinsticos globais. A superfcie aproximada por um ajuste polinomial aos dados, atravs de um processo de regresso mltipla entre os valores do atributo e as localizaes geogrficas. Essa funo polinomial ento utilizada para estimar os valores dos pontos em todas as localizaes de uma grade regular que aproxima a superfcie. As superfcies de tendncia buscam modelar a variao espacial em larga escala atravs de uma regresso mltipla entre os valores de atributo e as localizaes geogrficas. A sada uma funo polinomial na qual o valor do atributo expresso em funo das coordenadas da superfcie, expressas em duas ou trs dimenses. Exemplos incluem equaes lineares do tipo:

z = 1 + 2 x + 3 y
e equaes quadrticas como:
w = 1 + 2 x + 3 y + 4 xy + 5 x 2 + 6 y 2

(3.7)

(3.8)

A suposio implcita nos interpoladores por superfcies de tendncia que, para a caracterizao do fenmeno em estudo, predomina a variao em larga escala, e que a variabilidade local no relevante. Neste modelo, a funo de autocorrelao continua decaindo mesmo aps ultrapassar a distncia onde h influncias locais; a covarincia no se estabiliza com a distncia e assim o fenmeno analisado no-estacionrio.

Para o caso dos dados de teor de argila da Fazenda Canchim (acima descritos), foi realizada uma anlise de tendncia usando uma regresso linear. Os ajustes indicaram um coeficiente de determinao (R2 ajustado) de apenas 17,3%, o que indica no haver efeitos espaciais significativos de larga escala. Deste modo, pode-se esperar que estes dados sejam modelveis por interpoladores locais, sejam determinsticos (seo 3.2) ou estocsticos (seo 3.4 e seguintes). Um exemplo tpico de superfcies de tendncia o uso de dados de longitude, latitude e altitude para estimar a distribuio de temperatura. Neste caso, o objetivo foi estimar a distribuio de temperatura para o estado de Santa Catarina, para a poca do plantio de soja, em intervalos de 10 dias (decndios). Partindo da poca recomendada para semeadura e do ciclo de diferentes cultivares de soja, determinou-se um perodo de anlise compreendido entre 11/10 e 20/05 (22 decndios), permitindo que cultivares com ciclos diferentes, semeadas dentro da poca recomendada, tivessem todo o seu ciclo avaliado neste estudo. Foram coletados dados de temperatura mdia diria e precipitao diria de 27 estaes meteorolgicas monitoradas pela Empresa de Pesquisa Agropecuria e Extenso Rural de Santa Catarina S. A. Epagri, com uma srie histrica de aproximadamente cinco anos, mostrados na Figura 3-6.

Figura 3-6 Distribuio espacial das estaes monitoradas pela Epagri. A partir dos dados dirios, foi calculada a mdia decendial. Esta mdia das 27 estaes foi utilizada no clculo de superfcies de tendncia a partir de uma equao do tipo:

z ( x, y , h) = 1x+ 2 y + 3h + 4

(3.9)

onde z a temperatura calculada a partir da longitude (x), latitude (y) e altitude (h). Para o primeiro decndio (11/10 a 20/10), os resultados esto mostrados na Tabela 3.1. Na anlise dos coeficientes da regresso, mostrada na Tabela 3.2, a relao entre as variveis independentes com a varivel dependente (temperatura mdia decendial) foi verificada, inicialmente, pelo teste F e, depois,

pelo teste t de Student. Esta anlise indicou todos os coeficientes como significativos. A normalidade dos resduos foi avaliada pelo teste de Keifer-Salmon, e aceita a hiptese.
Tabela 3-2 - Coeficientes para Estimativa de Temperatura em Santa Catarina (Decndio de 11/10 a 20/10).= Valor Intercepto Latitude Longitude Altitude R ajustado
2

Teste F 7,169 0,169 0,085 0,000

Teste T p-valor Comentrios Significativo -2,637 5,488 -16,162 (idem) (idem) (idem)

9,475 -0,447 0,466 -0,005 0,909

A grande vantagem das superfcies de tendncia sua simplicidade e facilidade de clculo. No entanto, a suposio implcita do modelo, em negligenciar a variabilidade local, no realista para a maior parte dos dados naturais. Adicionalmente, os parmetros estimados so muito sensveis a valores extremos (outliers). Apesar destes problemas, as superfcies de tendncia so teis para remover efeitos de primeira ordem, quando a mdia varia de forma consistente no espao. Outros usos importantes so a anlise dos resduos de estimao; tais resduos tambm so bastante informativos, pois mostram a existncia de subregies que apresentam diferenas significativas na tendncia geral. No exemplo apresentado, trata-se de uma situao favorvel, em que, em funo do comportamento da temperatura, da poca do ano e das caractersticas do estado de Santa Catarina, apenas a variao em larga escala foi capaz de produzir estimativas acuradas. Esta situao no a mais usual. Na prtica, na maior parte das vezes as variaes locais no podem ser ignoradas. Neste caso, ser preciso modelar o comportamento da varivel e para isto, utiliza-se a abordagem geoestatstica, descrita a seguir.

3.4 MODELOS ESTATSTICOS DE EFEITOS LOCAIS E GLOBAIS: KRIGAGEM 3.1.1 FUNDAMENTAO TERICA

A krigagem compreende um conjunto de tcnicas de estimao e predio de superfcies baseada na modelagem da estrutura de correlao espacial. A hiptese implcita no procedimento geoestatstico que o processo estudado estacionrio (veja-se a definio de estacionariedade no captulo 1 do livro). Os passos num estudo empregando tcnicas de krigagem incluem: (a) anlise exploratria dos dados; (b) anlise estrutural (modelagem da estrutura de correlao espacial); (c) interpolao estatstica da superfcie. O procedimento de interpolao chamado de krigagem em honra a Daniel Krige, o pioneiro em introduzir o uso de mdias mveis para evitar a superestimao sistemtica de reservas em minerao. O que diferencia a krigagem de outros mtodos de interpolao a estimao de uma matriz de covarincia espacial que determina os pesos atribudos s diferentes amostras, o tratamento da redundncia dos dados, a vizinhana a ser considerada no procedimento inferencial e o erro associado ao valor estimado. Alm disso, a krigagem tambm fornece estimadores com propriedades de no tendenciosidade e eficincia. A estrutura terica da krigagem est baseada no conceito de varivel regionalizada, desenvolvida por Georges Matheron. Uma varivel regionalizada uma varivel distribuda no espao (ou tempo) cujos valores so considerados como realizaes de uma funo aleatria (ou processo aleatrio, ou campo aleatrio, ou processo estocstico). Esta teoria permite incluir hipteses estatsticas em processos espaciais locais. A variao espacial de uma varivel regionalizada pode ser expressa pela soma de trs componentes: a) uma componente estrutural, associada a um valor mdio constante ou a uma tendncia constante; b) uma componente aleatria, espacialmente correlacionada; e c) um rudo aleatrio ou erro residual. Se o vetor x representa uma posio em uma, duas ou trs dimenses, ento o valor da funo aleatria Z, em x, dada por:

Z ( x ) =( x ) + ' ( x ) + ' '


onde:

(3.10)

(x) uma funo determinstica que descreve a componente estrutural de Z em x;

(x) um termo estocstico correlacionado, que varia localmente;

um rudo aleatrio no correlacionado, com distribuio normal com mdia zero e varincia 2.

Figura 3-7- Componentes de uma varivel regionalizada. As Figura 3-7(a) e (b) ilustram as trs componentes principais da variao espacial. A Figura 3.8(a) apresenta uma componente determinstica que possui um comportamento regular (diferena entre os nveis mdios), enquanto a componente determinstica na Figura 3.8(b) apresenta uma tendncia constante. A hiptese mais simples sobre o comportamento da varivel regionalizada que a mdia do fenmeno, (x), seja constante na regio de estudo, o que implica em no haver variao significativa na larga escala. Esta hiptese d origem aos interpoladores de Krigagem ordinria, discutida a seguir. No caso de se querer modelar uma tendncia, h vrios mtodos disponveis: Krigagem Universal, Funes Aleatrias Intrnsecas de Ordem k, no discutidos neste captulo. Na hiptese da Krigagem ordinria, (x) constante e denotada por m. Deste modo, o valor esperado da funo aleatria Z nas posies x e x + h so iguais a m. Isto implica que o valor esperado da diferena entre os valores observados em x e x + h, separados por um vetor de distncia h, nulo: E [Z(x) - Z(x+h)] = 0 (3.11)

Admite-se tambm que o fenmeno considerado seja estacionrio de segunda ordem, isto , a covarincia entre dois pares quaisquer Z(x) e Z(x + h), separados por um vetor distncia h, existe e depende somente de h. Ento: C(h) = COV [ Z(x), Z(x+h)] = E[Z(x).Z(x+h)] m2 (3.12)

Adicionalmente, a estacionariedade da covarincia implica na estacionariedade da varincia:

Var(Z(x)) = E [Z(x)- m]2 = E[Z2(x)] 2E[Z(x)].m + m2 ou ainda Var(Z(x)) = E[Z2(x)] 2m.m + m2 = E[Z2(x)] m2 = C(0)

(3.13)

(3.14)

Deste modo, verifica-se que as hipteses de mdia constante e estacionariedade da covarincia implicam que a determinao da funo C(h) suficiente para caracterizar a varivel regionalizada. Isto quer dizer que, com base na Equao 3.10, a funo C(h) permite caracterizar o termo estocstico (x). Para determinar C(h), utiliza-se uma funo auxiliar, chamada de funo variograma 2(h), definida por: 2(h)= E[Z(x) - Z(x+h)]2 que pode ser desenvolvida em: 2(h)= E[Z2(x) -2 Z(x).Z(x+h) - Z2(x+h)] ou ainda 2(h)= E[Z2(x)] -2 E[Z(x).Z(x+h)] - E[Z2(x+h)] Da equao (3.14), obtm-se E[Z2(x)] = E [Z2(x+h)] = C(0) + m2 e da equao (3.13) obtm-se E[Z(x).Z(x+h)] = C(h) + m2 Substituindo as equaes (3.18) e (3.19) na equao (3.17), obtm-se: 2(h) = 2C(0) 2C(h) ou (h) = C(0) C(h) onde: (3.20) (3.19) (3.18) (3.17) (3.16) (3.15)

(h) representa o semivariograma, que metade do variograma. A relao em


(3.20) indica que sob a hiptese de estacionariedade de 2a ordem, que a covarincia e o semivariograma so formas alternativas de caracterizar a autocorrelao dos pares Z(x) e Z(x+h) separados pelo vetor h.

3.1.2

DETERMINAO EXPERIMENTAL DO SEMIVARIOGRAMA

O semivariograma uma ferramenta bsica de suporte s tcnicas de Krigeagem, pois permite representar quantitativamente a variao de um fenmeno regionalizado no espao. O semivariograma pode ser calculado experimentalmente, considerando o esquema de amostragem em duas dimenses mostrado na Figura 3-8, onde z(x) denota o valor de uma posio cujos componentes so (x1, y1), e z(x+h) o valor da amostra numa posio cujos componentes so (x2 , y2), sendo h um vetor distncia (mdulo e direo) que separa os pontos.

y z(x1+h)
h

y2

y1

z(x1)

x1

x2

Figura 3-8 Amostragem em duas dimenses. A determinao experimental do semivariograma, para cada valor de h, considera todos os pares de amostras z(x) e z(x+h), separadas pelo vetor distncia h, a partir da equao:

(h ) =
onde:

1 N( h ) [ z( xi ) z ( xi + h )] 2 2 N ( h ) i =1

(3.21)

(h) o semivariograma estimado e N(h) o nmero de pares de valores


medidos, z(x) e z(x+h), separados pelo vetor h. Esta frmula, entretanto, no robusta. Podem existir situaes em que variabilidade local no constante e se modifica ao longo da rea de estudo (heteroscedasticidade). Um caso particular desse fato (denominado efeito proporcional) ocorre quando as distribuies so assimtricas e a mdia se correlaciona com a varincia. O estimador de semivariograma apresentado em (3.22) no resistente a esse efeito e apresenta tendncias que impedem a estimao correta de seus parmetros. Para expresses alternativas, deve-se consultar Cressie (1993).

Na prtica, pode-se fazer a hiptese adicional de que o fenmeno isotrpico (com comportamento igual em todas as direes). Neste caso, a determinao experimental do semivariograma depende apenas da distncia entre as amostras e no da direo relativa entre elas. O tratamento da anisotropia (caso em que a estrutura espacial do fenmeno varia conforme a direo) discutido no Apndice deste captulo. As hipteses de estacionariedade e mdia constante levam a postular um comportamento idealizado para o semivariograma experimental, mostrado na Figura 3-9. Espera-se que observaes mais prximas geograficamente tenham um comportamento mais semelhante entre si do que aquelas separadas por maiores distncias. Assim, o valor absoluto da diferena entre duas amostras z(x) e z(x+h) deveria crescer medida que aumenta a distncia entre elas, at um valor na qual os efeitos locais no teriam mais influncia.
^ (h)

Patamar (C)

Efeito Pepita (Co) Alcance (a) h

Figura 3-9 Parmetros do variograma.

Os parmetros do semivariograma podem ser observados na Figura 3-9:

Alcance (a): distncia dentro da qual as amostras apresentam-se correlacionadas espacialmente. Patamar (C): o valor do semivariograma correspondente a seu alcance (a). Deste ponto em diante, considera-se que no existe mais dependncia espacial entre as amostras, porque a varincia da diferena entre pares de amostras (Var [Z(x) - Z(x+h)]) torna-se aproximadamente constante. Efeito Pepita (C0): idealmente, (0)=0. Entretanto, na prtica, medida que h tende para zero, (h) se aproxima de um valor positivo chamado Efeito Pepita (C0), que revela a descontinuidade do semivariograma para distncias menores do que a menor distncia entre as amostras. O efeito pepita o valor da

semivarincia para a distncia zero e representa a componente da variabilidade espacial que no pode ser relacionado com uma causa especfica (variabilidade ao acaso). Parte desta descontinuidade pode ser tambm devida a erros de medio, sendo impossvel quantificar se a maior contribuio provm dos erros de medio ou da variabilidade de pequena escala no captada pela amostragem. 3.1.3 MODELOS TERICOS O grfico do semivariograma experimental, (h) , calculado atravs da Equao (3.22), formado por uma srie de valores, conforme ilustra a Figura 3-9, sobre os quais se objetiva ajustar uma funo. importante que o modelo ajustado represente a tendncia de (h) em relao a h. Deste modo, as estimativas obtidas a partir da krigagem sero mais exatas e, portanto mais confiveis. O procedimento de ajuste no direto e automtico, como no caso de uma regresso, por exemplo, mas sim interativo, pois nesse processo o intrprete faz um primeiro ajuste e verifica a adequao do modelo terico. Dependendo do ajuste obtido, pode ou no redefinir o modelo, at obter um que seja considerado satisfatrio. Os modelos aqui apresentados so considerados modelos bsicos, denominados modelos isotrpicos. Esto divididos em dois tipos: modelos com patamar e modelos sem patamar. Modelos do primeiro tipo so referenciados na geoestatstica como modelos transitivos. Alguns dos modelos transitivos atingem o patamar (C) assintoticamente. Para tais modelos, o alcance (a) arbitrariamente definido como a distncia correspondente a 95% do patamar. Modelos do segundo tipo no atingem o patamar, e continuam aumentanto enquanto a distncia aumenta. Tais modelos so utilizados para modelar fenmenos que possuem capacidade infinita de disperso. Os modelos transitivos mais utilizados so: modelo esfrico (Sph), modelo exponencial (Exp) e modelo gaussiano (Gau). Estes modelos esto apresentados na Figura 3-10 com o mesmo alcance (a).

(h)

Modelo Exponencial Modelo Esfrico Modelo Gaussiano

C=1

0 0

Figura 3-10 Representao grfica de modelos transitivos normalizados. Modelo Esfrico O modelo esfrico um dos modelos mais utilizados e est representado na Figura 3-10. A equao normalizada deste modelo :

0 , | h |=0 3 | h | | h | 0,5 Sph ( h ) =1,5 a , 0 <| h |a a 1 , | h |>a


Modelo Exponencial

(3.22)

Um outro modelo bastante utilizado o modelo exponencial, o qual apresentado na Figura 3-10. A equao normalizada deste modelo :

0 , | h |=0 xp( h )= | h | 1exp a , | h |0

(3.23)

Este modelo atinge o patamar assintoticamente, com o alcance prtico definido como a distncia na qual o valor do modelo 95% do patamar. Modelo Gaussiano O modelo gaussiano um modelo transitivo, muitas vezes usado para modelar fenmenos extremamente contnuos. Sua formulao dada por:

0 , | h |=0 2 Gau( h )= | h | 1exp , | h |0 a

(3.24)

Semelhante no modelo exponencial, o modelo gaussiano atinge o patamar assintoticamente e o parmetro a definido como o alcance prtico ou distncia na qual o valor do modelo 95% do patamar. O que caracteriza este modelo seu comportamento parablico prximo origem, conforme a Figura 3-10 . At este ponto foram apresentados os principais modelos bsicos normalizados, os quais so utilizados para ajustar o semivariograma experimental. Na prtica, os semivariogramas experimentais possuem valores de efeito pepita (Co) maior que zero e valores de patamar (C) maiores que a unidade, conforme ilustrado na Figura 3-11.
(h)
Modelo Exponencial Modelo Esfrico Modelo Gaussiano

C1 C = Co + C1 C1 : Contribuio do Modelo a

Co 0

Figura 3-11 - Representao grfica de semivariogramas experimentais e modelos tericos. Em resumo, os semivariogramas dos modelos transitivos bsicos so assim definidos:

Modelo Esfrico de Semivariograma:

0 , | h |= 0 3 | h | 1 | h | 3 =C +C [ Sph (| h |) ] ,0 <| h |a (h)=C +C o 1 2 a 2 a o 1 ,| h |>a Co +C1

Modelo Exponencial de Semivariograma:

(3.25)

,| h |= 0 0 (h)= | h | C o + C 11exp a =C o + C 1 [ Exp (| h |)]

, | h | 0

(3.26)

Modelo Gaussiano de Semivariograma:

,| h |= 0 0 2 (h)= | h | C o + C11exp =C o + C1 [Gau (| h |)] ,| h | 0 a


Modelos Aninhados

(3.27)

Existem determinados fenmenos em que so necessrios modelos mais complexos de semivariograma para explicar suas variaes espaciais. Estes modelos so combinaes de modelos simples, denominados aninhados; em muitos casos, os modelos aninhados so necessrios para explicar a variao de fenmenos decorrentes da combinao de fatores independentes de formao. Por exemplo, um modelo aninhado til em estudos de minerao e pesquisa de solo o duplo esfrico, definido como:

3 3 | h | 1 | h | C0 + C1 2 a 2 a = 1 (h) , 0 < | h | a1 1 1 3 (h)= 3 | h | 1 | h | C0 + C 2 2 a 2 a = 2 (h) , a1 < | h | a 2 2 2 C + C + C ,| h | > a 1 2 2 0 0 ,| h | = 0


onde,

(3.28)

a1 e C1 correspondem aos parmetros de alcance e contribuio, respectivamente, do primeiro modelo esfrico ( 1 (h) ). a2 e C2 correspondem aos parmetros de alcance e contribuio, respectivamente, do segundo modelo esfrico ( 2 (h) ).

Este modelo mostrado na Figura 3-12, onde as linhas slida e pontihada representam os modelos de ajuste terico ao semivariograma experimental.

(h)

C2 1 (h) C1 2 (h) a1

C0

a2 h

Figura 3-12 - Representao grfica de um modelo duplo esfrico. Dependendo do fenmeno em estudo, outros modelos aninhados so necessrios para caracterizar a variabilidade espacial.

3.5 KRIGAGEM O termo krigagem derivado do nome Daniel G. Krige, que foi o pioneiro a introduzir o uso de mdias mveis para evitar a superestimao sistemtica de reservas de minerao. Inicialmente, o mtodo de krigagem foi desenvolvido para solucionar problemas de mapeamentos geolgicos, mas seu uso expandiu-se com sucesso no mapeamento de solos, mapeamento hidrolgico, mapeamento atmosfrico e outros campos correlatos. A diferena entre a krigagem e outros mtodos de interpolao a maneira como os pesos so atribudos s diferentes amostras. No caso de interpolao linear simples, por exemplo, os pesos so todos iguais a 1/N (N = nmero de amostras); na interpolao baseada no inverso do quadrado das distncias, os pesos so definidos como o inverso do quadrado da distncia que separa o valor interpolado dos valores observados. Na Krigeagem, o procedimento semelhante ao de interpolao por mdia mvel ponderada, exceto que aqui os pesos so determinados a partir de uma anlise espacial, baseada no semivariograma experimental. Alm disso, a krigagem fornece, em mdia, estimativas no tendenciosas e com varincia mnima1.

Estimativas no tendenciosas significam que, em mdia, a diferena entre valores estimados e observados para o mesmo ponto deve ser nula; e varincia mnima significa que estes estimadores possuem a menor varincia dentre todos os estimadores no tendenciosos.

A krigagem engloba um conjunto de mtodos de estimao, incluindo procedimentos estacionrios(krigagem simples e ordinria), no estacionrios (krigagem universal, funoes intrinsicas de ordem k), univariados e multivariados ( co-krigeagem etc). Este captulo limita-se apresentao da krigagem ordinria, descrita a seguir. 3.5.1. KRIGEAGEM ORDINRIA

Considere uma superfcie sobre a qual se observe alguma propriedade do solo, Z, em n pontos distintos, com coordenadas representadas pelo vetor x. Assim, tem-se um conjunto de valores {z(xi), i=1, ..., n}, onde xi identifica uma posio em duas dimenses representada pelos pares de coordenadas (xi, yi). Suponha que se objetive estimar o valor de Z no ponto c. O valor desconhecido de Z(x0) pode ser estimado a partir de uma combinao linear dos n valores observados, adicionado a um parmetro 0 :
n Z* ( x 0 ) =0 + i Z(x i )

(3.29)

i =1

Deseja-se um estimador no tendencioso, isto , E [Z(x0) Z*(x0)] = 0 EPKPMF A relao acima impe que as duas mdias sejam iguais; assim aplicando-se a Equao 3.34 em 3.35, obtm-se:
n n E [Z(x 0 )]=E 0 + i .Z(x i )m=0 + i m i =1 i =1

(3.31)

A krigagem ordinria no requer o prvio conhecimento da mdia m. Neste caso, para que a igualdade da Equao 3.36 seja satisfeita necessrio que

0 =0 e i =1 .Portanto, o estimador de Krigeagem ordinria :


i =1 n

Z * (x 0 ) = i Z ( x i ) , com
i =1

=1
i i =1

(3.32)

Minimizando a varincia do erro (Var [Z(x0) Z*(x0)]) na condio de

i =1 ,
i =1

os pesos i so obtidos a partir do seguinte sistema de equaes, denominado sistema de krigeagem ordinria:

n j C( x i , x j ) = C( xi , x0 ) para i = 1, ..., n j=1 n j =1 j=1


onde,

(3.33)

C(xi, xj) e C(xi, x0) so, respectivamente, a semivarincia entre os pontos xi e xj e entre os pontos xi e x0.

o multiplicador de Lagrange necessrio para a minimizao da varincia do erro.

A correspondente varincia minimizada do erro, denominada varincia de krigagem ordinria ( 2 ), dada pela expresso ko
2 ko =Var[ Z ( x ) Z * ( x 0 )] = C( 0 ) i C( x i ,x 0 ) i =1 n

(3.34)

A krigagem ordinria um interpolador exato no sentido de que, quando as equaes acima forem usadas, os valores interpolados iro coincidir com os valores dos pontos amostrais. Alm disso, a varincia da krigagem ordinria, indicada na equao (3.35), fornece informao importante sobre a confiabilidade dos valores interpolados.

3.6 ESTUDO DE CASO ` Tomemos como exemplo a distribuio amostral apresentada na Figura 3-2, cuja as estatsticas descritivas esto sumarizadas na Tabela 3-1. A anlise da variabilidade espacial, do teor de argila, realizada com o auxlio do semivariograma. Esta uma das etapas mais importantes, pois o modelo de semivariograma escolhido representa a estrutura de correlao espacial a ser utilizada nos procedimentos inferenciais de krigagem. O resultado apresentado na Figura 3-13, mostra o semivariograma omnidirecional (caso isotrpico) e seu modelo de ajuste.

(h)
390 351 312 273 234 195 156 117 78 39 0 0 1000

Semivariograma Omnidirecional Modelo Esferico

h 2000 3000 4000 5000

Figura 3-13 Semivariograma omnidirecional e modelo esfrico O modelo de ajuste, mostrado na Figura 3-13, tm os seguintes parmetros: Estrutura tipo Esfrica, Efeito Pepita (Co) = 118,85; Contribuio (C1) = 230,89 e Alcance (a) = 3989,20. O modelo terico, normalizado em relao ao alcance, leva a seguinte notao:

h h ( h ) = C o + C1 Sph =118,85 + 230,89 Sph a 3989,20

(3.35)

Uma vez definido o modelo e validado o mesmo, a etapa seguinte refere-se estimao de krigagem ordinria. Como resultado tm-se uma grade de valores estimados e uma outra que refere-se varincia de krigagem. Ambas so convertidas em superfcies e apresentadas na Figura 3-14. Na Figura 3-14 esquerda, regies mais claras representam altos valores de teor de argila e vice-versa. Diferente dos mtodos determinsticos (ver Figura 3-4), o uso da krigagem ordinria como mtodo de interpolao espacial permitiu capturar e, portanto, representar com mais qualidade, a variabilidade espacial inerente propriedade em estudo. Alm disso, conforme ilustra a Figura 3-14 direita, a krigagem ordinria fornece a varincia da estimativa (denominada varincia de krigagem). Tal informao pode ser til para identificar regies onde a amostragem pode ser melhorada.

Figura 3-14 esquerda a superfcie do teor de argila e direita a varincia de krigagem. Com algumas ressalvas, o mtodo da mdia ponderada pelo inverso do quadrado da distncia, produz resultado que se assemelha ao resultado da krigagem ordinria. O ponto crtico, porm, ocorre em regies onde h agrupamento (clusters) de amostras. A krigagem ordinria, por utilizar intrinsecamente uma estrutura de covarincia, consegue tratar redundncias (clusters), isto , atribuir pesos adequados para os agrupamentos de amostras. Fato este no considerado nos procedimentos determinsticos. Alm disso, na krigagem ordinria, a rea de influncia na interpolao indicada pelo alcance; j nos procedimentos determinsticos, como o mtodo da mdia ponderada pelo inverso do quadrado da distncia, o raio de busca arbitrrio. Os resultados produzidos pelos mtodos mdia simples e vizinho mais prximo, so menos expressivos com relao aos demais. O mtodo da mdia simples produz resultado que apresenta imbricao, principalmente na regio central da rea de estudo. J o mtodo de inferncia relativo ao vizinho mais prximo, embora sendo o que pior expressa a variabilidade espacial do fenmeno estudado, revela a rea de influncia de cada ponto de observao. Tal informao de grande valia, como, por exemplo, numa anlise preliminar para deteco de valores amostrais suspeitos. Um outro fato que merece ateno, que os resultados apresentados na Figura 3-14 so oriundos de um modelo isotrpico. A suposio de isotropia, que rara em fenmenos naturais, simplifica a modelagem por procedimentos geoestatsticos. Se a anisotropia existe, deve ser detectada e modelada, afim de representar com mais qualidade, a variabilidade espacial inerente propriedade em estudo. No

apndice ao Captulo, so apresentados alguns tpicos sobre anisotropia e uma tcnica para a modelagem da mesma.

3.7 CONCLUSES Conclui-se que possvel melhorar a distribuio espacial das variveis ambientais significativamente quando procedimentos geoestatsticos so aplicados. Ficou constatado que o teor de argila varia mais intensamente numa direo do que em outra. Tal fato refere-se anisotropia da varivel em estudo. Muitos aspectos particulares dos dados ficariam ocultos sem o uso de semivariogramas e da modelagem da anisotropia, mostrando, por exemplo, a tendncia da distribuio espacial nos dados de teor de argila. Informaes como estas no so apresentadas quando se usam apenas parmetros estatsticos clssicos como mdias e varincias ou ento, procedimentos determinsticos.

3.8 REFERNCIAS BIBLIOGRFICAS A estrutura terica da geoestatstica est apresentadas na Teoria das Variveis Regionalizadas, desenvolvida por Matheron (1971) e um artigo detalhado e terico sobre geoestatstica escrito por Journel (1988). A referncia bsica sobre geoestatstica, com um conjunto extensivo de exemplos o livro de Issaks e Srivastava (1989). A descrio da GSLIB, uma das bibliotecas mais utilizadas para o desenvolvimento de programas em geoestatstica, pode ser encontrada no livro de Deutsch e Journel (1992). Com relao integrao entre geoestatstica e SIGs, o leitor deve referir-se a Camargo (1997), que descreve o desenvolvimento de um mdulo geoestatstico no ambiente SPRING. Referncias bsicas sobre mtodos de interpolao so descritas por Burrough (1987). O exemplo de superfcies de tendncia est baseado no trabalho de Bnisch (2001). Bnisch, S. (2001) Geoprocessamento Ambiental com Tratamento de Incerteza: O Caso do Zoneamento Pedoclimtico para a Soja no Estado de Santa Catarina. Dissertao (Mestrado em Sensoriamento Remoto) Instituto Nacional de Pesquisas Espaciais, So Jos dos Campos. Burrough, P. (1987). Principles of geographical information systems for land resources assessment. Oxford, Clarendon Press. Camargo, E. (1997). Desenvolvimento, Implementao e Teste de Procedimentos Geoestatsticos (Krigeagem) no Sistema de Processamento de Informaes Georreferenciadas (SPRING). Dissertao (Mestrado em Sensoriamento Remoto) Instituto Nacional de Pesquisas Espaciais, So Jos dos Campos.

Deutsch, C. e A. Journel (1992). GSLIB: Geostatistical Software Library and users guide. New York, Oxford University Press. Issaks, M. e E. Srivastava (1989). An Introduction to Applied Geostatistics. New York, Oxford University Press, 1989. Journel, A. (1988). Fundamentals of geostatistics in five lessons. California, Stanford Center for Reservoir Forecasting Applied Earth Sciences Department. Matheron (1963, 1971). The theory of regionalized variables and its applications. Paris, Les Cahiers du Centre de Morphologie Mathematique de Fontainebleu, 1971. 211p.

APNDICE MODELAGEM DA ANISOTROPIA


A anisotropia uma caracterstica muito freqente nos elementos da natureza, isto , a variabilidade ou distribuio espacial de tais elementos ocorre mais intensamente numa direo e menos intensamente em outra direo. Tome como exemplo o mapeamento do teor de zinco, dentro de uma regio de interesse, pouco provvel que tal propriedade se espalhe igualmente em todas as direes. Para lidar com a anisotropia, importante que o modelo proposto represente bem a variabilidade espacial da propriedade em estudo. Procedimentos determinsticos para este fim so limitados, porque no consideram a estrutura de autocorrelao espacial bem como a anisotropia presente. Modelos mais adequados para este objetivo vem sendo propostos e a geoestatstica engloba esses modelos.

TIPOS DE ANISOTROPIA Antes de apresentar os tipos de anisotropia, necessrio mostrar as convenes direcionais usadas na geoestatstica. Isto resumido conforme ilustra a Figura 3-15.

Figura 3-15 - Convenes direcionais usadas na geoestatstica. Quando os semivariogramas experimentais direcionais apresentam diferenas acentuadas, a distribuio denominada anisotrpica. Se a anisotropia observada e refletida pelo mesmo Patamar (C) com diferentes Alcances (a) do mesmo modelo, ento ela denominada Geomtrica, conforme ilustra a Figura 3-16. Existe ainda um outro tipo de anisotropia em que os semivariogramas experimentais direcionais apresentam os mesmos Alcances (a) e diferentes Patamares (C). Neste caso, a anisotropia denominada zonal. Como a isotropia, a anisotropia zonal tambm pouco presente nas variveis ambientais. O mais comum encontrar combinaes da anisotropia Zonal e Geomtrica, denominada anisotropia

Combinada, conforme Figura 3-16. Na Figura 3-16, a1 e a2 esto relacionados s direes de menor e maior continuidade espacial da varivel, respectivamente.
(h) C (h) C1 C2
1 2 1 2

Co1 Co2

Co a1 a2

a1

a2

Figura 3-16 esquerda Anisotropia Geomtrica e direita Anisotropia Combinada.

DETEO DA ANISOTROPIA Existem vrias formas de detectar a anisotropia, por exemplo calculando-se os semivariogramas experimentais direcionais em vrias direes, desenhando todos num nico grfico, e visualmente avaliando suas similaridades. Outra forma, atravs do esboo grfico de uma elipse (conhecido tambm como diagrama da rosa), calculada atravs dos alcances obtidos em direes distintas. A forma mais eficiente e direta de detectar a anisotropia atravs do mapa de semivariograma, conhecido tambm como semivariograma de superfcie, que um grfico, 2D, no qual obtm-se uma viso geral da variabilidade espacial da varivel em estudo. Alm disso, sobre o mapa de semivariograma possvel detectar rapidamente os eixos de anisotropia, isto , as direes de maior e menor variabilidade espacial da varivel em anlise. A Figura 3-17 ilustra o mapa de semivariograma aplicado aos dados da EMBRAPA Solos, obtidos na Fazenda Canchim, em So Carlos - SP., conforme descritos na Seo 3.1. Os eixos maior e menor, da elipse, correspondem s direes de maior e menor variabilidade espacial do teor de argila respectivamente. O ngulo de anisotropia tomado da direo norte, em sentido horrio, at o eixo maior; neste caso igual a 17 o. Conseqentemente a direo de menor variabilidade 17o + 90 o = 107 o. Obviamente que a exigncia de ortogonalidade entre os eixos, pode no corresponder realidade, mas necessrio para modelagem dos semivariogramas como ser visto mais adiante.

Figura 3-17 Mapa de Semivariograma do teor de argila. MODELAGEM DA ANISOTROPIA O princpio fundamental na modelagem de anisotropia (geomtrica, zonal ou combinada), consiste em usar todas as estruturas presentes em todas as direes, atribuindo um alcance infinito s inexistentes. Inicialmente identificam-se os eixos de anisotropia, isto , os eixos de maior e de menor variabilidade espacial da varivel em estudo. Isto realizado com auxlio do mapa de semivariograma conforme descrito na seo anterior. Identificados os eixos de anisotropia, calculam-se os dois semivariogramas experimentais direcionais, relativos s direes de maior e menor variabilidade espacial da varivel em estudo, e procede-se o ajuste dos mesmos. Estabelecidos os dois modelos, o passo seguinte combin-los num modelo nico e consistente para todas as direes. MODELAGEM DA ANISOTROPIA GEOMTRICA Como dito anteriormente, se a anisotropia observada e refletida pelo mesmo Patamar (C) com diferentes Alcances (a) do mesmo tipo de modelo, ento ela denominada geomtrica. Considere o exemplo da Figura 3-18, as direes de menor e maior variabilidade espacial so 0o e 90o respectivamente e os modelos de ajustes so esfricos em ambas direes.

(h)

C=17 0 C1=15
o

90

Co=2

10

20

Figura 3-18 Exemplo de anisotropia geomtrica. O modelo de semivariograma relativo direo 0o :

00 ( h ) = C o + C1 [Sph (h )]

(3.36)

O termo Sph (h) apenas uma notao representativa do modelo terico esfrico normalizado, conforme apresentado na Seo 0. Lembre-se que h um vetor, portanto seu mdulo pode ser decomposto; isto :

h=

(h ) + (h )
2 0o 90 o

(3.37)

A Figura 3-19 ilustra uma decomposio genrica para o vetor h.


Norte (0o)

h0o
|

h90o

|h

Leste (90o)

Figura 3-19 Decomposico genrica do vetor h.

Para direo de anlise em questo, 0o, o vetor h est sobre o eixo Norte, portanto no possui componente na direo 90o; isto , para 0o => =90o (ver na Figura 3-19), h0o = |h|.sen(90o) = | h | e h90o = | h |.cos(90o) = 0. Normalizando 3.39 em relao ao alcance (a), tem-se:

h o h o h = 0 + 90 a a a

(3.38)
h 90o
a

Neste caso, como a componente

sempre nula, podemos atribuir um

alcance infinito direo 90o. Assim, a equao 3.21 escrita da forma:

h o h o h = 0 + 90 a a

(3.39)

O modelo normalizado do semivariograma relativo direo 0o definido como:

Sph 00 ( h ) = C 0 + C1

2 2 h 00 h900 + a

(3.40)

Substituindo os valores de C0, C1 e a, conforme Figura 3-18, tem-se:

Sph 00 ( h ) = 2 + 15

2 2 h 00 h900 + 10

(3.41)

De maneira anloga, o modelo de semivariograma relativo direo 90o :

900 ( h ) = 2 + 15 Sph

2 2 h 00 h900 + 20

(3.42)

Uma vez definidos os modelos relativos s direes de 0o e 90o, determina-se o modelo nico e consistente para qualquer distncia e direo do vetor h. Das Equaes 3.44 e 3.45, obtem- se o modelo nico que expresso atravs da seguinte equao:

( h ) = 2 +15 Sph

2 2 h 00 h 900 + 10 20

(3.43)

A consistncia desse modelo verificada primeiro determinando-se os valores das componentes h0o e h90o para um determinado vetor h. Em seguida, calcula-se o valor de ( h). Por exemplo, deseja-se saber o valor de ( h) na direo 0o quando |h| = alcance; isto , | h | = 10. Neste caso, as componentes h0o e h90o valem: h0o = | h |.sen() = a.sen() = 10.sen(90o) = 10. h90o = | h |.cos() = a.cos() = 10.cos(90o) = 0.
2 2 2 2 10 0 10 0 Sph(| h |) =1,5 + 0,5 + = 1 10 20 10 20

Seguindo, determina-se ( h):

Sph ( h ) = 2 +15

h 00 h900 + 10 20

= 2 + 15.[1] = 17

De maneira anloga, na direo 90o quando | h | = 20, temse que ( h) = 17. E assim por diante, para uma direo qualquer quando | h | 0, tem-se que ( h) = 2, que o Efeito Pepita. MODELAGEM DA ANISOTROPIA COMBINADA Neste caso, a anisotropia observada e refletida com diferentes Patamares (C) e Alcances (a) do mesmo tipo de modelo, podendo ainda apresentar dois valores distintos de Efeito Pepita (Co). O exemplo da Figura 3-20, referem-se aos semivariogramas nas direes de maior e menor variabilidade espacial do teor de argila, detectadas na Seo 0. Ambos semivariogramas foram ajustados com modelos esfricos.

(h)
365

274 231 203 91 28 0 1677 2962

Figura 3-20 Anisotropia combinada referente ao teor de argila. O modelo de semivariograma relativo direo 17o :

17 0 ( h ) = 91+ 274 Sph

2 2 h170 h107 0 + 2962

(3.44)

O modelo de semivariograma relativo direo 107o :

Sph 107 0 ( h ) = 28 + 203

2 2 h170 h107 0 + 1677

(3.45)

Uma vez estabelecidos os modelos relativos s direes de mnima e mxima continuidade espacial do fenmeno, procede-se modelagem da anisotropia combinada. A modelagem da anisotropia combinada um caso mais complexo que a modelagem da anisotropia geomtrica. A idia bsica dividir em faixas convenientes o grfico de semivariograma, conforme ilustra a Figura 3-21, de maneira que, em cada faixa reste somente a anisotropia geomtrica. Evidentemente que esta tcnica exige o conhecimento e prtica com semivariogramas e modelagem da anisotropia.

(h)
365

4 Faixa 274

231

203

3 Faixa

91 2a Faixa 28 1a Faixa 0 1677 2962 h

Figura 3-21 Definio das faixas para modelagem da anisotropia combinada. Uma vez estabelecido de forma conveniente as faixas, a anisotropia combinada decomposta graficamente, conforme ilustra a Figura 3-22, de modo que, cada parcela represente somente a anisotropia geomtrica.
(h)

365 170

4
274 107 231
0

2a
170

203

3a

63

+
91 28 0 1677 2962

1070

+
1677

2 1a h h

3
140 170

4
71 170

1070

107 0 1677 2962

2962

~ ~
h

Figura 3-22 Decomposio da anisotropia combinada.

~ ~

A anisotropia combinada apresentada na Figura 3-22 decomposta da seguinte forma: A 1a parcela refere-se a um valor constante, o Efeito Pepita (C0= 28). O modelo relativo a 1a parcela :

1 ( h) = C 0

(3.46)

Para estabelecer a anisotropia geomtrica na 2a parcela, necessrio empregar um artifcio. Este consiste em utilizar um modelo esfrico com alcance muito pequeno (). sto necessrio para modelar o segundo efeito pepita (91) relativo direo de 17o. Com relao a outra direo, 107o, observa-se que parte do modelo esfrico participa com uma pequena contribuio. Desta forma, a anisotropia geomtrica caracterizada da seguinte forma: em ambas direes modelos esfricos com contribuio 63 (91 - 28), alcance () para a direo 17o e alcance 1677m para a direo 107o. O modelo nico e consistente de semivariograma relativo 2a parcela :

2 ( h ) = 63 Sph

2 2 h170 h1070 + 1677

(3.47)

Na 3a parcela, a anisotropia geomtrica obtida de forma direta. Isto , parte de ambos modelos contribuem para a caracterizao da mesma. Conforme pode ser visto na Figura 3-22, esta composta de uma estrutura esfrica com alcance de 1677m na direo 107o, uma estrutura esfrica com alcance de 2962m na direo 170 e ambas com contribuio de 140 (231 91). O modelo nico e consistente de semivariograma relativo 3a parcela :

Sph 3 ( h ) = 140

h17 0 h107 0 2962 + 1677

(3.48)

Para estabelecer uma anisotropia geomtrica 4a parcela necessrio empregar um outro artifcio. Observando a Figura 3-22, nota-se que no existe um modelo associado direo 107o. O segredo ento , atribuir um alcance muito grande, , a esta direo. Tal artifcio utilizado apenas para estabelecer a anisotropia geomtrica. Isto no influencia em nada no modelo final a ser determinado. O resultado disto uma estrutura esfrica com alcance na direo 17o de 2962m, uma

estrutura esfrica com alcance na direo 107o muito grande () e ambas estruturas com contribuio de 71 (274 203). O modelo nico e consistente de semivariograma relativo 4a parcela :

Sph 4 ( h ) = 90

2 2 h17 0 h107 0 2962 +

(3.49)

Finalmente, o modelo completo, (h), e consistente para qualquer distncia e direo do vetor h, resume-se na soma das estruturas 1(h), 2(h), 3(h) e 4(h). Ento,

( h) = 1(h) + 2(h) + 3(h) + 4(h)

(3.50)
2 2 h17 0 h107 0 2962 + 1677 +

( h ) = 28 + 63 Sph
Sph + 71

2 2 h17 0 h107 0 + + 140 Sph 1677

2 2 h17 0 h107 0 2962 +

(3.51)

A Tabela 3.3 sumariza os parmetros estruturais que compem o modelo expresso na Equao (3.54), e sua consistncia verificada de maneira anloga ao caso de anisotropia geomtrica, conforme descrita anteriormente. Tabela 3.3 Sumarizao dos Parmetros Estruturais. Nmero de Estruturas 3 Efeito Pepita 28 Primeira Estrutura Tipo: Esfrica Contribuio 63 ngulo de anisotropia Maior Alcance Menor Alcance Segunda Estrutura Tipo: Esfrica 140 Contribuio ngulo de anisotropia Menor Alcance 1677 Maior Alcance
Terceira Estrutura Tipo: Esfrica Contribuio 71 ngulo de anisotropia

17o 1677 17o 2962 17o

Menor Alcance

2962 Maior Alcance

A etapa seguinte refere-se estimao de krigagem ordinria. Como resultado, tm-se uma grade de valores estimados e uma outra que refere-se varincia de krigagem. Ambas so convertidas em superfcies e apresentadas na Figura 3-23.

Figura 3-23 esquerda superfcie anisotrpica do teor de argila e direita a varincia de krigeagem. Analisando os resultados apresentados nas Figura 3-14 e Figura 3-23, observase que as diferenas na distribuio espacial do teor de argila so acentuadas. O resultado oriundo do modelo anisotrpico, Figura 3-23, mostra que a varivel em estudo possui uma tendncia maior de espalhamento na direo de aproximadamente 17o (ngulo de anisotropia) e uma menor tendncia na direo ortogonal (107o). Este fato, mostra a importncia da modelagem da anisotropia na reconstruo da distribuio espacial do teor de argila, proporcionando resultados e anlises mais representativas.

4 ANLISE ESPACIAL DE SUPERFCIES: GEOESTATSTICA POR INDICAO O ENFOQUE DA

Carlos Alberto Felgueiras Suzana Druck Antnio Miguel Vieira Monteiro

4.1 Introduo Os procedimentos de krigagem ordinria apresentados no captulo anterior (vide Seo 3.4) buscavam predies timas da varivel em estudo, em locais no observados, minimizando a varincia do erro associado a essa estimativa. Neste captulo, o foco ser na anlise de modelos de incerteza, ou seja, na inferncia das distribuies de probabilidade para cada posio do espao considerado, representadas pelos vetores x. Os novos procedimentos vo permitir a definio de estimadores obtidos segundo a minimizao de outras funes de erro inferencial, e no, como efetuado pela krigagem linear (vide Seo 3.5), um estimador baseado apenas na minimizao da varincia do erro. Situaes em que a anlise da incerteza relevante podem ser ilustradas na aplicao da krigagem nos estudos de reposio de nutrientes nos solos. Neste caso, o que se deseja determinar a quantidade de nutrientes que deve ser reposta nos solos de uma regio de maneira a maximizar a produo e tornar mnimo os custos. O processo inferencial tem como objetivo evidenciar os locais em que um determinado fator dos solos, Z(x), deficiente, ou seja, os locais em que o valor estimado, Z ( x ) , seja igual ou abaixo de um valor

crtico, z lim , isto , quando Z ( x ) z lim .

Assim, o que interessa no inferir

exatamente um determinado valor, mas definir reas com maior probabilidade que o evento ocorra, ou seja, reas onde a probabilidade do valor estimado Z ( x ) ser

menor ou igual a um limite z lim , definida por Prob Z ( x ) z lim , tem um valor

determinado. Por outro lado, os erros inferenciais, que so a subestimao (estimar um valor menor do que seria o valor real) ou, a sobre-estimao (estimar um valor maior do que seria o valor real) vo produzir efeitos diferentes no processo produtivo. Enquanto a subestimao pode levar a repor nutrientes onde no necessrio, e contaminar os solos, a sobre-estimao pode conduzir a no repor nutrientes onde necessrio e prejudicar a produtividade. Dessa forma, esses erros inferenciais no podem ser tratados como se tivessem o mesmo impacto, e a minimizao de um, ou de outro, ou de ambos, vai depender dos objetivos impostos pelo trabalho a ser executado. Neste contexto, o estimador de krigagem linear obtido pela
Anlise Espacial de Dados Geogrficos 4-1

minimizao da varincia (vide Seo 3.5), que considera equivalentes e simtricos os impactos de subestimar ou sobre-estimar, seria insuficiente para apoiar as decises necessrias a melhor soluo do problema. Este captulo apresenta um conjunto de tcnicas que procura construir o modelo de incerteza associado a uma determinada posio do espao, representada pelo vetor x. O modelo a ser produzido condicionado a um conjunto de dados geogrficos, coletados previamente a partir de suportes amostrais pontuais. Os exemplos, utilizados para ilustrar os conceitos deste captulo, referem-se a conjuntos amostrais obtidos no levantamento de solos executado na regio de Canchim (vide Seo 3.4, Figura 4-1 e Tabela 4-1). No que segue, admite-se que o leitor esteja familiarizado com os conceitos de krigagem apresentados no captulo 3 (Seo 3.4 a Seo 3.7). 4.2 Incertezas locais A geoestatstica considera os valores de um atributo para cada posio x A (uma regio da superfcie terrestre) como uma realizao de uma varivel aleatria (VA), descrita como Z ( x ) . Isto significa que, na posio x, Z ( x ) pode assumir diferentes valores para o atributo considerado, cada valor com uma probabilidade de ocorrncia associada a ele. Uma VA Z ( x ) ordenada, contnua ou discreta, caracterizada pela sua funo de distribuio de probabilidade acumulada, fdpa, univariada, F ( x , z ) , definida como:

F ( x; z ) = Prob{Z ( x ) z}

(4.1)

Os procedimentos por indicao (tambm conhecidos por funes indicatriz) esto interessados na modelagem da funo de distribuio univariada acumulada condicionada (fdpac), isto , a funo de distribuio que pode ser construda condicionada aos n dados amostrados, F ( x; z | (n )) , que dada por:

F ( x; z | (n )) = Prob{Z ( x ) z | (n )}
essa funo de distribuio de probabilidade ela pode ser utilizada para:

(4.2)

A F ( x; z | (n )) modela a incerteza da V.A. Z no local x , e uma vez estimada produzir uma estimativa de valores do atributo em posies no conhecidas; modelar a incerteza dos valores para o atributo nas posies estimadas;

tipo gaussiano, centrado em ( x ) , z

O enfoque tradicional, oferecido pela krigagem linear, para modelar a incerteza em locais no amostrados , consiste em computar estimativas do valor desconhecido ( x ) e de sua respectiva varincia 2 ( x ) , e construir um intervalo de confiana do z

Anlise Espacial de Dados Geogrficos

4-2

Prob{Z ( x ) [ ( x ) 2 ( x ), ( x ) + 2 ( x )]} z z

(4.3)

A construo deste tipo de intervalo de confiana fundamenta-se nas hipteses: os erros locais de estimao tm distribuio gaussiana; o intervalo de confiana pode ser construdo atravs da varincia destes erros.

Essas hipteses so fortemente restritivas, uma vez que a distribuio local dos erros pode apresentar severas assimetrias, principalmente quando o histograma das amostras apresenta-se assimtrico, no se adequando a hiptese gaussiana sendo implicitamente considerada. Por outro lado, a varincia obtida atravs da krigagem linear depende unicamente da configurao geomtrica dos dados, e no do valor de seu atributo naquela posio, e uma varincia com essas caractersticas pode no ser adequada para representar as incertezas na estimativa de valor para o atributo, principalmente em regies onde amostras prximas apresentam valores para seu atributo, medido ou observado, muito discrepantes. Um outro enfoque possvel considerar que primeiro necessrio modelar a incerteza, ou seja inferir as distribuies de probabilidades locais, as distribuies para cada ponto do espao a ser estudado, representado pelo vetor x. Uma vez estabelecidas as funes, F ( x; z | (n )) , e s ento deduzir as estimativas timas para cada ponto. Observe que o procedimento tradicional primeiro calcula a estimativa, os valores estimados para os pontos no observados, e depois acrescenta o intervalo de confiana, com base na varincia dos erros produzidos pelo estimador. A modelagem da incerteza, sendo construda diretamente atravs da fdpac, F ( x; z | (n )) , condiciona, por construo, essa fdpac aos dados amostrais, e produz com base em um particular estimador, no nosso caso o estimador por krigeagem linear. Ficamos agora com o problema da inferncia desta funo de distribuio de probabilidade acumulada condicionada para cada ponto do espao, da F ( x; z | (n )) . Vamos abordar dois enfoques, mais presentes na literatura : O multigaussiano, que estabelece o modelo de distribuio a ser considerado priori; O enfoque por indicao, que no estabelece nenhum modelo de distribuio para os dados. A fdpac modelada de forma aproximada pela sua discretizao numa srie de K cortes zk , k = 1,....k .

z ento um modelo que independente de uma particular estimativa ( x ) , obtida

O primeiro enfoque, o multigaussiano, o mais fcil de ser utilizado, mas apresenta algumas restries importantes:

Anlise Espacial de Dados Geogrficos

4-3

1. estabelece a hiptese multigaussiana para a distribuio multivariada que no pode ser inteiramente verificada; 2. inadequada para fenmenos que apresentam uma expressiva correlao em valores extremos da distribuio. O enfoque por indicao pode ser considerado mais geral. No restringe o fenmeno em estudo a ser representado por uma distribuio especfica. Deve ser utilizado quando os dados no se ajustam a uma distribuio multigaussiana, ou quando os valores extremos da distribuio das amostras apresentam significante conectividade. Esse captulo, por essas razes, focaliza esse procedimento. 4.3 O Enfoque por Indicao O enfoque por indicao est fundamentado na interpretao da probabilidade condicional Prob{Z ( x ) [ ( x ) 2 ( x ), ( x ) + 2 ( x )]} como uma esperana z z condicional de uma varivel aleatria por indicao, I x , zk (n ) , considerada a informao disponvel nas (n) amostras, isto :

F ( x; z k | (n )) = E{I ( x , zk ) | (n )}

k = 1,...,K

(4.4)

onde I ( x , z k (n )) = 1 se Z ( x ) zk e I ( x , z k (n )) = 0 se Z ( x ) > zk A estimativa de krigagem de uma varivel por indicao, I x , zk (n ) , tambm uma estimativa de sua esperana condicional. Portanto, as estimativas de

F ( x , zk (n )) , para k = 1,..., K , podem ser calculadas estimando-se o valor ( x , z k (n )) , que utiliza para sua estimativa os dados transformados para dados por i

indicao, com valores 1 e 0. Dessa forma, os procedimentos por indicao iniciam-se por uma transformao no linear, chamada de codificao por indicao, que transforma cada valor do conjunto amostral, z ( x ) , em valores por indicao, i( x , z k ) . A codificao por indicao dos dados amostrais Na distribuio de um conjunto de dados amostrais, um determinado nmero de cortes K e seus respectivos valores de cortes z k , k = 1,....k , so definidos. A conjunto amostral por indicao i( x , z k ) do tipo: codificao por indicao, se processa para cada valor de corte

zk , e gera um

Anlise Espacial de Dados Geogrficos

4-4

1, i(x ; z k ) = 0 ,

se z ( x ) z k se z ( x ) > z k

(4.5)

A codificao por indicao aplicada sobre todo conjunto amostral criando, para cada valor de corte, um conjunto cujos valores so 0 ou 1. Os K valores de corte, so definidos em funo do nmero de amostras e devem ser escolhidos de tal forma que os K + 1 cortes contenham aproximadamente as mesmas frequncias. Entretanto, existem algumas critrios para a escolha de K: 1. Os valores de k , devem ser representativos de toda a gama de valores apresentados pelos dados. 2. Os valores de k devem destacar os pontos importantes da distribuio. 3. O nmero de cortes K no deve ser muito grande, o que demandaria grande esforo computacional, mas principalmente no deve ser muito pequeno, pois pode resumir aspectos relevantes da distribuio. Uma regra razovel considerar que o valor de K no deve ser menor que cinco (5), nem maior que quinze (15). Se para um determinado conjunto de dados cujos valores variam no intervalo [5, 43] podemos definir zk = 20, 30, 39 correspondentes respectivamente a trs quantis de sua distribuio ( p = 0.25, 0.50, 0.75 ). A codificao associar a cada valor amostral um vetor com 3 dados por indicao com valores 0 ou 1. Por exemplo, se o valor amostral z (u j ) = 25.2 , ento o valor por indicao i u j ,20 = 0 e representa a probabilidade de Z u j assumir valores menores ou iguais a 20, dado que o valor de z (u j ) = 25,2 , Prob Z u j 20 z u j = 25.2 . Considerando os trs

( )

[( )

( )

valores de zk , o vetor por indicao seria representado como abaixo descrito:

0 i ( x j ,20 ) Prob Z (x j ) 20 z ( x j ) = 25.2 1 = i ( x ,30) Prob Z (x ) 30 z (x ) = 25.2 j j j i ( x ,39) 1 J Prob Z (x j ) 39 z (x j ) = 25.2


4.3.2 A variografia por indicao A anlise de variografia se processa de forma semelhante a realizada na krigeagem linear (vide Seo 3.5), considerando-se separadamente o conjunto de valores por indicao para cada valor de corte, z k . Dessa forma, para cada valor de corte z k um modelo de variograma deve ser estabelecido, o que corresponderia, no exemplo anterior, ao ajuste de 3 modelos de semivariogramas a partir de 3 variogramas experimentais computados como:

{ { {

} } }

Anlise Espacial de Dados Geogrficos

4-5

I (h , z k ) =

N (h ) 1 [i (h ; z k ) i (h + h ; z k )]2 2 N (h ) =1

(4.6)

Como os valores das variveis por indicao so 0 e 1, o variograma por indicao , usualmente, bem comportado e resistente a valores extremos ("outliers"). Tambm as amostras de i (u , zk ) para cada zk so considerados como amostras de uma distribuio Bernouilli cuja varincia mxima 0.25. Dessa forma o efeito pepita somado ao patamar, que so aproximadamente iguais ao valor da varincia, ter como valor mximo 0.25. Calcular os variogramas relativamente simples, sendo a nica dificuldade prtica o nmero de variogramas a ser modelados. 4.3.3 A estimao dos valores por indicao

indicao i( x , z k ) . O estimador linear expresso em termos de VAs por indicao.


n(u ) n (u ) F ( x; z k | (n)) = ( x; z k )I ( x ; z k ) + 1 ( x; z k ) I ( x ; z k ) =1 =1

F ( x , z k (n )) pode ser estimada atravs da combinao linear dos dados por

Como mencionado anteriormente para cada valor de corte z k , k = 1,....k , a

(4.7)

onde ( x ; z k ) o peso assinalado a cada dado convertido interpretado como uma realizao de uma varivel aleatria por indicao. Se a mdia por indicao, E[I ( x ; z k ) ] , considerada constante dentro da rea em estudo dois procedimentos podem ser considerados, descritos a seguir. Krigeagem por Indicao Simples Neste caso a mdia por indicao conhecida e constante, isto :

E{I ( x ; z k )} = F ( z k )
e o preditor linear (4.6) ento rescrito,
n (u ) n ( x ) KS KS FKS ( x; z k | (n)) = ( x; z k )I ( x ; z k ) + 1 ( x; z k ) F ( z k ) =1 =1

(4.8)

(4.9)

KS onde os pesos ( x , z k ) so determinados atravs do sistema de krigeagem

simples.
n (u )

( x; z )C (h ; z ) = C (h ; z )
KS

=1

= 1,2,...,n( x )

(4.10)

definido entre as posies x , e a posio a ser estimada x0 , C I h ; z k ) a


Anlise Espacial de Dados Geogrficos 4-6

onde h o vetor de separao definido pelas posies x e x , h o vetor

autocovarincia definida por h e C I (h ; z k ) a autocovarincia definida por

h em z = z k . As autocovarincias so determinadas pelo modelo de variografia


terico definido pelo conjunto I para z = z k . Krigeagem por Indicao Ordinria A krigeagem por indicao ordinria permite considerar flutuaes locais da mdia limitando seu domnio de estacionariedade a vizinhana local W ( x )

E {I ( x ; z k )} = constante mas desconhecida para x W ( x )


E {I ( x ; z k )} = F ( x ; z k ) estimado no domnio W ( x )
O estimador de krigeagem por indicao ordinria tem a seguinte expresso:
n( x ) n ( x ) KS KS FKS ( x; z k | (n)) = ( x; zk )I ( x ; z k ) + 1 ( x; z k ) F ( x ; z k ) =1 =1

(4.11)

KS sendo que os pesos ( x , z k ) so obtidos pela soluo do seguinte sistema de

equaes de krigagem por indicao ordinria:

onde (x; zk ) o multiplicador de Lagrange.

n ( x ) KO ( x; z k )C I (h ; z k ) + ( x; z k ) = C I (h ; z k ) =1 n ( x ) KO ( x; z ) = 1 k =1

= 1,2,...,n( )
(4.12)

corte z k , a melhor estimativa da esperana condicional da VA I ( x , z k ) , I ( x , z k ) .


pode-se calcular estimativas dos valores da fdpac de Z ( x ) para vrios valores de

A krigagem por indicao, simples ou ordinria, fornece, para cada valor de

Utilizando esta propriedade, e o teorema que estabelece que I ( x , z k ) = F ( x , z k )


z = zk , pertencentes ao domnio de

Z ( x ) . O conjunto dos valores das fdpacs,

estimados nos valores de corte, considerado uma aproximao discretizada da fdpac real de Z ( x ) . Quanto maior a quantidade de valores de corte, melhor a aproximao. A aproximao complementada pela definio de uma funo de ajuste para a distribuio, que deve ser utilizada para se inferir a fdpac para valores diferentes dos valores de corte. Um ajuste linear o mais simples de se definir, porm funes de maior grau podem ser usadas.

Anlise Espacial de Dados Geogrficos

4-7

4.3.4 Correo dos Desvios de Ordem A aproximao da funo de distribuio apresenta alguns problemas, conhecidos como desvios de relao de ordem, que devem ser corrigidos automaticamente pelo procedimento. Os valores de probabilidades acumuladas condicionadas, para cada valor de corte, so inferidos independentemente. Para que esses valores de probabilidade constituam uma distribuio legtima, eles devem verificar as seguintes relaes de ordem:

1. Os valores inferidos de F x , z k (n ) devem satisfazer a seguinte relao

0 F ( x; z k | (n )) 1 z k , k = 1,..., K
*

2. O valor estimado de F x , z k (n ) no deve ser maior do que a F x ; z k +1 (n )


quando zk zk +1 , ou seja F ( x; z k | (n )) F ( x; z k +1 | (n )) se z k z k +1

A primeira condio pode ser garantida quando todos os pesos do estimador so positivos e somam 1. A krigeagem no garante que os pesos sejam todos positivos. Por isso possvel a inferncia de valores da fdpac fora do intervalo [0,1]. A soluo para este problema ajustar os valores estimados para as bordas, ou seja, valores negativos so mapeados para 0 e valores maiores que 1, para 1. A segunda condio garantida com o uso de ponderadores positivos que somam 1, e com a utilizao dos mesmos pesos de estimao para todos os valores de corte, o que no pode ser garantido pela krigeagem por indicao. Portanto, estas inconsistncias podem ocorrer e devem ser corrigidas. Um procedimento simples de correo verificar pares de fdacs estimadas, em valores sucessivos de cortes, e ajust-los para o valor mdio das duas, sempre que a relao de ordem,

F ( x; z k | (n )) F ( x; z k +1 | (n )) se z k z k +1 , no for satisfeita. A Figura 4-2 ilustra

os problemas e as solues das 2 condies acima descritas.

Figura 4-2 Correo dos desvios de relao de ordem

Anlise Espacial de Dados Geogrficos

4-8

A Figura 4-3 e a Figura 4-4 que seguem buscam ilustrar as etapas descritas para a obteno do modelo de incerteza para um conjunto amostral tomado conceitualmente como variveis aleatrias.

Figura 4-3 Primeira etapa do processo de krigagem por Indicao

Figura 4-4 Segunda etapa do processo de krigagem por Indicao


Anlise Espacial de Dados Geogrficos 4-9

4.4 Estimativa de incertezas locais O conhecimento da fdpac, F x ; z k (n ) , em uma localizao x, possibilita a

estimativa direta da incerteza, sobre o valor no conhecido z k ( x ) , independente da estimada quando adotamos o enfoque por indicao aqui apresentado. Intervalos de probabilidade

escolha de um estimador para z k ( x ) . Vamos ver agora como a incerteza pode ser

A incerteza pode ser estimada atravs de intervalos de valores do atributo. A probabilidade de um valor z k ( x ) estar dentro de um intervalo (a,b] qualquer, chamado intervalo de probabilidade, computado como a diferena entre os valores da fdpac para os limiares b e a, ou seja:

Prob{Z ( x ) (a,b ]| (n )} = F ( x ;b | (n )) F ( x ; a | (n ))

(4.13)

que z ( x ) tem 70% de chance de estar dentro e, portanto, 30% de chance de estar fora do intervalo (a, b]. Quando b = obtm-se a probabilidade de se exceder um limiar a, ou seja:

Um intervalo de probabilidade dado por Prob{Z ( x ) (a,b ]| (n )} = 0.7 , significa

Prob{Z ( x ) (a,+ ]| (n )} = Prob{Z ( x ) > a | (n)} = 1 F ( x ; a | (n ))

(4.14)

Esta probabilidade particularmente importante em aplicaes ambientais focadas em medir os riscos de se exceder limites regulatrios. Para exemplificar a utilizao dessas medidas de incerteza, numa situao real, considere o conjunto amostral de altimetria de Canchim, apresentado na Figura 4-5. Esse conjunto amostral foi utilizado como entrada para produo do mapa temtico de altimetria e do mapa de incertezas apresentados na Figura 4-6 (a) e (b), respectivamente. A classificao apresentada no mapa da Figura 4-6(a) foi obtida a partir dos modelos de distribuio probabilstica inferidos pelo procedimento de krigeagem por indicao condicionado s amostras de altimetria. Neste caso, foram definidas 3 faixas distintas de valores de altimetria, 3 classes, e para cada ponto desse mapa, as probabilidades de pertinncia a cada um dos intervalos de valores, definidos para as classes, foram calculadas pela formulao apresentada na equao 4.13. Para classificao de cada ponto do mapa temtico de altimetria, utilizou-se o critrio de mxima probabilidade, ou seja, atribuiu-se, a cada ponto do mapa, a classe de maior probabilidade de ocorrncia nesse local. Os valores de incerteza apresentados na Figura 4-6(b), mapa da direita, foram calculados a partir do valor da probabilidade da classe que foi associada a cada ponto do mapa temtico de altimetria gerado. Assim, calculou-se a incerteza como:

Inc( x ) = 1 Prob{z( x ) sk ( x ),k = 1, 2 ou 3}


onde s k ( x ) a classe atribuda a localizao ( x ) .
Anlise Espacial de Dados Geogrficos

(4.15)

4-10

Figura 4-5 Distribuio espacial das amostras de altimetria na regio de Canchim

0.5

E~F

EF
0.0

Figura 4-6 Mapa temtico de altimetria (a) e respectivas medidas de incerteza (b)

Anlise Espacial de Dados Geogrficos

4-11

Distncia interquantil Uma medida mais robusta de espalhamento um intervalo interquantil. Por exemplo, o intervalo interquartil, q R ( x ) definido por:

q R ( x ) = q0.75 ( x ) q 0.25 ( x ) = F 1 ( x ; 0.75 | (n )) F 1 ( x; 0.25 | (n ))

(4.16)

Para distribuies altamente assimtricas, uma medida mais robusta o intervalo interquantil, que definido como a diferena entre dois quantis, simtricos em relao a mediana. A partir da funo de distribuio acumulada condicionada probabilidade tais como o intervalo 95%, [q 0.025 ; q 0.975 ] , tal que: inferida,

F ( x ; z (n )) , pode-se derivar vrios intervalos de


(4.17)

Prob{Z ( x ) [q0.025 ; q0.975 ]| (n )} = 0.95

2,5% e 97.5%, ou seja, F ( x ; q0.025 (n ) ) = 0.025 , e F ( x ; q0.975 (n ) ) = 0.975 . Os

com q 0.025 e q 0.975 sendo os quantis relativos aos valores de probabilidade da fdpac valores do atributo, referentes aos quantis, so estimados a partir da funo de ajuste e dos valores de corte usados na krigeagem por indicao. Um mapa de incertezas obtido pelos valores de uma grade de intervalos interquartis, diferena entre o primeiro e o terceiro quartil de altimetria, e estimados segundo a equao 4.16, est apresentado na Figura 4-7.

100.

5.05

Figura 4-7 Mapa de incertezas locais obtido a partir dos quartis, primeiro e terceiro, dos modelos de distribuio probabilstica locais inferidos pela krigagem por indicao
Anlise Espacial de Dados Geogrficos 4-12

Varincia condicional Uma medida importante de espalhamento de uma distribuio a varincia condicional que mede os desvios da fdpac em torno da mdia da distribuio, z z k (u ) . Diferente das medidas de incerteza anteriormente descritas, esta necessita da estimao da mdia da distribuio, isto , da definio desse estimador. possvel obter-se uma estimativa da varincia da distribuio condicionada, 2 ( x ) , pela seguinte formulao:

( )( x ) = [z z ( x )] dF ( x; z | (n ))
2 2 Zk 2 z 'k z Z k ( x ) F ( x ; z k | (n )) F (u; z k 1 | (n )) k =1 K +1

][

(4.18)

onde z z k o valor da mdia da classe (z k 1 , z k ] . A Figura 4-8 apresenta um mapa de varincias para os valores de altimetria, da regio de Canchim, obtidas pela equao 4.18.

99.0

7.8

Figura 4-8 Mapa de incertezas locais obtido a partir das varincias inferidas dos modelos de distribuio probabilstica construdos pela krigeagem por indicao.

Anlise Espacial de Dados Geogrficos

4-13

Entropia de Shannon Uma medida de incerteza local, no relacionada a qualquer intervalo (a , b], dada pela medida de entropia da funo de densidade de probabilidade local. Essa medida definida como: (4.19) [ln f (x ; z (n ))] f (x ; z (n ))dz onde f ( x ; z (n )) = F ( x ; z (n )) z a funo de distribuio de probabilidade. Na

H (x) =

prtica a amplitude de variao de z discretizada em K classes, que no se interceptam, ( z k 1 , z k ], computando-se a probabilidade desses K intervalos como:

pk ( x ) = F ( x; z k | (n )) F ( x ; z k 1 | (n ))

(4.20)

A entropia para a distribuio condicional em x computada como:

H ( x ) [ln ( p k ( x ))] pk ( x ) 0 ,
k =1

p k 0
(4.21)

4.5 Estimadores timos para as Superfcies Interpoladas O processo inferencial visa calcular uma estimativa do valor de z ( x ) atravs de um estimador que caracterizado por uma determinada funo dos dados. Esse estimador, no que concerne aos objetivos do processo inferencial, deve minimizar algum tipo de erro que se deseja evitar, maximizando os acertos de interesse. Por essa razo, um estimador dito timo quando minimiza perdas, isto , uma particular funo dos erros inferenciais, L( ) , onde = z ( x ) ( x ) . Entretanto, z

minimizar L( ) significa conhecer z ( x ) , que desconhecido. Portanto, a idia utilizar o modelo de incerteza definido para determinar a perda esperada, E[L( )] .

E[L( )] = E{L( ( x ))(n )} = L( ( x )) dF ( x , z (n ))


+

(4.22)

Na prtica, a seguinte aproximao utilizada

E[L( )] L( ( x ) z k ) F ( x , z k (n )) F ( x , z k 1 (n )) z
k =1

K +1

(4.23)

Assim sendo a determinao de estimativas timas se processa em duas etapas: 1. A incerteza sobre o valor desconhecido z ( x ) inicialmente modelada pela

sua fdpac F x , z k (n ) ;

Anlise Espacial de Dados Geogrficos

4-14

2. Desse modelo uma estimativa de ( x ) obtida tal que minimiza E[L( )] . z Estimativa do valor esperado A estimativa do valor esperado para cada valor espacial da distribuio realizada a partir do de mnimos quadrados onde L[ (u )] = [ (u )]2 . Mostra-se que do valor esperado, E ( x ) = E {Z ( x )} onde: z

z essa funo minimizada quando z o valor esperado, ( x ) = z E ( x ) . A estimativa


E[Z ( x )] = z f ( x ; z | (n ))dz = z dF ( x ; z | (n ))

(4.24)

obtida pela funo de densidade de probabilidade condicionada as n amostras,

f ( x , z k (n )) , e a partir dos K valores de corte, z k , pela aproximao:


E[Z ( x )] = z dF ( x ; z | (n )) z k F ( x ; z k (n )) F ( x ; z k 1 (n ))

K +1 k =1

(4.25)

A estimativa do valor esperado como definida em (4.25) e aquela obtida por krigagem linear so ambas timas no sentido de minimizar varincias inferenciais, entretanto produzem resultados diferentes. So diferentes porque, no caso do enfoque aqui adotado, derivam de uma fdpac que depende dos valores dos dados. Estimativa da mediana O estimador de mnimos quadrados no a nica funo de otimizao de erros possvel. Uma outra funo L( ( x )) pode tambm ser considerada. Podemos tom-la como sendo dada pelo valor absoluto dos erros estimados L( ( x )) = ( x ) | . Mostra-se que o valor de z que minimiza E [ L( ( x )) ] , quando L( ( x )) o

modulo de ( x ) , a mediana da distribuio q0.5 ( x ) , definida como:

q0.5 ( x ) = F 1 ( x; 0.5 | (n ))

(4.26)

A mediana inferida aplicando-se a funo de ajuste da distribuio sobre os valores de corte com probabilidades acumuladas vizinhas ao valor 0.5. Para distribuies com alto grau de assimetria, a mediana um estimador mais robusto do que a mdia. Os mapas de mdia e mediana, dos dados de altimetria de Canchim, esto mostrados na Figura 4-9.

Anlise Espacial de Dados Geogrficos

4-15

Estimativa de quantis A funo de perda considerada nos dois estimadores anteriormente definidos no discriminava as diferenas de impacto dos erros de sub-estimao ou sobreestimao. Entretanto, existem situaes, como a descrita no incio desse captulo (vide Seo 4.1), em que cada um desses erros produz diferentes impactos, e essas diferenas devem ser tambm consideradas no processo inferencial. Assim, funes de perdas assimtricas devem ser utilizadas

w1 ( x ) se ( x ) 0 sobrestima do L[ ( x )] = w2 ( x ) se ( x ) < 0 subestimado )

(4.27)

ou sobre estimar. O estimador que minimiza essa funo L( ( x )) chamado de pquantil, e definido como:

onde w1 e w2 so parmetros no negativos, e medem o relativo impacto de sub

q = F 1 ( x ; p (n )) = q p ( x ) z
onde p =

(4.28)

w2 w1 + w

894.0

894.0

695.6

695.6

Figura 4-9 Mapas de mdia (a) e mediana (b) inferidos pelo procedimento por indicao, para os dados de altimetria da regio de Canchim.

Anlise Espacial de Dados Geogrficos

4-16

estimar z ( x ) de forma a reduzir o risco de comprometimento da produo, que motivado pelos erros de sobre-estimao. Dessa forma, w1 > w2 e p < 0.5 , ou seja, um estimador timo seria um quantil menor do que a mediana, onde p = 0.5 . Ou ainda, se w1 = 0.9 e w2 = 0.1 , p = 0.1 . A estimativa tima seria considerando o quantil de 10%. 4.6 Incertezas locais para atributos Categricos O enfoque por indicao, semelhante quele aplicado aos dados com atributos numricos, pode ser tambm aplicado a dados com atributos categricos, tambm chamados dados temticos. O dado categrico aqui considerado como o dado cujo atributo discreto e sem ordenao, para o qual no possvel um clculo de distribuies acumuladas, a menos que se defina uma ordenao para os mesmos. Um exemplo tpico de dados categricos o atributo textura do solo, cujas classes so derivadas de atributos granulomtricos do solo. Outros exemplos podem ser: tipos de rochas, classes de solo, etc. A metodologia geoestatstica, aqui apresentada, utilizada para espacializao de dados categricos, baseia-se na krigeagem por indicao e, equivale a um processo de classificao de dados categricos a partir de amostras individuais. Os principais conceitos abordados aqui so exemplificados a partir do mesmo conjunto de dados coletados na regio de Canchim (vide Seo 3.4, Figura 4-10 e Tabela 4-2). O Enfoque por Indicao para Atributos Categricos Considere-se um dado espacial cujo atributo categrico, podendo assumir K classes, ou estados diferentes, s k , k = 1,..., K . Para cada posio ( x ) do espao, o dado categrico pode ser representado por uma varivel aleatria S ( x ) que pode
k

Considerando o exemplo de aplicao apresentado na introduo desse captulo, seja w1 o impacto de sobre-estimar um determinado nutriente no solo, e w2 o impacto de subestimar este mesmo nutriente. Vamos supor que se deseja

assumir s

estados, cada um associado a uma probabilidade de ocorrncia. Os

procedimentos por indicao para atributos categricos baseiam-se na modelagem da funo de distribuio de probabilidade condicionada, (fdpc), isto , a modelagem da distribuio condicionada aos n dados amostrados, p( x; s k | (n )) , que definida como:

p( x; s k | (n )) = Prob{S ( x ) = s k | (n )}

(4.29)

A p( x; s k | (n )) modela a incerteza da varivel aleatria S no ponto ( x ) e, uma vez estimada, essa funo de distribuio de probabilidade pode ser utilizada para:

classificar o atributo em posies no conhecidas;


4-17

Anlise Espacial de Dados Geogrficos

modelar a incerteza das classificaes efetuadas.

Pela metodologia por indicao, a definio da fdpc depende, inicialmente, da definio de um conjunto de valores de cortes para a varivel em questo. Para um conjunto de amostras de uma varivel aleatria categrica qualquer, o nmero de cortes K definido pela quantidade de classes que essa varivel pode assumir no seu domnio. Neste caso, a codificao por indicao, se processa em valor de cortes s k , e gera um conjunto amostral por indicao i ( x; s k ) do tipo:

1, i ( x; s k ) = 0,

se s ( x ) = s k se s ( x ) s k

(4.30)

A codificao por indicao aplicada sobre todo conjunto amostral criando, para cada corte s k , um conjunto amostral por indicao, I ( x; s k | (n )) , cujos valores condicional da varivel aleatria por indicao I ( x; s k | (n )) , a saber:

so 0 ou 1. Cada probabilidade condicional p( x; s k | (n )) , tambm, a esperana

p( x; s k | (n )) = E{I ( x ; s k (n ))}
onde I ( x; s k ) = 1 se S ( x ) = s k , e 0 (zero) caso contrrio .

(4.31)

Assim, a fdpc da varivel categrica S ( x ) pode ser modelada usando-se um enfoque por indicao, semelhante quele aplicado s variveis de natureza contnua. Para cada um dos K conjuntos I ( x; s k | (n )) , define-se um variograma experimental, ajustado a posteriori por um modelo terico, que busca representar a variabilidade espacial do conjunto de dados codificados por indicao sendo considerados. Cada modelo de variograma terico, em conjunto com as amostras, codificadas por indicao, usado para se estimar o valor da probabilidade condicional [ p( x; sk | (n ))]* . O conjunto dessas probabilidades estimadas, considerando-se os K valores de corte, determina uma aproximao discreta da fdpc de S ( x ) . Essa fdpc deve, ainda, sofrer uma correo dos desvios de relao de ordem para se garantir as relaes:

[ p( x; sk | (n))]* [0,1]
K k k =1

k = 1,...,K

(4.32) (4.33)

[ p(u; s | (n ))]* = 1

ou seja, cada valor deve estar no intervalo [0,1] e a soma total desses valores deve ser igual a1.

Anlise Espacial de Dados Geogrficos

4-18

4.7 Classificadores para Atributos Categricos No enfoque por indicao, os classificadores locais para atributos categricos so definidos a partir da distribuio de probabilidade inferida para cada uma das s k classes de S ( x ) . Em geral, esse classificador implementado segundo um maior probabilidade inferida em ( x ) , ou seja: estimador de moda, que determina o valor de S ( x ) como sendo a classe com a

S ( x ) = sk max ( x ) = sk ( x ) sse [ p( x ; sk | (n ))] > [ p( x; si | (n))] i = 1,...,K e k i


(4.34) Uma variante do classificador de moda considera tambm a reproduo das propores globais definidas a priori. O mapa da Figura 4-11 mostra o resultado de uma classificao, pelo estimador de moda, a partir de um conjunto de amostras do atributo textura do solo. 4.8 Medidas de incerteza para atributos Categricos Apresentam-se, a seguir, dois procedimentos de medida de incertezas para atributos categricos, a incerteza do classificador de moda e a incerteza por entropia de Shannon. A Incerteza do classificador de moda A incerteza local

Inc( x )

pode ser definida como 1(um) menos a maior

probabilidade condicional, estimada em x para as diversas classes de corte sk :

Inc( x ) = 1 [ p( x ; sk max ( x ) | (n ))]

(4.35)

A Figura 4-12 mostra o mapa de incertezas locais do classificador de moda usado na gerao do mapa da Figura 4-11. Analisando-se a classificao apresentada na Figura 4-11 e o mapa de incertezas da Figura 4-12, observa-se que este ltimo mostra um campo com variao proporcional ao comportamento do atributo na regio. Nas regies de transio entre as classes, os valores de incerteza por moda aumentam, com os valores mais baixos longe das transies, como ocorre naturalmente com muitas propriedades naturais nas proximidades de zonas de fronteira.

Anlise Espacial de Dados Geogrficos

4-19

Arenoso Mdio Argiloso Muito

Figura 4-11 Mapa de valores de textura do solo inferidos, pelo valor de moda, a partir do procedimento de krigeagem por indicao

0.71

0.0

Figura 4-12 Mapa de incerteza por moda estimado a partir do procedimento de krigeagem por indicao usado para inferir o mapa da Figura 4-11
Anlise Espacial de Dados Geogrficos 4-20

Incerteza por entropia de Shannon Outra medida da incerteza local Inc(x) a entropia de Shannon das probabilidades condicionais das diversas classes de corte sk , definida como:

Inc ( x ) = H ( x ) ln[ p ( x ; s k | (n ))] [ p ( x ; s k | (n ))] 0


k =1

(4.36)

A entropia de Shannon maximizada para distribuies uniformes, ou seja, quando as probabilidades de ocorrncia das classes se igualam. Assim, os valores de incerteza por entropia de Shannon so maiores onde existe uma confuso maior entre as classes consideradas. Isto pode ser observado no mapa de incertezas da Figura 4-13.

1.38

0.0
Figura 4-13 Mapa de incerteza por entropia de Shannon estimado a partir do procedimento de krigeagem por indicao usado para inferir o mapa da Figura 4-11

Comparando-se os mapas das Figura 4-12 e Figura 4-13, pode-se analisar as diferenas existentes entre o mapa de incertezas por moda e o mapa de incertezas por entropia. As diferenas so mais aparentes nas regies onde vrias classes se confundem. Este um resultado esperado, uma vez que, nestas regies a
Anlise Espacial de Dados Geogrficos 4-21

distribuio de probabilidade das variveis aleatrias est mais prxima de uma distribuio uniforme, quando ento a incerteza medida pela entropia tem seus valores maximizados. A incerteza por moda mostra um crescimento a partir da parte central de uma classe em direo as zonas de transio. Os valores mximos de incerteza por moda aparecem nas bordas entre as classes e, no tm influncia do nmero de classes prximos as bordas. Dependendo da aplicao, o especialista responsvel por decidir sobre qual medida de incerteza estar trabalhando. Quando a confuso entre classes importante deve-se optar pela incerteza por entropia. Caso o interesse seja somente nas transies entre as classes, a incerteza por moda deve ser priorizada. Concluses Apresentamos neste captulo a formalizao do procedimentos geoestatsticos da krigagem por indicao. Estes procedimentos servem no apenas para produzir uma predio de valores sobre uma superfcie, mas essencialmente como uma poderosa ferramenta para produzir modelos de incertezas locais para dados geogrficos que compartilham uma base de informaes Estes dados so sempre usados em conjunto com outros para produzir novas informaes, atravs de operaes e transformaes. Os procedimentos da geoestatstica, em seu enfoque por indicao, nos permitem produzir informaes espaciais qualificadas por uma mtrica de confiana nas informaes representadas naqueles suportes, os mapas. Temos a possibilidade concreta de produzir e operar com os mapas e suas barras de erro. Podemos ainda ressaltar as seguintes caractersticas, especficas do procedimento de krigagem por indicao:

a krigagem por indicao no paramtrica. No considera nenhum tipo de distribuio de probabilidade a priori para a varivel aleatria. Ao invs disso, ela possibilita a construo de uma aproximao discretizada da fdpac. Os valores de probabilidades discretizados podem ser usados diretamente para se estimar valores caractersticos da distribuio, tais como: quantis, valor esperado e varincia. Portanto, ela no se restringe a modelagem de atributos com distribuies simtricas como, por exemplo, a gaussiana; a krigagem por indicao fornece uma metodologia nica para espacializao, com estimativa de incertezas, para atributos espaciais tanto de natureza temtica quanto numrica; diferentemente da krigagem linear, que estima a varincia do erro de estimao em funo do estimador e da distribuio geomtrica das amostras, a krigagem por indicao possibilita a estimativa de incertezas, utilizando a funo de distribuio acumulada condicionada da VA que representa o atributo, independentemente do estimador;

Anlise Espacial de Dados Geogrficos

4-22

a krigagem por indicao pode ser usada para modelar atributos com alta variabilidade espacial sem a necessidade de se filtrar amostras cujos valores esto muito distantes de uma tendncia (outliers); a krigagem por indicao permite melhorar a qualidade de estimao com o uso de amostras indiretas, retiradas de fontes auxiliares, que so acrescidas ao conjunto amostral do atributo, as amostras diretas.

No entanto, os procedimentos de krigagem por indicao apresentam tambm alguns problemas, alm das probabilidades negativas e funes acumuladas invlidas j mencionados. Este procedimento requer, do especialista, um alto grau de interatividade para a definio da quantidade e dos valores de corte a serem utilizados. Tambm, exige que seja definido um variograma para cada valor de corte considerado. A ferramenta geoestatstica de krigagem utilizada para inferir valores de atributos, em posies no observadas, e tambm incertezas associadas aos valores inferidos. Mostrou-se que a krigagem por indicao tem aplicao mais geral, principalmente porque no supe nenhum tipo de distribuio de probabilidade a priori e pode ser usado com atributos numricos e temticos. Por exemplo, a krigagem por indicao permite a inferncia de valores temticos e, portanto, pode ser considerada um classificador estocstico, que fornece estimativas de incertezas associadas aos valores das classes atribudos a cada ponto do espao. Apresentou-se, ainda, alternativas para estimativas de incertezas que devem ser escolhidas de acordo com a natureza do atributo, que est sendo modelado, e tambm de acordo com os objetivos de uma aplicao. Salienta-se que os procedimentos geoestatsticos por indicao incluem tambm os simuladores estocsticos, que no foram abordados neste captulo. Tambm no foi abordado o uso de informao indireta para a melhora das inferncias. Estes tpicos so de extrema relevncia para o contexto do uso efetivo da geoestatstica em anlise de dados geogrficos e devero ser considerados em futuras edies. Mesmo no mtodo por indicao algumas limitaes da krigeagem permanecem uso dos dados para estimar o variograma e predizer a incerteza, deficincia na extrapolao, ou seja, avaliar a incerteza fora dos dados. Novas generalizaes comeam a surgir, tomando como base a teoria dos campos aleatrios espao-temporais.

Anlise Espacial de Dados Geogrficos

4-23

REFERNCIAS BIBLIOGRFICAS A estrutura terica da geoestatstica em seu enfoque por indicao est bem apresentada em Goovaerts (1997) e em Isaaks e Srivastava (1989). Algoritimos implementados e explicaes didticas sobre como operar a Krigeagem por indicao pode ser encontrada no livro de Deutsch e Journel (1992). Com relao integrao entre geoestatstica e SIGs e modelagem e tratamento de incertezas em SIG, o leitor deve referir-se a Felgueiras C. A. (1999), Felgueiras et al (1999) e Heuvelink (1998). As questes sobre medidas de entropia podem ser apreciadas no clssico Shannon, and Weaver (1949). Para uma discusso sobre diferentes medidas de incerteza no enfoque por indicao veja Soares(1992). Referente a modelagem espao-temporal, deve-se consultar o artigo de Kyriakidis e Journel (1999) e o livro do George Christakos (2000). Referncias bsicas sobre os dados da Fazenda Canchim podem ser encontrados em Calderano Filho et al. (1996). Estes dados tambm esto disponveis no site do livro (www.dpi.inpe.br/gilberto/livro/analise).

Calderano Filho, B.; Fonseca, O. O. M.; Santos, H. G. e Lemos A. L.. Levantamento Semidetalhado dos Solos da Fazenda Canchim So Carlos - SP. Rio de Janeiro, EMBRAPA- CNPS, 1996. 261p. Christakos, G. Modern Spatiotemporal Geostatistics; IAMG Studies no. 6, Oxford University Press, 2000 .Deutsch e Journel (1992). GSLIB: Geostatistical Software Library and users guide. New York, Oxford University Press, 1992. 339p. Felgueiras C. A. Modelagem Ambiental com Tratamento de Incertezas em Sistemas de Informao Geogrfica: O Paradigma Geoestatstico por Indicao. Tese (Doutorado em Computao Aplicada) Instituto Nacional de Pesquisas Espaciais, So Jos dos Campos, Publicado em http://www.dpi.inpe.br/teses/carlos/, 1999. Felgueiras C. A., Monteiro A. M. V., Fuks S. D. and E. C. G. Camargo. Inferncias e Estimativas de Incertezas Utilizando Tcnicas de Krigeagem No Linear [CDROM]. In: V Congresso e Feira para Usurios de Geoprocessamento da Amrica Latina, 7, Salvador, 1999. Anais. Bahia, GisBrasil99. Seo de Palestras TcnicoCientficas. Goovaerts, P. Geostatistics for Natural Resources Evaluation. New York, Oxford University Press, 1997. 481p.; Isaaks E. H. and Srivastava R. M. An Introduction to Applied Geostatistics, Oxford University Press, 1989. 560p. Kyriakidis, P. C. e Journel, A. G. Geostatistical Space-Time Models: A Review. Mathematical Geology, Vol. 31, No. 6, 1999
Anlise Espacial de Dados Geogrficos 4-24

Heuvelink G. B. M. Error Propagation in Environmental Modeling with GIS, Bristol, Taylor and Francis Inc, 1998. Shannon, C. E. e Weaver, W. The Mathematical Theory of Communication. Urbana, The University of Illinois Press, 1949. 117p. Soares, A. Geoestatistical Estimation of Multi-Phase Structures. Mathematical Geology, 24(2):140-160, 1992.

Anlise Espacial de Dados Geogrficos

4-25

ANLISE ESPACIAL DE REAS

Gilberto Cmara Marilia S Carvalho Oswaldo Gonalves Cruz Virginia Correa

5.1 INTRODUO Este captulo discute mtodos de anlise de dados espaciais cuja localizao est associada a reas delimitadas por polgonos. Este caso ocorre com muita freqncia quando lidamos com eventos agregados por municpios, bairros ou setores censitrios, onde no se dispe da localizao exata dos eventos, mas de um valor por rea. Alguns desses indicadores so contagens, como o caso da maior parte das variveis coletadas no censo: por exemplo, o IBGE fornece, para cada setor censitrio, o nmero de chefes de famlia em cada uma das faixas de renda consideradas. Diversos indicadores de sade tambm so deste tipo: o Ministrio e Secretarias de Sade organizam e disponibilizam dados de bitos, partos, doenas transmissveis por municpio. Utilizando duas contagens bitos e populao, por ex. taxas de densidade de ocorrncia, como taxas de mortalidade ou incidncia so estimados. Outros indicadores bastante teis so: (a) propores, como percentual de adultos analfabetos; (b) mdias, como renda mdia do chefe da famlia por setor censitrio; e (c) medianas, como mediana etria em homens. A forma usual de apresentao de dados agregados por reas o uso de mapas coloridos com o padro espacial do fenmeno. A Figura 5-1 mostra a distribuio espacial do ndice de excluso social1 para os 96 distritos da cidade de So Paulo, para os dados do censo de 1991. Verificase que 2/3 dos 96 distritos de So Paulo estavam abaixo dos ndices mnimos de incluso social em 1991. Uma forte polarizao centro-periferia claramente perceptvel no mapa, que apresenta duas grandes regies de excluso social, as zonas Sul e Leste da cidade. Na zona Leste, nota-se um gradiente do ndice de excluso/incluso social, que piora medida que nos afastamos do centro. Na zona Sul, a descontinuidade do ndice mais

O ndice de excluso/incluso social uma medida agregada das disparidades socioeconmicas, que varia de 1 a +1, onde o valor 0 (zero) indica o um nvel bsico de incluso social.

abrupta, e verificamos a existncia de distritos com altos ndices de excluso/incluso social prximos a reas excludas. ==

Figura 5-1 ndice de Excluso/Incluso Social dos Bairros da Cidade de So Paulo para os dados de 1991, com 96 distritos agrupados por sextis. Grande parte dos usurios limita seu uso de SIG a essas operaes de visualizao, tirando concluses intuitivas. Mas possvel ir muito alm. Quando visualizamos um padro espacial, muito til traduzi-lo em consideraes objetivas: o padro que observamos aleatrio ou apresenta uma agregao definida? Esta distribuio pode ser associada a causas mensurveis? Os valores observados so suficientes para analisar o fenmeno espacial a ser estudado? Existem agrupamentos de reas com padres diferenciados dentro da regio de estudo? Para abordar estas questes, este captulo apresenta um conjunto de tcnicas de anlise espacial de dados agregados por reas. O primeiro passo escolher o modelo inferencial a ser utilizado. A hiptese mais comum supor que as reas so diferenciadas, e que cada uma delas possui uma identidade prpria. Do ponto de vista estatstico, isto implica em que cada rea apresenta uma distribuio de probabilidade distinta das demais, o chamado modelo espacial discreto. A alternativa supor que o fenmeno estudado apresenta continuidade espacial, formando uma superfcie, o chamado modelo espacial contnuo estudado no captulo anterior. Neste caso, as reas so consideradas apenas um suporte para coleta de dados, e o modelo inferencial desconsidera os limites de cada rea. A produo de superfcies a partir de dados de rea ser discutida no final deste captulo. A questo de agregao de contagens em reas levanta ainda problemas conceituais importantes: Pode-se estimar comportamentos individuais a partir de dados agregados? Em que medida a comportamento dos

ld

agregados reflete mais do que a soma dos indivduos? Qual o erro cometido ao estimar indicadores onde as contagens so muito pequenas? Neste captulo, aps a apresentao dos modelos adequados anlise de dados agregados por reas sero abordados os conceitos bsicos da anlise espacial, para dados agregados por rea.

5.2 MODELOS DE DISTRIBUIO DE DADOS EM REAS O modelo de distribuio mais utilizado para dados de rea o modelo de variao espacial discreta. Considere-se a existncia de um processo estocstico Z i , i = 1,..., n , onde Z i a realizao do processo espacial na rea i e n o total de reas Ai. O objetivo principal da anlise construir uma aproximao para a distribuio conjunta de variveis aleatrias Z = {Z 1 , ..., Z n } , estimando sua distribuio. De forma semelhante ao modelo de eventos pontuais discutido no captulo 2, considere-se Z i como a varivel aleatria que descreve a contagem, indicador ou taxa associada rea Ai. Dispomos de um valor observado zi , correspondente contagem na i-sima rea. A hiptese mais comum supor que a varivel aleatria Z i , que descreve o nmero de ocorrncias em cada rea pode ser associada a uma distribuio de probabilidade de Poisson. Tal hiptese justifica-se por ser esta a distribuio estatstica mais adequada a fenmenos que envolvem contagens de eventos, como o caso na maioria dos dados agregados por reas. Evidentemente outras distribuies podem ser mais adequadas, dependendo da varivel a ser analisada. Taxas podem ser modeladas utilizando a distribuio normal, pois ainda que esta admita valores negativos, evidentemente impossveis neste tipo de indicador, as propriedades da distribuio normal podem ser adequadas. A alternativa hiptese de variao espacial discreta supor que os dados apresentam variao espacial contnua. Considera-se um processo estocstico { Z ( x ), x A, A 2 } , cujos valores podem ser conhecidos em todos os pontos da rea de estudo. Neste caso, as contagens agregadas devem ser transformadas em taxas ou indicadores, pois o que varia continuamente no espao so as taxas e no as contagens. A estimao deste processo estocstico pode ser feita como descrito nos captulos 3 e 4 deste livro. O uso de modelos espaciais contnuos ser discutido na seo 5.8.

ld

5.3 PROBLEMAS DE ESCALA E A RELAO REA-INDIVDUO Um dos problemas bsicos com dados agregados por rea que, para uma mesma populao estudada, a definio espacial das fronteiras das reas afeta os resultados obtidos. As estimativas obtidas dentro de um sistema de unidades de rea so funo das diversas maneiras que estas unidades podem ser agrupadas; pode-se obter resultados diferentes simplesmente alterando as fronteiras destas zonas. Este problema conhecido como problema da unidade de rea modificvel. Em muitos dos estudos envolvendo dados de rea, o dado agregado a nica fonte disponvel, porm o objeto de estudo diz respeito a caractersticas e relacionamentos individuais. Alguns destes estudos procuram estabelecer relaes de causa-efeito entre diferentes medidas, como o uso de modelos de regresso; um exemplo clssico correlacionar anos de estudo do chefe de famlia e sua renda, que usualmente apresenta forte correlao. Note-se, no entanto, que devido aos efeitos de escala e de agregao de reas, os coeficientes de correlao podem ser inteiramente diferentes no indivduo e nas reas. Este fenmeno, nas cincias sociais e na epidemiologia, chamado de falcia ecolgica. Considere um conjunto de indivduos onde so medidas duas caractersticas de cada um dos indivduos, conforme estimado na Figura 5-2. Uma regresso considerando todos os indivduos (linha negra do quadro esquerda) resulta em coeficiente positivo de 0,1469. Esses indivduos pertencem a grupos distintos, separando cada grupo conforme o atributo cor, obtm-se correlao negativa, variando entre 0,5 e 0,8. Utilizando as mdias de cada grupo (linha negra do quadro direita), o coeficiente vai a 0,99. importante observar que cada modelo mede um aspecto diferente e que no h modelo correto. No primeiro caso, pode-se dizer que sem informaes que permitam separar os indivduos nos grupos coloridos, as variveis se relacionam positivamente. No ltimo exemplo, o interesse do estudo o efeito da variao na mdia de uma varivel sobre a mdia da outra, nos grupos. So perguntas diferentes, e modelos diferentes.

ld

Figura 5-2 Modelos de regresso: indivduos, indivduos em estratos diferentes e grupos. Para ilustrar o problema das mudanas de unidade de anlise, estudouse os dados de censo de Belo Horizonte para o ano de 1991, em duas escalas: os setores censitrios e as unidades de planejamento (UP), mostradas na Figura 5-2. Os setores censitrios foram utilizados pelo IBGE para o censo de 1991, e as unidades de planejamento correspondem a agregamentos de reas utilizados pela prefeitura de Belo Horizonte.

Figura 5-3. Setores censitrios ( esquerda) e Unidades de Planejamento ( direita) para o municpio de Belo Horizonte. A partir das variveis do censo, foram computadas 1000 correlaes entre pares de variveis, tanto por setor censitrio como por UP. Por exemplo, tomou-se as variveis nmero de chefes de famlia com rendimento entre 0,5 e 1 salrio mnimo e nmero de chefes de famlia com 1 a 3 anos de estudo e computou-se a correlao para o caso de setores censitrios (0,79) e para o caso de UP (0,96). Os resultados, mostrados na q~~=RJN, indicam que as correlaes nos setores censitrios so significativamente menores que as correlaes por unidades de planejamento. Nada menos que 773 correlaes so menores para os
A l ld d f

setores censitrios que para as UPs. Apenas 40 (4%) tem o comportamento oposto. Em algumas situaes, ocorre inclusive mudana de sinal, isto , variveis correlacionadas negativamente no nvel dos setores censitrios passam a ser correlacionadas positivamente. Verifica-se que a reduo de escala (reas maiores) tende a homogeneizar os dados, reduzir a flutuao aleatria e reforar correlaes que, assim, aparentam ser mais fortes que em reas menores. Os resultados acima indicam que no se pode afirmar que qualquer escala seja a certa, mas apenas qual dos modelos melhor serve ao que se deseja esclarecer: correlaes mais fracas e maior flutuao aleatria, porm com mais homogeneidade interna, ou mais fortes com o vis ocasionado por desconsiderar a disperso e a heterogeneidade em torno da mdia nas grande reas. Como regra geral, quanto mais desagregado o dado, maior a flexibilidade na escolha de modelos; pois agregar em regies maiores fcil, mas desagregar impossvel. Tabela 5-1 CORRELAES ENTRE PARES DE VARIVEIS SEGUNDO DIFERENTES UNIDADES DE REAS SETOR CENSITRIO E UNIDADE DE PLANEJAMENTO - PARA O CENSO DE 1991 EM BELO HORIZONTE
Correlaes por Unidade de Planejamento -0,4/-0,2 -0,8/-0,6 Correlao por Setor Censitrio -0,6/-0,4 -0,4/-0,2 -0,2/0,0 0,0/0,2 0,2/0,4 0,4/0,6 0,6/0,8 0,8/1,0 Totais 0 2 3 3 0 0 0 0 0 8 -0,2/0,0 0 11 23 5 1 2 2 0 0 45 0,0/0,2 1 7 14 9 2 0 3 2 0 38 0,2/0,4 1 4 11 27 42 17 1 7 4 114 0,4/0,6 1 2 10 34 75 44 10 8 4 187 0,6/0,8 0 7 3 13 32 50 42 9 3 159 0,8/1,0 2 0 6 21 55 68 110 75 112 449 Pares 5 33 70 112 207 181 168 101 123 1000

Na prtica, por razes de confidencialidade, os dados individuais muito raramente esto disponveis. O que fazer ento? Uma possibilidade trabalhar com os Uma possibilidade trabalhar com os dadosna maior escala
A l ld d f

espacial possvel, usualmente denominadas micro-reas, por exemplo, setores censitrios. E utilizar tcnicas de agregao ou de otimizao combinatria para obter regies mais agregadas, mas que preservem o fenmeno estudado da melhor forma possvel. Deste modo, deve-se reconhecer que o problema da escala um efeito inerente aos dados agregados por reas. Ele no pode ser removido e no pode ser ignorado. Para minimizar seu impacto com relao a esses estudos, deve-se procurar utilizar a melhor escala de levantamento de dados disponvel e utilizar tcnicas que permitam tratar a flutuao aleatria, sempre buscando critrios de agregao dos dados que sejam consistentes com os objetivos do estudo.

5.4

ANLISE EXPLORATRIA

As tcnicas de anlise exploratria aplicadas a dados espaciais so essenciais ao desenvolvimento das etapas da modelagem estatstica espacial, em geral sensvel ao tipo de distribuio, presena de valores extremos e ausncia de estacionariedade. As tcnicas empregadas so, em geral, adaptaes das ferramentas usuais. Assim, se na investigao de valores extremos se utiliza ferramentas grficas como histogramas ou boxplots, na anlise espacial importante tambm investigar outliers no s no conjunto dos dados mas tambm em relao aos vizinhos. Alm disso, a noestacionariedade do processo espacial na regio de estudo tambm deve ser investigada, nos seus vrios aspectos: variao na mdia (primeira ordem), na varincia e na covarincia espacial. Visualizao de Dados A forma mais simples e intuitiva de anlise exploratria a visualizao de valores extremos nos mapas. Vale ressaltar que o uso de diferentes pontos de corte da varivel induz a visualizao de diferentes aspectos. Os SIGs dispem usualmente de trs mtodos de corte de varivel: intervalos iguais, percentis e desvios padres. No caso de intervalos iguais, em que os valores mximo e mnimo so divididos pelo nmero de classes. Se a varivel tem um distribuio muito concentrada de um lado, este corte deixa apenas um nmero muito pequeno de reas nas classes da perna mais longa da distribuio; como resultado, a maior parte das reas ser alocada a uma ou duas cores. O uso de percentis para definao de classes obriga a alocao dos polgonos em quantidades iguais pelas cores; isto pode mascarar diferenas significativas em valores extremos e dificultar a identificao de reas crticas. Finalmente, o uso de desvios padres, no qual a distribuio da varivel apresentada em gradaes de cores diferentes para valores acima e abaixo da mdia, faz a suposio da normalidade da distribuio da varivel; esta hiptese pouco realista no caso de variveis censitrias em pases de
A l ld d f

grande desigualdade social com o Brasil. Em resumo, parte importante da anlise exploratria experimentar diferentes pontos de corte da varivel na visualizao dos mapas. As diferentes tcnicas de visualizao esto ilustradas no exemplo a seguir, em que mostramos a distribuio espacial do indicador que mede a proporo de recm-natos que nasce em boas condies de sade (ndice de APGAR) para os bairros do Rio de Janeiro, no ano de 1994. Foram geradas duas visualizaes, ambas com 5 pontos de corte e 5 cores. Na Figura 5-4, utilizou-se quintis; na Figura 5-5, cinco classes de igual tamanho. Como a distribuio da varivel no simtrica, quando se divide em classes de amplitudes iguais as de valores mais baixos (ou piores), assinaladas em vermelho ficam reduzidas a poucas reas, enquanto que na diviso em quintis, por definio, um quinto das reas ficar em cada classe. A pergunta ento : o que se deseja mostrar? Certamente o responsvel pela assistncia peri-natal da regio no ficar satisfeito visualizando um quinto dos bairros como sendo de alto risco. Por outro lado, como as reas onde o ndice mais baixo tm populao pequena, a confiabilidade dos valores encontrados pode ser efeito apenas da flutuao aleatria descrita anteriormente. Vale a pena ento olhar mapas? Claro que sim, da mesma forma como olhamos histogramas e box-plots, e procurando sempre ver a distribuio utilizando diferentes pontos de corte. Os SIGs em geral tem uma forma padro, mas dezenas de possibilidades podem e devem ser exploradas.

Figura 5-4 Distribuio do ndice de APGAR, agrupada em quintis.

ld

Figura 5-5 - Distribuio do ndice de APGAR, agrupada em classes de igual amplitude. Outra questo interessante a comparao de mapas. Supondo a distribuio espacial de um indicador em diferentes anos: como visualizar a evoluo temporal? Certamente os pontos de corte da varivel nos diferentes perodos devem ser os mesmos. Observe na Figura 5-4 a evoluo temporal da mortalidade por homicdios para os trinios 79-81 e 90-92, no Estado do Rio de Janeiro. A apresentao dos quintis da distribuio conjunta dos indicadores permite visualizar bem o espalhamento desta doena.

Figura 5-6 Mortalidade por homicdios no Rio de Janeiro, para os trinios 79-81 e 80-92.
A l ld d f

Grficos de Mdias e Medianas Os grficos de mdias e medianas segundo linhas e colunas permitem explorar simultaneamente a presena de tendncia (no-estacionariedade de primeira ordem), e no-estacionariedade de segunda ordem, onde a varincia e a covarincia entre vizinhos no se mantm constante. Para construir estes grficos, utiliza-se as coordenadas dos centrides das reas, aproximando-as para um espaamento regular de forma a montar uma matriz. Calcula-se ento as mdias e as medianas do indicador ao longo das linhas (eixo LesteOeste) e colunas (eixo Norte-Sul) desta matriz. Esta tcnica permite identificar a flutuao das medidas ao longo de duas direes, sugerindo a presena de valores discrepantes quando a diferena entre estas grande, e a tendncia ao longo de uma direo quando os valores variam suavemente.

L-O

o = Mediana x = Mdia

40

S-N 2

Eixo Norte-Sul
x o x x oo x 1 o 0 x o x o x x o o o o xo x x x o

Eixo Leste-Oeste RENDA


o x o x o x x o ox o o x xo x o ox x o x o x o o x x xo o xx o ox o xx o x o x o x o x x o x x o oo xx x o x o x o x o x o -1 0 RENDA x

RENDA

linhas

o x

x o x o

o x xoo x oo o x o x xx xo x x x xo x x o x o o oo o x x x o o x oo o x 30 colunas 40

o x

o xx x x oo o o x

20

o x x x o o o x o x

30

o x o

o x x o

xo ox oo

-1

10

o x

10

20

x o

ESCOLARIDADE
0.8 o xo o x xx o o x xo o xo x oo xx o oo o x xx o x o x o x x o x 0.2 o o x o xx o o x x xx ox x x oo oo o 30 colunas o xx o x o xx o x x o x o o oo x xx linhas o x o x o x 30 40 o x x oo x o o 20 x o x x o o x x x o x x o o x x xo o x o o x x o o x o x o x o o x x ox o oxx x

ESCOLARIDADE

0.4

0.6

x o o x 0 o 40 x o 0.2 x o

ox o x o x o x o x x o x o x o o x x o x o x o x o x o x o 0.6

xoo x o

10

20

10

0.4 ESCOLARIDADE

Figura 5-7 Mdias e medianas para escolaridade e renda na Ilha do Governador.

ld

Na Figura 5-7, apresenta-se o resultado desta tcnica aplicada a dois indicadores socioeconmicos do censo 1991 renda mdia do chefe da famlia e proporo de chefes de famlia com escolaridade igual ou superior ao segundo grau para setores censitrios da Ilha do Governador, no Rio de Janeiro. Esta composta por 225 setores censitrios, cujos centrides esto assinalados no primeiro quadro da figura: observe que nas extremidades do mapa a quantidade de pontos muito pequena, e, consequentemente, qualquer medida nesta rea ser pouco robusta. No eixo Norte-Sul (colunas) pode-se observar que a renda mdia do chefe da famlia apresenta tendncia varivel, bem menor no centro da regio. A mesma coisa acontece para escolaridade, embora com maior flutuao. No eixo Leste-Oeste (linhas), tambm parece haver algum deslocamento para valores mais altos no sentido leste, mas o descolamento de mdias (x) e medianas (o) sugere a presena de valores extremos dos indicadores. A variao na mdia dos indicadores na regio est, aparentemente, dividida entre as duas direes analisadas, e pode-se explorar melhor a tendncia atravs da rotao dos eixos de referncia. Anlise de Autocorrelao Espacial Outra etapa da anlise exploratria visa identificar a estrutura de correlao espacial que melhor descreva os dados. A idia bsica estimar a magnitude da autocorrelao espacial entre as reas. Neste caso, as ferramentas utilizadas so o ndice global de Moran, o ndice de Geary e o variograma. Quando se dispe de grande nmero de reas, resultantes por exemplo de escalas espaciais detalhadas, a natureza dos processos envolvidos tal que muito provvel a existncia de diferentes regimes de correlao espacial em diferentes sub-regies. Para evidenciar estes regimes espaciais, pode-se utilizar os indicadores locais de autocorrelao espacial e o mapa de espalhamento de Moran, descritos tambm nesta seo. Todas estas estatsticas dependem da definio de vizinhana adotada, discutida a seguir. Matrizes de Proximidade Espacial Para estimar a variabilidade espacial de dados de rea, uma ferramenta bsica a matriz de proximidade espacial, tambm chamada matriz de vizinhana. Dado um conjunto de n reas {A1,..,An}, construmos a matriz W(1) (n x n), onde cada um dos elementos wij representa uma medida de proximidade entre Ai e Aj. Esta medida de proximidade pode ser calculada a partir de um dos seguintes critrios:

wij = 1, se o centride de Ai est a uma determinada distncia de Aj; caso contrrio wij = 0

ld

wij = 1, se Ai compartilha um lado comum com Aj , caso contrrio wij = 0 wij = lij/li, onde lij o comprimento da fronteira entre Ai e Aj e li o permetro de Ai

Como a matriz de proximidade utilizada em clculos de indicadores na fase de anlise exploratria, muito til normalizar suas linhas, para que a soma dos pesos de cada linha seja igual a 1. Isto simplifica muito vrios clculos de ndices de autocorrelao espacial, como se ver a seguir. A Figura 5-8 ilustra um exemplo simples de matriz de proximidade espacial, em que os valores dos elementos da matriz refletem o critrio de adjacncia e foram normalizados.

A D

B E

A B C D E

A B C D E 0 0,5 0 0,5 0 0,25 0 0,25 0,25 0,25 0 0,5 0 0 0,5 0,33 0,33 0 0 0,33 0 0,33 0,33 0,33 0

Figura 5-8- Matriz de proximidade espacial de primeira ordem, normalizada pelas linhas. A idia da matriz de proximidade espacial pode ser generalizada para vizinhos de maior ordem (vizinhos dos vizinhos). Com critrio anlogo ao adotado para a matriz de vizinhana de primeira ordem, pode-se construir as matrizes W(2), ..., W(n). Por exemplo, na Figura 5-6, as reas A e C so vizinhas na matriz de proximidade espacial de ordem 2. No que segue, por simplicidade, os coeficientes da matriz de primeira ordem so designados simplesmente por wij, e os das matrizes de ordem k por wij(k) e que essas matrizes esto normalizadas por linhas. Mdia Mvel Espacial Uma forma simples de explorar a variao da tendncia espacial dos dados calcular a mdia dos valores dos vizinhos. Isto reduz a variabilidade espacial, pois a operao tende a produzir uma superfcie com menor flutuao que os dados originais. A mdia mvel i associada ao atributo zi, relativo i-sima rea, pode ser calculada a partir dos elementos wij da matriz normalizada de proximidade espacial W(1), tomando-se simplesmente a mdia dos vizinhos:
A l ld d f

i =

wij zi
j =1

(5.1.)

A Figura 5-9 ilustra o uso do estimador de mdia mvel para o percentual de idosos (mais de 70 anos) para os 96 distritos da cidade de So Paulo. Estes dados so indicadores da grande disparidade social da cidade, com uma grande variao entre o centro (onde a proporo de idosos chega a 8%) com a periferia (onde h vrias regies com menos de 1%). O valor mximo do percentual de idosos de 8,2% e o mnimo de 0,8%, com um desvio padro de aproximadamente 2%. Com a mdia local, h um alisamento: o valor mnimo de 1% e o mximo reduzido a 6,8%. Pode-se notar, ao comparar os dois mapas da Figura 5-9, que a mdia mvel local fornece uma viso das grandes tendncias do fenmeno em estudo e no caso do percentual de idosos, mostra um forte gradiente centro-periferia.

Figura 5-9- Distribuio dos idosos na cidade de So Paulo (censo de 1991). esquerda, apresentao dos valores por distribuio estatstica. direita, mdia mvel local. Indicadores Globais de Autocorrelao Espacial: ndices de Moran e Geary Um aspecto fundamental da anlise exploratria espacial a caracterizao da dependncia espacial, mostrando como os valores esto correlacionados no espao. Neste contexto, as funes utilizadas para estimar quanto o valor observado de um atributo numa regio dependente dos valores desta mesma varivel nas localizaes vizinhas so a autocorrelao espacial e o variograma. O ndice global de Moran I, a expresso da autocorrelao considerando apenas o primeiro vizinho:

ld

wij ( zi z )( z j z )
I=
i =1 j =1

( zi z ) 2
i =1

(5.2.)

Na equao acima, n o nmero de reas, zi o valor do atributo considerado na rea i, z o valor mdio do atributo na regio de estudo e wij os elementos da matriz normalizada de proximidade espacial. Neste caso a correlao ser computada apenas para os vizinhos de primeira ordem no espao, conforme estabelecido pelos pesos wij. O mesmo clculo feito para matrizes de proximidade de maior ordem permite estimar a funo de autocorrelao para cada ordem de vizinhana (ou lag).
( n wij k ) ( zi z )( z j z ) i =1 j =1 n n

I(k ) =

( zi z )
i =1

(5.3.)
2

De uma forma geral, o ndice de Moran presta-se a um teste cuja hiptese nula de independncia espacial; neste caso, seu valor seria zero. Valores positivos (entre 0 e +1) indicam para correlao direta e negativos, (entre 0 e 1) correlao inversa. Uma vez calculado, importante estabelecer sua validade estatstica. Em outras palavras, ser que os valores medidos representam correlao espacial significativa? Para estimar a significncia do ndice, ser preciso associar a este uma distribuio estatstica, sendo mais usual relacionar a estatstica de teste distribuio normal. Outra possibilidade, sem pressupostos em relao distribuio, e abordagem mais comum um teste de pseudo-significncia. Neste caso, so geradas diferentes permutaes dos valores de atributos associados s regies; cada permutao produz um novo arranjo espacial, onde os valores esto redistribudos entre as reas. Como apenas um dos arranjos corresponde situao observada, pode-se construir uma distribuio emprica de I, como mostrado na Figura 5-10. Se o valor do ndice I medido originalmente corresponder a um extremo da distribuio simulada, ento trata-se de valor com significncia estatstica. No caso do ndice excluso/incluso social em So Paulo, apresentado na Figura 5-1, o ndice global de Moran medido 0,642. Uma pseudodistribuio com 100 valores est mostrada na Figura 5-10. Neste caso, o valor de significncia associado de 5,23, o que nos leva a rejeitar a hiptese nula (no correlao entre as regies), com significncia de 99,5%. Pode-se dizer ento que a excluso social em So Paulo apresenta forte estrutura espacial,

ld

parte variao ampla, ou tendncia, parte dependncia espacial entre vizinhos.

Figura 5-10 Exemplo de distribuio simulada para o ndice de Moran.

A hiptese implcita do clculo do ndice de Moran a estacionariedade de primeira e segunda ordem, e o ndice perde sua validade ao ser calculado para dados no estacionrios Quando existir no-estacionariedade de primeira ordem (tendncia), os vizinhos tendero a ter valores mais parecidos que reas distantes, pois cada valor comparado mdia global, inflacionando o ndice. Da mesma forma, se a varincia no constante, nos locais de maior varincia o ndice ser mais baixo, e vice-versa. Quando o dado no-estacionrio, a funo de autocorrelao continua decaindo mesmo aps ultrapassar a distncia onde h influncias locais. Algumas variaes deste modelo so o teste C de Geary e o teste Ipop. O primeiro (C de Geary) difere do teste I de Moran por utilizar a diferena entre os pares, enquanto que Moran utiliza a diferena entre cada ponto e a mdia global. Assim, o indicador C de Geary assemelha-se ao variograma, e o I de Moran ao correlograma.
( n 1)
i =1 n n n

C=

wij ( zi z j )2
j =1 n

wij zi
i =1 j =1 i =1

(5.4.)
2

O teste Ipop tambm utilizado para detectar desvios de uma distribuio espacial aleatria, porm incorpora a variao da populao nas reas. Assim, sensvel ocorrncia de aglomerado intra-rea ou seja, a ocorrncia de elevado nmero de casos numa pequena populao de um nico municpio alm dos aglomerados entre reas, onde municpios com muitos casos so adjacentes. Portanto o ndice Ipop pode ser decomposto em

ld

um componente intra-reas e outro inter-reas, que podem ser apresentados sob forma percentual nos resultados. A hiptese nula (H0) assume que a variao geogrfica do nmero de casos segue a variao geogrfica do tamanho da populao, sendo particularmente til quando a populao das reas no homognea.

N Ipop =

wij (ei di )(e j d j ) N(1 2b )wijei Nb wiidi


i =1 j =1 i =1 i =1

m m

(X 2 di d j wij X di wii )b (1 b )
i =1 j =1 i =1

m m

(5.5.)

W== k== == = u= == == w== = ==

= = = = = = = = == =

k==~== k=~==~==~=~=~K= k==~=~=~== m==~=~=~==EZLkF= m~=~==~=~=~= q~~=~=~=~=~== m==~=~=~==EZLkF= a~==~=~~=u==~=~==u= m=~==~===~=~==== m~~=~=EkLuF=

A tabela 5.2 apresenta os resultados dos testes de aglomerado espacial para a mortalidade por homicdios no Estado do Rio. Observe que o grau de significncia do teste Ipop maior que o Moran, e que aproximadamente metade da agregao deve-se a fatores intra-municipais. Ou seja, alm de municpios prximos apresentarem padres semelhantes, existe um excesso de casos dentro dos municpios violentos, que ultrapassa o esperado em funo da populao. TABELA 5.2 RESULTADOS DOS TESTES DE AGLOMERADOS ESPACIAIS: HOMICDIOS NO RIO DE JANEIRO, 90-92 Moran I Indicador p-valor % entre reas % intra reas 0,5861 7,5091 Ipop 0,00015 88,9238 54,3 45,7

ld

Variograma De maneira anloga ao apresentado no captulo 3, podemos utilizar o variograma como indicador da dependncia espacial. Para tanto, associamos o valor nico do atributo de cada rea a um ponto, usualmente o centro geomtrico ou populacional do polgono. Com base nestas localizaes, calcula-se a funo variograma. Note-se quando o dado no-estacionrio, tambm o variograma no se estabiliza, mas continua crescendo sempre com a distncia. Como exemplo de uso do variograma para dados de rea, a Figura 5-11 ilustra o ndice de Desenvolvimento Humano IDH para o estado de So Paulo, calculado pelo IPEA, com base no censo de 1991. A Figura 5-12 apresenta o variograma do IDH, computado a partir dos centride de cada municpio.

Figura 5-11- IDH para So Paulo (censo de 1991)

Figura 5-12 Variograma experimental do IDH para So Paulo (censo de 1991). Passo de amostragem: 40 km (tolerncia : 20 km).

ld

O que mostra o variograma da Figura 5-10? No eixo dos X, apresentam-se as distncias entre os municpios, e no eixo Y, a mdia do quadrado das diferenas do IDH, para municpios separados por faixas de distncia, com intervalos de 40 km e tolerncia de 20 km. Assim, o primeiro ponto calcula a diferena de IDH entre os municpios cuja distncia entre os centros seja de 20 a 60 Km, e assim por diante, at a distncia de 400 km. O grfico evidencia uma forte dependncia espacial entre os indicadores de qualidade de vida dos municpios de So Paulo. Trata-se de um resultado dos processos de ocupao do estado, que seguiram perspectivas regionais. A partir da lgica de expanso do caf do sculo XIX, observa-se hoje uma regio de forte produo agrcola situada ao longo do eixo da rodovia Anhanguera, a predominncia da pecuria na regio do Oeste Paulista, e uma forte concentrao industrial na regio metropolitana de So Paulo, no ABC e no mdio Vale do Paraba. Assim, todos os processos histricos apontam para uma dependncia espacial no desenvolvimento econmico no estado. Para considerar um exemplo adicional, considere-se o estudo sobre mortalidade por homicdios na regio Sudeste. que so a causa de mais de 20% dos bitos dos homens entre 15 e 45 anos no Brasil. A Figura 5-13 ilustra a distribuio espacial da mortalidade por homicdios, usando como indicador o logaritmo do coeficiente de mortalidade especfico , por 100.000 residentes do mesmo grupo etrio. Entendendo o processo da violncia como o de uma "epidemia" da modernidade, que se "propaga" no espao, uma simples observao visual permite identificar uma elevada ocorrncia de mortes violentas no RJ, com uma tendncia espacial capital-interior. No caso de ES e SP, h uma concentrao prxima da capital e grandes cidades. No entanto, em MG, as reas mais violentas situam-se longe das regies metropolitanas, o que indica um padro espacial distinto. Adicionalmente, h uma marcada transio na fronteira entre MG e RJ, indicando uma mudana nas condies de disseminao da "epidemia da violncia". Cabe lembrar que foi utilizado o logaritmo do indicador, dado ser a distribuio do mesmo bastante concentrada em torno de valores muito baixos, com uma grande cauda a direita.

ld

Figura 5-13 - Mortalidade por homicdos, regio Sudeste do Brasil O correlograma da Figura 5-14 apresenta a autocorrelao espacial entre os municpios de cada estado, expressa atravs da funo definida pela equao 5.3. O grfico indica a existncia de uma forte tendncia espacial no RJ, pois a funo de autocorrelao no se estabiliza com a distncia, mas continua decrescente, ao contrrio de MG, que no apresenta dependncia espacial marcante. Em outras palavras, no RJ, se o municpio vizinho ao seu violento, altamente provvel que a sua cidade tambm o seja; todo o estado apresenta uma estrutura de violncia regionalizada, e a violncia decai no interior do estado. Em MG, esta padro no observado: a violncia parece flutuar aleatoriamente.
MG 0.6 0.4 0.2 0.0 -0.2

RJ

Autocorrelao

100

200

300

400

500

600 0

100

200

300

400

500

600

distncia entre pares

Figura 5-14. Correlograma da mortalidade por homicdios nos estados do Sudeste.

Diagrama de Espalhamento de Moran O diagrama de espalhamento de Moran uma maneira adicional de visualizar a dependncia espacial. Construdo com base nos valores
A l ld d f

normalizados (valores de atributos subtrados de sua mdia e divididos pelo desvio padro), permite analisar o comportamento da variabilidade espacial. A idia comparar os valores normalizados do atributo numa rea com a mdia dos seus vizinhos, construindo um grfico bidimensional de z (valores normalizados) por wz (mdia dos vizinhos), que dividido em quatro quadrantes, como mostrado na Figura 5-15 para o ndice de excluso/incluso social de So Paulo, censo de 1991. Os quadrantes podem ser interpretados como: Q1 (valores positivos, mdias positivas) e Q2 (valores negativos, mdias negativas): indicam pontos de associao espacial positiva, no sentido que uma localizao possui vizinhos com valores semelhantes. Q3 (valores positivos, mdias negativas) e Q4 (valores negativos, mdias positivas): indicam pontos de associao espacial negativa, no sentido que uma localizao possui vizinhos com valores distintos.

0,8 0,6 0,4 0,2

Q4

Q1

WZ

0,0 -0,2 -0,4 -0,6 -0,8 -1,0 -0,5 0,0 Z 0,5 1,0 1,5

Q2

Q3

Z = 0,642*WZ

Figura 5-15 Diagrama de Espalhamento de Moran para o ndice de excluso/incluso social de So Paulo, censo de 1991. O diagrama de espalhamento de Moran corrobora os resultados apresentados, onde indicamos que o ndice global de Moran para o indicador de excluso/incluso social para os distritos de So Paulo apresentava valor estatisticamente significativo. Como mostrado na Figura 5-15, a maior parte dos distritos de So Paulo est localizado nos quadrantes Q1 e Q2, que apresentam associao espacial positiva. Os pontos localizados nos quadrantes Q3 e Q4 podem ser vistos como regies que no seguem o mesmo processo de dependncia espacial das demais observaes. Evidentemente, o diagrama reflete a estrutura espacial nas duas escalas de anlise: vizinhana e tendncia.

ld

O ndice de Moran I equivalente ao coeficiente de regresso linear que indica a inclinao da reta de regresso () de wz em z. Para o caso dos dados apresentados na Figura 5-15, este coeficiente igual a 0,642, o mesmo valor calculado aplicando-se a frmula da equao 5.3. O diagrama de espalhamento de Moran tambm pode ser apresentado na forma de um mapa temtico bidimensional, no qual cada polgono apresentado indicando-se seu quadrante no diagrama de espalhamento, como ilustra a Figura 5-16, em que mostramos o mapa do espalhamento do ndice de Moran para o ndice de excluso/incluso social da cidade de So Paulo em 1991. Nesta figura, Alto-Alto, Baixo-Baixo, Alto-Baixo e Baixo-Alto indicam, respectivamente, os quadrantes Q1, Q2, Q3 e Q4, mostrados na Figura 5-15. Nota-se uma forte polarizao centro-periferia e observa-se que os distritos localizados nos quadrantes Q3 e Q4 (indicados pela cor azul) podem ser entendidos como regies de transio entre o centro da cidade (que tende a apresentar valores positivos do ndice de excluso/incluso social) e as duas grandes periferias de So Paulo (zona Sul e zona Leste). Figura 5-16 Mapa de Espalhamento de Moran para o ndice de excluso/incluso

social da cidade de So Paulo, censo 1991 Indicadores Locais de Associao Espacial Os indicadores globais de autocorrelao espacial, como o ndice de Moran, fornecem um nico valor como medida da associao espacial para todo o conjunto de dados, o que til na caracterizao da regio de estudo como um todo. Quando lidamos com grande nmero de reas, muito provvel que ocorram diferentes regimes de associao espacial e que apaream mximos locais de autocorrelao espacial, onde a dependncia espacial ainda mais pronunciada. Assim, muitas vezes desejvel examinar padres em maior detalhe. Para tanto, preciso utilizar indicadores de associao espacial que possam ser associados s diferentes localizaes de uma varivel distribuda espacialmente. Os indicadores locais produzem um
A l ld d f

valor especfico para cada rea, permitindo assim a identificao de agrupamentos. O ndice local de Moran pode ser expresso para cada rea i a partir dos valores normalizados zi do atributo como:

zi Ii =

wij z j z 2j
j =1 j =1 n

(5.6.)

A significncia estatstica do uso do ndice de Moran local computada de forma similar ao caso do ndice global. Para cada rea, calcula-se o ndice local, e depois permuta-se aleatoriamente o valor das demais reas, at obter uma pseudo-distribuio para a qual possamos computar os parmetros de significncia.Uma vez determinada a significncia estatstica do ndice local de Moran, til gerar um mapa indicando as regies que apresentam correlao local significativamente diferente do resto do dados. Estas regies podem ser vistas como "bolses" de no-estacionariedade, pois so reas com dinmica espacial prpria e que merecem anlise detalhada. Para o caso do ndice de excluso/incluso social da cidade de So Paulo (censo de 1991), esse mapa (Figura 5-17) mostra claramente os agregados de pobreza e de riqueza na cidade. Na zona Leste e na zona Sul de So Paulo h regies crticas, onde o agravamento das condies sociais resulta numa degradao significativa das condies de vida.

Figura 5-17 Indicador de autocorrelao espacial para o ndice de excluso/incluso social de So Paulo (censo de 1991). Apenas os valores com significncia maior que 95% esto mostrados.

ld

5.5 ESTIMAO DE INDICADORES: A seo 5.3 apresentou o problema de agregao de contagens em reas, com a recomendao final de utilizar a melhor resoluo espacial disponvel. Na prtica, o uso desta estratgia requer um tratamento adicional nos dados, principalmente nos casos de pequenas reas em que calculamos taxas sobre um universo populacional reduzido. Para entender melhor o problema, considere-se a Figura 5-18 que apresenta um mapa temtico com a mortalidade infantil dos bairros do Rio de Janeiro, em 1994. Neste mapa, o Rio est dividido em 148 bairros, e a taxa de mortalidade infantil anual para cada bairro, expressa o nmero de bitos de menores de 1 ano, por mil nascidos vivos.

Figura 5-18 - Taxa total de mortalidade infantil por mil nascidos vivos no Rio de Janeiro, em 1994. Numa primeira leitura, este mapa choca pelas altas taxas de mortalidade de vrios bairros, com 15 bairros apresentando uma taxa maior que 40 bitos por mil nascidos, e 2 casos com taxas acima de 100 por mil nascidos. Um observador desatento poderia concluir que todos estes bairros apresentam um grave problema social. Na realidade, muitos destes valores extremos ocorrem nos bairros com pequenas populaes, pois a diviso da cidade utilizada esconde enormes diferenas na populao em risco, variando de 15 at 7500 crianas por bairro. Por exemplo, considere uma regio com 15 crianas nascidas e nenhuma morte, o que aparentemente indicaria uma situao ideal. Se apenas uma criana morre neste ano, a taxa passa de 0 por mil para 66 por mil ! Tais problemas so tpicos de recobrimentos espaciais sobre divises poltico-administrativas, onde se analisam reas com valores muito distintos de populao em risco. Vrios estudos tm mostrado que em divises polticas como bairros e municpios apresentam relaes inversas de rea e populao, isto , os maiores bairros em populao tendem a ter menores
A l ld d f

reas, e vice-versa. Por isso mesmo, freqentemente o que mais chama a ateno num mapa temtico de taxas, que so os valores extremos, muitas vezes so resultado de um nmero reduzidssimo de observaes, sendo portanto menos confivel, ou seja, apenas flutuao aleatria . Para suavizar a flutuao aleatria, considera-se que a taxa estimada pela diviso simples entre contagem de bitos e de populao taxa observada apenas uma realizao de um processo no observado, e que tanto menos confivel quanto menor a populao. Assim, prope-se reestimar uma taxa mais prxima do risco real ao qual a populao est exposta. A primeira providncia fazer um grfico que expresse a taxa em funo da populao em risco, como mostrado na Figura 5-19.

Figura 5-19 Taxa de mortalidade infantil no Rio de Janeiro em 1994 em funo do nmero de nascimentos por bairro. No caso do Rio, a taxa mdia de mortalidade infantil da cidade, em 1994, foi de 21 bitos por mil nascidos. Neste grfico, observa-se que os bairros com maior populao apresentam taxas prximas da mdia da cidade. Conforme diminui a populao em risco, aumenta muito a flutuao da taxa medida, formando o que j foi denominado de efeito funil. Nos bairros de menor populao, esta variao oscilou de 0 a quase 130 por mil. razovel supor que as taxas das diferentes regies esto autocorrelacionadas, e levar em conta o comportamento dos vizinhos para estimar uma taxa mais realista para as regies de menor populao. Esta formulao sugere o uso de tcnicas de estimao bayesiana. Nesse contexto, considera-se que a taxa real i associada a cada rea no conhecida, e dispomos de uma taxa observada ti = zi ni , onde ni o nmero de pessoas observadas, zi o nmero de eventos na i-sima rea.

ld

A idia do estimador bayesiano supor que a taxa i uma varivel aleatria, que possui uma mdia i e uma varincia i2 . Pode ser demonstrado que o melhor estimador bayesiano dado por uma combinao linear entre a taxa observada e a mdia i :
i = wi ti + ( 1 wi ) i ,

(5.7.)

O fator wi dado por:


wi =

i2 i2 + i ni

(5.8.)

O peso wi tanto menor quanto menor for a populao em estudo da i-sima rea e reflete o grau de confiana a respeito de cada taxa. Para o caso de populaes reduzidas, a confiana na taxa observada diminui e a estimativa da taxa se aproxima de nosso modelo a priori (ou seja, se aproxima de ). Regies com populaes muito baixas tero uma correo maior, e regies populosas tero pouca alterao em suas taxas. Logo i ser estimado, quando n for pequeno, com maior peso da mdia da vizinhana. Neste ponto, deve-se observar que a formulao bayesiana requer as mdias e varincias i e i2 para cada uma das reas. A abordagem mais simples para tratar bayesiano emprico. varivel aleatria i mdias e varincias a estimao destes parmetros o chamado estimador Este estimador parte da hiptese que a distribuio da a mesma para todas as reas; isto implica que todas as so iguais. Pode-se ento estimar i e i2 diretamente a

partir dos dados. Neste caso, calcula-se i a partir das taxas observadas:
=

yi ni

(5.9.)

E estima-se a varincia i2 a partir da varincia das taxas observadas com relao mdia estimada:
ni (ti )2 = ni

(5.10.)

As regies tero suas taxas re-estimadas aplicando-se uma mdia ponderada entre o valor medido e a taxa mdia global, em que o peso da mdia ser inversamente proporcional populao da regio. Ao aplicarmos esta correo s taxas de mortalidade infantil do Rio de Janeiro, observamos que h uma reduo significativa nos valores extremos. Por exemplo, a Cidade Universitria (Ilha do Fundo), onde nasceram 13 crianas em 1994, apresentou uma taxa aparente de 76 por mil nascidos vivos e uma taxa

ld

corrigida de 36 por mil. Bairros com pouca populao no grupo de risco apresentaram redues semelhantes, enquanto que bairros mais populosos mantiveram as taxas originalmente medidas. A comparao entre a taxa primria e o valor estimado est apresentada na Figura 5-18. Em resumo, preciso extremo cuidado ao produzir mapas temticos, especialmente em ~= = ~~= ~~= ~= = ~= = ~= K= Figura 5-18. Comparao entre a taxa de mortalidade infantil observada e a taxa estimada

pelo mtodo bayesiano emprico. O estimador bayesiano emprico pode ser generalizado para incluir efeitos espaciais. Neste caso, a idia fazer a estimativa bayesiana localmente, convergindo em direo a uma mdia local e no a uma mdia global. Basta aplicar o mtodo anterior em cada rea considerando como regio a sua vizinhana. Isto equivalente a supor que as taxas da vizinhana da rea i possuem mdia i e varincia i2 comuns. Neste caso, pode-se falar em estimativa bayesiana emprica local. A seguir, apresenta-se a deteco de hansenase em Recife (Figura 5-20) onde foi utilizado esse mtodo local para estimar a taxa da doena nos bairros da cidade. Atravs do mapa corrigido foi possvel indicar bairros prioritrios para a atuao da vigilncia epidemiolgica por apresentarem valores altos mesmo aps suavizao do indicador.

ld

N W S E

Coef. Deteco 93-97

Alisamento Bayesiano Emprico

0 0 - 2.28 2.28 - 4.63 4.63 - 8.79 8.79 - 144.33

1.07 2.53 4.35 5.83 8.43 -

2.53 4.35 5.83 8.43 13.59

Figura 5-20 - Taxas de deteco mdia de hansenase em menores de 15 anos, perodo 1993-1997, por bairro do Recife, e taxas estimadas atravs de alisamento bayesiano.

Como apresentado acima, o estimador bayesiano emprico parte da hiptese que a distribuio da varivel aleatria i a mesma para todas as reas e que as mdias e varincias i e i2 para cada uma das reas so iguais. Deve-se lembrar que esta hiptese nem sempre realista, pois em estatsticas socioeconmicas (como no caso dos dados de sade discutidos) as caractersticas das populaes estudadas so muito heterogneas. Deste modo, em muitos casos desejvel fazer a hiptese de que cada rea tem seu prprio padro (e os i e 2i so distintos); isto implica em estimar a distribuio conjunta Z = {Z1 , ..., Z n } das variveis aleatrias. primeira vista, a estimativa da distribuio conjunta pode parecer impossvel, dado que est disponvel para anlise apenas uma amostra de cada uma das variveis aleatrias, ou seja, sabe-se apenas o valor coletado em cada unidade de rea. Entretanto, os estimadores bayesianos completos (full Bayes) tornaram possvel resolver o problema, atravs da utilizao de tcnicas de simulao baseadas em MCMC Markov Chain Monte Carlo para a inferncia dos parmetros de interesse. Em funo da complexidade de formulao, este livro no aborda os estimadores bayesianos baseados em MCMC. O leitor deve referir-se bibliografia no final do captulo para maiores detalhes.

ld

5.6 MODELOS DE REGRESSO Um dos tipos de estudos mais comuns com dados de rea o uso de modelos de regresso. Um modelo de regresso uma ferramenta estatstica que utiliza o relacionamento existente entre duas ou mais variveis de maneira que uma delas possa ser descrita ou o seu valor estimado a partir das demais. Na situao dos dados espaciais, quando est presente a autocorrelao espacial, as estimativas do modelo devem incorporar esta estrutura espacial, uma vez que a dependncia entre as observaes altera o poder explicativo do modelo. A significncia dos parmetros usualmente superestimada, e a existncia de variaes em larga escala pode at mesmo induzir a presena de associaes esprias. Neste livro, no ser feita uma descrio detalhada dos modelos tradicionais de regresso, disponvel em diversos livros consagrados, mas apenas ser apresentado um breve resumo, necessrio ao entendimento dos modelos de regresso espacial. O objetivo geral de uma anlise de regresso linear quantificar a relao linear entre uma varivel dependente e um conjunto de variveis explicativas, conforme expresso na equao matricial:

Y = X + , ~ N(0, 2 ) ou

(5.11.)

Y1 1 X 11 Y 1 X 21 2 .. = .. .. .. .. .. Yn 1 X n1

.. X 1k 1 0 1 .. X 2k 1 1 2 .. + .. .. .. .. .. .. .. .. X nk 1 k 1 n

(5.12.)

onde Y a varivel dependente, composta de um vetor (n x 1) de observaes tomadas em cada um das n reas, X uma matriz (n x k) com k1 variveis explicativas tambm tomadas nas n reas, vetor (k x 1) com os coeficientes de regresso, e um vetor (n x 1) de erros aleatrios, ou resduos. Tipicamente, quando se faz uma anlise de regresso, procura-se alcanar dois objetivos: (a) encontrar um bom ajuste entre os valores preditos pelo modelo e os valores observados da varivel dependente; (b) descobrir quais da variveis explicativas contribuem de forma significativa para este relacionamento linear. Para tanto, a hiptese padro que as observaes no so correlacionadas, e, consequentemente, que os resduos i do modelo tambm so independentes e no-correlacionados com a varivel dependente, tem varincia constante, e apresentam distribuio normal com mdia zero.

ld

No entanto, no caso de dados espaciais, onde est presente a dependncia espacial, muito pouco provvel que a hiptese padro de observaes no correlacionadas seja verdadeira. No caso mais comum os resduos continuam apresentando a autocorrelao espacial presente nos dados, que pode se manifestar por diferenas regionais sistemticas nas relaes do modelo, ou ainda por uma tendncia espacial contnua. A investigao dos resduos da regresso em busca de sinais de estrutura espacial o primeiro passo em uma regresso espacial. As ferramentas usuais de anlise grfica e o mapeamento de resduos, podem dar as primeiras indicaes de que os valores observados esto mais correlacionados do que seria esperado sob uma condio de independncia. Neste caso, utilizar os testes de autocorrelao espacial Moran e Geary nos resduos da regresso informa sobre sua presena. Em caso de existir autocorrelao, deve-se especificar um modelo que considere a interferncia causada pela mesma. No restante desta seo, apresentamos vrios tipos de modelos de regresso que permitem incorporar efeitos espaciais, desde aqueles que tratam a estrutura espacial de forma global (como um nico parmetro) at modelos em que os parmetros variam continuamente no espao. Modelos com Efeitos Espaciais Globais A incluso explcita de efeitos espaciais em modelos de regresso pode ser feita de diferentes formas. A classe de modelos de regresso espacial mais simples, chamados de modelos com efeitos espaciais globais, supe que possvel capturar a estrutura de correlao espacial num nico parmetro, que adicionado ao modelo de regresso tradicional. Neste caso, tem-se duas alternativas para tratar a autocorrelao global em um modelo de regresso. Na primeira, a autocorrelao espacial ignorada atribuda varivel dependente Y. Esta abordagem denominada como modelo espacial autoregressivo misto (Spatial AutoRegressive SAR ou ainda como spatial lag model), dado que se considera a dependncia espacial atravs da adio ao modelo de regresso de um novo termo na forma de uma relao espacial para a varivel dependente. Formalmente isto expresso como:

Y = WY + X + ,

(5.13.)

onde W a matriz de proximidade espacial, e o produto WY expressa a dependncia espacial em Y e o coeficiente espacial autoregressivo. A hiptese nula para a no existncia de autocorrelao que = 0. A idia bsica neste modelo incorporar a autocorrelao espacial como componente do modelo. Em termos de componentes individuais, este modelo pode ser expresso como

ld

yi = wij y j + xi i + i j i =1

(5.14.)

O segundo tipo de modelo de regresso espacial com parmetros globais considera que os efeitos espaciais so um rudo, ou perturbao, ou seja, fator que precisa ser removido. Neste caso, os efeitos da autocorrelao espacial so associados ao termo de erro e o modelo pode ser expresso por:

Y = X + ,

= W + ,

(5.15.)

onde W a componente do erro com efeitos espaciais, o coeficiente autoregressivo e a componente do erro com varincia constante e no correlacionada. A hiptese nula para a no existncia de autocorrelao que = 0, ou seja, o termo de erro no espacialmente correlacionado. Este modelo tambm chamado de modelo do erro espacial (spatial error model ou ainda Conditional AutoRegressive - CAR). A partir da equao 5.15, pode-se mostrar que o modelo de erro espacial pode tambm ser expresso como:

Y WY = X WX +
ou ainda como

(5.16.)

( I W )Y = ( I W ) X +

(5.17.)

o que pode ser visto como uma regresso no-espacial nas variveis filtradas

Y * = ( I W )Y , X * = ( I W ) X

(5.18.)

Na prtica, a distino entre os dois tipos de modelos de regresso espacial com parmetros globais difcil pois, apesar da diferena nas suas motivao, eles so muito prximos em termos formais. Estes modelos esto includos em ambientes de estatstica espacial avanados, como nos softwares SpaceSat, S-Plus e R, esse de domnio pblico. Nas referncias no final do captulo, o leitor poder encontrar indicaes sobre como tais modelos podem ser estimados e sobre testes de hipteses sobre seu comportamento. Os modelos de regresso espacial com efeitos globais partem do princpio de que o processo espacial subjacente aos dados analisados estacionrio. Isto implica que os padres de autocorrelao espacial existentes nos dados podem ser capturados num nico parmetro. Na prtica, para conjuntos de dados censitrios de mdio e grande porte, a natureza dos processos espaciais tal que diversos padres de associao espacial podem estar presentes. Esta hiptese, que pode ser verificada, por

ld

exemplo, pelos indicadores locais de autocorrelao espacial, est na origem aos modelos cujos parmetros variam no espao, discutidos a seguir. Modelos de Regresso com Efeitos Espaciais Locais (a) Caso Discreto Modelos de Regresso com Regimes Espaciais Quando o processo espacial no-estacionrio, os coeficientes de regresso precisam refletir a heterogeneidade espacial. Para tanto, h duas grandes alternativas: (a) modelar a tendncia espacial de forma contnua, com parmetros variantes no espao; (b) modelar a variao espacial de forma discreta, ao dividir o espao em sub-regies estacionrias, chamadas de regimes espaciais. A idia de regimes espaciais dividir a regio de estudo em sub-regies, cada uma com seu padro espacial prprio, e realizar regresses em separado, uma para cada regio. As observaes so classificadas em dois ou mais subconjuntos, a partir de uma varivel por indicao, a saber:

Y1 = X 11 + 1 , ind = 1 Y2 = X 2 2 + 2 , ind = 2

(5.19.) (5.20.)

Apesar de cada regime possuir os seus prprios valores de coeficientes, estes valores so estimados conjuntamente, ou seja, todo o conjunto de observaes disponvel utilizado na regresso. Para a determinao dos regimes espaciais, as tcnicas de anlise exploratria apresentadas no incio do captulo so muito teis, especialmente o mapa de espalhamento de Moran e os indicadores locais de autocorrelao espacial. Na prtica, para os dados scio-econmicos tpicos de cidades brasileiras, o modelo de regimes espaciais tende a apresentar resultados melhores que os modelos de regresso simples ou de regresso espacial com efeitos globais. Isto ocorre em funo das fortes desigualdades sociais no Brasil, que ocasionam descontinuidades abruptas nos fenmenos estudados, como no caso do recorte entre favelas e reas ricas, como freqente nas em nossas grandes cidades. Modelos de Regresso com Efeitos Espaciais Locais (b) Modelos de Regresso com Efeitos espaciais contnuos Esta classe de modelos procura modelar fenmenos no-estacionrios. Diferentemente do modelo por regimes espaciais, os efeitos espaciais so modelados de forma contnua, com duas hipteses: (a) a existncia de uma variao suave em larga escala, sem efeitos locais significativos ou (b) a existncia de variaes locais contnuas, sem uma forte tendncia global. O primeiro caso corresponde s superfcies de tendncia, descritas no captulo 3 deste livro, resumidas no que segue para convenincia de leitura. O modelo
A l ld d f

de superfcies de tendncia considera um processo espacial onde o valor da varivel uma funo polinomial de sua posio no espao. O modelo de regresso mltipla utilizando notao vetorial :

Y ( s) = X (s) + (s )

(5.21.)

onde, Y(s) varivel aleatria representando o processo no ponto s, X(s) tendncia (ou seja, o valor mdio (s)), (s) erro aleatrio com mdia zero e varincia 2 O vetor x(s) consiste em p funes das coordenadas espaciais (s1, s2), do ponto amostrado s. Para uma superfcie de tendncia linear apenas (1, s1, s2), para quadrtica (1, s1, s2, s12, s22, s1.s2), e assim sucessivamente. o vetor (p+1) de parmetros a ser ajustado. O pressuposto bsico deste modelo supe que os erros tm varincia constante e so independentes em cada local, consequentemente, a covarincia zero: no h efeitos de segunda ordem presentes no processo. Neste contexto, feito o ajuste do modelo por mnimos quadrados ordinrios. O modelo de superfcies de tendncia til sobretudo como uma primeira aproximao do fenmeno, pois na prtica, so limitados os casos em que a variao espacial pode ser expressa desta forma. No entanto, os resduos destes modelos so muito informativos sobre a natureza das variaes locais. No caso de modelos de variaes locais contnuas, idia ajustar um modelo de regresso a cada ponto observado, ponderando todas as demais observaes como funo da distncia a este ponto. Desta forma, sero feitos tantos ajustes quantas observaes existirem e o resultado ser um conjunto de parmetros, sendo que cada ponto considerado ter seus prprios coeficientes de ajuste. Estes parmetros podem ser apresentados visualmente para identificar como se comportam espacialmente os relacionamentos entre variveis. Esta tcnica denominada geographically weighted regression (GWR ou regresso ponderada espacialmente). Para aplicar o modelo GWR, o modelo padro de regresso reescrito na forma:

Y ( s) = ( s ) X + ,

(5.22.)

onde, Y(s) a varivel aleatria representando o processo no ponto s, e (s) indica que os parmetros so estimados no ponto s. Para estimar os parmetros deste modelo, a soluo padro por mnimos quadrados para o caso no-espacial, dada por

= ( X T X) 1 X T Y
=~~~=~====~=~W=

(5.23.)

( s) = ( X T W (s) X ) 1 X T W (s)Y

(5.24.)

ld

O ajuste local feito de forma a garantir uma influncia maior dos pontos mais prximos, de forma semelhante aos estimadores de densidade por kernel, discutidos no captulo 2 do livro. Um exemplo o uso de uma funo gaussiana, do tipo
wij ( s, ) = d 2 ij exp 2 2 2 1

(5.25.)

onde representa o raio de influncia considerado, e dij a distncia entre a localizao considerada e o j-simo ponto. Pode-se fazer testes de hipteses para verificar se as variaes espaciais tm significado estatstico ou so aleatrias. Para maiores detalhes sobre o modelo GWR, o leitor deve referirse bibliografia no final do captulo. Diagnstico de Modelos com Efeitos Espaciais A anlise grfica dos resduos o primeiro passo para avaliar a qualidade do ajuste da regresso. Mapear os resduos uma etapa importante no diagnstico do modelo, buscando indcios de ruptura dos pressupostos de independncia. Uma alta concentrao de resduos positivos (ou negativos) numa parte do mapa um bom indicador da presena de autocorrelao espacial. Para um teste quantitativo, o mais comum utilizar o ndice I de Moran sobre os resduos. Como os estimadores e os diagnsticos tradicionais de regresso no levam em conta os efeitos espaciais, as inferncias, como por exemplo as indicaes de qualidade de ajuste baseadas em R2(coeficiente de determinao), sero incorretas. Estas conseqncias so similares s que acontecem quando uma varivel explicativa significativa omitida do modelo de regresso. Quando se quer comparar um ajuste obtido por um modelo de regresso padro, com um ajuste obtido por um dos modelos cuja especificao considera a autocorrelao espacial, uma medida como o R2 no mais confivel. O mtodo mais usual de seleo de modelos de regresso baseia-se nos valores de mxima verossimilhana dos diferentes modelos, ponderando pela diferena no nmero de parmetros estimados. Nos modelos com estrutura de dependncia espacial ou temporal - utilizam-se os critrios de informao onde a avaliao do ajuste penalizada por uma funo do nmero de parmetros. Cabe observar que necessrio ainda levar em conta o nmero de parmetros independentes ao se incluir funes espaciais nos modelos. Para cada nova varivel em modelo de regresso, acrescenta-se um parmetro.

ld

Usualmente a comparao de modelos feita utilizando o logaritmo da mxima verossimilhana, que o que possui melhor ajuste para os dados observados. O critrio de informao de Akaike (AIC) expresso por:

AIC= 2 * LIK +2k

(5. 26.)

onde LIK o log de verossimilhana maximizado e k o nmero de coeficientes de regresso. Segundo este critrio, o melhor modelo o que possui menor valor de AIC. Diversos outros critrios de informao esto disponveis, a maior parte dos quais so variaes do AIC, com mudanas na forma de penalizao de parmetros ou observaes. Exemplo Ilustrativo Como exemplo ilustrativo das tcnicas de regresso espacial, estudou-se o relacionamento entre renda e longevidade na cidade de So Paulo, para os dados do Censo de 1991. Tratam-se de duas das trs variveis utilizadas para compor o IDH (ndice de desenvolvimento humano) da ONU. A varivel dependente a ser explicada denotada por PERIDOSO (percentual de pessoas com mais de 70 anos por distrito de So Paulo) e a varivel independente indicada por PERREN20 (percentual de chefes de famlia com renda de mais de 20 salrios mnimos mensais). A distribuio espacial destas variveis est mostrados na Figura 5-21.

Figura 5-21. Percentual de idosos ( esquerda) e de chefes de famlia com renda maior que 20 SM mensais ( direita) para os distritos de So Paulo (1991). Foram comparados trs modelos de regresso: o modelo padro noespacial, o modelo autoregressivo (spatial lag) e o modelo em regimes espaciais. No caso dos regimes espaciais foram consideradas trs regies da

ld

cidade (centro, periferia e a transio centro-periferia). O modelo padro expresso como: PERIDOSO = 0 + 1 PERREN20 + (5. 27.)

Utilizando-se a matriz de vizinhana W dos distritos, o modelo spatial lag pode ser expresso como: PERIDOSO = 0 + 1 PERREN20 + W(PERIDOSO) + (5. 28.)

Considerando-se trs regies da cidade, o modelo de regimes espaciais pode ser expresso como PERIDOSO_1 = 10 + 11 PERREN20_1, reg=1 PERIDOSO_2 = 20 + 21 PERREN20_2, reg=2 PERIDOSO_3 = 30 + 31 PERREN20_3, reg=3 (5. 29.) (5. 30.) (5. 31.)

Os resultados destes modelos de regresso so apresentados na Tabela 5-3. No modelo de regresso tradicional, a relao entre renda e longevidade em So Paulo muito reduzida, o que d suporte a idia do IDH de que tratam-se de dimenses complementares da desenvolvimento humano. No entanto, quando os efeitos espaciais so levados em conta, verifica-se que a existncia de real dependncia entre os dois fatores. Na Figura 5-22, apresenta-se a distribuio espacial dos resduos da regresso para os modelos de mnimos quadrados e spatial lag. Uma anlise visual dos resduos da regresso tradicional indica uma prevalncia de resduos positivos no centro da cidade e resduos negativos na periferia, principalmente nas Zonas Leste e Sul. Os resultados numricos confirmam esta anlise, pois o ndice de Moran dos resduos altamente significativo. Com relao ao desempenho global, as medidas R2 so indicadores limitados e devem ser encaradas com cuidados, e deve-se preferir as medidas baseadas em verossimilhana (LIK, AIC). Neste caso, o modelo spatial lag teve um desempenho muito superior ao modelo padro. Este efeito esperado, pela existncia de um ndice de Moran significativo nos resduos, que capturado no coeficiente de efeito espacial (). Os regimes espaciais escolhidos para So Paulo so mostrados na Figura 5-23, bem como os resduos da regresso considerando estes regimes. Da anlise visual dos resduos, verifica-se a no-existncia de forte tendncia espacial, o que evidenciado pelo baixo ndice de Moran dos mesmos, indicado na Tabela 5-3. No geral, o modelo de regimes espaciais apresentou o melhor desempenho, por qualquer dos critrios (R2, LIK e AIC). O resultado reflete a forte polarizao centro-periferia da cidade de So Paulo, e compatvel com estudos que mostram os resultados da violncia urbana nas taxas de mortalidade, especialmente de homens dos 15 aos 25 anos.

ld

Tabela 5-3 Resultados da Regresso para Longevidade e Renda em So Paulo, 1991


Regresso MMQ R2 ajustado Log verossimilhana AIC (Crterio de Inf. Akaike) ndice de Moran dos resduos 0,280 -187,92 379,84 0,620 Spatial Lag 0,586 -150,02 306,51 Regimes Espaciais 0,80 -124,04 260,09 0,020

Figura 5-22- Resduos da regresso por mnimos quadrados ( esquerda) e resduos da regresso com o modelo spatial lag ( direita).

Figura 5-23 Regimes espaciais para os distritos de So Paulo ( esquerda) e resduos da regresso por regimes espaciais ( esquerda).

ld

5.7 ESTIMAO DE MODELOS CONTNUOS A PARTIR DE DADOS DE REA As sees anteriores apresentaram tcnicas de anlise espacial de dados de rea tomando por base o modelo de variao espacial discreta, onde cada rea modelada respeitando seus limites, adjacncias e vizinhana. Nesta seo, considera-se o modelo de variao espacial contnua, que supe um
2 processo estocstico { Z ( x ), x A, A } , cujos valores podem ser

conhecidos em todos os pontos da rea de estudo. A idia de modelos contnuos para dados socioeconmicos decorre do fato que os levantamentos censitrios muitas vezes impem limites de reas a partir de critrios puramente operacionais, que no tm relao direta com o fenmeno modelado. Este fato leva idia de dissolver os limites das reas em superfcies contnuas, de forma a modelar melhor a real continuidade de, por exemplo, setores censitrios em regies urbanas densamente povoadas. No caso de estimadores de superfcies, as principais alternativas so o uso de tcnicas no-paramtricas e o uso de interpoladores geoestatsticos, descritos nos captulos 3 deste livro e que so brevemente resumidos no que segue. Estimador de Intensidade No-Paramtrico De forma similar como no caso de superfcies, podemos utilizar o estimador de intensidade (kernel estimator) para nos fornecer uma primeira aproximao da distribuio espacial do fenmeno ou varivel. Neste caso, quando os valores observados representam uma medida mdia como taxa de mortalidade ou renda per capita, podemos utilizar um estimador que nos permitiria calcular o valor do atributo por unidade de rea. Para toda posio (x;y) cujo valor queremos estimar, o estimador de intensidade ser computado a partir dos valores {z1,...,zn} contidos num raio de tamanho , a partir da equao

zi =

k( ij ) z j
j =1 n

k(
j =1

dij

, dij

(5. 32.)

Na equao acima, a funo () um interpolador no-paramtrico, que pode ser, por exemplo, um kernel gaussiano, como apresentado nos captulos 2 e 3 deste livro, onde o leitor poder encontrar uma discusso mais aprofundada sobre os estimadores de intensidade no-paramtricos. Um exemplo do estimador de intensidade para taxas pode ser visto na Figura 522, onde so apresentados os dados de mortalidade por homicdios para o Estado do Rio de Janeiro, para o trinio 90-92 interpolados pelo estimador
A l ld d f

de intensidade, que nos d uma idia da distribuio espacial da varivel estudada. Na Figura 5-24(a) apresentado um mapa com os valores de indicadores de taxa de mortalidade, agregados por municpio. Na Figura 5-24(b), apresentamos o resultado do estimador de intensidade, que nos d uma idia melhor da distribuio espacial da varivel estudada. Quando as observaes nas reas representam contagens, como as obtidas pelo censo, o estimador de kernel apresentado acima no apropriado. Um valor mdio de um atributo como nmero de domiclios precrios no faria sentido, e deve-se pensar em termos de nmero de domiclios precrios por unidade de rea. Neste caso, pode-se utilizar o numerador da equao (5.32), dividido pela rea do crculo definido pelo raio de busca:
zi =
ij k( ) z j , d ij 2

(5.33.)

j =1

(a)

(b)

Figura 5-24 (a) Mortalidade por homicdios no RJ (1990-1992). Mapa temtico com valores por municpio. (b) Superfcie obtida por estimador de intensidade no-paramtrico

ld

Uso de Interpoladores Geoestatsticos No captulo 3, apresenta-se a teoria bsica da geoestatstica, cuja motivao tradicional est associada a dados do meio fsico como medidas de teor mineral ou de poluio. No caso da krigagem ordinria, a hiptese subjacente que os dados apresentam distribuio gaussiana, e neste caso as propriedades timas dos estimadores (como a mnima varincia do resultado) so garantidas. Para o caso de dados socioeconmicos ou de sade coletiva, a hiptese da normalidade dos dados muito raramente realista, sendo mais comum supor uma distribuio de Poisson, por se tratar de contagens de eventos. No entanto, as propriedades timas do estimador de krigagem e sua ampla disponibilidade em diferentes sistemas de informao geogrfica fazem com que seja importante investigar seu uso para dados socioeconmicos. Neste caso, a primeira providncia investigar quo aproximados da distribuio normal se apresentam os dados; se for necessrio, pode-se aplicar transformaes apropriadas (com a transformao logartmica) para simetrizar a distribuio emprica e assim aproximar-se da distribuio normal. Para considerar uma situao concreta, Figura 5-25 apresenta a distribuio da taxa de homicdios por 100 mil habitantes, para os 96 distritos de So Paulo em 1996, acompanhada do grfico de probabilidade normal, que indica o quanto estes dados se aproximam de uma distribuio gaussiana. Da anlise dos dois dados, e considerando-se ainda que a mdia (43,6) suficientemente prxima da mediana (39,3), e como o teste de normalidade de Shapiro-Wilk indica um valor de 0,9653 (p-valor de 0,012), a hiptese de normalidade no pode ser rejeitada e permite aplicar uma interpolador de krigagem.
14 12 10

Freqncia

8 6 4 2 0

Taxa de homicdios

Figura 5-25. Distribuio da taxa de homicdios por 100 mil habitantes para So Paulo em 1996. direita: frequncia relativa; esquerda: grfico de probabilidade normal.

ld

90 10 0

70

50

30

10

20

40

60

80

Com base nestas hipteses, e com o objetivo de entender os padres espao-temporais em So Paulo, utilizou-se a krigagem ordinria para produzir superfcies das taxas de homicdio para os 96 distritos de So Paulo para os anos de 1996 e 1999 (a distribuio de taxas de 1999 apresentou padres semelhantes que a de 1996). Para tal, o conjunto de pontos obtido pela associao do valor do parmentro de cada rea, ao seu centride, foi tomado como uma amostra, usada para computar um variograma que modelou a estrutura de correlao espacial. A superfcie obtida est apresentada na Figura 5-26 e mostra uma queda significativa nas reas com as menores taxas de homicdios (menos que 30 mortes por 100,000 pessoas) em 1999 com relao a 1996. Como as reas de menor taxa de homicdio correspondem s reas mais ricas da cidade (compare com as figuras 5.1), o resultado mostra um espalhamento espacial do crime, com a violncia ocupando progressivamente toda a cidade.

Taxa Homicdios (por 100,000)

Figura 5-26. Superfcies estimadas para as taxas de homicdio em So Paulo em 1996 (esquerda) e 1999 (direita).

5.8 COMENTRIOS FINAIS Este captulo mostrou que as tcnicas de anlise espacial podem ampliar consideravelmente a capacidade de compreender os padres espaciais associados a dados de rea, especialmente quando se trata de indicadores sociais, que apresentam autocorrelao espacial global e local. Tcnicas exploratrias como os indicadores de Moran e os mapas de espalhamento de Moran so muito teis para mostrar as agregaes espaciais e indicar reas prioritrias em termos de poltica pblica. Mtodos de estimao bayesiana

ld

para taxas permitem a correo de efeitos associados a pequenas populaes. Modelos de regresso espacial permitem estabelecer as relaes entre as variveis, levando em conta os efeitos espaciais; neste caso, o poder explicativo dos modelos pode ter ganhos significativos. A gerao de superfcies um maneira eficiente de apreenso visual dos padres espaciais. Em resumo, estudiosos de dados scio-econmicos podem se beneficiar substancialmente das tcnicas deste captulo.

5.9 REFERNCIAS A referncia bsica para a maior parte das tcnicas apresentadas neste captulo o livro de Trevor Bailey, Spatial Data Analysis by Example (Bailey and Gattrel, 1995) e uma discusso geral sobre os modelos de distribuio para dados espaciais apresentada em Diggle (2001). A homepage de Peter Diggle (www.maths.lancs.ac.uk/~diggle) contm material relevante sobre estatstica espacial. No caso dos modelos de regresso espacial, o software SpaceStat de Luc Anselin, e a documentao associada (Anselin, 1992) apresenta em detalhe os modelos de regresso com efeitos globais (spatial lag e spatial error), e o modelo de regimes espaciais. O SpaceStat foi utilizado para computar os modelos no exemplo apresentado no captulo. Os trabalhos de Luc Anselin no campo de indicadores locais de autocorrelao espacial (Anselin, 1995; Anselin, 1996) tambm so referncias importantes. O stio do SpaceStat www.spacestat.com. O modelo de regresso GWR (geographically weighted regression) foi idealizado por A.Stewart Fotheringham, e est descrito em seu livro Quantitative Geography (Fotheringham et al., 2000) e outros trabalhos (Fotheringham et al., 1996) (Brunsdon et al., 1996). Maiores informaes podem ser encontradas no stio http://www.ncl.ac.uk/~ngeog/GWR/. A discusso sobre o problema dos efeitos de escala e a chamada falcia ecolgica deve muito aos trabalhos de Stan Openshaw; como exemplo, veja-se Openshaw (1997). Seus trabalho sobre o uso de tcnicas de otimizao combinatria para obter regies mais agregadas, tambm so muito importantes (Openshaw and Alvanides, 1999). A questo da gerao de superfcies a partir de dados socioeconomicos deve muito aos trabalhos de David Martin, em seu livro Geographic Information Systems: Socioeconomic Applications (Martin, 1995) e seus trabalhos sobre os dados censitrios no Reino Unido (Martin, 1996; Martin, 1998).

ld

Os estimadores bayesianos empricos foram inicialmente propostos em (Marshall, 1991). Uma discusso geral sobre o assunto, incluindo uma discusso sobre os estimadores bayesianos completos, pode ser encontrada no excelente trabalho de Renato Assuno (Assuno, 2001) ou na reviso abrangente de Trevor Bailey, publicada nos Cadernos de Sade Pblica (Bailey, 2001). Os dados de So Paulo do censo de 1991 foram extrados do trabalho "Mapa de Excluso/Incluso Social na Cidade de So Paulo", coordenado pela prof. Aldaza Sposati, da PUC/SP (Sposati, 1996). As taxas de homicdio para os distritos de So Paulo em 1996 e 1999 foram produzidas pela Fundao SEADE e a gerao de superfcies por krigeagem foi feita por Jos Luiz Rodriguez Yi. Os dados do censo de Belo Horizonte para o ano de 1991 foram cedidos pela PRODABEL, e o estudo do problema das mudanas de unidade de anlise foi realizado por Taciana Dias e Maria Piedade Oliveira. Os dados de mortalidade infantil para a cidade do Rio de Janeiro foram organizados pela FIOCRUZ e esto apresentados no trabalho de Eleonora DOrsi e Marilia Carvalho (D'rsi & Carvalho, 1998). Os dados do estudo sobre mortalidade por homicdios na Regio Sudeste tambm foram publicados pela equipe da FIOCRUZ, e podem ser acessados nas pginas e pessoais dos autores: http://www.procc.fiocruz.br/~marilia/ www.procc.fiocruz.br/~oswaldo/. O nmero especial dos Cadernos de Sade Pblica sobre o tema de estatsticas espaciais em sade (volume 17(5), outubro-novembro 2001), disponvel na Internet (www.scielo.br) representa um bom ponto de partida sobre o tema, com vrios estudos relevantes. 1. ANSELIN, L. SpaceStat tutorial: a workbook for using SpaceStat in the analysis of spatial data. Santa Barbara, NCGIA (National Center for Geographic Information and Analysis), 1992. 2. ANSELIN, L. Local indicators of spatial association - LISA. Geographical Analysis v.27, p.91-115, 1995. 3. ANSELIN, L. The Moran scatterplot as ESDA tool to assess local instability in spatial association. In: M. Fisher, H. J. Scholten and D. Unwin (ed). Spatial Analytical Perspectives on GIS. London, Taylor & Francis, 1996. v., p.111-126. 4. ASSUNO, R. Estatstica Espacial com Aplicaes em Epidemiologia, Economia e Sociologia. So Carlos, SP, UFScar, 2001. Disponvel na homepage www.est.ufmg.br/~assuncao.

ld

5. BAILEY, T. Spatial Statistics Methods in Health. Cadernos de Sade Pblica v.17, n.5,, 2001. 6. BAILEY, T. and A. GATTREL. Spatial Data Analysis by Example. London, Longman, 1995. 7. BRUNSDON, C. A.S. FOTHERINGHAM AND M.E. CHARLTON, Geographically Weighted Regression: A Method for Exploring Spatial Nonstationarity. Geographical Analysis, 28(4), 281-298, 1996. 8. CRUZ, O. C. Homicdios no Estado do Rio de Janeiro: anlise da distribuio espacial e sua evoluo. Dissertao de mestrado/Faculdade de sade Pblica-USP, 1996. WLL~~~KKKL~LLJK= 9. DIGGLE, P. Spatial statistics in the biomedical science: future directions. Lancaster, Lancaster University, 2001. 10. D'RSI, E. and M. S. CARVALHO. Perfil de Nascimentos no Municpio do Rio de Janeiro - Uma Anlise Espacial. Cadernos de Sade Pblica v.14, n.1, p.367-379, 1998. 11. FOTHERINGHAM, A.S., C. BRUNSDON AND M.E. CHARLTON, 2000, Quantitative Geography, London: Sage 12. FOTHERINGHAM, A.S., M.E. CHARLTON AND C. BRUNSDON, The Geography of Parameter Space: An Investigation into Spatial NonStationarity. International Journal of Geographic Information Systems, 10: 605-627, 1996. 13. GELMAN, A., CARLIN, J.B., STERN, H.S., RUBIN, D.B. (1995) Bayesian Data Analysis Chapman & Hall/CRC. 14. GILKS, W.R., RICHARDSON, S., SPIEGELHALTER, D.J. (orgs) (1998), Markov Chain Monte Carlo in Practice, Chapman & Hall. 15. MARSHALL, R. Mapping disease and mortality rates using empirical Bayes estimators. Applied Statistics v.40, p.283-294, 1991. 16. MARTIN, D. Geographic Information Applications. London, Routledge, 1995. Systems: Socioeconomic

17. MARTIN, D. An assessment of surface and zonal models of population. International Journal of Geographical Information Systems v.10, p.973989, 1996. 18. MARTIN, D. Optimizing census geography: the separation of collection and output geographies. International Journal of Geographical Information Science v.12, p.673-685, 1998.

ld

19. OPENSHAW, S. Developing GIS-relevant zone-based spatial analysis methods. In: P. Longley and M. Batty (ed). Spatial Analysis: Modelling in a GIS Environment. New York, John Wiley, 1997. v., p.55-73. 20. OPENSHAW, S. and S. ALVANIDES. Applying Geocomputation to the analysis of spatial distributions. In: P. A. Longley, Goodchild, M. F., Maguire, D. J. and Rhind, D. W (ed). Geographical Information Systems: Principles, Techniques, Management and Applications. Chichester, Wiley, 1999. v., p.267-282. 21. SPOSATI, A. Mapa de Excluso/Incluso Social de So Paulo. So Paulo, EDUC, 1996.

ld

8 MODELAGEM DINMICA E GEOPROCESSAMENTO


Bianca Maria Pedrosa Gilberto Cmara

8.1

INTRODUO

Historicamente, a tecnologia de Geoprocessamento enfatizou a representao de fenmenos espaciais no computador de forma esttica. Isto se deve ao fato de que a principal abstrao utilizada em Sistemas de Informao Geogrficas (GIS) o mapa. No entanto, um significativo conjunto de fenmenos espaciais, tais como escoamento de gua da chuva, planejamento urbano e disperso de sementes, entre outros, so inerentemente dinmicos e as representaes estticas comumente utilizadas em GIS no os capturam de forma adequada. Deste modo, um dos grandes desafios da Cincia da Informao Espacial o desenvolvimento de tcnicas e abstraes que sejam capazes de representar adequadamente fenmenos espao-temporais dinmicos. O uso de modelos temporais em GIS vem sendo investigado com afinco na literatura recente (Worboys 1995). Neste trabalho, estaremos dando nfase a abordagem de representao da dinmica espao-temporal por autmatos celulares. Nesta abordagem o espao representado atravs de um array de clulas em que cada clula pode assumir diferentes estados ao longo do tempo. O tempo varia em intervalos discretos e o estado de todas as clulas muda simultaneamente em funo do seu prprio estado, do estado das demais clulas em sua vizinhana e de acordo com um conjunto especfico de regras de transio (Engelen 1995). Neste trabalho, ser abordado os requisitos necessrios as abordagens utilizadas para desenvolver sistemas espaciais dinmicos, os conceitos computacionais e geogrficos envolvidos e algumas das aplicaes de Modelagem dinmica em Geoprocessamento. No captulo 2 sero apresentados os princpios bsicos para representar os principais componentes de um modelo espacial dinmico. No captulo 3 sero abordados os conceitos bsicos e os principais aspectos computacionais envolvidos na modelagem dinmica de processos fsicos. Ser apresentado tambm um exemplo de modelagem utilizando o aplicativo PCRaster. No captulo 4 sero apresentados dois exemplos de aplicaes computacionais para modelagem dinmica de processos urbanos, o Citylife e o modelo Multi-escala.
1

8.2

PRINCPIOS BSICOS

A atual gerao de GIS configura uma tecnologia estabelecida para armazenar, organizar, recuperar e modificar informaes sobre a distribuio espacial de recursos naturais, dados geo-demogrficos, redes de utilidade pblica e muitos outros tipos de dados localizveis na superfcie da terra. Nesta rea, um dos principais desafios para os prximos anos transformar estes sistemas, essencialmente estticos, em ferramentas capazes de prover representaes realistas de processos espao-temporais. A modelagem de grande quantidade de processos fsicos, em aplicaes como Geomorfologia, Estudos Climticos, Dinmica Populacional e Impacto Ambiental, requer que os GIS tenham capacidade de representar os tipos de processos dinmicos encontrados em estudos de sistemas fsicos e scio-econmicos. Neste contexto, a Modelagem Dinmica (Burrough 1998) procura transcender as limitaes atuais da tecnologia de Geoprocessamento, fortemente baseada numa viso esttica, bidimensional do mundo. O objetivo dos modelos dinmicos em GIS realizar a simulao numrica de processos dependentes do tempo, como nos modelos hidrolgicos, que simulam o fluxo e transporte de gua. Na definio de Burrough, um modelo espacial dinmico uma representao matemtica de um processo do mundo real em que uma localizao na superfcie terreste muda em resposta a variaes nas foras dirigidas. Tipicamente, GIS so desenvolvidos a partir de suposies pr-estabelecidas quanto a homogeneidade, uniformidade e universalidade das propriedades de seus principais componentes, que incluem o espao e as relaes espaciais, o tempo e o modelo matemtico que descreve o fenmeno. Entretanto, para modelar processos dinmicos em GIS com o nvel necessrio de realismo, estas suposies rgidas tm que ser flexibilizadas de tal forma que o sistema seja capaz de representar (Couclelis 1997): O espao como uma entidade no homognea tanto nas suas propriedades quanto na sua estrutura. As vizinhanas como relaes no estacionrias As regras de transio como regras no universais. A variao do tempo como um processo regular ou irregular. O sistema como um ambiente aberto a influncias externas.

regular Estrutura Espao uniforme Propriedades estacionria Vizinhana universal Funo de Transio regularidade Tempo fechado Sistema

irregular

no uniforme

no estacionria

no universal
1 2

irregularidade aberto

Figura 8.1 Requisitos para modelagem dinmica em GIS (fonte: Couclelis, 1997)

Na figura 8.1 esto representados os requisitos mencionados acima. A regularidade do espao diz respeito a forma como ele distribudo e pode ser regular, isto , divido em parte iguais, ou irregular, distribudo de forma diferenciada. As vizinhanas, que geralmente so concebidas como tendo a mesma configurao para todo ponto no espao, deve superar esta estacionaridade e poder ser representada com diferentes configuraes em diferentes pontos do espao. Por exemplo, em determinado ponto uma clula pode ter vizinhana 4 e em outro vizinhana 8. O sistema deve permitir que mais de uma funo de transio possa ser aplicada, permitir que o tempo seja representado em intervalos variveis (meses, anos) e suportar a incluso de variveis externas. Para implementar sistemas espaciais dinmicos com as caractersticas mencionadas acima, alguns princpios bsicos relativos aos principais elementos destes sistemas devem ser considerados. Entre estes elementos destacam-se a questo da representao do espao e do tempo, o modelo dinmico a ser utilizado para a representao do fenmeno espacial e a abordagem computacional para implementar estes princpios de forma integrada e consistente. Nas sees seguintes, discutiremos cada um destes elementos.
3

8.2.1

O Espao

O espao o conceito chave na geografia e, por extenso, na Cincia da Informao Espacial. Tradicionalmente, os gegrafos fazem uma distino entre os conceitos de espao absoluto e espao relativo. Espao absoluto, tambm chamado Cartesiano ou Newtoniano, um container de coisas e eventos, uma estrutura para localizar pontos, trajetrias e objetos. Espao relativo, ou Leibnitziano, o espao constitudo pelas relaes espaciais entre coisas e eventos (Couclelis 1997). Santos (1996) refere-se a distino entre espao absoluto e espao relativo como o espao dos fixos e o espao dos fluxos. Em termos de representaes computacionais pode-se, de forma aproximada, traduzir estes conceitos como a distino entre as representaes associadas a recobrimentos planares (mapas de polgonos e matrizes) e representaes associadas a conectividade (grafos). Um caso tpico de medida realizada no espao absoluto so os ndices de auto-correlao espacial. Neste caso, um dos instrumentos bsicos a matriz de proximidade espacial, cujo clculo usualmente feito em funo de distncia euclidiana entre objetos ou da existncia de uma fronteira entre eles. Na Figura 8.2 est representado um mapa temtico e sua respectiva matriz de proximidade, definida com base nas fronteiras existentes entre os objetos.

E
B

Figura 8.2 Um mapa poligonal e sua matriz de proximidade

Em muitos fenmenos geogrficos, os objetos estabelecem relaes entre si que independem das relaes espaciais tpicas como as relaes topolgicas, direcionais e de distncia. Estes fenmenos geralmente incluem relaes como fluxo de pessoas ou materiais, conexes funcionais de influncia, comunicao e acessibilidade, entre outras (Couclelis 1999). Um exemplo de fenmeno em que a dimenso espacial requer o
4

conceito de espao relativo o caso de fluxo de pessoas pela rede de transporte metrovirio de uma cidade. O fluxo de pessoas a partir de uma mesma origem tem diferentes destinos, Figura 8.3, e a relao entre a origem e destino estabelecida com base em relaes de conectividade e acessibilidade.

Figura 8.3 Mapa do Fluxo de Pessoas em uma rede de transporte Couclelis (1997) prope a idia de espao prximo, como uma extenso dos conceitos de espao absoluto e relativo. No espao prximo o conceito chave a vizinhana associada noo de proximidade, que conduzem tambm ao conceito de proximidade funcional ou influncia. O conceito de vizinhana facilmente visualizado em representaes matriciais do espao. Algumas operaes espaciais disponveis em GIS como filtros espaciais, por exemplo, utilizam a noo de espao prximo de forma limitada. No filtro espacial, o estado de uma clula ( um pixel de uma imagem) modificado com base nos estados das demais clulas em sua vizinhana, definida atravs de uma mscara. A seguir apresentado um exemplo de filtro espacial e o estado de uma clula qualquer antes (Figura 8.4b) e aps (Figura 8.4c) a aplicao do filtro espacial.

a) Mscara

b) estado da clula central antes do filtro c)estado da clula central aps o filtro

Figura 8.4 Exemplo de Filtro espacial

A abstrao fundamental na maior parte dos GIS atuais o conceito de mapa, fortemente relacionado com noes cartogrficas e portanto, do espao absoluto Em processos dinmicos a noo de espao relativo e prximo so fundamentais para estabelecer e representar fluxos e conexes entre entidades do sistema.

8.2.2

O Tempo

Conceitualmente, pode-se representar o tempo atravs de diferentes estruturas, definidas, principalmente, com base em trs aspectos da representao temporal: granularidade, variao e ordem no tempo (Figura 5).

Ordem no tempo linear ramificado ciclco

Variao Temporal discreto contnuo

Granularidade instante intervalo perodo

Figura 5 - Estruturas temporais (fonte: Worboys, 1998)

A ordem temporal refere-se ao modo como o tempo flui. Neste caso, pode-se assumir que o tempo flui de forma linear, ramificada ou cclica. No tempo linear considera-se que o tempo flui seqencialmente, ou seja, existe uma ordem de precedncia entre os pontos no tempo, de tal forma que cada ponto tenha apenas um sucessor e um antecessor. No tempo ramificado mltiplos pontos podem ser os sucessores ou antecessores imediatos de um mesmo ponto. O tempo cclico utilizado para modelar eventos e processos recorrentes (Edelweiss and Oliveira 1994). Com relao variao temporal duas possibilidades podem ser consideradas: tempo contnuo e discreto. Uma varivel temporal contnua usada em processos que demandam medidas de tempo com nveis arbitrrios de preciso. Por exemplo, a expanso da rea de desmatamento de uma floresta entre dois instantes de tempo medidos pode ser interpolada. A Figura 6 apresenta mapas de uma rea desmatada em dois instantes t e t. Se necessrio, pode-se gerar um novo mapa para representar a rea desmatada entre os instantes t e t porque este processo contnuo no tempo.

Figura 6 rea Desmatada da floresta em dois instantes t e t


6

Uma varivel temporal discreta usada quando o tempo medido em certos pontos ou intervalos e a variao descontnua entre estes pontos. Uma delimitao de lotes de um cadastro imobilirio pode ocupar uma posio num instante t e outra num instante t, mas no faz sentido dizer que a delimitao ocupou alguma posio intermediria entre t e t. Na figura 7, no instante t existem 4 lotes em uma rea residencial, no instante t os lotes 2 e 3 so unidos formando um novo lote 5. 1 2 4 3 1 5 4

Figura 7 Delimitao de lotes de um cadastro imobilirio em dois instantes t e t Associado ao conceito de variao temporal discreta, existe o conceito de Chronos. Um chronon a menor durao de tempo suportada por um sistema e pode variar em diferentes aplicaes (Edelweiss and Oliveira 1994). A granularidade temporal de um sistema est diretamente relacionada com a durao de um chronon. As diferentes granularidades de um sistema temporal conduzem definio de instante e intervalo de tempo. Um instante de tempo representa um ponto particular no tempo, um intervalo o tempo decorrido entre dois instantes e um perodo consiste de uma seqncia de intervalos de tempo . Em sistemas computacionais, representa-se o tempo em pelo menos duas dimenses: tempo vlido (valid time) - corresponde ao tempo em que um evento ocorre no domnio da aplicao. tempo de transao (transaction time) corresponde ao tempo em que transaes acontecem dentro do sistema de informao (Worboys 1995).

Adicionalmente, existe o conceito de tempo definido pelo usurio, consistindo de propriedades definidas explicitamente pelos usurios em um domnio temporal e manipuladas pelo programa de aplicao (Edelweiss and Oliveira 1994). A incorporao da dimenso temporal em um sistema de informao no se restringe apenas questo da representao do tempo, mas inclui tambm questes relativas a sua recuperao. Um GIS temporal deve ser capaz de recuperar informaes atravs de consultas definidas sobre critrios temporais, como por exemplo: Quais rodovias do Brasil foram recuperadas permitem uma velocidade superior a 100km/h ? a partir de 1980 e agora

Qual rio teve a maior taxa de poluio entre 1970 e 1985?


7

Quais as cidades em que a cobertura vegetal aumentou em pelo menos 5% durante os ltimos 5 anos? Para resolver consultas como as relacionadas acima, um GIS tem que prover um conjunto de operadores e funes que permitam a avaliao de relacionamentos como os de precedncia, sobreposio, igualdade e pertinncia entre dois intervalos de tempo (Figura 8).

Predicado a precedes b

Exemplo

a meets b a overlaps b a contains b

a equals b intervalo a intervalo b

instante

temp

Figura 8 Predicados temporais (fonte: Voigtmann, 1996)

Para exemplificar consultas envolvendo predicados como os apresentados na Figura 8, utilizaremos uma linguagem de consulta temporal especialmente desenvolvida para aplicaes em geoprocessamento, chamada T/OOGQL (Voigtmann 1996). Esta linguagem uma extenso ao SQL (Structured Query Language) com suporte para tipos de dados espaciais e temporais. Quanto aos operadores espaciais, a linguagem T/OOGQL oferece os clssicos cross, overlap, touch e in, entre outros. Quanto aos aspectos temporais, a linguagem T/OOGQL trabalha com os conceitos de timestamp (definio explcita de tempo associada a uma informao), tempo vlido e tempo transacional, e oferece as seguintes funes:

Funo First(), Last() FirstValue(), LastValue() Begin(), End() Period(b,f), Period(d) Day(), Month(), Year() date(), time(), datetime() years(n), months(n), days(n)

Descrio retorna o primeiro e ltimo timestamp associado a um atributo, objeto ou relacionamento retorna o primeiro e ltimo valor associado a um atributo, objeto ou relacionamento retorna o incio e o fim de um timestamp retorna um perodo tendo incio b e final f ou um perodo de durao d construtores de timestamps para descrever um dia, ms ou ano construtores de timestamps para descrever uma data, hora ou data e hora retorna um intervalo de tempo com a durao de n dias, n meses ou n anos

Figura 9 Funes Temporais do T/OOGQL A seguir, demonstraremos o uso da linguagem T/OOGQL em alguns exemplos de consultas que envolvem tanto operadores temporais quanto espaciais: 1. Quais rodovias do Brasil foram recuperadas a partir de 1980 e agora permitem uma velocidade >= 100km/h ? select snapshot r from railroad r, state s where s.name=Brasil and (r cross s or r in s) and r.max_speed>=100 and Begin( Year(1980) ) vt_precedes r.max_speed

2. Qual rio teve a maior taxa de poluio entre 1970 e 1985? query_time:Period (Begin (Year(1970)), End(Year(1985))) select from where r.name river r exists rp in r.pollution: rp.max_pollution(query_time) >=max (select max_pollution (query_time) from river_pollution)
9

3. Quais as cidades em que a cobertura vegetal aumentou em pelo menos 5% durante os ltimos 5 anos? select c.name from where city c c.vegetation.coverage(Wood,c.geometry,now) >= min(c.vegetation.coverage(Wood,c.geometry, Period(now-years(5)),now)))+5

Nas consultas apresentadas acima, as clusulas select, from e where so similares s de qualquer linguagem baseada em SQL. Os prefixos vt e tt so abreviaes para tempo vlido e tempo de transao, respectivamente. As palavra reservada Snapshot, presente na clusula select da primeira consulta, tem o mesmo significado da Linguagem TSQL2 (uma extenso temporal para a linguagem SQL2), ou seja, gera um resultado de consulta instntaneo, sem timestamps associados (Voigtmann
1996).

8.3

MODELOS

Modelos espaciais dinmicos descrevem a evoluo de padres espaciais de um sistema ao longo do tempo. Segundo Lambin(1994) um modelo deve responder as seguintes questes: Quais variveis ambientais e culturais contribuem para explicar o fenmeno e quais so os processos ecolgicos e scio-econmicos existentes por trs do fenmeno? Como o processo evolui? Onde ocorrem os fenmenos?

Estas questes chaves podem ser identificadas como as clssicas Porque, Quando e Onde. Um modelo que responde a estas questes capaz de descrever quantitativamente um fenmeno e prever sua evoluo, integrando suas escalas temporal e espacial.

10

8.3.1

Tipos de modelos

Um modelo constitudo de pelo menos trs elementos: variveis, relacionamentos e processos. Ao se construir um modelo, dependendo do objetivo, pode-se dar nfase a um ou outro destes elementos. Nesta viso, os modelos podem ser classificados em empricos e de sistemas. Modelos empricos focalizam os relacionamentos entre as variveis do modelo, a partir da suposio de que os relacionamentos observados no passado continuaro no futuro. Modelos de sistemas so descries matemticas de processos complexos que interagem entre si, enfatizando as interaes entre todos os componentes de um sistema (Lambin 1994).
Modelos

Empricos

Sistema

Cadeias

Logsticos

Regresso

Simulao

Dinmico

Figura 8.10 Tipos de modelos 8.3.1.1 Modelos Empricos Os modelos empricos, em sua dimenso procedural, possuem trs componentes chaves: uma configurao inicial, uma funo de mudana e uma configurao de sada. A configurao inicial de um modelo dinmico pode ser obtida atravs de dados histricos do fenmeno em estudo, chamados de sries temporais. Neste caso, equaes diferenciais (totais ou parciais) que incluem pelo menos um termo derivado no tempo podem ser utilizadas para representar o modelo e o processo classificado como determinstico. Quando variveis aleatrias so utilizadas para explicar um sistema o processo classificado como estocstico-probabilstico. Modelos empricos so caracterizados pela simplicidade dos modelos matemticos empregados e pelo nmero reduzido de variveis envolvidas. Este modelos so eficientes em fazer predies, embora apresentem limitaes em abordar a evoluo espacial e identificar os aspectos causais do sistema. A seguir, sero apresentados trs modelos empricos: cadeias de markov, modelos logsticos de difuso e modelos de regresso.

11

Cadeias de Markov

Cadeias de Markov so modelos matemticos para descrever processos estocsticos e podem denotadas por:

(t+1)= Pn.(t)
onde (t) o estado do sistema no tempo t, (t+1) o estado do sistema aps o intervalo t+1 e Pn so os estados passveis de acontecer, que so representados em matrizes de possibilidades de transio. Essas matrizes de transio representam a possibilidade de um determinado estado i permanecer o mesmo ou mudar para o estado j durante o intervalo de tempo t->t+1. As probabilidades de transio so usualmente derivadas de amostras relativas a um certo intervalo de tempo. Cadeias de Markov de 1a ordem assumem que o estado futuro do sistema depende apenas do seu estado presente e das possibilidades de transio, sendo independente da trajetria que o levou aquele estado (estados em um tempo t-1). Este modelo no ignora o passado, mas assume que toda a informao do passado est concentrada no presente estado do sistema. Desta forma, as interaes so instantneas, sendo irrelevante o tempo de permanncia das variveis em cada estado (Soares Filho 1998). Outra caracterstica das cadeias de Markov que as probabilidades de transio no mudam com o tempo, o que o caracteriza como um processo estacionrio. As principais vantagens das cadeias de Markov so a simplicidade operacional e matemtica do modelo aliadas a facilidade com que podem ser aplicadas a dados provenientes de sensoriamento remoto e implementadas em GIS. Outra grande vantagem o fato de no necessitar de grande quantidade de dados antigos para prever o futuro. As principais limitaes das cadeias de markov incluem o fato do modelo no explicar o fenmeno (Porque) e ser limitado na resposta espacial (Onde), entretanto o modelo pode pode fazer predies (Quando) desde que os processos sejam estacionrios. Alm disto, o modelo no suporta de imediato a incluso de variveis exgenas como variveis scio-econmicas ou outras foras dirigidas, embora esta limitao possa ser superada. Em (Lambin 1994) so apresentadas vrias abordagens para superar as principais limitaes de cadeias de Markov em modelagem dinmica.

12

Modelos logsticos de Difuso Modelos logsticos so utilizados para descrever matematicamente fenmenos em que as variveis inicialmente apresentam variaes em um ritmo lento, depois o ritmo de variaes se intensifica, voltando a reduzir-se at que o nvel de saturao seja atingido. Este modelo leva em conta as interaes temporais entre as variveis do sistema, podendo ser expresso por: dP/dt = r P [ (U - P) / U] onde P a varivel de um fenmeno de crescimento ao longo do tempo t, como aumento da populao, por exemplo; r a taxa de crescimento e U uma funo de crescimento (Lambin 1994). Dentre os modelos baseados em funes logsticas destacam-se os modelos de difuso. Tais modelos enfatizam a velocidade do processo e permitem a incluso de variveis relacionadas s causas do fenmeno. Os principais elementos de um modelo espacial de difuso so (Soares Filho 1998): meio ambiente (isotrpico ou heterogneo) tempo (contnuo ou discretizado) item a ser difundido (material, pessoas, informao, doena) locais de origem locais de destino caminhos a serem percorridos

Estes elementos interagem entre si atravs de um mecanismo em que pode-se identificar quatro estgios: Estgio inicial neste estgio tem incio o processo de difuso. Estgio de difuso tem incio o processo de espalhamento Estgio de condensao diminui o ritmo do espalhamento. Estgio de saturao ocorre a desacelerao ou encerramento do processo de difuso.

O processo de espalhamento em modelos de difuso pode se dar por expanso ou realocao. Nos modelos de difuso por expanso a informao ou material se espalha de uma regio para outra, permanecendo na regio original. Nos modelos de difuso por realocao os objetos se movem para novas regies, abandonando as rea originais (Soares Filho 1998). Modelos de difuso no explicam as causas de um fenmeno, embora possam integrar variveis ecolgicas e scio-econmicas. Sua maior contribuio est na predio do comportamento futuro do fenmeno. Quanto dimenso espacial, o modelo em si no a incorpora, mas ela pode ser introduzida atravs da integrao deste modelo com um GIS (Lambin 1994).
13

Modelos de Regresso O objetivo dos modelos de regresso estabelecer relaes estatsticas entre um fenmeno em estudo e as variveis independentes, chamadas foras dirigidas, que exercem influncia sobre ele. Sendo assim, o modelo suporta a incluso de variveis exgenas como as scio-econmicas. Isto contribui para o entendimento do fenmeno em estudo, mas insuficiente para explic-lo, pois a identificao de um relacionamento estatstico entre duas variveis por si s no estabelece um relacionamento causal entre elas. Por exemplo, pode-se identificar atravs de um modelo de regresso que o crescimento populacional tem relao com o crescimento do desmatamento de uma determinada regio, entretanto, o modelo de regresso no explica os mecanismos que ligam estas variveis (Lambin 1994). Matematicamente, o modelo estabelece um relacionamento linear variveis dependentes e independentes atravs da expresso: y= a0 + a1 x1 + a2x2 + ... + aixi + E onde: y = mudana ocorrida em um determinado tempo xi = variveis independentes (foras dirigidas) Ai = Coeficientes de regresso dos relacionamentos E = Componente de erro entre as

Em modelos de regresso a dimenso temporal considerada, mas a distribuio espacial do fenmeno no abordada, limitao esta que pode ser superada se o modelo for combinado com GIS. Outra limitao deste modelo que ele se aplica apenas a processos estacionrios (Lambin 1994). Um exemplo de modelo de regresso o implementado por Reis e Margulis (1991) para modelar o desmatamento da Amaznia em funo da densidade espacial das atividades econmicas da regio. Neste modelo, num primeiro estgio, reas desmatadas so relacionadas com a densidade populacional, reas cultivadas, distncia de centros urbanos e proximidade de rodovias, entre outras variveis. Num segundo estgio, o modelo relaciona o crescimento de determinadas atividades (colonizao, cultivo, pecuria) entre 1980 e 1985 com a densidade destas atividades em 1980, obtendo assim o padro de crescimento espacial de cada atividade. Ento, partindo da suposio de que este padro espacial de crescimento ir se manter no futuro, o modelo faz projees sobre a tendncia de desmatamento para o perodo de 1985-2000 (Lambin 1994).

14

8.3.2

Modelos de Sistemas

Modelos de sistemas procuram descrever o sistema como um todo, isto , tentam representar as interaes entre todos os seus componentes. Uma caracterstica chave destes modelos a eficincia com que abordam a dimenso espacial, implementando conceitos como as relaes de vizinhana e suportando o uso combinado de mltiplas escalas. A seguir, descreveremos as caractersticas de gerais de duas classes de modelos de sistema: os modelos de simulao de ecossistemas e os modelos de simulao dinmica espacial. Modelos de Simulao de Ecossistemas Modelos de Ecossistemas so projetados para imitar o comportamento de um sistema, enfatizando as interaes entre todos os seus componentes. Estes modelos so baseados na composio de ecossistemas complexos em um nmero de equaes diferenciais (Lambin 1994). A construo de um modelo de simulao requer que os principais aspectos que afetam o fenmeno estejam bem integrados, que seus relacionamentos funcionais estejam bem representados e que o modelo possa predizer os impactos ecolgicos e econmicos das mudanas ao longo do tempo. Estes modelos so adequados para representar processos no estacionrios, mas apresentam limitaes quanto ao aspecto espacial, pois tratam o espao como uma entidade homognea (Lambin 1994). Modelos de Simulao Dinmica Espacial Modelos de Simulao Dinmica Espacial baseiam-se em modelos de ecossistemas com extenses para acomodar a heterogeneidade espacial e processos humanos de tomada de deciso. Uma abordagem para desenvolver modelos de simulao dinmica espacial representar o espao como uma matriz de clulas e aplicar as equaes matemticas a cada uma das clulas da matriz, simultaneamente. Cada clula do modelo est conectada com suas clulas vizinhas, de tal forma que possvel estabelecer um fluxo entre clulas adjacentes. Isto simplifica sobremaneira o mecanismo de predies do sistema porque por exemplo, se uma clula tem trs vizinhos com estado x, altamente provvel que o estado desta clula venha a ser x tambm. Entretanto, este raciocnio simplista pode ser aperfeioado em regras de transio. Outro aperfeioamento desse modelo a possibilidade de incorporar processos de tomada de decises. Modelos que incorporam este mecanismo so chamados modelos baseados em regras. As regras de tomada de deciso so representadas atravs de abstraes muito semelhantes quelas que ocorrem na mente humana. Um exemplo de modelo com as funcionalidades mencionadas acima o DELTA (Dynamic Ecological Land Tenure Analisys), um sistema desenvolvido para integrar
15

aspectos scio-econmicos da colonizao amaznica e aspectos ecolgicos do desmatamento e da liberao de carbono no Estado de Rondnia. O DELTA consiste em trs submodelos integrados que simulam, respectivamente, a difuso da colonizao, mudana do uso do solo e liberao de carbono. Os submodelos so examinados em diferentes escalas, o que caracteriza o modelo como muit-escala. Alm disto, o modelo considerado a playing game tool, pois no se restringe a fazer predies, mas sim a servir como instrumento para responder what if questions (Lambin 1994). Para finalizar, um resumo das caractersticas chaves de cada tipo de modelo, segundo o potencial de cada um deles para responder as perguntas porque, quando e onde apresentado a seguir: Modelo Cadeias de Markov Porqu Quando Onde pode predizer distribuies espaciais de elementos do modelo se for combinado com GIS pode predizer distribuies espaciais de elementos do modelo se for combinado com GIS no so modelos espaciais, entretanto podem ser combinados com GIS

no pode explicar a razo pode predizer a de um fenmeno por ser evoluo de processos processo estocstico e estacionrios no suportar a incluso de variveis exgenas permite a incluso de poucas variveis exgenas, entretanto um modelo descritivo, no suportando investigaes exploratrias suporta a dimenso temporal, podendo predizer a evoluo de processos no estacionrios

Logstico de Difuso

Regresso

contribui para identificar pode predizer a foras direcionadoras, evoluo de processos entretanto so modelos estacionrios descritivos, no sendo capaz de estabelecer relaes causais entre as variveis pode formular cenrios de mudanas futuras no uso do solo, baseado nos parmetros do modelo

Simulao de modelo exploratrio que descries Ecossistemas requer funcionais dos sistemas ecolgicos Simulao Espacial Dinmica

apresenta dificuldades representao espacial

na

requer modelos funcionais pode predizer espacialmente definidos mudanas temporais no uso do solo, baseado nos parmetros do modelo

pode predizer evoluo de padres espaciais em processos determinsticos

16

8.3.3

Autmatos Celulares

Em 1982 John Conway apresentou o Jogo da Vida (The Game of Life), demonstrando que regras muito simples quando aplicadas repetidamente sobre estados aleatrios, produzem resultados semelhantes forma como certos sistemas evoluem no mundo real. No Jogo da Vida o espao representado como uma grade de clulas, algumas das quais esto vivas e outras mortas. Dado um estado inicial aleatrio, a cada gerao, novas clulas nascem e algumas morrem. O que determina o estado de uma clula sua vizinhana que, neste caso, definida por quatro clulas adjacentes. Uma clula viva morre se tiver duas ou trs clulas vizinhas vivas. Por outro lado, uma clula morta renasce, se tiver trs clulas vizinhas vivas. Este sistema deu grande popularidade aos conceitos de autmatos celulares, que foram inicialmente apresentados por John Von Newmann (Roy, 1996) . Nos ltimos anos, os conceitos de autmatos celulares tem sido utilizados para modelar fenmenos fsicos e urbanos (Batty 1999, Burrough, 1998; Roy, 1996; Engelen, 1995; Cmara, 1996). Nesta abordagem o espao representado por um mosaico de clulas, geralmente de tamanhos e formatos idnticos (regular tesselations). Algumas das formas mais simples utilizadas para representar clulas em autmatos celulares so apresentadas na figura 8.12.

Figura 8.12 Representaes de clulas em autmatos celulares (fonte: Cmara, 1996)

Sobre cada clula de um autmato celular so aplicadas regras de transio. Regras de transio determinam quando e porque o estado de uma clula se altera e podem ser qualitativas ou quantitativas. Para ilustrar como se d o mecanismo de aplicao das regras de transio, apresentaremos um exemplo simples baseado em (Cmara 1996). Neste exemplo, uma clula pode assumir dois estados (branco e preto) e sua vizinhana definida sobre duas clulas adjacentes. As regras de transio especificam que o estado de uma clula num instante t+1 igual ao dos seus vizinhos no instante t, se estes vizinhos tiverem os estados iguais; caso contrrio, o estado da clula permanece o mesmo. Para entender o exemplo necessrio identificar os componentes bsicos do autmato celular clssico, que so:
17

espao euclidiano, dividido em um array de clulas uma vizinhana de tamanho e formato definidos (Figura 13a) um conjunto de estados discretos (Figura 13b) um conjunto de regras de transio (Figura 13c) um conjunto de intervalos de tempo, com atualizao simultnea das clulas (Figura 13d)

a) vizinhana

c) regras de transio

d) exemplo

b) estados
instante t

instante t+1 Figura 8.13 Exemplo de autmato celular (Fonte: Cmara,1966) A dinmica de aplicao das regras de transio em um autmato celular semelhante a de um filtro espacial. Desta forma, todas as clulas so avaliadas e, quando for o caso, modificadas para um novo estado. Na figura 13 d, a primeira clula da segunda linha do autmato tem, no instante t, o estado branco e suas vizinhas possuem estados diferentes (uma branca e outra preta). Neste caso o estado da clula permanece o mesmo (1a regra de transio). Seguindo o mesmo mecanismo, a segunda clula da segunda linha, tem no instante t o estado preto e suas vizinhas tem ambas o estado branco, logo o estado desta clula sofre uma transio para branco (2a regra de transio). O processo segue este mecanismo para as demais clulas at que todas tenham sido avaliadas. No exemplo acima, pode-se observar que as mudanas geradas por autmatos celulares so estritamente locais, isto , baseadas nas vizinhanas de cada clula. Nesta perspectiva, pode-se dizer que sua aplicao eficiente em processos em que a ordem global emerge de aes locais e descentralizadas (Batty 2000).

18

8.4

MODELAGEM DINMICA DE PROCESSOS FSICOS

Na seo anterior foram apresentados os princpios bsicos relativos aos principais componentes de um modelo espacial dinmico. Estes modelos so utilizados para explicar a ocorrncia de um fenmeno, seu padro espacial e sua evoluo ao longo do tempo, respondendo assim s questes chaves porque, onde e quando, respectivamente. Dentre as diversas aplicaes da modelagem espao-temporal podemos identificar dois grandes grupos de processos: os fsicos e os de planejamento urbano. Estes grupos possuem variveis e comportamentos diferenciados que exigem diferentes abordagens de implementao. Nesta seo focalizaremos alguns aspectos computacionais presentes em modelagem dinmica de processos fsicos e apresentaremos um exemplo de modelagem dinmica utilizando o aplicativo PCRaster.

8.4.1

Aspectos Computacionais

Fenmenos fsicos tais como o escoamento da gua da chuva e a difuso de plantas, encontrados na hidrologia e ecologia, respectivamente, so exemplos de fenmenos com alto ndice de variao do estado da superfcie ao longo do tempo. A complexidade dos modelos dinmicos depende da dimenso em que tais modelos operam, 2 ou 3D, e dos equacionamentos matemticos que utiliza . O mais simples dos modelos dinmicos chamado modelo pontual sem memria. Neste modelo, o estado de uma clula modificado apenas pela varivel fornecida como entrada para esta clula em um determinado instante t (Figura 14a). As demais clulas, bem como o estado desta clula em instantes anteriores no afetam o estado da clula naquele momento. Sendo assim, o estado de uma clula num processo pontual sem memria uma funo matemtica operando na varivel de entrada da clula no instante t (Figura 14b).

Si(t) = (Ij(t))
a)

b)

Figura 14 Clula cujo estado depende apenas da varivel de entrada (I) (fonte: Burrough, 1998)

19

Processos pontuais com memria referem-se a processos em que o estado de uma clula no instante t+1 retm informaes sobre seu estado no instante t. A memria da clula determinada por uma funo g operando no estado inicial da clula (Figura 15b). Um exemplo clssico para ilustrar o caso de processos pontuais com memria o caso da gua da chuva no solo. Quando o solo no consegue mais absorver gua deve ocorrer algum transporte de material. Neste caso esta distribuio de material pode ser feita verticalmente, isto , das clulas superiores para as inferiores (fluxo gravitacional Darcys law) , como mostra a Figura 15a.
I b) S1 F S2

Si ( t+1 ) = g ( Si ( t ) )+ ( Ij )

a)

Figura 15 Clula com adjacncia vertical (fonte: Burrough, 1998) Outra forma possvel de transporte de material, considerando ainda o exemplo da gua da chuva no solo, atravs da adjacncia lateral (processo de disperso), Figura 16a. Neste caso existem mais variveis envolvidas, o estado de uma clula depende do seu estado anterior, do fluxo de material e das entradas naquele intervalo de tempo (Figura 16b).
I1 I2 I3

a)

S1

S2 F1 F2

b)

Si(t+1)=g(Si(t)+ (Ii)) + Fin(t)

Figura 16 Clula com adjacncia horizontal (fonte: Burrough, 1998) As clulas podem tambm ser conectadas por ligaes topolgicas (Figura 17). Estas ligaes geralmente so baseadas em aspectos fsicos do transporte de material. No caso da gua de chuva, uma boa orientao para modelar o fluxo de material de clula para clula conhecer a topologia do terreno. Para que o fluxo de material de clula para clula possa ser computado a partir da topologia do terreno necessrio modelar esta topologia em uma forma computacionalmente apropriada. As redes Local Drain Direction (LDD), Figura 18, apresentam uma estrutura de dados computacional que viabiliza a interao entre as clulas. Nesta estrutura, que corresponde a um array de clulas (cellarray), cada clula
20

possui um atributo que indica a direo de fluxo. Esta direo pode ser para um dos seus oito vizinhos, considerando o espao 2D.

I1

I I F S F S3

Figura 17 Clulas com adjacncia direcionada pela topologia (fonte: Burrough, 1998) Para gerar a rede LDD existem vrios algoritmos dentre os quais o D8 (Deterministic algorithm) destaca-se pela sua simplicidade (Burrough and McDonnel 1998). Neste algoritmo, a direo do fluxo determinada pela direo mais inclinada dentro de uma janela 3x3 de clulas. Numa rede LDD existem dois tipos de clulas upstream e target. A clula target a clula para onde todo o fluxo direcionado. As demais clulas so chamadas upstream. Cu Cu Cu Cu Cu Cu Cu Cu Cu Cg Cu Cu Cu Cu Cu Cu Cu Cu Cu Cu Cu Cu Cu Cu Cu

Figura 18 Local Drain Direction (fonte: Burrough, 1998) O material pode fluir por uma rede LDD a partir de diferentes funes, tais como: fluxo acumulado - calcula o novo estado dos atributos de uma clula, somando o valor original da clula mais a soma acumulada de todos as clulas upstream, cujo fluxo passa por esta clula; capacidade de transporte de uma clula - limita o fluxo de clula para clula a uma atributo de capacidade de transporte fornecido em valores absolutos; frao de transporte - limita o fluxo sobre a rede a um parmetro que controla a proporo de material que pode fluir por cada clula.

21

valor limite modifica o acmulo de fluxo sobre a rede limitando o transporte de valores superiores a um determinado limite mnimo por clula. valor de disparo permite o fluxo de material apenas se um valor de disparo for excedido. PCRaster

8.4.2

Para demonstrar a aplicabilidade dos conceitos vistos nas sees anteriores, apresentaremos um exemplo de fenmeno fsico que requer modelagem dinmica para ser representado. Para modelar este fenmeno utilizaremos um aplicativo chamado PCRaster. PCRaster um toolkit para modelagem dinmica que opera no modo matricial (Raster) e oferece um conjunto de ferramentas para anlise espacial e temporal, funes para disperso espacial e transporte sobre redes topolgicas e um conjunto de metdos geoestatsticos para interpolao e simulao espacial. No PCRaster os resultados podem ser exibidos de forma dinmica em 2 ou 3D. Para ilustrar o uso do PCRaster utilizaremos como exemplo um caso de escoamento de gua da chuva em uma Bacia. Para modelar este processo necessrio fornecer como entradas para o sistema o Modelo Numrico do Terreno (MNT) e as sries temporais com os dados de precipitao pluviomtrica. A partir do MNT (Figura 20) gerada a rede LDD, que a rede de drenagem por onde a gua excedente flui. A gua excedente toda a gua que no foi infiltrada, por j ter excedido a capacidade de infiltrao da clula. Para determinar o padro espacial do processo de infiltrao, um mapa de solos da rea em estudo tem que ser fornecido. A partir destes dados, o programa executado e gera um conjunto de mapas resultantes (Figura 19).

d) Mapa de solos

a) MNT

rain in two rain areas for 1993, time = 1: november; time = 12: october 3 model time rain (mm/month) in rain area 1, id = 1 rain (mm/month) in rain area 2, id = 2 1 74 75 2 71 71 3 74 76 4 58 59 5 40 40 6 40 42 7 45 47

b) LDD

c) TSS

PROGRAMA PCRASTER

e)mapas resultantes

Figura 19 Esquema simplificado das entradas e sadas do PCRaster


22

As sries temporais so arquivos ascii, contendo dados armazenados de forma tabular (Figura 21). Os dados fornecidos na sries temporais so utilizados para calcular o novo estado das clulas. Uma das funes de fluxo de material, comentadas na seo anterior, selecionada pelo usurio para calcular o fluxo de gua de clula para clula.
rain in two rain areas 1: november; time = 12: 3 model time rain (mm/month) in rain rain (mm/month) in rain 1 74 75 2 71 71 3 74 76 4 58 59 5 40 40 6 40 42 7 45 47 8 62 64 9 80 78 10 80 85 11 75 79 12 67 69 for 1993, time = october

area 1, id = 1 area 2, id = 2

Figura 20 - MNT da rea de estudo

Figura 21 Srie temporal dos ndices pluviomtricos Um programa PCRaster (arquivos .mod) organizado em cinco sees: binding, areamap, timer, initial e dynamic. A seo binding onde so definidas as ligaes entre as variveis do programa e os arquivos. Estas ligaes tem dupla direo, tanto podem determinar que as variveis sero gravadas nos arquivos especificados (caso em que executado um comando report na seo dynamic), quanto podem apenas indicar que as variveis recebero valores provenientes dos arquivos especificados. Depois, na seo areamap, deve ser definido o formato geral dos mapas do modelo. Todos os mapas utilizados em um modelo devem ter o mesmo tamanho, localizao geogrfica e resoluo. Na seo timer, o domnio de tempo do modelo definido atravs de uma declarao que fornece os tempos inicial e final da execuo do modelo, bem como o intervalo ou passo em que este tempo deve variar ao longo da execuo do modelo. A seo initial utilizada para inicializar as variveis do programa. Esta seo executada antes da primeira execuo da seo dynamic. A seo dynamic a parte principal de um programa PCRaster. Descreve as mudanas temporais das variveis ou mapas do modelo. A principal caracterstica desta seo ser iterativa, isto , repetida, do incio ao final, para todo o intervalo de tempo definido na seo timer. A seguir apresentado um exemplo de programa PCRaster para calcular a precipitao da bacia, de nosso exemplo.
23

# model for simulation of rainfall # one timeslice represents one month binding RainTimeSeries=rain12.tss;# # Precip=rain; # # RainAreas=rainarea.map; # areamap clone.map; timer 1 12 1; initial # this section is empty dynamic # precipitation report Precip=timeinputscalar(RainTimeSeries,RainAreas);

timeseries with rainfall (mm) per month for two rain areas reported maps with precipitation, rain is suffix of filenames map with two rain areas

Figura 22 Programa PCRaster para calcular a precipitao

No programa acima, na seo binding as variveis dos programas foram associadas a arquivos do Banco de dados. A declarao RainTimeSeries=rain12.tss; especifica que ser utilizada a srie temporal armazenada no arquivo rain12.tss (Figura 21). Depois, na declarao Precip=rain; definido que o nome dos mapas de precipitao resultantes sero gravados em arquivos nomeados por rain0000.xxx(onde xxx varia de 001 a 012, porque a precipitao ser calculada para 12 meses, conforme definido na seo timer). Na seo timer especificado 1 12 1, que significa que o programa deve executar a seo dynamic 12 vezes, a varivel que controla estas repeties comea com o valor 1 e incrementada no passo 1. Na seo dynamic, a precipitao calculada atravs da expresso report Precip = timeinputscalar (RainTimeSeries, RainAreas); onde: Timeinputscalar uma funo que requer dois parmetros: a srie temporal e o mapa sobre o qual deve ser calculada a precipitao. Depois de calculada a preciptao , pode-se facilmente estender o programa anterior para calcular a precipitao total em m3/s. Para isto, basta incluir na seo dynamic a seguinte expresso:
report VolumePrecip=maptotal(Precip)*(cellarea()/2628);

onde 1/2628 o fator de converso da rea celular (Km2) e Precip(mm/month) para m3/s.

24

Nesta instruo a operao maptotal calcula a soma dos valores das clulas em Precip. Esta soma multiplicada pela rea de uma clula do mapa (cellArea()) e dividida pelo fator de converso para m3/s. Para calcular a precipitao efetiva, a evapo-transpirao deve ser includa no modelo. Assumindo que as condies do solo no influenciam na taxa de evapotranspirao, pode-se calcular a evaporao para um ms (Evap, mm/ms) atravs da expresso:
Evap=K * EvapRef

onde: EvapRef uma referncia , um padro da superfcie do solo durante o ms em questo. Existe um valor diferente para cada ms e para cada classe de uso do solo. K um coeficiente constante no tempo para uma classe de uso do solo. Depois, calcula-se a preciptao excedente, atravs da expresso: PrecipSurplus = Precip Evap; Se a precipitao excedente for positiva em um ms, ser adicionada ao solo. Se a quantidade mxima de gua no solo for atingida, a parte restante do excedente no ser mais adicionada no solo. Esta quantidade chamada gua excedente no solo e ser escoada para o subsolo. Quando a precipitao excedente for negativa, a quantidade de gua no solo ser subtrada, em valores absolutos, pela precipitao excedente naquele ms. Depois de calculada o balano de gua no solo, pode-se estender o modelo para para modelar o escoamento de gua na rea em estudo. Isto feito com o mapa de direo de drenagem local (local drain direction map ldd ). Uma funo de transporte de material tem que ser selecionada. Neste exemplo vamos utilizar a funo de fluxo acumulado, que no PCRaster implementada com o nome de accuflux e tem a seguinte sintaxe:
Resultfluxmap = accuflux(lddmap, materialmap);

onde: lddmap a rede ldd (Figura 23), materialmap um mapa do material a ser transportado e Resultfluxmap o mapa resultante. Na Figura 8.24 apresentada a seo dynamic do programa PCRaster que implementa o modelo descrito.

25

Figura 23 - LDD

dynamic # precipitation report Precip=timeinputscalar(RainTimeSeries,RainAreas); # total volume precipitation over study area, in cubic metres per second report VolumePrecip=maptotal(Precip)*(cellarea()/2628); # reference evapotranspiration EvapRef=timeinputscalar(EvapRefTimeSeries,1); # evapotranspiration report Evap=K*EvapRef; # precipitation surplus report PrecipSurplus=Precip-Evap; # intermediate soilwater content: soilwater plus precipitation surplus Soilwater=Soilwater+PrecipSurplus; # soil water surplus (mm/month) report SoilwaterSurplus=max(Soilwater-MaxSoilwater,0); # soilwater content, no saturation report Soilwater=min(Soilwater,MaxSoilwater); # discharge in mm/month DischargeMM=accuflux(Ldd,SoilwaterSurplus); # discharge in metres3/second report Discharge=DischargeMM*(cellarea()/2628);

Figura 24 Seo dynamic de programa PCRaster para escoamento da gua da chuva

26

8.5

MODELAGEM DINMICA DE PROCESSOS URBANOS

Na modelagem dinmica de processos urbanos, os autmatos celulares so usualmente utilizados para modelar o uso do solo. Tradicionalmente, autmatos celulares so implementados segundo critrios estritamente locais, isto , a dinmica de aplicao das regras de transio baseiam-se principalmente na vizinhana de uma clula. Entretanto, em muitos casos de processos urbanos, a funo de transio deve levar em conta diferentes fatores, incluindo: os efeitos da vizinhana, a qualidade do solo (fator ambiental), as taxas demogrficas da regio (fator social), a demanda por uma determinada atividade econmica e o comportamento dos agentes econmicos. Nesta seo, para representar a modelagem dinmica de processos urbanos sero apresentadas duas aplicaes diferentes. A primeira consiste numa aplicao baseada nos princpios bsicos de autmatos celulares, proposta por (Roy and Snickars 1996). A segunda aplicao, chamada Modelo Multi-Escala Integrado (Engelen 1995), apresenta uma estrutura sofisticada, capaz de integrar as variveis scio-econmicas e ambientais de sistemas urbanos. 8.5.1 Citylife

Numa tentativa de estudar a aplicabilidade de autmatos celulares na dinmica urbana, (Roy and Snickars 1996) implementou o Citylife, baseado no The Game of life. No Citylife o espao representado como uma grade regular de clulas em que cada clula representa uma unidade do espao ocupada por alguma atividade urbana tpica, como por exemplo: rea verde, residencial e trabalho. A partir de um estado inicial e um conjunto de regras de transio, o sistema cresce e evolui espacialmente. Cada clula no sistema tem uma atratividade para cada tipo de atividade urbana definida pela funo: Ai(k) = b(k,l)*ai(l) onde: b(k,l) um coeficiente que indica a probabilidade de uma clula do tipo k se transformar em uma clula tipo l (Tabela 1). ai (l) acessibilidade da clula i para clulas contendo uma atividade do tipo l. Definida pela funo: ai(k) = exp (- (k) * dij(k))*xj(k)/N(k)
j

onde: xj(k) = 1 se a clula j utilizada para a atividade k, 0 caso contrrio; dij(k) = distncia da clula i para a clula j para uma atividade do tipo k (k) = coeficiente de acessibilidade para uma atividade do tipo k N(k) = nmero de clulas contendo uma atividade do tipo k, onde j xj(k)=N(k)
27

Dado um estado inicial, o sistema aloca novas clulas para cada uma das atividades disponveis. O nmero de clulas a ser alocado para cada atividade depende do nmero de clulas do estado inicial. Assim, por exemplo se no estado inicial so alocadas duas clulas para reas verdes, duas clulas para rea de trabalho e quatro clulas para reas residenciais (Figura 25 a), ento a cada gerao o sistema alocar mais duas clulas para reas verdes, mais duas clulas para reas de trabalho e quatro clulas adicionais para rea residenciais. O critrio para seleo de uma clula a sua atratividade para a atividade, ser selecionada a clula com maior atratividade (Ai(k)).

b rea verde rea residencial rea de trabalho c Figura 25 Citylife a) estado inicial b)aps 10 geraes c) aps 20 geraes (fonte: Roy and Snickars 1996).

O mecanismo de expanso do Citylife considerado evolucionrio (estado futuro do sistema depende da trajetria seguida) e baseado na competio entre as clulas (Roy and Snickars 1996). Para o exemplo apresentado na Figura 25 adotou-se o seguintes coeficientes de interao entre as atividades:

28

Verde ResidencialTrabalho Verde Residencial Trabalho 1 0 0 0 1 0 0 0 1

Tabela 1 Coeficientes de probabilidade

Uma restrio do citylife considerar que uma vez que uma clula for ocupada por uma atividade ela permanecer nesta atividade. Desta forma, este sistema adota um modelo dinmico espacial de difuso por expanso e no de realocao.

29

8.5.2

Modelo Multi-Escala Integrado

Como j mencionado, fatores scio-econmicos so inerentes ao planejamento urbano. Na literatura recente, verifica-se uma tendncia de propostas de extenses ao modelo de autmato celular clssico, visando integrar fatores ambientais e scioeconmicos, para representar a dinmica espacial de fenmenos urbanos. Entre estas propostas destaca-se a de Engelen (1995), que apresenta uma estrutura de modelagem dinmica e de suporte a deciso capaz de operar em uma variedade de escalas. Esta estrutura constituda de dois nveis denominados macro e micro escalas. Na macro escala esto representadas as variveis ecolgicas e scioeconmicas que afetam o sistema como um todo. A micro escala representa a dimenso espacial do modelo. Estas escalas interagem intensivamente entre si e com um Bando de Dados Geogrfico, a partir do qual obtm os dados necessrios para as simulaes (Figura 26). A macro escala possui trs componentes representando os subsistemas natural, econmico e social. Estes sub-modelos esto conectados atravs de uma rede de influncia mtua e recproca. O subsistema natural representa condies ambientais tais como temperatura, precipitao e poluio. O subsistema social inclui dados demogrficos como nascimentos, morte e migrao. O subsistema econmico fortemente determinado pelas mudanas ocorridas no subsistema natural e pelas demandas sociais. Neste sentido, ele pode gerar demandas como, por exemplo, a necessidade por mais clulas residenciais quando a populao aumenta. A micro escala consiste em um autmato celular sobre o qual so aplicadas regras de transio para calcular as mudanas no uso do solo. Para ilustrar o uso deste modelo, consideraremos dados de um estudo para analisar os impactos de mudanas climticas em uma ilha do Caribe. Estes dados esto disponveis na homepage do RIKS (Research Institute for Knowledge Systems www.riks.nl ). Neste exemplo, a macro escala inclui no subsistema natural apenas mudanas climticas, no subsistema social inclui dados relativos a populao, nascimentos e mortes e no subsistema econmico as demandas geradas a partir da interao deste subsistema com os demais (Figura 27).

30

Figura 26 Integrao entre o Modelo Multi-Escala e GIS fonte:(Engelen 1995) .

31

Figura 27 A macro escala (fonte: Engelen 1995)

As condies climticas (climate) do modelo so definidas a partir de variveis ambientais tais como temperatura, precipitao e nvel do mar, e das relaes de influncia existentes entre elas.

Figura 28 O Subsistema Natural

A Figura 28 mostra que variaes na temperatura e no nvel do mar afetam as demais variveis. Estas relaes de influncia so tambm expressas de forma explcita, atravs de grficos e tabelas e podem ser manipulados pelo usurio de forma independente e interativa. Esta funcionalidade caracteriza este modelo como um

32

modelo exploratrio, pois permite que o usurio avalie um fenmeno a partir de diferentes cenrios (what if questions).

Figura 29 Os componentes do clima

As variveis sociais, de forma anloga s naturais, podem ser manipuladas de forma interativa e independente. Entretanto, as variveis econmicas so geradas a partir do comportamento dos subsistemas natural e social. Para o clculo destas variveis so utilizados coeficientes para medir o crescimento populacional e da oferta de empregos, por exemplo, e determinar o espao necessrio (demanda do solo) para acomodar as atividades econmicas (turismo, indstrias) afetadas por estes coeficientes.

Figura 30 Subsistemas Social e Econmico


33

Na micro escala, cada estado de clula representa uma categoria de uso do solo (Figura 31). Os estados so divididos em duas categorias: funes e feies. Funes so usos do solo ativos, tais como residencial, floresta, comercial. Em princpio, uma clula funo pode mudar para qualquer um dos estados possveis. Feies so usos do solo fixos, tais como rios, parques e aeroportos. Embora as feies no estejam sujeitas s mudanas geradas pelas regras de transio do autmato celular, eventualmente elas podem ser convertidas atravs de um processo especial ou uma interveno exgena. Feies aparecem como argumentos das regras e podem afetar a transio de clulas vizinhas. Assim, por exemplo, a existncia de um parque pode influenciar a transio de clulas vizinhas em clulas residenciais (White and Engelen 1997).

Figura 31 A micro escala

A demanda do solo para as vrias atividades fornecida pela macro escala, de acordo com um mecanismo baseado em trs classes de prioridades. As regras de prioridade um so intervenes do usurio como, por exemplo, a incluso de um aeroporto. As regras de prioridade dois so regidas pelo subsistema natural e geram certas transies diretamente, sem interferncia do autmato celular. Por exemplo, se o nvel do mar sobe, clulas com baixa elevao so convertidas em praias ou mangues (White and Engelen 1997). As regras de prioridade trs se aplicam s clulas ativas (funes). Para cada clula ativa calculado um vetor de potencialidades, em que cada potencialidade representa o grau de atrao de uma clula para uma determinado estado (z). O potencial (Pz) de uma clula depende de trs fatores:
a adequabilidade da clula para a atividade z (Sz) efeito agregado das clulas na vizinhana (Nz) uma pertubao estocstica (z ) 34

Estes fatores se relacionam da seguinte forma:

P z = S z N z + z
O efeito agregado da vizinhana (Nz) leva em considerao principalmente a localizao das clulas. A vizinhana de uma clula uma regio circular com um nmero varivel de clulas, organizadas em zonas de distncias. Assim, a frmula para calcular o efeito agregado de vizinhana consiste em:

Nz=
onde: Wz,y,d i Ld,i

Ld,i Wz,y,d

parmetro de peso aplicado a clulas no estado y na distncia d

ndice das clulas na zona de distncia d 1 se a clula i na distncia d est no estado y; 0, caso contrrio.

A regra de transio estabelece que cada clula ativa convertida para o estado para o qual seu potencial maior, mas at que a demanda por clulas deste estado seja atendida. Depois deste ponto, nenhuma outra clula convertida para este estado. Os potenciais para tal estado so ignorados nas converses subsequentes. Os resultados das simulaes so apresentados de forma dinmica na tela do computador, isto , o usurio acompanha todas as transies. Na Figura 32, so apresentados os resultados de uma simulao para 40 anos em que se trabalhou com dois cenrios. No primeiro cenrio, Figura 32 a, assumiu-se que no haveria mudanas climticas, ou seja, a temperatura e o nvel do mar se manteriam ao longo do tempo. No segundo cenrio, Figura 32 b, considerou-se que a temperatura aumentaria em 2C e o nvel do mar em +20cm. Em ambos os casos partiu-se da configurao inicial apresentada na Figura 31 e considerou-se que a populao apresentaria um crescimento de 2% ao ano e um nmero total de 11000 vagas de empregos, distribudas em diferentes atividades.

35

Figura 32 Simulaes a) sem mudanas climticas b) com mudanas climticas

Na Figura 32 b, simulada com o cenrio de mudanas climticas, pode-se observar uma reduo da rea das praias e mangue, como conseqncia do aumento do nvel do mar.

8.6

CONSIDERAES FINAIS

Este capitulo teve por objetivo apresentar os principais conceitos e aspectos computacionais envolvidos em sistemas de modelagem espacial dinmica. Na dimenso conceitual, verificou-se que cada um dos elementos chaves de um modelo dinmico, tais como espao, tempo e modelo matemtico permitem diferentes representaes computacionais. A escolha de uma forma de representao para um destes elementos afeta os demais, uma vez que as escalas de todos os elementos devem ser integradas. No contexto computacional, foi explorado a soluo baseada em autmatos celulares. No estudo desta abordagem de implementao, verificou-se que processos fsicos e urbanos possuem mecanismos distintos para aplicao de regras de transio. Enquanto os processos fsicos podem ser descritos por modelos determinsticos, os processos urbanos so caracterizados como processos estocsticos e so altamente influenciados por variveis exgenas. Nos processos fsicos, pode-se considerar a topologia do terreno, o que, apesar das crticas ao modo como as redes de drenagem LDD so geradas (discretizao do fluxo em 45o, introduo de artefatos, (Burrough and McDonnel 1998)), produz padres espaciais coerentes com os que acabam se desenvolvendo naturalmente no mundo real. Quanto modelagem de processos urbanos, sistemas como os desenvolvidos pelo RIKS (www.riks.nl) apresentam grande flexibilidade para a incluso de variveis que aumentam a preciso das predies,
36

entretanto, so sistemas de estrutura complexa, de difcil entendimento e implementao. No existe uma soluo nica para modelar fenmenos espaciais dinmicos. A soluo ideal para cada caso deve ser buscada tentando responder o porque, onde e quando de cada fenmeno, atravs da integrao das escalas temporal e espacial articulada com o modelo matemtico definido para descrever o fenmeno e prever sua evoluo. Cadeias de Markov, modelos logsticos de Difuso e Regresso so eficientes em modelar processos estacionrios mas so desprovidos de funcionalidades especficas para a representao espacial. Entretanto, estes modelos utilizam equaes matemticas simples e requerem poucos dados, alm de serem compatveis com o formato de dados oriundos de fontes de sensoriamento remoto e, como conseqncia, facilmente implementados em GIS. Modelos de Sistemas so classificados como modelos exploratrios, porque fornecem condies para que vrias simulaes possam ser investigadas a partir de diferentes cenrios. Entretanto, estes modelos requerem um profundo nvel de conhecimento do fenmeno em estudo e acabam por se tornar sistemas altamente especializados, no podendo ser aplicados a outras classes de fenmenos. Diferentes modelos servem a diferentes propsitos, logo eles no so excludentes, mas sim complementares. Nesta perspectiva, Lambin (1994) sugere que ao se construir um modelo deve-se faz-lo de forma gradual, comeando por Cadeias de Markov, que so os mais simples, e ir incorporando novos elementos (variveis exgenas) e funces (determinsticas) ao projeto. A dimenso espacial deve ser tambm introduzida de forma gradual, comeando com as relaes espaciais mais elementares como as de vizinhana, refinando continuamente, de forma a contemplar a noo de espao relativo e suporte a representaes em mtiplas escalas. Modelos espaciais dinmicos construdos com esta viso de projeto devem ser capazes de representar de forma realista os fenmenos dinmicos encontrados na natureza, superando as limitaes dos modelos atuais, baseados em concepes limitadas quanto s representaes do espao, do tempo e dos processos.

37

Referncias Bibliogrficas

Batty, M. (1999). Modeling urban dynamics through GIS-based cellular automata. Computers, Environment and Urban Systems 23: 205-233. Batty, M. (2000). GeoComputation Using Cellular Automata. GeoComputation. S. Openshaw and R. J. Abrahart, Taylor&Francis: 95-126. Burrough, P. (1998). Dynamic Modelling And Geocomputation. Geocomputation: A Primer. P. Longley, M. Batty and R. McDonnel. London, John Wiley & Sons. Burrough, P. and R. McDonnel (1998). Principles of Geographical Information Systems. Oxford, OUP. Cmara, A. S. (1996). Spatial Simulation Modelling. Spatial Analytical Perspectives on GIS. M. Fisher. London, Taylor & Francis: 213-218. Couclelis, H. (1997). From Cellular Automata to Urban Models: New Principles for Model Development and Implementation. Environment and Planning B: Planning and Design 24: 165-174. Couclelis, H. (1999). Space, Time, Geography. Geographical Information Systems. P. Longley, M. Goodchild, D. Maguire and D. Rhind. New York, John Wiley: 29-38. Edelweiss, N. and J. P. M. Oliveira (1994). Modelagem de Aspectos Temporais de Sistemas de Informao. Recife, UFPE-DI. Engelen, G. (1995). Using Cellular Automata for Integrated Modelling of Socioenvironmental Systems. Environmental Monitoring and Assessment 34: 203-214. Lambin, E. F. (1994). Modeling Deforestation Processes - A Review, Trees series B: Research Report . European Commission, Luxembourg. Reis, E. J. and S. Margulis (1991). Options for Slowing Amazon Jungle Clearing. Global warming: economic policy responses. R. Dornbusch and J. M. Poterba. Cambridge, The MIT Press: 335-375. Roy, G. G. and F. Snickars (1996). Citylife: A study of cellular automata in urban dynamics. Spatial Analytical Perspectives on GIS. M. Fisher. London, Taylor & Francis: 213-218. Santos, M. (1996). A Natureza do Espao: Tcnica e Tempo, Razo e Emoo. So Paulo, HUCITEC. Soares Filho, B. S. (1998). Modelagem dinmica de paisagem de uma regio de fronteira de colonizao amaznica. Escola Politcnica. So Paulo, Universidade de So Paulo. Voigtmann, A. B., L.; Hinrichs K.H. (1996). Temporal Extensions for an ObjectOriented Geo-Data_Model. Spatial Data Handling - 1996 (SDH'96).
38

White, R. and G. Engelen (1997). Cellular Automata as the Basis of Integrated Dynamic Regional Modelling. Environment and Planning B: Planning and Design 24: 165-174. Worboys, M. F. (1995). GIS - A Computing Perspective. Bristol, PA, Taylor & Francis Inc.

39

Você também pode gostar