Você está na página 1de 13

O uso de regresso logstica para

espacializao de probabilidades
EDUARDO M. VENTICINQUE1*
JULIANA STROPP CARNEIRO2
MARCELO PAUSTEIN MOREIRA2
LEANDRO FERREIRA3
1
2
3

Wildlife Conservation Society, Programa de Conservao Andes-Amaznia, Amazonas, Brasil.


Instituto Nacional de Pesquisas da Amaznia INPA, Amazonas, Brasil.
Museu Paraense Emilio Goeldi, Par, Brasil.
* e-mail: eventicinque@wcs.org

RESUMO
Neste trabalho discute-se o uso de modelos de regresso logstica em anlises espaciais,
fazendo uma breve introduo sobre regresses logsticas e usando estudos de casos da aplicao desta tcnica em estudos ecolgicos, utilizando aplicativos de Sistemas de Informao
Geogrfica.

ABSTRACT
In this chapter we discussed the use of logistic regression models in spatial analyses, doing a brief
introduction on logistic regression and your application in some study cases related to ecology
studies using with tools the Geographic Information System.

I NTRODUO
A regresso logstica vem sendo utilizada nas mais diversas reas da cincia. Este mtodo, assim como as
regresses lineares e mltiplas, estuda a relao entre
uma varivel resposta e uma ou mais variveis independentes. A diferena entre estas tcnicas de regresso se deve ao fato de que na regresso logstica as
variveis dependentes esto dispostas em categorias,
enquanto na regresso linear estas variveis so dados
contnuos ou discretos. Outra diferena que na regresso logstica a resposta expressa por meio de uma
probabilidade de ocorrncia, enquanto que na regresso simples obtm-se um valor numrico (Penha, 2002).

A estrutura do modelo logstico apropriada para


analisar o comportamento de uma varivel dependente categrica. Geralmente, a regresso logstica
realizada para dados binrios (Cox, 1970), entretanto,
tambm pode ser aplicada a dados multinominais.
Tipicamente, a varivel dependente binria e codificada como 0 (ausncia) ou 1 (presena); porm, pode
ser multinominal, sendo codificada como um nmero
inteiro, variando de 1 a k 1, onde k um nmero
positivo qualquer. Embora a regresso logstica possa
ser aplicada a qualquer varivel dependente categrica, ela utilizada com maior freqncia em anlises de
dados binrios. Estes exemplos incluem a estimativa
de probabilidade de ocorrncia de uma espcie em
MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

26 | O uso de regresso logstica para espacializao de probabilidades

funo de variaes na altitude ou da quantidade de


chuva, a estimativa da probabilidade de que uma rea
seja desflorestada em funo de sua distncia das estradas, rios ou sedes municipais, etc.
De forma sucinta, podemos dizer que existem trs
procedimentos distintos para manipular dados binrios, ordinais e nominais em regresso logstica. A
escolha de qual mtodo utilizar depende do nmero
de categorias e das caractersticas da varivel resposta,
conforme mostra a Tabela 1.

assumido que y representa uma distribuio de probabilidades, ou quando simplesmente expresso como
uma medida binria que estamos tentando predizer.
Apesar da diferena entre os dois grficos, o modelo
linear e o logstico so variantes um ao outro. Assumindo a varivel preditora (x), o modelo linear :
y = xb + e,
onde y um vetor de observaes, x uma matriz
dos preditores, e e um vetor de erros.
Enquanto que o modelo logstico :

TABELA 1 Tipos de varivel resposta.

TIPO

NMERO DE
CATEGORIAS

CARACTERSTICAS

Binria

Dois nveis

Ordinal*

3 ou +

Ordenao natural de nveis

Nominal*

3 ou +

Sem ordenao natural de nveis

y = exp ( xb + e)/ [1 + exp ( Xb + e)],


onde y a probabilidade de ocorrncia de um evento, x uma matriz dos preditores, e e um vetor de
erros.

(*) So variaes do estado multinominal ou politmico de uma


varivel (adaptado de Penha, 2002).

Uma varivel binria aquela que aceita apenas dois


nveis de resposta, como sim ou no. J uma varivel
ordinal segue uma ordenao natural dos fenmenos
ou eventos, como pequeno, mdio e grande, ou classificaes como ruim, regular, bom, ou excelente (ranks).
A nominal, por sua vez, pode ter mais de trs nveis e
no considera nenhuma ordenao. Um exemplo seria
a classificao de algum objeto em azul, preto, amarelo e vermelho; ou a previso do tempo como ensolarado,
nublado e chuvoso (Penha, 2002).
Existem vrios tipos de estudos que se pode analisar com modelos logsticos. Estes incluem bioensaios,
epidemiologia, experimentos clnicos, pesquisa de mercado, distribuio de espcies, etc. Neste trabalho ns
vamos nos ater s aplicaes da regresso logstica dentro de um Sistema de Informao Geogrfica (SIG) com
questes ligadas ecologia e conservao.
A Figura 1 compara o modelo linear com o logstico
binrio bsico, utilizando os mesmos dados. Note que
o modelo linear prediz valores de y contnuos infinitamente. Assim, se a predio para compreenso das
probabilidades, este modelo claramente imprprio.
Alm disso, o modelo linear no se ajusta mdia de x
para qualquer um dos valores da resposta. Geralmente
no se consegue ajustar estes dados satisfatoriamente.
Assim, podemos dizer que o modelo linear no apropriado para esta estrutura de dados. J o modelo logstico projetado para ajustar dados binrios, quando
MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

FIGURA 1 Modelos de regresso linear e logstica com dados


binrios.

Venticinque, Carneiro, Moreira & Ferreira |

Coeficientes e constantes
Podemos avaliar os coeficientes obtidos pela regresso
logstica de forma parecida com a que fazemos em uma
regresso linear. No entanto, sua interpretao diferente. O coeficiente da regresso logstica indica o
quanto aumenta a probabilidade de ocorrncia de um
evento para o aumento de uma unidade na varivel
independente. O coeficiente pode ser positivo ou negativo. No caso de um coeficiente positivo, quanto
maior for seu valor, maior ser o poder preditivo da
varivel independente sobre a probabilidade de ocorrncia de um evento. No entanto, a probabilidade de
0 a 1 resultado de uma funo no linear da probabilidade de ocorrncia de um evento.
muito importante lembrar o que quer dizer, em
termos de interpretao, uma funo no linear. Na regresso linear o acrscimo (ou decrscimo) do valor de
y em funo do acrscimo de x constante ao longo de
toda escala de valores de x. J na regresso logstica
isto no acontece, havendo reas onde essa mudana
mais pronunciada e outras onde ela nem ocorre. As reas
onde pequenas variaes nos valores de x causam grandes mudanas nos valores de y representam reas de
maior probabilidade de mudana de estado da varivel
y em funo de x.
Na Figura 2 podemos visualizar o efeito da variao dos valores da constante e dos coeficientes sobre
a curva de probabilidade estimada a partir de regresso logstica. O grfico da Figura 2a foi obtido somente
com a troca dos valores da constante (intercepto) e
podemos notar que as formas das curvas so exatamente as mesmas e a nica mudana sua localizao
no eixo x. Em outras palavras, todo modelo de regresso logstica tem seus limites entre 0 e 1, s que muitas vezes estes limites esto fora do nosso intervalo
de amostragem ou mesmo no so plausveis de acontecer, por exemplo, como valores negativos de distncia. Neste caso, no possvel visualizar em que
intervalo de x as probabilidades alcanam valores
prximos de 1. J na Figura 2b temos uma situao
distinta, onde a alterao dos coeficientes com uma
constante fixa causa mudanas evidentes na distribuio da probabilidade de ocorrer um evento em funo da mudana de valores no eixo x. Podemos notar
que quanto maior o coeficiente, maior a mudana
na probabilidade estimada em funo de mudanas
no x. De forma simplificada, podemos dizer que o coeficiente modela a curva enquanto que a constante a
localiza em funo do x.

27

(a)

(b)
FIGURA 2 Modelos de regresso logstica obtidos com
alteraes somente na constante (a) e no coeficiente (b).

Razo de chances (odds ratio)


A razo de chances permite conhecer quais chances um
evento tem de acontecer se, sob as mesmas condies,
ele no acontecer. Ou seja, razo de chances uma
medida de associao e expressa a aproximao do
quanto mais provvel (ou improvvel) para o resultado estar presente entre aqueles com x = 1 do que entre
aqueles com x = 0. Por exemplo, se y denota a presena ou ausncia de uma determinada espcie e x denota
se a rea tem ou no tem floresta, o Odds = 2 indica
que a presena daquela espcie duas vezes mais esperada em reas com floresta do que em reas sem
floresta. Ou seja, a presena de floresta muito importante para aumentar a chance de ocorrncia daquela
espcie. Outro exemplo, que talvez possa ser mais intuitivo, seria a razo de chances de ser atropelado toda
vez que se atravessa uma avenida. Mesmo que voc

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

28 | O uso de regresso logstica para espacializao de probabilidades

atravesse a avenida e no seja atropelado, existia uma


chance deste evento ocorrer, essa chance a razo de
chances ou odds ratio. A razo de chances de resposta dada por p/(1-p) onde p a probabilidade de resposta, e a razo de chances o fator multiplicativo de
mudana de estado de y quando a varivel independente aumenta uma unidade. O livro de Hosmer &
Lemeshow (1989) contm maiores explicaes sobre a
interpretao e forma de clculo das razes de chance
e de seus intervalos de confiana.
Estatstica de Likelihood-Ratio
Uma vez definido o modelo, necessrio testar a sua
validade. Em regresso logstica h uma srie de grficos, testes de ajuste, e outras medidas para assegurar a validade do modelo. Estas estatsticas permitem
identificar as variveis que no se ajustam bem, ou
que tm forte influncia sobre a estimativa dos parmetros.
Uma das formas mais comuns de se avaliar o modelo
como um todo, por meio da estatstica de LikelihoodRatio. Esta estatstica testa a hiptese de que todos os
coeficientes, menos a constante, so iguais a 0. A significncia da estatstica de Likelihood-Ratio (LR) testada
utilizando a distribuio do X2 com os graus de liberdade iguais ao nmero de variveis independentes no
modelo, no incluindo a constante.
O teste de Likelihood-Ratio, ou teste G, calculado
utilizando o valor da estatstica de log likelihood do
modelo saturado e do insaturado. Tipicamente, o modelo saturado contm o conjunto de variveis analisadas e o modelo insaturado omite um subconjunto
selecionado, embora outras restries sejam possveis.
A estatstica do teste duas vezes a diferena do
Likelihood-Ratio do modelo saturado para o insaturado
e testada com a distribuio do X2, sendo o grau de
liberdade igual ao nmero de restries impostas. Se
um modelo contm uma constante, podemos calcular
um teste de Likelihood-Ratio da hiptese nula em que
todos os coeficientes, exceto a constante, so iguais a
0. A frmula da estatstica G usada para testar o modelo a seguinte:
G = 2*[LL(N)-LL(0)]
Onde:
LL(N) = log likelihood do modelo saturado
(todas as variveis inclusas)
LL(0) = log likelihood do modelo insaturado
(somente a constante inclusa)

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

Quando fazemos essa subtrao, estamos olhando,


simplesmente, o quanto as variveis esto causando
mudanas nas probabilidades de ocorrncia de um
evento e se essas mudanas so maiores que esperadas ao acaso.
Para ilustrar o uso do teste de Likelihood-Ratio, considere o seguinte modelo:
Presena de uma espcie =
CONSTANTE + altitude + chuva + temperatura (saturado)
Presena de uma espcie =
CONSTANTE + altitude + chuva (insaturado)
Podemos formular a hiptese nula de que a temperatura no contribui para explicar a variao do modelo e proceder ao teste desta forma. Suponha que para
este exemplo os valores de G so 12,05 e 5,01, com
3 e 2 graus de liberdade para os modelos saturado e
insaturado, respectivamente. Agora podemos entender
a variao que explicada pela temperatura, entendendo quanto perdemos de poder de explicao ao
removermos essa varivel do modelo. Isso pode ser
realizado da seguinte forma:
Efeito da temperatura = G (insaturado) G (saturado),
com 3 2 graus de liberdade.
Essa expresso fica assim:
G= 12,05 5,01, com 1 grau de liberdade
G= 7,04, gl=1 e p<0,05, rejeitando-se a hiptese nula
de que a temperatura no tem influncia sobre a probabilidade de ocorrncia de uma determinada espcie.

T ESTES

ESTATSTICOS DE AJUSTE DO MODELO S

OBSERVAES

Rho2 de McFadden
Rho2 de McFadden uma transformao da estatstica
de LR para imitar um R2 da regresso linear. Seus valores esto sempre entre 0 e 1 e, quanto mais alto, melhor o ajuste do modelo aos resultados. Entretanto, o
Rho2 de McFadden tende a ser muito mais baixo que R2.
Porm, baixos valores no implicam, necessariamente,
num ajuste pobre. Valores entre 0,2 e 0,4 so considerados satisfatrios (Hensher & Johnson, 1981).

Venticinque, Carneiro, Moreira & Ferreira |

Pearson
Mede quo bem a observao prevista pelo modelo.
Observaes que no se ajustam bem ao modelo tm
um alto valor de Pearson.
Hosmer-Lemeshow
Este teste avalia o modelo ajustado, comparando as freqncias observadas e as esperadas. O teste associa os
dados s suas probabilidades estimadas, da mais baixa
mais alta, e ento faz um teste qui-quadrado para determinar se as freqncias estimadas esto prximas das
freqncias observadas (Hosmer & Lemeshow, 1989).
Diagnsticos de regresso
Na regresso logstica, a representao grfica permite
visualizar vrios testes de ajuste, sendo que h grficos relacionados probabilidade do evento e outros
relacionados alavancagem (que diz se uma observao um ponto extremo e possui uma forte influncia
na determinao da reta de regresso, o que diminui a
capacidade de anlise do modelo). A inspeo grfica
realizada com base nos pontos extremos de influncia
(ou outliers). Em alguns casos, o ponto que foi identificado como extremo deve ser excludo da amostra e,
em seguida, deve ser novamente calculada a equao e
o grfico. Quando os coeficientes desta nova equao
forem muito diferentes dos coeficientes da antiga, significa que aquele era um ponto de influncia. Se o contrrio ocorrer, significa que aquele ponto era apenas
um ponto extremo. A deciso de se remover dados da
amostra deve ser procedida com muito critrio e cuidado. Geralmente, existem informaes importantes
nestes pontos discrepantes. Por exemplo, os grficos
do delta qui-quadrado (DELPSTAT) versus probabilidade
do evento identificam os pontos que no se ajustam
bem aos modelos.
Em diversos pacotes estatsticos pode-se criar um
arquivo para elaborar diagnsticos da regresso logstica (Pregibon, 1981; Cook & Weisberg, 1984; Steinberg
& Colla, 1998). No caso do programa SYSTAT, o arquivo
contm as variveis apresentadas na Tabela 2.
Podemos entender a varivel: LEVERAGE (1) como
uma medida da influncia de uma observao no ajuste
do modelo, e a varivel DELBETA (1) como uma medida
da mudana no vetor do coeficiente devido quela observao. Por exemplo, os grficos de PEARSON,
DEVIANCE, LEVERAGE (1), DELPSTAT, com o CASO, destacam pontos de dados diferenciados. Para discusso
adicional e interpretao de grficos de diagnstico,
veja o Captulo 5 de Hosmer & Lemeshow (1989).

29

TABELA 2 Variveis de diagnstico da regresso logstica


geradas pelo programa estatstico SYSTAT. Uma descrio
detalhada destas variveis pode ser encontrada no manual
do SYSTAT ou em Hosmer & Lemeshow (1989).
NOME NO
ARQUIVO
ACTUAL
PREDIGA
PROB
LEVERAGE (1)
LEVERAGE (2)
PEARSON
VARIANCE
PADRO
DEVIANCE
DELPSTAT
DELBETA (1)
DELBETA (2)
DELBETA (3)

LEGENDA
Valor da varivel dependente
Valor predito (1 ou 0)
Probabilidade predita
Elemento diagonal da matriz
chapu de Pregibon
Componente de LEVERAGE (1)
Resduo de observao de Pearson
Varincia de resduo de Pearson
Resduo de Pearson padronizado
Desvios Residuais
Mudana no x2 de Pearson
Mudana padronizada em Beta
Mudana padronizada em Beta
Mudana padronizada em Beta

Principais problemas e vantagens


PROBLEMAS
Se o fenmeno de interesse no for monotnico e
seu pico de freqncia tiver valores intermedirios,
ser difcil obter um bom ajuste do modelo. Esse tipo
de problema pode ser identificado atravs da anlise
dos resduos da regresso;
Pontos discrepantes, principalmente nos limites da
distribuio das variveis explanatrias, podem causar resultados esprios;
Obter dados confiveis e no viciados para alimentao do modelo;
Autocorrelao espacial.
VANTAGENS
O modelo logstico requer informaes simples e,
portanto pode ser alimentado com facilidade;
Trabalha com N variveis simultaneamente;
Trabalha simultaneamente com N vetores direcionais
de variao. Essa flexibilidade pode ser obtida quando construmos em um Sistema de Informao Geogrfica uma camada de dados independente. No caso
de se trabalhar com informaes com formas irregulares, por exemplo, distncia da estrada ou declividade, o sentido de variao espacial do fenmeno pode
ocorrer em diferentes direes;
As probabilidades obtidas podem ser espacializadas
e ento se aplicar um filtro para que os padres possam ser mais facilmente visualizados;
Facilidade de interpretao e uso dos resultados em
probabilidades.

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

30 | O uso de regresso logstica para espacializao de probabilidades

Validao do modelo
Assim como a maioria dos mtodos, a regresso logstica necessita de novos dados (nova amostra) ou de uma
amostra reservada dos dados para verificar se o mesmo
modelo pode ser satisfatoriamente ajustado a estes
novos dados. Ou seja, preciso determinar se os coeficientes e os erros-padro obtidos a partir dos dados
utilizados para elaborao do modelo so similares aos
obtidos para os dados de validao.
O uso de regresso logstica na anlise espacial
Fizemos uma consulta bibliogrfica (www.webofscience.
com) a partir das palavras-chave regresso logstica e
Sistemas de Informao Geogrfica e obtivemos 93
trabalhos publicados ao longo de 58 anos. O uso das
regresses logsticas associado a Sistemas de Informao Geogrfica comeou a ser mais praticado a partir
de 1990 (Figura 3). De 1999 at 2003 foram publicados, em mdia, 14 trabalhos por ano.

FIGURA 3 Nmero de publicaes encontradas no site


www.webofscience.com, referente ao emprego de regresso
logstica em Sistemas de Informao Geogrfica (SIG).

E XEMPLOS

DE APLICAO DA REGRESSO LOGSTICA

Aqui vamos citar trs exemplos onde tcnicas de regresso logstica simples so utilizadas. O leitor poder reparar que o uso pode ter variao na escala
espacial empregada, podendo ser usada desde a deteco de respostas de Odonata proporo de florestas circundando igaraps na Amaznia central at
modelos de desflorestamento em funo da malha
viria na Amaznia Legal. Outra caracterstica relevante diz respeito s diferentes formas com que estes

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

modelos podem ser usados. H casos, como no exemplo da probabilidade de ocorrncia de espcies de
Odonata em funo da quantidade de floresta, onde
os resultados no so reprojetados, ou seja, no h
espacializao das probabilidades, pois estvamos interessados simplesmente em saber se h influncia da
quantidade de floresta preservada ao longo dos pequenos cursos dgua sobre a ocorrncia de determinadas espcies.
No estudo realizado com distribuio de rvores na
Mil Madeireira Itacoatiara Ltda, as probabilidades de
ocorrncia de cada espcie foram projetadas no espao,
utilizando como base os mapas de altitude e declividade (variveis independentes). Neste caso, foi utilizada
uma regresso logstica mltipla e o modelo pode ser
considerado espacialmente explcito, pois podemos localizar, no espao, todas as probabilidades.
Outro exemplo em que o espao continua implcito,
mas as probabilidades no so projetadas no mapa, o
trabalho sobre a importncia das unidades de conservao e terras indgenas, ajudando a conter o desmatamento na Amaznia brasileira. Nesse caso, a regresso
logstica foi utilizada para entender a probabilidade de
uma rea florestada ser convertida em rea desflorestada, considerando se est localizada dentro ou fora
de uma terra indgena ou unidade de conservao, e a
distncia que est da malha viria.
O que tentamos aqui, por meio destes exemplos,
oferecer ao leitor um panorama geral de alguns usos
que podemos ter com regresso logstica, e tambm
chamar ateno para o uso da tcnica com problemas
espaciais.
Mudanas na fauna de odonatas em igaraps
amaznicos, em funo de alteraes na cobertura
vegetal
Este estudo, realizado na Amaznia central, estima a
probabilidade de ocorrncia de espcies de odonatas
em funo da quantidade de floresta. Neste estudo, o
pesquisador Dr. Paulo de Marco estava interessado em
saber se existe influncia da quantidade de floresta preservada ao longo dos pequenos cursos de gua sobre a
ocorrncia de determinadas espcies de odonatas. O
resultado ajuda a avaliar se a largura da mata ripria
prevista no Cdigo Florestal Brasileiro suficiente para
manter o conjunto de espcies de odonatas.
Probabilidade de ocorrncia de uma espcie =
exp ( % de cobertura florestal * coeficiente +
Intercepto + erro) / [1 + exp (% de cobertura florestal
* coeficiente + Intercepto+ erro)]

Venticinque, Carneiro, Moreira & Ferreira |

FIGURA 4 Exemplo de como a paisagem tratada neste


estudo. A anlise realizada utilizando o valor de cobertura
florestal contida dentro das reas de influncia. No caso deste
estudo, os anis so distanciados 50 metros.

Podemos notar nos resultados (Tabela 3) que somente


uma espcie respondeu s alteraes na cobertura de
forma negativa, ou seja, quanto maior era a porcentagem de cobertura florestal menor era a probabilidade
de encontrar a espcie. As demais espcies no responderam proporo de mata ao redor dos pontos amostrais, na rea do estudo.
Uso de regresso logstica para modelar a
distribuio espacial de espcies arbreas na
Amaznia central
O presente trabalho parte dos resultados apresentados na dissertao de mestrado de Juliana Stropp Carneiro, sob a orientao do Dr. Eduardo Venticinque

31

(Carneiro, 2004). Este trabalho teve como objetivo elaborar modelos preditivos de ocorrncia de Aniba
roseaodora (pau-rosa), Cariniana micrantha, Caryocar
villosum, Dinizia excelsa, Dipteryx odorata, Goupia
glabra, Manilkara bidentata, Manilkara huberi, Parkia
multijuga, Parkia pendula, Peltogyne paniculata e
Pseudopiptadenia psilostachya em funo da topografia. Estimamos a probabilidade de ocorrncia dos indivduos com regresso logstica mltipla, sendo a varivel dicotmica a presena e a ausncia dos indivduos,
e as variveis contnuas a altitude e a declividade do
terreno. As informaes sobre a ocorrncia das rvores
foram cedidas pela Mil Madeireira Itacoatiara Ltda. Os
dados sobre a ocorrncia dos indivduos arbreos foram coletados pela empresa durante a prospeco e o
mapeamento das rvores com DAP 40 cm. As informaes sobre a ocorrncia das rvores consistem em
um arquivo do tipo pontos, em formato shapefile, com
a lista de espcies e as coordenadas da localizao dos
indivduos em UTM. Convertemos esse arquivo para o
formato matricial e obtivemos um arquivo do tipo GRID,
com clulas de 93 m. Elaboramos o Modelo Digital do
Terreno a partir dos dados do Shuttle Radar Topography
Mission (SRTM) e adquirimos os dados sobre altitude
no site http://seamless.usg.gov. Para a correo geomtrica, utilizamos como base uma imagem Landsat
TM 7 (rbita/ponto 230/62) georreferenciada (projeo
UTM zona 21; datum WGS 84). Posteriormente, coregistramos a imagem SRTM com a base dos igaraps
da rea de interesse digitalizada. Para obter os parmetros da regresso logstica, exportamos os dados do
ArcView 3.2 e os analisamos em um pacote estatstico.
Posteriormente, aplicamos as equaes obtidas nos
modelos logsticos aos temas de altitude e declividade
e obtivemos os mapas de probabilidade de ocorrncia
de indivduos (ver anexo). Deste modo, estes mapas
expressam a probabilidade de ocorrncia dos indivduos em clulas de 93 m, dada a altitude e declividade
daquela clula.

TABELA 3 Anlise de regresso logstica para a dependncia da presena de algumas espcies de


Odonata em relao proporo de mata ao redor dos pontos amostrais, na rea do Projeto Dinmica
Biolgica de Fragmentos Florestais (PDBFF), Manaus, AM. Valores entre parnteses so os erros padres
dos parmetros estimados.
ESPCIE

COEFICIENTE BO

% DE MATA

X2 (VALOR DE p)

Argia sp.1

-1,086 (1,138)

2,305 (1,631)

2,145 (0,143)

Argia sp. 2

2,665 (1,461)

-3,233 (1,861)

3,656 (0,050)

Chalcopteryx scintilans

-0,782 (1,114)

1,490 (1,549)

0,954 (0,329)

Dicterias atrosanguinea

-0,080 (1,094)

-0,181 (1,504)

0,014 (0,904)

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

32 | O uso de regresso logstica para espacializao de probabilidades

Para determinar a capacidade preditiva do modelo,


obtivemos a tabela de sucesso de predio para cada
um dos modelos gerados. Esta tabela composta pelas
variveis expressas abaixo:

resposta = Pi ,
onde Pi a probabilidade estimada para as clulas de
presena;

referncia = Pj ,
onde Pj a probabilidade estimada para as clulas de
ausncia;

ndice de acerto de presena =

resposta
,
Ni

onde Ni o nmero de clulas de presena;

ndice de acerto de ausncia =

referncia
,
Nj

onde Nj o nmero de clulas de ausncia.


As variveis ndice de acerto de presena, ndice de
acerto de ausncia e ndice de acerto total refletem a
relao entre a distribuio observada e a esperada,
indicando o nvel de acerto do modelo.
Ainda com o objetivo de determinar se as probabilidades geradas pelos modelos refletem aumento no
acerto de ocorrncia de um indivduo, comparamos a
probabilidade de acerto usando o modelo com a probabilidade de acerto ao acaso.
A anlise de regresso logstica indicou associao
entre a ocorrncia dos indivduos e a topografia para
10 espcies. As espcies D. excelsa, A. rosaeodora e C.
villosum tiveram o padro de distribuio distinto das
demais, em relao topografia. D. excelsa teve relao
positiva tanto com a declividade quanto com a altitude,
sugerindo que a probabilidade de encontrar indivduos
dessa espcie maior em lugares altos e ngremes, ou
seja, no incio dos plats. J a ocorrncia de C. villosum
teve relao positiva com a declividade e negativa com
a altitude, indicando que esta espcie ocorre nas vertentes e em baixas altitudes. A. rosaeodora mostrou-se
negativamente relacionada com as variveis topogrficas analisadas, ocorrendo em locais de altitude e declividade baixas, estando assim associada s regies de
baixio. Entretanto as espcies C. micrantha, G. glabra,
M. huberi, M. bidentata, P. multijuga, P. pendula e

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

P. psilostachya evidenciaram semelhanas na maneira


em que se distribuem ao longo da toposeqncia.
Essas espcies mostraram-se associadas a locais de altitude elevada e baixa declividade, caractersticas que
definem os ambientes de plat. As espcies D. odorata
e P. paniculata no tiveram a distribuio estruturada
pela topografia.
Os mapas de probabilidade de ocorrncia das espcies estudadas representam a configurao espacial da
distribuio prevista para cada espcie. Nos mapas das
espcies que tm sua ocorrncia influenciada pela topografia, possvel visualizar concordncia entre as
probabilidades mapeadas e a varivel topogrfica de
maior influncia sobre a distribuio de seus indivduos.
A Figura 5 ilustra o exemplo do mapa de probabilidade
de ocorrncia de P. multijuga. Neste caso, o ndice de
acerto de presena foi maior que a probabilidade de
encontrar indivduos ao acaso, indicando que o modelo capaz de prever a distribuio desta espcie na
rea onde foi elaborado.
O modelo preditivo foi capaz de prever corretamente
a ocorrncia de A. rosaeodora, C. micrantha, C. villosum,
D. excelsa, M. huberi, M. bidentata, P. multijuga, P. pendula
e P. psilostachya na rea onde foi elaborado. Esse resultado indica que, em determinados compartimentos da
paisagem, a topografia pode condicionar a distribuio
de algumas espcies. Em geral, as caractersticas edficas
das florestas de terra firme da Amaznia central se alteram ao longo do gradiente de altitude. Dessa forma, a
topografia uma medida indireta das mudanas do ambiente na paisagem (Tuomisto & Ruokolainen, 1994) e,
portanto, as diferentes respostas das espcies frente s
posies topogrficas refletem a influncia que a variao ambiental pode ter sobre a estrutura espacial dessas
espcies. No caso do trabalho aqui apresentado, a liberao dos dados SRTM na Internet foi fundamental para
alcanar os objetivos propostos. Vale lembrar que j
existem imagens do SRTM com resoluo de 30 metros
disponveis para os Estados Unidos da Amrica e, em breve, provvel que tenhamos acesso a esta informao
para a regio Amaznica. Caso isso ocorra, poderemos
fazer modelos ainda mais precisos, baseados na topografia. Outro fato importante a ausncia de custo para
se trabalhar com estas imagens. Se conseguirmos gerar
bons modelos preditivos sobre a distribuio de espcies arbreas com dados provenientes do SRTM, passaremos a ter uma ferramenta eficiente e de baixo custo
para modelar a distribuio destas espcies.

Venticinque, Carneiro, Moreira & Ferreira |

33

Altitude

45.556 - 54.593
54.593 - 63.63
63.63 - 72.667
72.667 - 81.704
81.704 - 90.741
90.741 - 99.778
99.778 - 108.815
108.815 - 117.852
117.852 - 125.889

Declividade

Regresso Logstica
8.75 - 9.839
7.661 - 8.75
6.571 - 7.661
5.482 - 6.571
4.392 - 5.482
3.303 - 4.392
2.213 - 3.303
1.124 - 2.213
0.034 - 1.124

Parkia
multijuga

1 presena
0 ausncia

Espacializao

Probabilidade
de ocorrncia

0.000
0.098
0.196
0.294
0.392
0.490
0.588
0.686
0.784
0.882

0.980
0.196
0.294
0.392
0.490
0.588
0.686
0.784
0.882
0.980

FIGURA 5 Mapa de probabilidade de ocorrncia de Parkia multijuga, obtido a partir dos dados de ocorrncia dos indivduos,
altitude e declividade, na rea da Mil Madeireira Itacoatiara Ltda.

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

34 | O uso de regresso logstica para espacializao de probabilidades

- 66

- 63

- 60

Rondnia
-9

- 12

Limites do Estado
Estradas
Proteo integral
Uso sustentvel
Terras indgenas
reas desmatadas
- 57

- 54

- 51

- 48

Par
0

-3

-6

-9

- 63

- 60

- 57

- 54

- 51

-6

- 48

Mato Grosso

-9

- 12

- 15

- 18

FIGURA 6 Proporo de rea desmatada em funo da distncia das estradas, dentro (tracejado) e fora (contnua) de reas
protegidas, em Rondnia, no Par e no Mato Grosso.

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

Venticinque, Carneiro, Moreira & Ferreira |

O aumento do poder de predio providenciado pelo


modelo influenciado pelos fatores que estruturam
espacialmente as espcies. Assim, se o modelo contempla os fatores preponderantes na ocorrncia das
espcies, o poder de predio maior. Deste modo,
a compreenso dos fatores que interferem na distribuio espacial das espcies e sua incorporao aos modelos preditivos podem providenciar modelos mais
prximos da realidade. Portanto, a incorporao de informaes da variao ambiental, bem como estudos
aprofundados da relao espcie-ambiente (Pitman et
al., 2001) e a anlise da distribuio das rvores em
escala regional, podem contribuir para a modelagem
da distribuio espacial das rvores. Dado o contexto
em que se insere a anlise da configurao espacial da
vegetao, a anlise dos dados sobre variveis ambientais relacionadas com a ocorrncia de espcies pode
ser proveitosa para a compreenso da distribuio da
diversidade na Amaznia.
Unidades de conservao e terras indgenas ajudam
a conter desmatamento na Amaznia brasileira
O objetivo deste tpico foi testar diferenas no nvel
de desmatamento dentro e fora de unidades de conservao (proteo integral e uso sustentvel) e terras
indgenas (denominadas aqui como reas protegidas)
em relao distncia das estradas, nos Estados de
Rondnia, Par e Mato Grosso, para ilustrar a importncia de unidades de conservao como redutores do
efeito do desmatamento na Amaznia. Estes estados
foram escolhidos como estudos de caso devido a sua
importncia na participao do desmatamento da Amaznia, j que somam cerca de 70% do total da rea
desmatada nesta regio entre 2000-2001 (INPE, 2003).
Os Estados de Rondnia, Par e Mato Grosso tm cerca
de 29,2%, 20,4%, e 28,4% de sua rea j desmatada, respectivamente.
A anlise demonstra que a proporo total da rea
desmatada fora das reas protegidas sempre foi significativamente mais elevada do que no interior destas.
Uma diferena que pode variar de 9,8 a 19,6 vezes, dependendo do estado analisado. A regresso logstica
tambm permite demonstrar que a proporo do desmatamento decai exponencialmente em funo da distncia das estradas. Contudo, o desmatamento dentro
das reas protegidas sempre menor do que fora delas
nos trs estados analisados, mesmo quando estas reas
situam-se prximas a estradas. Isso derruba a crena
de que as reas protegidas sofreriam menos desmatamento somente pelo fato de estarem situadas mais distantes das estradas (Figura 6).

35

AGRADECIMENTOS
Agradecemos Mil Madeireira Itacoatiara Ltda. pela disponibilizao da base de dados, ao Projeto Dinmica
Biolgica de Fragmentos Florestais (PDBFF), ao WWF
Brasil, Projeto Experimento de Grande Escala da
Biosfera-Atmosfera da Amaznia (LBA) e ao Projeto
Geoma, pelo suporte financeiro (Bolsa de Marcelo
Moreira). Marina Antongiovanni, Amanda Mortati e
Ana Albernaz pela reviso do texto. Ao Dr. Paulo De
Marco por nos autorizar a usar seus dados em um dos
exemplos.

REFERNCIAS BIBLIOGRFICAS
Carneiro, J.S. 2004. Mapeamento preditivo da vegetao: uso
de SIG para modelar a distribuio espacial de espcies
arbreas na Amaznia central. 2004. Dissertao de Mestrado. Instituto Nacional de Pesquisas da Amaznia (INPA),
Manaus.
Cook, D.R. & S. Weisberg. 1984. Residuals and influence in
regression. Chapman and Hall, New York.
Cox, D.R. 1970. The analysis of binary data. Methuen, Londres.
Hensher, D. & L.W. Johnson. 1981. Applied discrete choice
modelling. Croom Helm, London.
Hosmer, D.W. & S. Lemeshow. 1989. Applied logistic regression.
John Wiley & Sons, Inc., New York.
INPE. 2003. Disponvel em: http://www.obt.inpe.br/prodes
(acessado em janeiro 2007).
Penha, R.N. 2002. Um estudo sobre regresso logstica binria.
Disponvel em: http://www.iem.efei.br/dpr/td/producao2002/
PDF/Renata.PDF (acessado em novembro de 2003).
Pitman, N.C.A., J. Terborgh, M.R. Silman, P.V. Nez, D.A. Neill,
C.E. Cern, W.A. Palacios & M. Aulestia. 2001. Dominance
and distribution of tree species in upper Amazonian terra
firme forests. Ecology 82: 2101-2117.
Pregibon, D. 1981. Logistic regression diagnostics. Annals of
Statistics 9: 705-724.
Steinberg, D. & P. Colla. 1998. Logistic regression. In: Wilkinson,
L. (ed). SYSTAT 8.0 Statistics. pp. 517-584. Chicago.
Tuomisto, H. & K. Ruokolainen. 1994. Distribution of Pteridophyta and Melastomataceae along an edaphic gradient in an
Amazonian rain forest. Journal of Vegetation Science 5: 25-34.

ANEXO
Como espacializar regresso logstica no ArcView
verso 3.2
A espacializao da regresso logstica no ArcView 3.2
se inicia pela determinao dos temas a serem relacionados. Para isso, define-se o tema que contm a varivel dependente binria (1/0 presena e ausncia

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

36 | O uso de regresso logstica para espacializao de probabilidades

do fenmeno de interesse) e o tema que representa a


varivel preditora contnua. No caso da regresso logstica mltipla, possvel estabelecer dois ou mais
temas referentes s variveis preditoras. Aps essa determinao, feita a anlise estatstica dos dados, a
fim de se obter os parmetros da regresso logstica.
Finalmente, os parmetros da regresso so incorporados ao ArcView 3.2 e ento realizadas as operaes para
sua espacializao. Os tpicos abaixo descrevem
detalhadamente esses trs procedimentos:
Obteno dos temas referentes varivel
dicotmica e contnua
Os temas (camadas digitais) deste tpico devem estar
em formato GRID e apresentar a mesma resoluo espacial, nmero de linhas e colunas. O arquivo GRID referente ao tema da varivel binria deve ter os valores
das clulas 0 e 1. Assim, se a representao do evento
for do tipo ponto, linha ou polgono, necessrio converter o arquivo para GRID e atribuir o valor 1 e 0 s
clulas correspondentes presena e ausncia do evento, respectivamente. A converso para GRID e a associao do valor 1 s clulas de presena pode ser feita a
partir do menu do ArcView 3.2 e a associao do valor
0 pode ser feita a partir da extenso Grid PIG Tolls
(http://arcscripts.esri.com ou http://arcscripts.esri.
com/details.asp?dbid=11872). Este tema ser utilizado nas operaes de obteno dos valores a serem
utilizados na anlise estatstica. Assim, necessrio que
a tabela associada a ele tenha quatro campos, como na
Figura 7.
Os campos value e count so criados automaticamente pelo ArcView 3.2 e indicam o valor numrico do pixel
(value) e o respectivo nmero de pixels (count) com valor 0 e 1. Os campos presena e ausncia so criados
pelo usurio, sendo que o campo presena apresenta
valor 1 para presena e 0 para ausncia e o campo
ausncia valor 1 para ausncia e 0 para presena. At
aqui definimos o tema referente varivel categrica.
O prximo passo determinar os temas com as variveis contnuas. Isso definido pela experincia e pela
disponibilidade de dados do usurio.
Obteno dos dados para a anlise estatstica
Neste tpico ser descrito como obter os valores das
variveis contnuas na rea de estudo do evento de interesse. Para isso, realizaremos algumas operaes
matemticas na funo MAP CALCULATOR do ArcView
3.2, com os temas definidos anteriormente. O esquema das operaes entre as camadas mostrado na
Figura 8.

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007

Obteno dos valores da varivel contnua nas clulas de presena do evento de interesse:
[GRID varivel contnua] [GRID varivel categrica
campo presena =1]
Obteno dos valores da varivel contnua nas clulas de ausncia do evento de interesse:
[GRID varivel contnua] [GRID varivel categrica
campo ausncia=1]
Os GRIDs gerados por essas operaes devem ser
exportados no formato ASCII Raster (opo disponvel
no menu do programa). A planilha da primeira operao contm os valores das variveis contnuas nos pixels
referentes presena e a da segunda, os valores referentes ausncia. O valor -9999 atribudo ausncia de dados.
As planilhas podem ser editadas no Excel. Sugerimos a elaborao de uma nica planilha com duas
colunas: uma contendo a varivel contnua e outra a
informao de presena e ausncia. No caso da regresso logstica mltipla, a planilha pode conter trs ou
mais colunas. A partir dessas planilhas possvel se
obter os parmetros necessrios para espacializao da
regresso logstica em um pacote estatstico.
Espacializao da regresso logstica no ArcView 3.2
A equao da regresso logstica simples pode ser
espacializada no ArcView 3.2 a partir das seguintes
operaes:
([GRID varivel contnua]) * coeficiente - > [GRID A]
([GRID A] + Constante) - > [GRID B]
([GRID B] .Exp) - > [GRID C]
([GRID C] + 1) - > [GRID D]
([GRID C] / [GRID D]) - > [GRID E]
J para a equao da regresso logstica mltipla,
sua espacializao feita com as operaes indicadas
abaixo.
([GRID varivel contnua 1] * (coeficiente 1)) + ([GRID
varivel contnua 2] * (coeficiente 2)) - > A
([GRID A] + Constante) - > [GRID B]
([GRID B] .Exp) - > [GRID C]
([GRID C] + 1) - > [GRID D]
([GRID C] / [GRID D]) - > [GRID E]
Todas essas operaes podem ser realizadas a partir
da funo MAP CALCULATOR do mdulo Spatial Analyst
do ArcView 3.2.

Venticinque, Carneiro, Moreira & Ferreira |

37

FIGURA 7 Tabela de atributos do arquivo formato GRID da varivel dependente. Os pontos eram um arquivo que estava em
formato vetorial que foi transformado para GRID. Os pixels em vermelho correspondem a pelo menos uma presena e os pixels
em verde s ausncias.

(B)

(A)

Varivel contnua
117,852 - 126,889
108,815 - 117,852
99,778 - 108,815
90,741 - 99,778
81,704 - 90,741

=
Presena e ausncia

72,667 - 81,704
63,63 - 72,667
54,593 - 63,63
45,556 - 54,593

Valores contnuos - presena

0 ausncia
1 presena

117,852 - 126,889
108,815 - 117,852
99,778 - 108,815
90,741 - 99,778
81,704 - 90,741

(B1)

(A1)

Varivel contnua
117,852 - 126,889
108,815 - 117,852
99,778 - 108,815
90,741 - 99,778
81,704 - 90,741

(C)

(C1)

=
Presena e ausncia

72,667 - 81,704
63,63 - 72,667
54,593 - 63,63
45,556 - 54,593

72,667 - 81,704
63,63 - 72,667
54,593 - 63,63
45,556 - 54,593
No Data

0 presena
1 ausncia

Valores contnuos - presena


117,852 - 126,889
108,815 - 117,852
99,778 - 108,815
90,741 - 99,778
81,704 - 90,741

72,667 - 81,704
63,63 - 72,667
54,593 - 63,63
45,556 - 54,593
No Data

FIGURA 8 Representao das operaes para obteno dos valores das variveis contnuas nas clulas de ausncia e presena
do evento de interesse. A e A1 so variveis contnuas; B a varivel dicotmica com valor 1 para presena; B1 a varivel
dicotmica com 1 para ausncia; C so os valores das clulas da camada digital da varivel contnua com presena e C1 a
mesma operao para as clulas com ausncia.

MEGADIVERSIDADE | Volume 3 | N 1-2 | Dezembro 2007