Escolar Documentos
Profissional Documentos
Cultura Documentos
Joo Pessoa/PB
2015
DANIELLY CRISTINA DE SOUZA COSTA HOLMES
Orientadores:
Prof. Dr. Ronei Marcos de Moraes
Prof. Dr. Rodrigo Pinheiro de Toledo Vianna
Joo Pessoa/PB
2015
H749u Holmes, Danielly Cristina de Souza Costa.
Uma nova arquitetura para combinao de aglomerados
espaciais e aplicao em epidemiologia / Danielly Cristina de
Souza Costa.- Joo Pessoa, 2015.
104f. : il.
Orientadores: Ronei Marcos de Moraes, Rodrigo Pinheiro
de Toledo Vianna
Tese (Doutorado) - UFPB/CCEN
1. Sade Modelos de deciso. 2. Mtodos de
aglomerao espaciais. 3. Votao por maioria. 4. Redes
neurais. 5. Combinao de classificadores.
BANCA EXAMINADORA
__________________________________
Prof. Dr. Ronei Marcos de Moraes
Orientador UFPB
___________________________________
Prof. Dr. Rodrigo Pinheiro de Toledo Vianna
Orientador UFPB
___________________________________
Profa. Dra. Jordana de Almeida Nogueira
Membro Interno UFPB
___________________________________
Prof. Dr. Marcelo Rodrigo Portela Ferreira
Membro Externo UFPB
___________________________________
Prof. Dr. Regivan Hugo Nunes Santiago
Membro Externo UFRN
AGRADECIMENTOS
A Deus, por no permitir que eu perdesse a fora e o equilbrio. Quero neste momento
apenas agradecer.
Ao meu marido Rodrigo, pela pacincia e compreenso. Por estar sempre presente,
compartilhando momentos de angstias, conquistas e alegrias.
Aos meus pais, Rinaldo e Lourdes, meus pais amados, pois sem eles no seria
possvel esta conquista. A eles minha eterna gratido.
Aos meus irmos, Bruno e Jnior, obrigado pela amizade incondicional. Amo vocs.
Aos meus orientadores Ronei Marcos e Rodrigo Vianna, pela amizade e
profissionalismo depositados na elaborao deste trabalho.
professora Liliane Machado, pelos momentos vividos em todos esses anos, pelas
nossas conversas sempre voltadas para o meu crescimento acadmico e pessoal.
Ao professor Witold Pedrycz, por me receber e orientar de forma brilhante na
University of Alberta, Canad.
Ao professor Joo Agnaldo, pelas palavras de incentivo e conselhos valiosos durante
toda a trajetria deste trabalho.
banca examinadora deste trabalho, pelo tempo dedicado leitura e contribuies
para uma melhor finalizao desta pesquisa.
As minhas colegas de doutorado, Eveline, Isabella, Kerle e Maria Elma, pela
amizade, momentos de alegria e angstias vividos desde a poca do mestrado.
Aos meus colegas do Leapig/LabTEVE: Jodavid, Wanessa, Jos, Laisa, Anny,
Luana, Thase, Elaine, Thiago, Paulo, Eline sempre presentes no meu dia a dia, durante
todos esses anos. Muito obrigada pelos trabalhos em equipe, vocs so brilhantes.
A CAPES, pelo financiamento desta pesquisa.
Dave Weinbaum
RESUMO
A combinao de classificadores tem por objetivo produzir resultados mais precisos para o
processo de tomada de deciso. Com isso, este estudo teve por objetivo propor uma nova
arquitetura baseada na combinao dos mtodos de aglomerao espacial e um mapa de
votao mais detalhado sobre a quantidade de votos que cada geo-objeto recebeu, aplicados
epidemiologia. Os mtodos de aglomerados espaciais, de forma geral, tem por objetivo a
identificao dos conglomerados espaciais significativos e no significativos de acordo com a
regio de estudo. Eles so combinados por regras de combinao. Neste trabalho foram
utilizadas as seguintes regras: votao por maioria e redes neurais. A nova arquitetura
proposta foi aplicada a dados do dengue no estado da Paraba, no perodo de 2009 a 2011.
Segundo a Organizao Mundial da Sade, o dengue uma doena que registra anualmente
uma mdia de 50 a 100 milhes de casos em todo o mundo, gerando grandes encargos
financeiros para o setor da sade. proposta uma nova arquitetura para a combinao dos
mtodos de aglomerados espaciais. A combinao dos mtodos de aglomerao espacial, foi
aplicados em trs estudos de casos. Em todos os trs estudos de casos a nova arquitetura
identificou com maior preciso os municpios prioritrios e no prioritrios do dengue na
Paraba. No estudo de caso 1 a regra de combinao foi a votao por maioria, no estudo de
caso 2 a regra de combinao foi das redes neurais e no estudo de caso 3 foi proposto uma
novo mapa de votao detalhado identificando a quantidade de votos que cada municpio
recebeu. Analisando os resultados do ponto de vista espacial, observou-se que a mesorregio
do Serto Paraibano apresentou uma maior quantidade de municpios prioritrios; e a
mesorregio do Litoral Paraibano, o menor nmero de municpios prioritrios. Em relao, a
pesquisa do ponto de vista epidemiolgico foi possvel verificar que a partir dos resultados
dos testes diagnsticos (sensibilidade, especificidade, valores preditivos positivos e valores
preditivos negativos) e a estatstica Kappa os modelos de combinao produziram resultados
satisfatrios. Finalizando a anlise do ponto de vista da combinao dos mtodos de
aglomerados espaciais, foi possvel observar que a nova arquitetura, apresentou resultados
satisfatrios, a partir da combinao das regras de combinao. Estes resultados do ponto de
vista epidemiolgico, podem auxiliar os gestores no processo de tomada de deciso
verificando com mais preciso as regies que realmente merecem ateno especial no
combate doena.
The combination of classifiers aims to produce more accurate results to the decision-making
process. Therefore, this study had the objective of proposing a new architecture based on a
combination of spatial clustering methods and a more detailed voting map on the amount of
votes that each geo-object received, applied to epidemiology. The methods of spatial
clustering, in general, aim to identify the significant and not significant spatial clusters
according to the study area. They are combined by combination of rules. In this work, the
following rules were used: majority voting and neural networks. The new proposed
architecture was applied to dengue data in the state of Paraiba, in the period from 2009 to
2011. According to the World Health Organization, dengue is a disease that annually records
an average of 50 to 100 million cases worldwide, generating large financial burden on the
health sector. A new architecture is proposed for the combination of the methods of spatial
clustering. The combination of spatial clustering methods was applied in three case studies. In
all three case studies, the new architecture identified more precisely the priority and non-
priority municipalities in Paraiba with regards to the dengue. In the case study 1, the
combination rule was majority voting, in case study 2 the combination rule was neural
networks and in case study 3 a new detailed voting map was proposed, identifying the amount
of votes that each municipality had received. Analyzing the results from a spatial point of
view, it was observed that the mesoregion called Serto in the state of Paraiba had a greater
number of priority municipalities; and the mesoregion of the Coast in Paraiba, the lowest
number of priority municipalities. Regarding the research from the epidemiological point of
view, it was observed that from the results of diagnostic tests (sensitivity, specificity, positive
predictive value and negative predictive value) and the Kappa statistic, the combination of
models produced satisfactory results. Concluding the analysis from the point of view of the
combination of spatial clustering methods, it was observed that the new architecture presented
satisfactory results by using the combination of the combination of rules. These results, from
the epidemiological point of view, can assist managers in the decision-making process by
verifying more precisely the regions that deserve special attention in combating the disease.
Sigla Acrnimo
IBGE Instituto Brasileiro de Geografia e Estatstica
SIG Sistema de Informao Geogrfica
SINAN Sistema de Informao de Agravos de Notificaes
VPP Valor Preditivo Positivo
VPN Valor Preditivo Negativo
SUMRIO
1 INTRODUO........................................................................................ 17
1.1 Relevncia e Ineditismo............................................................ 19
1.1.1 Argumento de Tese................................................................................. 19
1.2 OBJETIVOS............................................................................................. 20
2 REVISO BIBLIOGRFICA............................................................... 22
2.1 MTODOS DE AGLOMERAO ESPACIAL................................... 22
2.1.1 Getis Ord................................................................................................. 22
2.1.2 Mtodo Besag Newell......................................................................... 25
2.1.3 Mtodo de Tango................................................................................. 26
2.1.4 Estatstica Scan.................................................................................. 27
2.1.5 Estatstica M............................................................................................ 29
2.2 REGRAS DE COMBINAO............................................................. 30
2.2.1 Teoria Bayesiana............................................................................... 30
2.2.2 Regra do Produto................................................................................ 31
2.2.3 Regra da Soma....................................................................................... 31
2.2.4 Derivao das regras do produto e da soma......................................... 32
2.2.5 Regra do Mximo................................................................................... 32
2.2.6 Regra do Mnimo..................................................................................... 33
2.2.7 Regra da Mediana................................................................................ 33
2.2.8 Votao por maioria.............................................................................. 33
2.2.9 Plurating Voting...................................................................................... 34
2.2.10 Bagging (Bootstrap Aggregation) ..... 34
2.2.11 Boosting.................................................................................................. 35
2.2.12 Redes neurais.................................................................. 36
2.2.12.1 Funes de ativao................................................................... 36
2.2.12.2 Estrutura das redes neurais.......................................................................... 39
2.3 MTODOS DE AGLOMERADOS ESPACIAIS APLICADOS REA
DA SADE................... 39
2.4 COMBINAO DE CLASSIFICADORES UTILIZANDO REGRAS DE
COMBINAO....... 42
2.5 MEDIDAS DE QUALIDADE E MEDIDAS DE
ASSOCIAO....................................................................................... 46
2.5.1 Sensibilidade e especificidade............................................................... 47
2.5.2 Valor Preditivo Positivo e Valor Preditivo Negativo............................. 48
2.5.3 Risco Relativo e Incidncia.................................................................... 48
2.6 ANLISE ESPACIAL DE DADOS EM SADE..................................... 49
2.7 COMBINAO DE CLASSIFICADORES............................................... 50
2.8 ESTATSTICA KAPPA........................................................................... 52
3 NOVA ARQUITETURA PROPOSTA PARA A COMBINAO DOS 54
MTODOS DE AGLOMERAO ESPACIAL
4 PERCURSO METOLGICO............................................................... 57
4.1 REA DE ESTUDO........................................................................................ 57
4.2 CARACTERIZAO DO ESTUDO E ANLISE DOS DADOS........... 58
4.2.1 Estudo de Caso 1 59
4.2.2 Estudo de Caso 2 60
4.2.3 Estudo de Caso 3 61
5 RESULTADOS E DISCUSSES............................................................ 65
5.1 RESULTADOS DO ESTUDO DE CASO 1......................................... 65
5.2 RESULTADOS ESTUDO DE CASO 2................................................... 78
5.3 RESULTADOS ESTUDO DE CASO 3..................................................... 83
6 CONCLUSO................................................................................................ 93
REFERNCIAS.......................................................................................... 96
Apndice A - Mapas do Risco Relativo do dengue na Paraba no anos de 2009 a 102
2011.
Anexo 1 - Parecer do Comit de tica..................................................... 104
Sem a curiosidade que me move, que me
inquieta, que me insere na busca, no
aprendo nem ensino.
(Paulo Freire)
17
1 INTRODUO
maioria, mdia e mediana) (JAIN et al., 2000), teoria Dempster-Shafer (TONG, 2010), entre
outros (MORAES; MACHADO, 2012).
Na rea de anlise espacial, os mtodos de aglomerao espacial tm por objetivo
identificar regies significativas e no significativas de um evento em estudo, a partir de uma
regio geogrfica, usando informaes georreferenciadas (HOLMES; MORAES; VIANNA,
2015). O interesse est em descobrir se o evento possui uma distribuio espacial aleatria ou
se apresenta conglomerados espaciais.
Na literatura, so encontrados diversos mtodos de aglomerao espacial, tais como,
Mtodo de Tango (TANGO, 1995), Mtodo Besag Newell (BESAG; NEWELL, 1991), Getis
Ord (ANSELIN, 1992), ndice de Moran, ndice de Geary, Estatstica Scan (KULLDORFF;
NAGARWALL, 1995) e Estatstica M (ROGERSON, 2001). Na prtica, cada mtodo
trabalha com diferentes metodologias e produz resultados diferentes uns dos outros. Esses
resultados no representam, com preciso, a real distribuio desses eventos. Sendo assim,
possvel realizar estudos de forma indireta, como exemplo, os mapas de risco relativo,
comparados com os mapas dos mtodos de aglomerao espacial, para anlises de sade
pblica (MORAES; NOGUEIRA; SOUSA, 2014). Este problema pode ser solucionado a
partir da combinao dos mtodos de aglomerao espacial.
Neste trabalho, abordada a proposio de uma nova metodologia, a partir da
combinao dos mtodos de aglomerao espacial. Um dos objetivos da pesquisa a
identificao, com mais preciso, dos municpios prioritrios e no prioritrios, conhecido
como geo-objetos, para o dengue, no Estado da Paraba.
A Organizao Mundial de Sade estima uma mdia de 50 a 100 milhes de casos do
dengue no mundo (BRAT et al., 2013). No Brasil, um dos principais surtos ocorreu em 2013,
com uma mdia de dois milhes de casos notificados. A regio Nordeste a regio mais
atingida do Brasil, com o maior nmero de bitos por dengue com complicaes. No ano de
2013, foram identificadas 106 mortes. O estado da Paraba, localizado na regio Nordeste,
o quarto com o maior nmero de bitos, perdendo apenas para os Estados do Cear,
Pernambuco e Rio Grande do Norte. Uma das formas de controle da epidemia do dengue se
d a partir da identificao dos locais onde h nmero maior de casos notificados; isso se d
a partir dos estudos da distribuio espacial na regio de interesse, identificando as reas
prioritrias e no prioritrias dessa doena.
19
1.2 OBJETIVOS
O objetivo deste trabalho propor uma nova arquitetura para a combinao dos
mtodos de aglomerao espacial, aplicados epidemiologia. Para alcanar tal objetivo,
recorreu-se aos seguintes objetivos especficos:
2 REVISO BIBLIOGRFICA
e valores negativos). Como exemplo de aplicao tem-se o trabalho de Lucena et al. (2012)
que investigou a distribuio espacial da violncia domstica para auxiliar os gestores no
processo de tomada de deciso. Essa pesquisa com o uso da estatstica de Getis Ord
identificou as reas de alta e baixa incidncia de violncia, na cidade de Joo Pessoa, capital
da Paraba, no perodo de 2002 a 2005.
As estatsticas de Getis Ord so estimadas por grupos de vizinhos da distncia crtica d
de cada rea i. A distncia crtica formada por uma matriz de proximidade W, cujos elementos
so formados em funo da distncia crtica wij(d). Com isso, foram propostas duas funes
estatsticas: a estatstica global e a estatstica local.
A estatstica global G(d) igual s medidas tradicionais de aglomerados espaciais com
apenas um valor; e as Estatsticas Locais Gi(d) e GiA(d) so medidas de associao espacial
para cada rea i (ANSELIN, 1992). A estatstica global dada por:
i j wij ( d ) x i x j
G ( d )= ,
i j x i x j
j w ij ( d ) x j
G i ( d )=
j x j
em que a soma est em todas as posies de j excluindo i. Este ndice igual razo da soma
dos valores nas posies circunvizinhas pela soma dos valores na srie de dados ao todo. Na
estatstica de GiA(d), o valor em i includo (ANSELIN, 1992).
24
j wij ( d ) x j
GiA ( d )=
j x j
valor-p
Significncia Estatstica
O mtodo foi proposto por Besag e Newell (1991) que tem por objetivo a identificao
de aglomerados de forma circular com um nmero de casos fixos. Este mtodo exige a
configurao de vrios parmetros, que podem afetar o seu desempenho (COSTA;
ASSUNO, 2006). O usurio deve informar um nmero mnimo P de casos para ento
formar um aglomerado. A identificao desses aglomerados so muito importantes para
problema de sade pblica envolvendo doenas na prtica (COSTA; ASSUNO, 2006). O
mtodo Besag Newell apresenta boa capaciadade de identificao de clusters com alta
populao, e com o propsito da possibilidade de configurar vrios parmetros. Com isso,
uma das vantagens desse mtodo a possibilidade de poder definir o nmero mnimo de
casos.
O mtodo de Besag e Newell realizado da seguinte forma: determina um raio para
que o crculo contenha pelo menos P casos no seu interior. O mtodo inicia com o crculo de
raio prximo de zero. O papel do crculo incluir um nmero P de casos. Quando o crculo
contiver P casos, o processo parado; caso isso no ocorra, o raio aumentado incluindo um
novo centroide. O procedimento executado at que haja pelo menos P casos inseridos no
crculo (BESAG; NEWELL, 1991).
A estatstica do teste baseia-se numa varivel aleatria U, definida como o mnimo de
reas prximas necessrias para que se obtenha um nmero P de casos mais prximos do
centride (BESAG; NEWELL, 1991). Seja CR o nmero total de casos na regio de estudo.
Sejam CRj(i) e Mj(i), respectivamente, o nmero de casos e a populao das j reas mais
prximas ao centroide i. A estatstica do teste baseada na varivel aleatria U, definida como
o mnimo de reas prximas do centroide. Com isso, temos (COSTA; ASSUNO, 2005)
(BESAG, NEWELL, 1991):
U=min { j : CR j ( i ) P }
j
M j (i ) CR
( ) M j ( i ) CR
v k ( i ) =P ( Lil i ) =1 k1
j=1
M
j!
exp ( M ) ,
Este mtodo foi proposto por Tango (1995) inicialmente. Sendo que o mtodo
analisava a quantidade de observaes de cada sub-regies, no analisando a diferena entre o
nmero de observaes e o nmero esperado de observaes, levando em considerao a
populao de cada sub-regies. Neste mtodo os dados no precisam possuir distribuio
normal. O mtodo Tango tem se demonstrado um excelente teste para verificar a
heterogeneidade espacial, diferentemente dos outros mtodos (JACKSON et al, 2009).
Neste caso foram calculados os aglomerados de cada geo-objeto da Paraba. O mtodo
proposto por Tango dado pela seguinte estatstica:
Q s =( r p ) 'B ( r p )
bii =1
27
em que dij uma medida de distncia entre as regies i e j, uma medida de distncia de
valores grandes em torno de cada regio.
A esperana e varincia da varivel aleatria Qs, dadas respectivamente pelas seguintes
equaes:
1
E [ Q s ]= Tr ( BV p )
N
e
2
V [ Q s ]= 2
Tr ( BV p ) 2 ,
(N )
Tr(BVp) o trao da matriz BVp, Vp =(p) -pp', em que (p) a matriz que contm os
elementos de p (ROGERSON et al., 1997) e N o nmero de casos.
A estatstica de Tango dada pela aproximao da distribuio normal e pela
distribuio qui-quadrado. Neste trabalho abordaremos a aproximao pela distribuio qui-
quadrado, que utiliza valores baixos de . Pois, a medida que a largura da banda () se
aproxima de zero, o valor da estatstica de Tango tambm se aproxima do uso da distribuio
qui-quadrado. Na aproximao pela distribuio qui-quadrado, definimos v como sendo o
nmero de graus de liberdade, dada pela equao (ROGERSON et al, 1997) (ROGERSON et
al., 1999):
1. 5 2
v=
[ [ Tr ( BV p ) ]
[ Tr ( BV p ) ]
3
] .
A estatstica Scan foi proposta por Kulldorff e Nagarwalla (1995) com o objetivo de
detectar conglomerados em unidades cuja ocorrncia de um determinado evento mais
provvel dentro de uma rea do que fora dela. Este mtodo foi proposto por potencialmente
encontra conglomerados ditos como raros em um mapa e analisar tambm a vizinhana.
Estes conglomerados podem ser prevalncia, risco relativo e incidncia de uma determinada
doena (ABRAMS; KLEINMAN, KULLDORFF, 2010). A Estatstica Scan monitora os testes
mltiplos, sem a necessidade de parmetros fornecidos pelo usurio (COSTA; ASSUNO,
2006). Ele leva em considerao vrios testes, mas fornece apenas um valor-p (COSTA;
28
maxev E ( ev ) E ( ev )
Y= =max ev
L0 L0
em que E(ev) a probabilidade mxima de que existem aglomerados sobre todos no crculo
ev, L0 a probabilidade sobre a hiptese nula (KULLDORFF, 2001). E(ev)/ L0 definido por:
c ( ev ) Cc (ev )
E ( ev ) c ( ev ) Cc ( ev )
L0
= ( ) (
n ( ev ) Cn ( ev ) )
29
em que c(ev) o nmero observado de casos no crculo ev, n(ev) o nmero esperado de caso
no crculo ev sobre a hiptese nula, em que n(AT)=c(AT)=C, AT o total de regies do estudo
(KULLDORFF et al., 1997).
A simulao de Monte Carlo usada pra testar a hiptese nula. Todos os valores-p so
ajustados pela simulao Monte Carlo (DWASS, 1957). O teste de hiptese via Monte Carlo
gera simultaneamente dados simulados vrias vezes sob a hiptese nula e o valor-p s/
(SS+1), em que SS o nmero de ocasio dos dados de repetio, e s a classificao do teste
estatstico (ABRAMS et al., 2010).
2.1.5 Estatstica M
nj g ij b j
(
M=maxi M i =
nj wij2 ) .
( r j p j)
b j=
rj
30
n
j= 1 r j
p j =pop j ,
nj=1 pop j
M a = ln ( 4 ( 1+0Y. 81 ) ) .
em que o nvel de significncia; a largura da banda; Y o nmero de sub-regies. A
hiptese nula de que no h conglomerados espaciais se d quando a estatstica M menor ou
igual que o valor crtico Ma (ROGERSON, 2001a).
P ( w jx 1 , .. . ,x R ) =max k P ( w kx 1 , .. . ,x R ) ,
31
m
p ( x1 ,. .. ,x R ) = j=1 p ( x 1 ,. . . ,x Rw j ) P ( w j ) .
p ( x1 ,. .. ,x Rwk )= p ( x iw k ) ,
m
P ( w j ) p ( x iw j ) =max k=1 P ( w k ) p ( x iw k ) ,
p ( R1 ) ( W j ) P ( w jx i ) =max m
k=1 P
( R1 )
( wk ) P ( wkx i ) . (22)
P ( w kxi ) =P ( wk )( 1 + ki ) ,
R
( 1R ) P ( w j ) + i=1 P ( w jx i ) =max mk=1 [ ( 1R ) P ( w k ) + i=1
R
P ( w kx i ) ] .
(24)
Baseado nas equaes (22) e (24) que representam as regras do produto e da soma,
respectivamente. Essas equaes so formas de combinao de classificadores, que possuem
uma relao definida por (KITTLER et al., 1998a):
1
P ( wkx i ) min Ri=1 P ( w kxi ) R Ri=1 P ( w kx i ) maxi=1
R
P ( wkx i )
A probabilidade a posteriori P(wk|xi) produz uma funo de valores binrios ki. Esta
funo utilizada na Regra de Votao da Maioria (Kittler et al, 1998a). ki {0,1}, ser 1 se
R
max i=1 P ( w jx i ) =max m R
k=1 max i=1 P ( w kx i )
R
mini=1 P ( w jx i ) =max k=1 min Ri=1 P ( wk x i ) .
Na regra da Mediana atribudo um padro para a classe, cujo clculo feito pela
mdia das probabilidades a posteriori sobre todas as sadas dos classificadores (KITTLER et
al., 1998a).
1 R 1 R
i=1 P ( w jx i ) =max m
k=1 P ( w kxi ) .
R R i=1
Essa regra atribui um padro para a classe, cuja mdia das probabilidades a posteriori
mxima. Se na sada de um dos classificadores, a classe tiver valores muito altos, isso
poder prejudicar e indicar uma deciso errada (KITTLER et al., 1998a). Baseado nisso,
mais indicado tomar a deciso baseada na combinao da mediana das probabilidades a
posteriori e no na mdia. A regra da mediana definida por:
R
medi=1 P ( w jxi ) =max m R
k=1 med i=1 P ( w kx i )
funciona como uma opo de rejeio. Assim ji {0,1} o voto para a classe j registrado
pelo classificador i. Seja H uma funo de deciso que registra a classe x, ento:
A tcnica conhecida como Bagging foi desenvolvida por Breiman (1996) e tem origem
do nome Bootstrap Aggregating. O algoritmo utiliza a combinao de vrios modelos com a
funo de realizar a classificao. O objetivo diminuir o erro aumentando a preciso de
classificao. A deciso final baseada na classe que tiver o maior nmero de votos, sendo ela
a classe vencedora (BREIMAN, 1996) (KUNCHEVA, 2004).
Este algoritmo cria preditores em amostras bootstrap. Uma amostra bootstrap
definida quando se tem um conjunto de amostras (y1, y2, , yn) e dessa amostra so retiras n
amostras com reposio. Logo essa amostra retirada chamada de amostra bootstrap Bj = .
(y*1, y*2, , y*n).. Em seguida, agrega-se ou combina-se essas amostras para gerar um novo
preditor. Espera-se que esse novo preditor seja melhor. Esse pode ser aplicado para
classificao e regresso. No caso de classificao os preditores so combinados pela votao
e, no caso de regresso, usado a mdia dos preditores.
O funcionamento se d da seguinte forma: so criados vrios conjuntos de
35
treinamento, que so formados por classificadores (rvore de deciso, redes neurais, entre
outros) construdos de forma aleatria com reposio. A sada dos classificadores combinada
pela votao por maioria. O detalhamento do algoritmo bagging se encontra abaixo
(KUNCHEVA, 2004). O processo dividido em duas grandes etapas: treinamento e
classificao (KUNCHEVA, 2004). Em que Za= {za1, ..., zaN} o conjunto de treinamento
rotulado, L so os membros dos conjuntos que podem ser treinados em diferentes processos,
se necessrio (KUNCHEVA, 2004).
1. Treinamento:
a) Variveis de entrada
A=so subconjuntos das instncias.
L, o nmero de classificadores para treinamento.
b) Para b= 1, ..., L.
Tem-se uma amostra Sb de Za.
Cria um classificador Ab usando Sb como conjunto de treinamento.
Inclui o classificador para o conjunto atual, A=A U Ab.
c) Volta A.
2. Classificao:
Faa A1, ..., AL sobre a entrada x.
A classe com o maior nmero de votos pertencente a x.
Fim
2.2.11 Boosting
At k=kmax
Retorna Ck e k para k=1 em kmax (conjunto de classificadores com peso)
Fim
Uma rede neural ter por objetivo processar as informaes dos neurnios para o
reconhecimento de padres, percepo, entre outras funes e podendo ser usada para
resolver problemas de classificao complexa. As aplicaes das redes neurais so inmeras
tais como: classificao, otimizao, minerao de dados e etc (ENGELBRECHT, 2007).
Na figura 1, as entradas das redes neurais so definidas por x1, ..., xd, associadas aos
seus pesos w1, ..., wd para a sada y(x). O bias w0 representado como um peso de uma entrada
37
adicional x0 (BISHOP, 1995). O bias tem a funo de aumentar ou diminuir o grau de liberdade
da funo de ativao, podendo ser positivo ou negativo, com isso a relao entre o potencial
de ativao com a sada y(x) modificada. Ele tem a funo de fazer uma transformao na
sada y(x) (HAYBIN, 2001).
A sada de y(x) comparada com a sada d(x) que corresponde a sada dada pelo
sistema desconhecido. Essa diferena gera um erro chamado e(x), dado pela equao abaixo
(HAYBIN, 2001):
e ( x ) =d ( x ) y ( x )
Esse erro auxilia no monitoramento dos ajustes dos pesos do neurnio (HAYBIN,
2001).
A funo de ativao (fAN) recebe o sinal de entrada e o bias e defini a sada da rede.
De acordo com a sada desejada, existem diferentes tipos de funo de ativao. Em geral, as
fAN so (ENGELBRECHT, 2007):
38
f ( ) =0 f ( ) =1
AN ou AN
e
f AN
( ) =1
As principais funes de ativao so: funo linear, funo step, funo sigmide e
funo gaussiana. Para este trabalho foi utilizado a funo sigmide. Lembrando que a sada
da rede neural influenciada pelo valor de threshold (), que identificado pela bias.
f AN ( net ) = ( net )
Funo Step
A funo step gera uma sada com dois valores para 1 e 2 , dependendo do valor de .
Geralmente a sada binria com 1=1 e 2=0 (ENGELBRECHT, 2007). Para
Funo Sigmide
1
f AN ( net ) = ( net )
1 +e
Funo Gaussiana
2 2
( net ) /
f AN ( net ) =e
A estrutura das redes neurais pode ser: rede de camada nica, rede de multicamadas,
redes alimentadas frente feedforward e redes recorrentes (RUSSEL; STUART, 2004):
As redes de camada nica utilizam apenas uma nica camada. Esses neurnios esto
dispostos em paralelo;
As redes de multicamadas utilizam uma ou mais camadas entre os ns de entrada at
chegar sada da rede, passando pela funo de ativao. Esta camada tem a funo de
propagar os sinais que passam at a sada dela;
As redes alimentadas frente so do tipo backpropagation. O processamento da
rede acontece em um nico sentido, ou seja, da entrada para a sada. Nesse, no temos
a realimentao;
As redes recorrentes so baseadas em pelos menos um processo de realimentao.
Isto ocorre em pelo menos um dos neurnios, este processo chamado de
autorrealimentao.
Minamisava et al. (2009) analisou a distribuio espacial das mortes por homicdios e
por acidentes de trnsito em Goinia/Gois, combinando com as variveis socioeconmicas
para jovens de 15 a 24 anos. Para a realizao do trabalho, foi utilizada a Estatstica SCAN,
sendo aplicado o modelo Poisson para identificar os grupos de setores censitrios com alta
mortalidade devido a leses intencionais e os acidentes de trnsito. Os resultados
apresentaram que, em relao ao perfil socioeconmico, a maior parte das vtimas possuem
menor escolaridade, menor renda e condies precrias de moradia. As principais vtimas de
40
acidente de trnsito foram na faixa etria dos 20 aos 24 anos. Na anlise espacial, verificou-se
que no houve conglomerados significativos no municpio de Goinia.
Em 2008, foi desenvolvido um estudo por Grubesic e Pridemore (2011), nos Estados
Unidos, que tinha por objetivo buscar associao entre o lcool e os assaltos. Foi aplicado o
ndice de Moran Local. Os resultados mostraram que os conglomerados de violncia ficam
em torno dos pontos onde vendido o lcool em Cincinnnati.
No ano de 2009, foi desenvolvido nos Estados Unidos, no perodo de 2000 a 2005, um
trabalho por Mandal et al. (2009), que tinha por objetivo determinar alguma correlao
espacial entre dois tipos de cncer (mama e prstata). Nos resultados, houve uma correlao
significativa entre cncer de mama e de prstata. A relao mais forte entre o cncer de mama
e de prstata estava na parte oriental do Centro-Oeste e Sul. Nas regies norte-sul observou-se
um padro para ambos os tipos de cncer. Os aglomerados espaciais dos municpios com altas
taxas de incidncia de cncer foram mais frequentes no Norte; e aglomerados de municpios
com taxas de incidncia baixas eram predominantemente no Sul.
Lucena e Moraes (2009) realizaram uma anlise do comportamento dos mtodos Scan
e Besag Newell, com dados do dengue na cidade de Joo Pessoa, nos anos de 2004 e 2005. O
mtodo Scan detectou conglomerados de alto e baixo risco, enquanto que o mtodo de Besag
Newell identificou conglomerados apenas de alto risco. No final da pesquisa, foi constatado
que o mtodo Besag Newell apresentou resultados melhores.
No trabalho de Arajo et al. (2008), foi realizada uma reviso sistemtica dos estudos
que utilizam geoprocessamento aplicado ao dengue no Brasil. Foram utilizadas trs bases de
dados: Pubmed, Bireme e Scielo. Os critrios de incluso foram os artigos originais sobre
dengue e a utilizao de tcnicas de geoprocessamento de 1998 a 2007, publicados em
portugus e ingls. Na pesquisa, as anlises foram feitas sobre artigos que abordaram a
espacializao dos casos do dengue, trabalhos que trataram dos vetores do dengue e tambm
os vetores juntamente com os casos. Observou-se o uso de aspectos sociais associados
distribuio espacial do dengue. Com toda essa estratgia, foi concludo que as ferramentas de
geoprocessamento foram subutilizadas, e que os aspectos socioeconmicos so importantes
para um melhor entendimento do dengue sob o ponto de vista da distribuio espacial.
O trabalho de Goujon-Bellec et al. (2011) teve por objetivo fazer uma avaliao do
desempenho de vrios mtodos conhecidos como cluster hot-spot. Esses mtodos tinham por
objetivo identificar regies de aglomerados. Os mtodos do Scan circular e os elpticos foram
utilizados para detectar aglomerados que tinham a forma regular.
41
O poder dos mtodos foi avaliado pela simulao de Monte Carlo. Nos resultados,
foram verificados que todos os mtodos falharam para detectar aglomerados pequenos com
risco relativo inferior a 3.00. Eles foram bem detectados para todos os mtodos, com os
melhores resultados os mtodos do Scan circular e elpticos. Os mtodos do Scan circular e
elpticos pareciam mais capazes de detectar os aglomerados de doenas raras em grandes
territrios. No entanto, a chances de detect-lo pequenos com risco relativo menor que 3.00
mantiveram-se baixas para todos os mtodos.
Em 2012, foi desenvolvido um trabalho por Helbich et al. (2012) que examinou o
contedo de ltio natural na gua potvel, e se est associada s taxas de suicdio. Para este
trabalho, foram utilizados mtodos de regresso espacial local e global, e autocorrelao
espacial. Os modelos espaciais utilizados foram: ndice Moran Global e Getis Ord local. O
trabalho concluiu que existem efeitos na ingesto de ltio natural sobre a sade mental e acha
necessria a explorao entre a associao espacial dessa substncia com o suicdio.
No trabalho de Queiroga et al. (2012), foi realizado um estudo da distribuio espacial
da tuberculose e sua relao com as condies de vida da populao no municpio de
Campina Grande, no perodo de 2004 a 2007. Os casos de tuberculose foram
georreferenciados e calculado o ndice de Moran Global. Os resultados da pesquisa mostraram
que a distribuio espacial da tuberculose na cidade no uniforme. A distribuio espacial
das taxas de incidncia se encontra nos bairros das regies leste e central da cidade.
A pesquisa de S et al. (2015) tinha por objetivo descrever a relao entre o ndice de
Desenvolvimento Humano (IDH) e o acometimento do dengue no Estado da Paraba, no
perodo de 2011 a 2013, segundo o mtodo da estatstica Scan. De acordo com os resultados,
os municpios com baixo ndice de Desenvolvimento Humano (IDH) foram mais vulnerveis
a contrarem dengue, facilitando, assim, a definio de polticas pblica na preveno
morbidade do dengue.
No trabalho de Pietri et al. (2008), foi criado um modelo geoespacial para analisar a
exposio nas escolas das crianas, na faixa etria dos 6 aos 8 anos, na provncia do Rio
Negro, Argentina. Nesta pesquisa foi levada em considerao a localizao das casas,
prximas a estradas de terra, com proximidade das escolas que tinham exposio ao ponto de
origem. Os resultados mostraram que os nveis de chumbo estavam associados com a
proximidade da fonte e/ou a localizao de residncias em estradas de terra. A anlise espacial
nessa pesquisa foi um mtodo complementar para analisar os pontos de risco, e indicar uma
associao positiva entre os elevados nveis de chumbo com a proximidade de se viver em
casas com estradas de terra.
42
(KUNCHEVA, 2004). Segundo Kohavi (1995) este mtodo pessimista, pois usa apenas
parte dos dados disponveis para formao. Ele pode treinar apenas um nico classificador
para obter a estimativa da taxa de erro. Com isso, passa a ser uma boa escolha para avaliar
classificadores Multilayer Perceptron (BREVE et al, 2005). A estatstica Kappa foi usado para
medir, avaliar o acordo entre dois classificadores. Quanto maior for o valor de k, melhor ser
o desempenho do seu classificador. A interpretao da estatstica Kappa pode ser considerada
subjetiva, dependendo do nvel de exatido do seu problema (CONGALTON, 1991; COHEN,
1960).
No artigo desenvolvido por Alexandre et al. (2001), foi apresentado um estudo
comparativo da performance da mdia geomtrica e aritmtica, como regras para combinar
classificadores mltiplos. No trabalho, foram provados problemas com duas classes e, quando
se utilizam dois classificadores, como os classificadores k-NN, essas regras tm igual
desempenho. Porm, quando mais de dois classificadores so combinados pela mdia
geomtrica, os resultados so melhores do que a mdia aritmtica.
No trabalho de Xu et al. (1992), diz-se que a combinao de classificadores
considerado um problema geral em vrias reas de aplicao; tanto para o reconhecimento de
padres como para uma investigao sistemtica. As solues para o problema foram
divididas em trs categorias (nvel abstrato, nvel de classificao e nvel de medida), de
acordo com os nveis de informao disponvel e a partir de classificadores diferentes. Um
deles adequado para combinao de classificadores individuais, tais como: Bayesiano, k-NN
e classificadores de distncia. Foi realizado o estudo da combinao de mltiplos
classificadores no formalismo de Dempster-Shafer. O treinamento do combinador de
Dempster-Shafer calcula a proximidade entre o modelo de deciso e a sada de cada
classificador (RABINER, JUAN, 1986). Com isso, foi analisado o problema de combinao
do Tipo 1 (um), este abrange os classificadores individuais que classificam a sada (deciso),
considerando os erros dos classificadores individuais, adaptando a teoria Dempster-Shafer. A
combinao feita na situao em que o reconhecimento de substituio e a taxa de rejeio
de cada classificador individual so usados como conhecimento prvio. Essas taxas, que
normalmente representam os ndices de desempenho de um classificador, so facilmente
obtidas, pois testam os classificadores com um conjunto de amostras de teste.
Em Xu e Krzyzak (1994), foi mostrado que o problema de combinar as sadas dos
classificadores encontrados em vrias aplicaes de reconhecimento de padres recentemente
ganhou um grande interesse. Naquele trabalho, um modelo de rede neural chamado de chave
associativa, foi baseado em um novo princpio de combinao, que foi proposto para resolver
45
o problema. Os resultados mostraram que a chave associativa funciona bem e pode produzir
resultados de classificao consideravelmente melhor. Os dois princpios compartilham um
ponto comum de tentar montar ou sintetizar os resultados de todos os indivduos como
resultado final. Essa nova tcnica foi chamada de chave associativa. Os experimentos
mostram que a chave associativa pode melhorar os resultados dos classificadores individuais
consideravelmente.
O trabalho de Tax et al. (2000) teve como objetivo encontrar a classificao da regra
que minimize a probabilidade de erro. Neste trabalho, foram utilizados quatro classificadores
diferentes, so eles: classificador linear de Gauss, classificador linear de Fisher, mtodo de
classificao e percepo de multicamadas. Foram combinadas duas regras: a regra de bayes e
a regra de combinao do produto. Discutiu-se a combinao da mdia e a regra de
combinao do produto. Nas tarefas de classificao, pode ser inteligente combinar as
observaes de diferentes fontes ou origens, tendo como vantagens a diminuio do tempo de
treinamento como tambm o aumento da robustez e o desempenho da classificao. Com isso,
pode-se concluir que apenas no caso de problemas que envolvam vrias classes, com boas
estimativas de probabilidades de classe posterior regra de combinao do produto, supera a
regra de bayes. Sendo a regra da deciso bayesiana como sendo a melhor.
O artigo de Kittler et al. (1998a) foi desenvolvido um quadro terico, que tinha como
funo combinar classificadores que utilizam uma representao padro distinto e mostrar que
muitos sistemas existentes podem ser considerados como casos especiais de classificao
composto. As representaes de padres so usadas em conjuntos para tomar uma deciso.
Uma comparao experimental de sistemas de diversas combinaes de classificador
demonstra que a regra de combinaes desenvolvidas sob as mais restritivas hipteses,
mostrou que a regra da soma supera a combinao de sistemas de classificador. O problema
de combinar classificadores que utilizam diferentes representaes dos padres a serem
classificados foi estudado. Foi demonstrado que diferentes premissas e usando diferentes
aproximaes derivam comumente da combinao de classificador, usando esquemas
semelhantes como a regra do produto, regra da soma, regra do min, regra do max, regra
mediana e a votao por maioria. Os resultados mostraram que, segundo a anlise de
sensibilidade, a regra da soma torna-se mais resistente a erros de estimativa, e isso pode
fornecer uma explicao plausvel pelo desempenho superior.
O artigo de Kittler (1998b) mostrou que o problema de combinao de classificador
baseado no contexto de dois cenrios: uma funo baseada em algo idntico e em
representaes distantes. O objetivo da combinao do classificador foi melhorar a eficincia
46
O estudo dos dados em sade contribui de forma positiva para uma melhor qualidade
de vida da populao. As etapas desses estudos so: coleta dos dados, processamento dos
dados, anlise e diagnsticos das doenas, que resultam em intervenes para melhor
avaliao do estado de sade desses indivduos (RUOQUAYROL; FILHO, 2003). Com os
testes diagnsticos e outras medidas associadas, possvel ter um melhor detalhamento das
doenas do ponto de vista epidemiolgico. Essas medidas so: sensibilidade, especificidade,
valor preditivo positivo (VPP), valor preditivo negativo (VPN), prevalncia, acurcia,
incidncia e risco relativo. O quadro 2 so os resultados de um teste diagnstico
47
Doenas
Presente Ausente
Positivo a b
Verdadeiro-positivo Falso-positivo
Testes Negativo c d
Falso-negativo Verdadeiro-
negativo
d
Especificidade=
b+d
a
VPP=
a+b
e
d
VPN=
c+d
Ie
RR=
I0
49
A pesquisa de dados espaciais em sade iniciou-se no sculo XIX, com John Snow,
que buscou analisar a epidemia da clera na regio de Soho em Londres, em 1854. Na
pesquisa, ele encontrou uma associao dos mortos por clera, e as bombas pblicas que
abasteciam a cidade, identificando com isso a causa da epidemia (MEDRONHO et al., 2009).
Com isso, as anlises espaciais em sade, em especial na epidemiologia, tm se
tornado uma grande ferramenta de pesquisa, juntamente com os mtodos estatsticos espaciais
para uma maior investigao na difuso de doenas. O uso na epidemiologia visa descrever a
difuso de doenas, identificar padres de associao espacial, com o intuito de predio e
controle das doenas (MEDRONHO et al., 2009). Os dados espaciais em sade so formados
por localizaes espaciais (latitude e longitude), ou dentro de regies especficas (dados em
rea). Alguns exemplos dessas aplicaes so: nmero de casos de uma doena por Estado,
localizao exata da ocorrncia de uma determinada doena em um municpio, entre outras.
Essas pesquisas so realizadas em cima de geo-campo e geo-objeto. O geo-campo representa
a distribuio espacial contnua de determinado fenmeno geogrfico sobre o espao
geogrfico. Exemplo de tipos de solo, vegetao so fenmenos de geo-campo. O geo-objeto
so entidades presentadas por um ponto, linha ou polgono (reas), que possuem geometrias e
topologia. Os geo-objetos podem ser representados por: ponto de nibus, trecho de logradouro
e quadras. Neste trabalho os municpios do estado da Paraba so os geo-objetos.
Todos os processos das anlises espaciais so realizadas usando os Sistemas de
Informao Geogrfica (SIG). Um SIG uma estrutura que permite capturar, manipular,
armazenar, e gerar relatrios a cerca dos dados georreferenciados. Os SIGs e os mtodos
estatsticos espaciais podem ser potencialmente utilizados em sade coletiva e epidemiologia.
Na sade coletiva, o uso dos SIGs pode ser utilizado para o planejamento e monitoramento de
50
aes em sade, localizao exata dos servios de sade, roteiro das trajetrias das
ambulncias entre outros. Na epidemiologia, o seu uso vai desde a definio de regies de
risco at a ocorrncia de doenas, analisando a distribuio espacial geogrfica de uma
epidemia, entre outras (MEDRONHO et al., 2009).
O uso dos mtodos estatsticos espaciais pode auxiliar as autoridades pblicas numa
avaliao mais rpida, confivel e vlida em sade. Tudo isso contribui para um melhor
entendimento da compreenso dos problemas de sade da atualidade (MEDRONHO et al.,
2009).
A estatstica Kappa foi proposto por Cohen, 1960 que mede o grau de concordncia
entre variveis na classificao. Ele est no intervalo [-1,1] (EUGENIO; GLASS, 2004)
(Duda et al., 2001). A estatstica Kappa aplicado em diversas na rea de sade (McGinn et
all., 2004), dado por:
P ( A ) P ( E )
K= ,
1P ( E )
1 n
P ( A )= m
N i=1 ij
e
1 n
P ( E )= n m x nj=1 m kj ) .
2 k=1 ( j= 1 jk
N
em que P(A) a proporo de vezes em que a deciso correta; P(E) a proporo de vezes
em que a deciso incorreta; n o nmero de colunas e linhas em uma matriz de
53
0 Nenhum
0-0,2 Leve
0,2-0,4 Bom
0,4-0,6 Moderado
0,6-0,8 Considervel
A seguir, as k estruturas dadas por tk so agregadas por uma regra de combinao para
produzir um nico rtulo binrio final para cada geo-objeto pertencente a estrutura de entrada
f. Essa funo denotada por h: G {d1,..., dm}, onde dm com m 2 e denota a deciso pelos
graus de prioridade que o geo-objeto deve ter do ponto de vista epidemiolgico. Nesta tese,
m=2 para todas as aplicaes realizadas. Cada elemento de h pode ser denotado pelo par (g, h
(c'')), onde a funo h tem como contra domnio o conjunto de possveis decises dado por
{d1,..., dm}, gerando um mapa de deciso. Ento, levando-se em considerao a definio de
c'', a funo h pode ser reescrita como uma funo decisria que dada por:
4 PERCURSO METOLGICO
rea de estudo o Estado da Paraba, situada na regio nordeste do Brasil, com uma
extenso territorial de 56.469,744 km2. A populao, segundo o censo 2010 do Instituto
Brasileiro de Geografia e Estatstica (IBGE), de 3.766.528 habitantes. O Estado da Paraba
composto de 223 municpios e 4 mesorregies (Litoral/Mata Paraibana, Agreste Paraibano,
Borborema e Serto Paraibano). As coordenadas geogrficas so 07 09'S e 36 49'W. O clima
varia de tropical na regio do litoral e semirido no interior. Na prxima pgina segue o mapa
da Paraba (Figura 6).
Em todo o estado da Paraba foram registrados 26.646 casos do dengue no perodo de
2009 a 2011. Sendo 1.597 casos em 2009, 8.678 em 2010 e 16.371 em 2011. Durante os anos
pesquisados observa-se um aumento gradativo, com pice no ano de 2011. Faze em que em
2014, comearam a surgir outras doenas transmitidas tambm pelo prprio mosquito (Aedes
Aegypti), como zika e chicungunha. Porm, para est pesquisa ser tratado apenas do dengue.
58
O tipo de estudo desta pesquisa ecolgico, pois se baseia em uma anlise de uma
populao ou um grupo de indivduos que pertencem a uma regio geogrfica (MEDRONHO
et al, 2009). Nesse caso, a populao da pesquisa so todas as pessoas acometidas do dengue
no Estado da Paraba, no perodo de 2009 a 2011. Os bancos de dados foram fornecidos pelo
59
A segunda forma de combinao, presente no estudo de caso 2 (Figura 8), foi a rede
neural. A estrutura da rede neural foi dividida em trs variveis de entrada que foram os
mtodos de aglomerao espacial (Estatstica Scan, Mtodo Besag Newell e Getis Ord), com
trs camadas ocultas; a funo de ativao foi a funo sigmide e o banco de dados de
treinamento foi o mapa do especialista; e para o banco de teste, foram os resultados dos
valores-p dos mtodos de aglomerados espaciais, que so dados pela funo p k: G [0,1],
onde k=1,2,...,N, um mapa de valores-p dos mtodos de aglomerao espacial.
No estudo de caso 2 a regra utilizada para combinar os trs mtodos foi a redes
neurais. Em todos os estudos de caso, a deciso um mapa da combinao dos mtodos. Nos
resultados, foram gerados quinze mapas, dos quais nove foram os mapas dos mtodos de
aglomerao espacial (Estatstica Scan, Mtodo Besag Newell e Getis Ord); trs deles foram
61
No estudo de caso 3 (Figura 9), foram gerados vinte e um mapas, dos quais quinze
foram os mapas dos mtodos de aglomerao espacial (Estatstica Scan, Mtodo Besag
Newell, Getis Ord, Mtodo Tango e Estatstica M); trs foram os mapas do especialista e por
ltimo, os mapas da mapa da combinao dos mtodos de aglomerados espaciais do dengue
na Paraba, no perodo de 2009 a 2011. Neste estudo de caso a sada final da arquitetura a
quantidade de votos que cada geo-objeto recebeu. Para est pesquisa a quantidade de votos
de {0,5}. A diferena entre os estudos de caso 1 e o estudo de caso 3 que foram
acrescentados mais dois mtodos de aglomerao espacial (Mtodo Tango e Estatstica M) e o
62
0 - 2 votos No prioritrio
3- 5 votos Prioritrio
Fonte: Elaborado pela autora
64
5 RESULTADOS E DISCUSSES
No mapa dos valores-p da estatstica Scan (Figura 10), para o ano de 2009, foram
identificados 32 municpios (geo-objeto) significativos (valor-p < 0,05) dos quais 28 deles
estavam presentes no mapa de deciso da combinao (Figura 14) e 4 municpios foram
identificados como no prioritrio. Observa-se que os conglomerados espaciais significativos
esto distribudos em todas as mesorregies do Estado da Paraba.
No mapa do mtodo dos valores-p do mtodo Besag Newell (Figura 11), em 2009, se
comparado com a Figura 9, foram identificados 7 conglomerados espaciais a mais. Entre as
mesorregies da Litoral Paraibano e Agreste, observou-se uma concentrao de
conglomerados espaciais; nas demais mesorregies, os conglomerados esto distribudos em
todo o Estado. Na Figura 11, foram constatados 35 municpios significativos, dos quais 25
estavam presentes no mapa de deciso, ou seja, pela regra de votao por maioria, eles
estavam presentes no mapa dos valores-p da estatstica Scan ou no mapa dos valores-p de
Getis Ord.
No mapa dos valores-p de Getis Ord (Figura 12), do ano de 2009, foram identificados
aglomerados espaciais de valores positivos e negativos. Verifica-se uma presena maior de
aglomerados espaciais de valores negativos em toda a regio. Nos aglomerados espaciais de
valores positivos, foram identificados em 20 municpios, dos 223, sendo que apenas 2
municpios apresentaram aglomerados espaciais significativos de valores positivos (valor-p <
0,05); os demais possuem valor-p > 0,05, logo no so aglomerados espaciais.
No mapa do especialista (Figura 13), um municpio dito prioritrio para o dengue se
ele possuir risco relativo maior e igual a 2.00. Com isso, foram identificados 28 municpios
com risco relativo maior e igual 2.00, os demais apresentam risco inferior a 2.00. O mapa do
especialista comparado com o mapa de deciso para que, juntos, possam tomar decises
mais acertadas dos municpios prioritrios e no prioritrios para o dengue na Paraba.
O mapa de deciso da combinao (Figura 14) foi combinado pela regra de votao
66
por maioria. Nesse mapa, para um municpio ser nomeado como prioritrio, o mesmo deve ser
um conglomerado significativo em pelo menos 2, dos 3 mapas de aglomerao espacial
(estatstica Scan, mtodo Besag Newell e Getis Ord). A figura 14 representa o mapa que
melhor representou o mapa do especialista, verificando com mais preciso os municpios
prioritrios.
Depois de uma vasta pesquisa na literatura, no foram encontrados trabalhos que
abordem a combinao de mtodos de aglomerados espaciais. O objetivo foi mostrar que a
combinao dos mtodos de aglomerados espaciais produzem melhores resultados do que se
forem analisados de forma individual.
No trabalho de Lucena e Moraes (2009), foi realizada uma pesquisa para observar o
comportamento dos mtodos Besag Newell e o mtodo Scan na cidade de Joo Pessoa,
Paraba, nos anos de 2004 e 2005, para o dengue. Nessa pesquisa, foi identificado que ambos
os mtodos verificaram conglomerados espaciais, principalmente as regies norte e sudeste do
municpio. Os resultados mostraram que ambos os mtodos apresentaram resultados
parecidos. Em outro trabalho de Ferreira, Moraes (2013), foi utilizado o mtodo Scan na
regio de estudo o Estado da Paraba, com dados de 2011, que tinha por objetivo identificar
conglomerados por sexo (masculino e feminino). O trabalho concluiu que os conglomerados
espaciais do dengue esto distribudos de forma heterognea em todas as mesorregies do
Estado.
Figura 10 Mapa dos valores-p da estatstica Scan do dengue na Paraba no ano de 2009
67
Figura 11 - Mapa dos valores-p do mtodo Besag Newell do dengue na Paraba no ano de 2009
Figura 12 - Mapa dos valores-p de Getis Ord do dengue na Paraba no ano de 2009
68
No mapa dos valores-p da estatstica Scan (Figura 15), para o ano de 2010, foram
identificados 51 conglomerados espaciais, enquanto em 2009, foram 28 conglomerados.
69
Figura 15 - Mapa dos valores-p da estatstica Scan do dengue na Paraba no ano de 2010
Figura 16 - Mapa dos valores-p do mtodo Besag Newell do dengue na Paraba no ano de 2010
71
Figura 17 - Mapa dos valores-p de Getis Ord do dengue na Paraba no ano de 2010
Segundo o mapa dos valores-p da estatstica Scan (Figura 20), do ano de 2011, foram
identificados 48 conglomerados espaciais significativos distribudos em todas as mesorregies
do Estado. Comparando a figura 20 com o mapa de deciso da combinao (Figura 24), dos
48 conglomerados presentes na figura 18, 35 municpios foram identificados como
prioritrios na figura 24. Comparando os mapas dos valores-p da estatstica Scan com todos
os outros dos anos anteriores (2009 e 2010), o ano de 2011 foi o segundo que mais apresentou
conglomerados espaciais significativos perdendo apenas para 2010.
No mapa dos valores-p do mtodo Besag Newell (Figura 21), foram verificados
apenas 20 municpios como conglomerados, dos quais apenas 1 (um) municpio no est no
mapa de deciso da combinao (Figura 24). Na mesorregio do Litoral Paraibano, apenas 1
(um) municpio foi identificado como conglomerado, os demais esto distribudos nas outras
mesorregies.
Na figura 22 tem-se o mapa dos valores-p de Getis Ord de 2011 no qual esto
distribudos aglomerados espaciais de valores positivos e negativos, sendo que no foi
identificado nenhum aglomerado espacial de valores positivos na mesorregio do Litoral
Paraibano. Observa-se que h um nmero maior de aglomerados espaciais de valores
negativos do que de valores positivos. Em comparao com o mapa de deciso, os municpios
73
Figura 20 - Mapa dos valores-p da estatstica Scan do dengue na Paraba no ano de 2011
Figura 21 - Mapa dos valores-p do mtodo Besag Newell do dengue na Paraba no ano de 2011
75
Figura 22 - Mapa dos valores-p de Getis Ord do dengue na Paraba no ano de 2011
Na tabela 1, os valores dos testes preditivos positivos e negativos para o ano de 2009
foi de 90,25% e 71,42%, respectivamente. O valor preditivo positivo foi de 90,25%, ou seja,
78
dado que o municpio prioritrio e realmente ser prioritrio, nesse caso para o dengue. Em
2009, a estatstica Kappa foi de 0,8788 (87,88%), com grau de concordncia excelente. Ele
mede a confiabilidade e a preciso do modelo. Com esses resultados, pode-se concluir que,
segundo a regra de votao por maioria, a deciso dos municpios prioritrios para o ano de
2009 foi excelente. Estes resultados podem ser mais bem visualizados em forma de mapa na
figura 12.
No ano de 2010, o valor preditivo positivo foi melhor que 2009 com 93,33%,
enquanto que o valor preditivo negativo de 2009 foi pior que o ano de 2010, com 71,42%. Em
2010, a estatstica Kappa apresentou grau de concordncia excelente com 0,9415 (94,15%).
Em 2011, o valor preditivo positivo foi melhor que os anos de 2009 e 2010 com
97,88%, e o valor preditivo negativo foi melhor no ano de 2010 com 100%. Analisando a
estatstica Kappa, em 2011, o grau de concordncia foi igual ao ano de 2009 com 87,88%.
Tabela 1 - Valores preditivos positivos, valores preditivos negativos e estatstica Kappa para o dengue
de 2009 a 2011 segundo a combinao dos trs mtodos de aglomerao espacial pela votao por
maioria
No estudo de caso 2 (dois), a regra de combinao foi a das redes neurais, e foram
utilizados os mesmos mtodos de aglomerados espaciais que o estudo de caso 1 (um), e os
anos pesquisados (2009, 2010 e 2011) tambm foram iguais. Neste estudo de caso, foi
discutida a combinao dos mtodos de aglomerados espaciais com os resultados dos testes
diagnsticos e a estatstica Kappa.
No ano de 2009, segundo a figura 27, que representa a combinao segundo as redes
neurais, foram identificados 32 municpios prioritrios que se encontram distribudos de
forma heterognea em todo o Estado. Comparando com o mapa do especialista (Figura 13),
dos 32 municpios considerados prioritrios na figura 26, 23 deles esto presentes na figura
79
12.
Em 2010 (Figura 28), foram identificados 39 municpios prioritrios, 7(sete)
municpios a mais se comparados com 2009. Desses 39 municpios, 29 esto presentes no
mapa do especialista em 2010 (Figura 18). Os municpios prioritrios da figura 28 esto em
maior nmero localizado nas mesorregies do Serto Paraibano, Agreste Paraibano e
Borborema. Na mesorregio da Mata Paraibana, apenas um municpio foi considerado
prioritrio para o dengue em 2010.
O ano de 2011 (Figura 29) foi o perodo com o maior nmero de regies com uma
mdia de 49 municpios prioritrios, segundo a regra das redes neurais. Estes municpios se
encontram distribudos de forma heterognea em todo o Estado da Paraba, porm uma
concentrao maior de conglomerados espaciais nas mesorregies do Serto Paraibano e
Borborema.
De acordo com a figura 30, tm-se as matrizes de classificao dos anos de 2009 a
2011, segundo a regra das redes neurais. A matriz Q representa o ano de 2009, com 209
municpios classificadores corretamente, e 14 classificados incorretamente. Em 2010,
representado pela matriz. E o nmero de municpios classificados de forma correta foi de 212,
trs nmeros acima se comparado com a matriz Q, que representa o ano de 2009. No ano de
2011 (Matriz F), foi o perodo com o menor nmero de municpios classificados
corretamente, com apenas 201, e o maior com classificaes incorretas 22 municpios.
Comparando as matrizes de classificao do estudo de caso 1, que representa os
mtodos de aglomerados espaciais combinados pela regra de votao por maioria. Em todos
os anos de 2009 a 2011, a combinao, segundo as redes neurais, produziu melhores
resultados do que a regra de votao por maioria. O ano de 2010 foi o perodo com maior
nmero de municpios classificados corretamente, tanto para o estudo de caso 1, quanto para o
estudo de caso 2.
De acordo com a figura 31, os resultados dos testes diagnsticos para a sensibilidade
foram superiores especificidade para todos os anos. Em 2009, o percentual da sensibilidade
foi de 97,38%; e da especificidade 71,87%. O resultado da sensibilidade mostra que 97,38%
dos municpios so prioritrios; quando, de fato, ele prioritrio, gira em torno de quase
100%. Em 2010, a sensibilidade ficou em 100%, ou seja, todas as regies da Paraba que so
foram diagnosticadas como prioritrias; de fato, todas so prioritrias. Para 2011, a
sensibilidade ficou em 97,70% melhor que o ano de 2009.
Em relao especificidade, o ano de 2009 apresentou um melhor resultado com
71,87%, bem prximo ao ano de 2010 com 71,79%, ou seja, mostra que, de fato, quando um
municpio no prioritrio, ele realmente no prioritrio, segundo a regra das redes neurais.
Em 2011, a especificidade foi de 63,25%, a menor se comparados com os anos de 2009 a
2010.
82
Tabela 2 - Valores preditivos positivos, valores preditivos negativos e estatstica Kappa para o dengue
de 2009 a 2011 segundo a combinao dos mtodos de aglomerao espacial pelas redes neurais
Figura 33 - Mapa dos valores-p do Mtodo Tango do dengue na Paraba no ano de 2009
85
Figura 41 - Matriz de Classificao para os anos de 2009, 2010 e 2011, segundo o mapa de votao
para todos os mtodos de aglomerados espaciais
6 CONCLUSO
Neste trabalho foi proposta uma nova forma de arquitetura para a combinao dos
mtodos de aglomerados espaciais. Esta arquitetura indita, pois o que foi encontrado na
literatura cientfica abordam a combinao a partir de classificao de imagens e classificao
de dados. Esta nova arquitetura permite a combinao de um nmero qualquer de mtodos de
aglomerados espaciais e foi formalizada matematicamente.
Para demonstrar a validade da nova arquitetura, foram realizados trs estudos de casos,
no estado da Paraba no perodo de 2009 a 2011. Sua flexibilidade permite a utilizao de
qualquer regra de combinao e a ttulo de exemplo foram aplicados as regra de votao por
maioria e redes neurais. Igualmente, permite a utilizao de vrios mtodos aglomerao
espacial simultaneamente e nos estudos de casos foram utilizados de 3 a 5 mtodos. Foram
realizados a estatstica Kappa e medidas de validade e de associao que mostraram que os
resultados obtidos so satisfatrios nos trs estudos de caso.
Uma outra contribuio deste trabalho a proposio de um novo mapa de votao
mais detalhado. Neste mapa so identificados a quantidade de votos que cada geo-objeto
recebe durante o processo de votao. Essas informaes so teis para um melhor
entedimento do proceeso e auxilia a tomada de deciso sobre os geo-objeto.
Contribuies advindas da aplicao da nova metodologia sobre os dados reais
utilizados. Do ponto de vista da anlise espacial, foi possvel identificar os geo-objetos
(municpios) e suas regies (mesorregies ) como prioritrias e no prioritrias para o
combate ao dengue em todo o estado paraibano. A mesorregio do Serto Paraibano
apresentou as maiores concentraes de aglomerados do dengue no estado e a mesorregio do
Litoral/Mata Paraibana as menores concentraes de aglomerados. Foram tambm
identificados os municpios com os maiores e menores risco relativo do dengue. O municpio
de Monteiro apresentou alto risco relativo e o municpio de Baa da Traio apresentou risco 0
(zero) em todos os anos estudados. Anlise similar pode ser realizada em qualquer outra
regio do pas ou do mundo e tambm sobre outros agravos, como tuberculose, sndrome da
imunodeficincia adquirida (aids), causas externas, etc.
Com relao epidemiologia, os resultados das medidas de validao e da estatstica
Kappa, comprovaram que a combinao dos mtodos de aglomerados espaciais apresentaram
resultados com grau de concordncia quase perfeito para todos os anos. A identificao de
regies prioritrias e no-prioritrias, oriundas da combinao dos mtodos de aglomerao
espacial, pode auxiliar os gestores pblicos numa anlise mais aprofundada dos municpios
94
que realmente devem ter preferncias aos programas especficos no combate dessa doena.
Com isso, possvel ter uma grande otimizao dos recursos, em funo da prioridade das
regies. No Brasil foram notificados aproximadamente 2 milhes de casos no ano de 2013,
sendo considerado o maior surto da doena no Brasil. Esta doena tem se tornado um
problema de sade plbica.
95
REFERNCIAS
ANSELIN, L. Spatial data analysis with GIS: an introduction to application in the social
sciences. National Center for Geographic Information end Anlisis. University of California -
Santa Barbara. August, 1992.
BESAG, J.; NEWELL, J. The detection of clusters in rare diseases. Journal of the Royal
Statistical Society, v.154, p.143-155, 1991.
BISHOP, C. M. Neural Networks for Pattern Recognition, Oxford, New York, 1995.
BRATT, S.; GETHING, P. W.; BRADY, O. J.; MESSINA, J. P.; FARLOW, A. W.; MOYES,
C. L.; DRAKE, J. M.; BROWNSTEIN, J. S.; HOEN, A. G.; SANKOH, O.; MYERS, M. F;
GEORGE, D. B.; JAENISCH, T.; WILLIAM WINT, G. R.; SIMMONS, C.P.; SCOTT, T. W.;
FARRAR, J. J.; HAY, S. I. The global distribution and burden of dengue. Nature, v. 496, p.
504-507, 2013.
COSTA, M. A.; ASSUNO, R. M. A fair comparison between the spatial scan and the
Besag-Newell Disease Clustering Tests. Environmental and Ecological Statistics, v.12, p.
301-319, 2005.
DUDA, R. O.; HART, P. E.; STORK, D. G. Pattern Classification, 2nd ed John Wiley &
Sons, NY, 2001.
DUIN, R.P.W.; TAX, D.M.J. Experiments with Classifier Combining Rules. Pattern
Recognition Group, LNCS 1857, p.16-29. 2000.
FLEISS, J. L.; COHEN, J. The equivalence of weighted kappa and the intraclass
correlation coefficient as measures of reliability. Educational and Psychological
Measurement, v.33, p.613-619, 1973.
HAYKIN, S. Redes Neurais Princpios e Prtica. 2 Edio, Traduo: Dr. Paulo Martins
Engel, Editora Artmed Editora S.A.
HO, T. K. Random Decision Forests. Third Intl Conf. Document Analysis and Recognition,
Montreal, p.278-282, 1995.
HO, T.K.; HULL, J.J.; SRIHARI, S.N. Combination of Structural Classifiers. In Proc. 1990
IAPR Workshop on Syntactic and Structural Pattern Recognition, p.123-137, 1990.
HULL, J.J.; COMMIKE, A.; HO, T.K. Multiple Algorithms for Handwritten Character
Recognition. In Frontiers in Handwriting Recognition, Ed. Montreal: Concordia University,
p.117-129, 1990.
JAIN, A, K.; DUIN, R. P. W.; MAO, J. Statistical Pattern Recognition: A Review. IEEE
Transaction On Pattern Analysis and Machine Intelligence, v.22, n.1, 2000.
KITTLER, J.; HATEF, M.; DUIN, R. P. W.; MATAS, J. On Combining Classifiers. IEEE
Transaction on Pattern Analysis and Machine Intelligence. v.20, n.3, p.226-239, 1998a.
LAN, Y. D.; GAO, L. A new model combining multiple classifiers based on neural
network. Fourth International Conference on Emerging Intelligent Data and Web
Tecnologies, pp. 154-159, 2013.
MANDAL, R.; ST-HILAIRE, S.; KIE, J. G.; DERRYBERRY, D. Spatial trends of breast
and prostate cancers in the United States between 2000 and 2005. International Journal of
Health Geographics, p.1-10, 2009.
McGINN, T.; WYER, P. C.; NEWMAN, T. B.; KEITZ, S.; LEIPZIG, R.; GUYATT, G. Tips
for learners of evidence-based medicine: 3. Measures of observer variability (kappa
statistic). Canadian Medical Association or its licensors.vol.171, pp.1369-1373, 2004.
NADAL, C.; LEGAULT, R.; SUEN, C.Y. Complementary Algorithms for the Recognition
of Totally Unconstrained Handwritten Numerals. In Proc. 10th Int. Conf. on Pattern
Recognition, v.1, p.434-449, 1990.
PIETRI, D. E. D.; GARCIA, S.; RICO, O. Modelos geo-espaciale para la vigilancia local
de la salud. Revista Panamericana de Salud Pblica, v. 23, n. 6, p. 394-402, 2008.
SUEN, C. Y.; NADAL, C.T. A.; MAI, R.L; LAM, L. Recognition of totally unconstrained
handwritten numerals based on the concept of multiple experts. Frowiers in Handwriting
Recognition, in Proc. Int. Workshop on Frontiers in Handwriting Recognition, Montreal,
Canada, Apr, v.2, n.3, p.131-143, 1990.
TANGO, T. A class of tests for detecting 'general' and 'focused' clustering of rare
diseases. Statistics in Medicine, v.14, p.2323-2334, 1995.
XU, L.; KRZYZAK, A.; SUEN, C.Y. Methods of Combining Multiple Classifiers and their
Applications to Handwriting Recognition. IEEE Transcation on Systems Man and
Cybernetics, p.418-435, 1992.
XU, L.; KRZYZAK, A. Associative Switch for Combining Multiple Classifiers. Journal of
Artificial Neural Networks, v.1, n.1, p.77-100, 1994.
YU, K.; JIANG, X.; BUNKE, H. Lipriading: A classifier combination approach. Pattern
Recognition Letters, v.18, p.1421-1426, p.1997.
ZHOU, Z. H. Ensemble Methods: Foundations and Algorithms. CRC Press, Boca Raton,
2012.
102