Aprendizado de máquina para diagnóstico de Dengue usando dados abertos

XIII Encontro Nacional de Inteligencia Artificial e Computacional
Aprendizado de mquina aplicado ao diagnstico de Dengue

Asaffe C. M. dos Santos
Departamento de Estatstica e Informtica Universidade Federal Rural de

Pernambuco (UFRPE)
Caixa Postal CEP: 52171-900 Recife PE Brasil
asaffe.m@gmail.com
Abstract. This study analyzes the application of machine learning algorithms

in the diagnosis of dengue. We used supervised learning algorithms such as
Decision Trees, Naive Bayes, Support Vector Machine, Neural Networks and
Classifiers Committee. The study appeared in cases of dengue from the year
2016 provided by the open data portal of the Recife city. The results obtained
with the algorithms: LibSVM, Multilayer Perceptron and J48 were considered
promising with f-measure rates exceeding 0.885. We also observed that the
publication of data in open format could be useful in the data mining process
and other knowledge extraction tasks.
Resumo. Este estudo analisa a aplicao de algoritmos de aprendizado de
mquina no diagnstico de dengue. Usamos algoritmos de aprendizado
supervisionado, tais como: rvores de deciso, Naive Bayes, Mquina de
Vetores Suporte, Redes Neurais e Comit de Classificadores. O estudo atuou
nos casos de dengue referentes ao ano de 2016 fornecidos pelo portal de
dados abertos da Prefeitura do Recife. Os resultados obtidos com os
algoritmos LibSVM, Multilayer Perceptron e J48 foram considerados
promissores com taxas de f-measure superior a 0.885. Observamos ainda, que
a publicao dos dados em formato aberto pode ser til para o processo de
minerao de dados e outras tarefas de extrao de conhecimento.
1. Introduo
Considerada atualmente como uma das arboviroses mais conhecidas pelo mundo
(Acritica.UOL, 2016), a dengue, doena transmitida pelo mosquito Aedes aegypti, tem
preocupado as autoridades de sade no Brasil. Um dos principais desafios enfrentados
pelos rgos de sade lidar com a dificuldade de diagnstico, uma vez que os
sintomas da Dengue se confundem com os sintomas de outras doenas como
Chikungunya e Zika. Em situaes de diagnsticos e classificao de doenas as
tcnicas de aprendizado de mquina tm se mostrado eficazes. Um grande fator de
contribuio para o avano dessas tcnicas a grande quantidade de dados digitais
produzidos e disponibilizados na atualidade. Diversos pases tm demonstrado interesse
em disponibilizar seus dados governamentais de forma pblica. A publicao dos dados
em formato aberto permite que qualquer cidado desenvolva aplicaes ou
visualizaes que facilitem a anlise dos dados. Essa atitude promove a melhoria de
servios por meio da inovao e da criatividade, e contribuindo para uma maior
participao da sociedade junto ao governo (Dados Recife, 2016). Segundo a descrio
SBC ENIAC-2016 Recife - PE 697

do Portal Brasileiro de Dados Abertos, esse movimento denominado Open Data teve
incio em 2009, sendo que o Brasil aderiu iniciativa em 2011 (Portal Brasileiro de
Dados Abertos, 2014). No decorrer dos ltimos anos essa iniciativa tem se estendido s
esferas estaduais e municipais, e tanto os estados como os municpios tm implantado
portais de dados abertos. No portal de Dados Abertos da Prefeitura do Recife podem ser
encontradas bases de dados com registros dos casos de dengue, entre os anos de 2014 e
2016, provenientes dos relatrios das unidades de sade pblicas e particulares. Uma
tarefa interessante e relevante que serviria, no apenas para a populao recifense mas
para a sociedade brasileira como um todo, seria o de analisar esses dados na tentativa de
extrair padres alm dos que j so conhecidos, ou seja, procurar fazer a anlise levando
em considerao a localidade onde mora o indivduo e tambm os sintomas
apresentados por ele. Tal anlise poderia auxiliar profissionais de sade no processo de
diagnstico.
2. Mtodo de Aprendizado de Mquina

Aprendizado de mquina um ramo da inteligncia artificial que tem como objetivo
desenvolver tcnicas capazes de ensinar ao computador a aprender e/ou desempenhar
determinada tarefa de forma melhor a partir das prprias experincias. Dentre as vrias
abordagens existentes de aprendizado de mquina, daremos nfase a preditiva tambm
conhecida como supervisionada.
No aprendizado de mquina supervisionado os algoritmos utilizam para
"treinamento" um conjunto prvio de dados coletados do mundo real. Esse conjunto de
dados tem uma parte (geralmente chamada de x) que contm as caractersticas de
interesse do problema e outra parte (geralmente chamada de y) que contm o valor que
decorre das caractersticas em x ou a classe dos exemplos do mundo real. Assim, a ideia
que o sistema "aprenda" o mapeamento entre x e y a partir dos dados de treinamento,
para que posteriormente seja capaz de "prever" o valor de y para um novo x, isto , o
valor de uma funo ou a classe qual um novo exemplo pertence (Luiz Vieira, 2016).
Se o domnio de y for um conjunto infinito e ordenado de valores (p. ex., o
conjunto dos nmeros reais), o problema dito de regresso. Porm, se o domnio de y
for um conjunto finito e no ordenado de valores, o problema dito de classificao.
Exemplo: Estimar o preo de uma casa mediante as caractersticas de tamanho,
localizao geogrfica e tipo de material, seria um problema de regresso. Enquanto,
determinar se uma pessoa tem cncer benigno ou maligno, sabendo-se o tamanho do
tumor, formato do tumor e idade do paciente, teramos um problema de classificao.
2.1 Naive Bayes

uma tcnica estatstica baseada no teorema de Thomas Bayes. Segundo o teorema de
Bayes, possvel encontrar a probabilidade de um certo evento ocorrer, dada a
probabilidade de um outro evento que j ocorreu:
P ( x|c ) P ( c )
P (c|x )=
P (x )
Onde: P(c|X): probabilidade da classe c dado o vetor X; P(X|c): probabilidade
do vetor X dada a classe c; P(c): probabilidade a priori da classe c; P(X): probabilidade
a priori do vetor de treinamento X

O algoritmo Naive Bayes assume que no existe relao de dependncia entre os

atributos. Ou seja, a presena de uma caracterstica particular em uma classe no est
relacionada com a presena de nenhuma outra caracterstica.
2.2 Redes MLP (MultiLayer Perceptron)

As redes feedforward Multi-Layer Perceptron (MLP) (BRAGA; CARVALHO;
LUDERMIR, 2007; HAYKIN, 2001) representam uma classe de redes neurais
importante e bastante utilizada. A rede composta por um conjunto de unidades
sensoriais que compem a camada de entrada; uma ou mais camadas ocultas ou
escondidas de unidades de processamento; e uma camada de sada composta de
unidades de processamento (Soares, 2008). Esse tipo de rede deriva de um modelo
proposto por Frank Rosenblatt em 1958 chamado de perceptron (Braga et al. 2000),
modelo que resolve apenas problemas linearmente separveis, mas tem seu poder
computacional aumentado ao se adicionar camadas escondidas. O algoritmo mais
utilizado para o treinamento de redes MLP o algoritmo backpropagation outro
algoritmo usado o Levenberg-Marquardt, o primeiro otimiza sua funo objetivo
atravs de equaes de primeira ordem e o segundo treina com funes de segunda
ordem (Soares, 2008). O MLP um algoritmo com paradigma supervisionado que pode
realizar tanto classificao, quanto regresso (Soares,2008). Seu treinamento ocorre em
duas fases: fase forward e a fase backward (Braga et al.,2000). Na fase forward a
entrada apresentada a primeira camada da RNA, que calcula seus sinais de sada e
passa os valores para a camada seguinte. Esta camada calcula seus sinais de sada e
passa para a prxima camada, isto vai acontecendo at a camada de sada obter as sadas
da RNA, as quais so comparadas com as sadas desejadas. A fase backward percorre o
caminho inverso. A partir da camada de sada at a camada de entrada os pesos dos
neurnios vo sendo ajustados de forma a diminuir seus erros (os erros dos neurnios
das camadas intermediarias so calculados utilizando o erro dos neurnios da camada
seguinte ponderado, pelo peso da conexo entre eles). Este processo repetido at
atingir algum critrio de parada.
2.3 Mquinas Vetores Suporte

Mquinas de Vetores Suporte (SVMs, do ingls Support Vector Machines) um
algoritmo de aprendizado de mquina (AM) supervisionado que pode ser utilizado tanto
para classificao, quanto para regresso (Soares, 2008). Esta tcnica originalmente
desenvolvida para classificao binria, busca a construo de um hiperplano como
superfcie de deciso, de forma que a separao entre os exemplos seja mxima. SVMs
lineares so bons para conjunto de dados linearmente separveis. No entanto, existem
muitos casos em que no possvel dividir o conjunto de treinamento linearmente por
um hiperplano. Nesses casos, podemos mapear os dados para um espao de dimenso
mais alta, no qual os dados passam a ser linearmente separveis. Rtulos ou classes so
os fenmenos que desejamos realizar uma previso. Para SVMs de classificao estes
rtulos possuem valores discretos (1,..,n). Nos casos que estes valores sejam contnuos
temos o SVM para regresso. Para dados que no podem ser separados por um
hiperplano, temos o SVM no linear. A tcnica adotada aqui aumentar a
dimensionalidade do espao amostral dos dados, isto , caso os dados estejam em R d
passamos os dados para o espao Rx, em que x > d, onde os dados possam ser separados
por um hiperplano. Para isso necessrio uma funo kernel (Soares , 2008).

2.4 rvores de deciso

O mtodo de classificao por rvore de Deciso funciona como um fluxograma em
forma de rvore, onde cada n (no folha) indica um teste feito baseado em uma
condio (por exemplo, dor de cabea sim/no). As ligaes entre os ns representam
os valores possveis do teste do n superior, e as folhas indicam a classe (categoria) a
qual o registro pertence. Aps a rvore de deciso montada, para classificarmos um
novo registro, basta seguir o fluxo na rvore (mediante os testes nos ns no-folhas)
comeando no n raiz at chegar a uma folha. Pela estrutura que formam, as rvores de
decises podem ser convertidas em Regras de Classificao. O sucesso das rvores de
deciso, deve-se ao fato de ser uma tcnica extremamente simples, no necessita de
parmetros de configurao e geralmente tem um bom grau de assertividade. Apesar de
ser uma tcnica extremamente poderosa, necessria uma anlise detalhada dos dados
que sero usados e saber qual o melhor atributo a escolher para garantir bons resultados.
Para esta tarefa so utilizadas duas mtricas:
Entropia- A entropia de um conjunto pode ser definida como sendo o grau de
pureza desse conjunto. Este conceito emprestado pela Teoria da Informao define a
medida de falta de informao, mais precisamente o nmero de bits necessrios, em
mdia, para representar a informao em falta, usando codificao tima. Dado um
conjunto S, com instncias pertencentes classe i, com probabilidade pi, temos:
c
Entropia (S )= pi log 2 pi
i=1
Onde: S o conjunto de exemplo de treino; p+ a poro de exemplos positivos;

p- a poro de exemplos negativos; c o nmero de classes.
A entropia dada pelo desdobramento da equao:
Entropia (S )= p+ log 2 p + p log 2 p
Ganho- O ganho definido como a reduo na entropia. Ganho(S,A) significa a

reduo esperada na entropia de S, ordenando pelo atributo A. O ganho dado pela
seguinte equao:
GanhoS, A = Entropia S
S v .EntropiaS
v
vvalues A S
2.5 Comit de Classificadores

Ensemble based systems (EBS), tambm conhecido como comit de classificadores,
um mtodo de AM que utiliza a sada de diferentes classificadores chamados de
classificadores base para conseguir uma classificao mais exata, com menos erro. Caso
ao escolher um nico classificador e ele no cometer nenhum erro no necessrio a
construo de Ensemble. Caso o classificador escolhido cometa erros, pode-se construir
um comit de classificao com classificadores que no cometam o mesmo erro
(Kuncheva,2004). Desta forma a diversidade na sada dos classificadores bases do
Ensemble muito importante. Esta diversidade pode ser realizada de vrias formas,
como por exemplo utilizando parmetros diferentes para o mesmo algoritmo,
aumentando a quantidade de classificadores bases, variando os dados utilizados na
construo do classificador entre outros.

Comit de classificadores tem mostrado maior desempenho e confiabilidade do

que sistemas individuais. Sua dificuldade est em construir um comit que possuam
classificadores bases com a diversidade necessria. Os principais pontos que devem-se
levar em considerao ao combinar os classificadores bases so: i)Identificar como
realizar a combinao de cada um, ii) Criar os classificadores membro e iii) Escolher os
mtodos mais efetivos para o multiclassificador. O comit tem a habilidade de corrigir
erros de seus membros.
2.5.1 Bagging
O mtodo bagging (Breiman, 1999) bastante utilizado para a construo de comits,
onde os classificadores bases so formados a partir de padres diferentes. A
implementao do bagging simples, ele foi o primeiro algoritmo construdo para
implementao de EBS. Nele a sada dos classificadores so combinadas por meio de
votos e o classificador que obtiver o maior nmero de votos para uma determinada
instncia ser a resposta. A diversidade no bagging obtida com o uso de diferentes
subconjuntos de dados criados aleatoriamente. E cada subconjunto utilizado para treinar
um classificador do mesmo tipo.
2.5.2 AdaBoost
O nome "AdaBoost" deriva de Adaptive Boosting (em portugus, impulso ou estmulo
adaptativo). um algoritmo de aprendizado supervisionado do tipo boost. Esse
algoritmo combina um conjunto de funes simples de classificao, denominadas
classificadores fracos para formar um classificador forte. Um classificador forte
composto de um conjunto de classificadores fracos, associados a pesos que classificam
de forma precisa dois conjuntos de dados pr-rotulados, onde as caractersticas com
pesos maiores so mais significativas para a classificao de exemplos definidos como
parte de um certo conjunto. Dado uma base de dados de entrada, a funo do AdaBoost
encontrar o conjunto de caractersticas que comporo o classificador forte provendo
uma melhor classificao do conjunto de entrada.
3. Trabalhos Relacionados
Vrios pesquisadores j publicaram trabalhos relacionados aprendizagem de mquina
no diagnstico de arboviroses, isto , doenas transmitidas por insetos, assim como a
Dengue. O trabalho proposto por (Fathima e Nisar, 2012), fez uma anlise comparativa
entre SVM e Naive Bayes na minerao de dados mdicos para fazer a classificao
entre dengue e outras doenas febris. O resultado da comparao mostrou que o SVM
superou o Naive Bayes no diagnstico da doena.
Em (Hani et al.,2010), os pesquisadores prognosticaram casos de dengue que
foram posteriormente confirmados, por meio da utilizao de Redes Neurais artificiais
(ANNs). Para criao do modelo, os autores utilizaram 14.209 casos de dengue
registrados e confirmados. Eles levaram em considerao muitos parmetros fsicos
como temperatura mdia, umidade relativa mdia e volume total de chuva. Esse modelo
de predio tem mostrado eficcia nos experimentos e nas avaliaes dos casos
confirmados de dengue.
Em (Janaina Gomide et al.,2011), pesquisadores fizeram uma proposta de
abordagem de vigilncia da dengue que produzisse um relatrio semanal do que estava
acontecendo em cada cidade fazendo uma comparao com as semanas anteriores. Os

autores construram um modelo de regresso linear baseado em quatro dimenses:

volume, localizao, hora e contedo. De forma bem especifica, eles mostraram que o
twitter pode ser usado para predizer, de maneira espacial e temporal epidemias de
dengue por mtodo de agrupamento.
Em (Ana Lisa V. Gomes et al.,2011), os autores apresentaram e implementaram
uma inovadora aplicao de algoritmo (SVM) para analisar padro de 12 genes de
clulas mononucleares do sangue perifrico de 28 pacientes com dengue (13 Dengue
Hemorrgica e 15 Dengue clssica) no perodo agudo de infeco viral. Eles atingiram
uma preciso maior que 85%.
No entanto desconhecemos trabalhos de minerao de dados, que explore dados
abertos relacionados aos casos de dengue no Brasil.
4. Experimentos
Base de dados - Para a realizao desse trabalho foram utilizados dados oferecidos pelo
portal de dados abertos da prefeitura do Recife. A publicao dos dados em formato
aberto permite que qualquer um desenvolva aplicaes ou visualizaes, buscando
facilitar a anlise dos dados, promovendo a melhoria de servios por meio da inovao e
da criatividade, e contribuindo para uma maior participao da sociedade junto ao
governo municipal (Dados Recife, 2016). Para este estudo, devido significativa
quantidade de dados disponibilizada no Portal, optamos pela utilizao das ocorrncias
de dengue do perodo de Janeiro a Maio durante o ano de 2016. Uma das etapas que
antecede o processo de aprendizagem de mquina o de pr-processamento que
engloba o tratamento e a preparao dos dados. Para que sejam descobertos padres de
qualidade importante que essa etapa seja cuidadosamente executada (Witten; Frank,
2009 ; Rezende at al.,2003). Ainda segundo (Facelli at al.,2011), o desempenho dos
algoritmos de aprendizado de mquina geralmente afetado pelo estado em que os
dados se encontram, ou seja, pela qualidade dos dados disponveis. Podem ser
mencionadas algumas das tarefas includas nessa fase, a saber: limpeza dos dados,
tratamento de dados faltantes, seleo e construo de atributos, dentre outras.
4.1 Pr-processamento
Remoo de instncias que possuam dados faltosos - A base original possua 11.249
instncias, no entanto apenas 995 dessas possuam informaes dos sintomas
apresentados pelos indivduos. Foi necessrio tambm, retirar as instncias que apesar
de possurem os dados clnicos do paciente no havia definio se a pessoa estava com
ou sem o vrus da dengue. Ao final da remoo de todas as instncias com dados
faltosos, restaram apenas 781 registros para realizarmos os experimentos.
Converso de valores - Algumas tcnicas de aprendizado de mquina
manipulam internamente apenas valores numricos, o caso do SVM e da Rede Neural.
Com isso foi necessria aplicao do processo de transformao de dados nominais em
valores numricos. Devido a necessidade de se ter os nmeros entre 0 e 1, algumas
entradas descritas nesse trabalho foram divididas por 10. Assim, ex: a idade de um
paciente que possua "47" anos passou a ter o valor de "0.47".
Balanceamento - No foi realizado o balanceamento da base, pois esse
procedimento poderia ser prejudicial no aprendizado. Enquanto o nmero de instncias
de pessoas com dengue de 643, o nmero de instncias de pessoas que no tm

dengue de 138. Se realizssemos um balanceamento nessa base, uma grande

quantidade de instncias da classe dengue seria perdida e consequentemente
influenciaria negativamente no aprendizado. Por conta disso utilizamos na anlise do
aprendizado as mtricas precision, recall e f-measure de cada algoritmo, essas mtricas
sero descritas no item 4.3.
Seleo de atributos - Em geral, espera-se que todos os atributos sejam
relevantes, porm nem sempre possvel garantir isso. Sendo assim, foram aplicadas
abordagens de seleo de atributos, para definir o conjunto que seria relevante e no-
redundante. Visando reduzir a dimensionalidade dos dados, utilizou-se a ferramenta
Weka para aplicao de um filtro que tinha como classificador uma rvore de deciso
J48. Foram ento selecionados os atributos descritos a seguir: Idade, Sexo, Bairro gua
fria, Bairro Imbiribeira, Bairro Alto Jos Bonifcio, Bairro Ibura, Bairro Guabiraba,
Bairro Vrzea, Bairro Iputinga, Bairro Espinheiro, Bairro Cordeiro, Bairro Linha do
tiro, Bairro So Jos, Febre, Mialgia, Cefaleia, Nusea, Artralgia e classificao_final.
Com esse resultado podemos inferir que alguns bairros devido a demanda de
casos registrados foram transformados em atributos.
4.2 Ajuste de Parmetros para os Algoritmos de Aprendizado de Mquina

Com o intuito de selecionarmos o melhor de cada um dos modelos para uma disputa
final entre eles, foram testadas algumas configuraes dos algoritmos abaixo.
Naive Bayes - Para o algoritmo Naive Bayes no foi preciso ajustar os
parmetros pois ele no paramtrico.
Rede Neural (MLP): Foram testadas as seguintes taxas de aprendizado {10 4,
10 , 10 2 ,10 1 , 0.3}, com o nmero de neurnios escondidos variando de {2, 5, 10,
3
20, 50, 100}, o momento utilizado foi de 0.8, o nmero de iteraes foi de 500 e o
tamanho da validao foi de 10%.
SVM (LibSVM) - Utilizamos o algoritmo C-SVC com a funo Kernel de
Base Radial (RBF, do ingls Radial Basis Function). Variamos o Gamma em {10 4 , 10
3
, 10 2 , 10 1 , 0.5, 1} e a constante C em {2 7 , 2 3 , 2 0 , 2 3 , 2 7 }.
rvore de Deciso (J48) - Variamos o nmero mnimo de instncias em folha
em {2, 5, 10}, o tamanho do conjunto de validao em {3, 5, 10}, e a opo de usar
poda em {true, false}.
Bagging - O conjunto de amostras variou em um percentual de {10, 20, 50, 75,
100} o classificador utilizado foi rvore de deciso (J48) Padro do Weka e o nmero
de iteraes variou em {10, 20, 50, 75, 100, 200}.
AdaBoost - O Classificador utilizado foi rvore de deciso (J48) Padro do
Weka e variamos o nmero de iteraes em {10, 20, 50, 75, 100, 200}.
4.3 Validao
Para seleo do melhor conjunto de parmetros dos algoritmos de AM foi utilizada a
medida de preciso (Precision) e cobertura (Recall) e F-Measure. Na seo abaixo
faremos uma discusso sobre os critrios citados e suas aplicaes, utilizando as
seguintes abreviaes: VP - Quantidade de pessoas corretamente classificadas com
dengue; VN - Quantidade de pessoas corretamente classificadas com No-Dengue;

FP - Quantidade de pessoas classificadas com dengue incorretamente; FN - Quantidade

de pessoas classificadas com No-Dengue incorretamente.
Precision
VP
preciso=
VP+FP
Para maximizar o precision necessrio que o moderador automtico no

classifique incorretamente uma pessoa com dengue, ou seja, pessoas que no deviriam
ser diagnosticadas com dengue, mas foram diagnosticadas.
Recall
VP
recall=
VP+FN
Para maximizar o recall necessrio que o moderador automtico diminua a

quantidade de pessoas com dengue que o sistema no detectou.
F-Measure
precision . recall
f measure= 2
precision+recall
O F-Measure uma mdia harmnica entre o Recall e o Precision. O resultado

do F-Measure um indicativo de que, quanto mais prximo de 1, melhor o algoritmo
e resultados mais prximos de 0, demonstram que os algoritmos so piores.
5. Anlises dos Resultados

Aps a seleo do melhor conjunto de parmetros para os algoritmos de AM foi
utilizado T-test e como parmetro de comparao foi utilizado o F-measure. Para uma
melhor avaliao do desempenho dos experimentos utilizou-se o recurso de validao
cruzada (Cross-Validation) 10-fold, que um mtodo onde todas as instncias da base
de dados tm oportunidade de participar tanto do treinamento quanto do teste. A
partir da execuo dos melhores conjuntos de validao foram obtidos os seguintes
resultados de teste.
Tabela 1: Tabela Comparativa dos Resultados
Algoritmo Precision Recall F-Measure
Naive Bayes 0.838 0.10 0.843 0.14 0.840 0.10
MLP 0.887 0.13 0.892 0.15 0.888 0.12
LibSVM 0.891 0.15 0.895 0.14 0.893 0.12
J48 0.888 0.14 0.892 0.16 0.889 0.13
Bagging 0.877 0.12 0.885 0.15 0.879 0.12
AdaBoost 0.843 0.13 0.853 0.15 0.846 0.11

Como pode ser observado, os algoritmos tiveram desempenho prximos e a taxa

de F-measure entre eles variou de 0.840 a 0.893. Se estivssemos interessados em
utilizar o resultado deste trabalho para evitar ao mximo o risco de pessoas deixarem de
receber o tratamento adequado para a doena, precisaramos olhar para o resultado com
melhor recall. Por meio da matriz de confuso de cada mtodo, observamos que as taxas
de desempenho para a classe dengue estiveram acima de 90%. Por outro lado, para a
classe No-Dengue verificamos uma tendncia da taxa de desempenho ficar abaixo ou
somente um pouca acima de 50%. O argumento que justifica esse resultado o fato da
base encontrar-se desbalanceada.
5.1 Anlise Naive Bayes
Tabela 2: Matriz Confuso Naive Bayes
No-Dengue Dengue
No-Dengue 71 67
Dengue 56 587
A partir da matriz confuso observamos que o desempenho do Naive Bayes para

classificar que uma pessoa estava com dengue foi de 91,2%, enquanto para classificar
que no estava com dengue foi de 51,4%. O Naive Bayes considera que os atributos so
independentes. E que esses, quando numricos, obedeam a uma distribuio normal.
Por no conseguir garantir esses fatores na base em que foi aplicada a classificao, no
obtivemos um bom desempenho com este algoritmo. Ele ficou com o pior desempenho
tendo 0.840 de F-measure.
5.2 Anlise Rede Neural (MLP)
Tabela 3: Matriz Confuso Rede Neural
No-Dengue Dengue
No-Dengue 84 54
Dengue 30 613
A partir da matriz confuso pudemos verificar que o desempenho do Multilayer

Perceptron para classificar que uma pessoa estava com dengue foi de 94,8%, enquanto
para classificar que no estava com dengue foi de 60,8%. Isto se deve ao fato dos
parmetros da melhor rede, onde foi definido 100 neurnios na camada escondida. Com
essa quantidade a rede conseguiu se adaptar melhor a base onde provavelmente as
classes estavam prximas ou em forma no linearmente separvel.
5.3 Anlise SVM (LibSVM)

Tabela 4: Matriz Confuso SVM
No-Dengue Dengue
No-Dengue 90 48
Dengue 34 609
A partir da matriz confuso observamos que o desempenho do LibSVM para

classificar que uma pessoa estava com dengue foi de 94,7%, enquanto para classificar
que no estava com dengue foi de 64,7%. O desempenho do SVM foi o melhor obtendo
0.893 de F-measure. O Bom desempenho do SVM pode se justificar pelo fato desse
mtodo precisar de poucas instncias de treinamento para generalizar bem casos novos.
5.4 Anlise rvore de deciso (J48)
Tabela 5: Matriz confuso rvore de deciso
No-Dengue Dengue
No-Dengue 86 52
Dengue 32 611
A partir da matriz confuso obtivemos que o desempenho do J48 para classificar que
uma pessoa estava com dengue foi de 95,2%, enquanto para classificar que no estava
com dengue foi de 62,3%. O desempenho do J48 foi o segundo melhor obtendo 0.889
de F-measure. Um fator que pode ter influenciado no bom desempenho desse modelo,
o fato da anlise dos componentes principais na etapa de pr-processamento ter sido
feita tambm com o algoritmo J48. Atravs da visualizao da rvore de deciso
retornada pela execuo da classificao do weka, percebemos que o sintoma febre foi
transformado em n raiz da rvore, o que nos leva inferir que esse um sintoma muito
caracterstico das vtimas de dengue.
5.5 Anlise Bagging
Tabela 6: Matriz Confuso Bagging
No-Dengue Dengue
No-Dengue 77 61
Dengue 29 614
A partir da matriz confuso observamos que o desempenho do Bagging para classificar

que uma pessoa estava com dengue foi de 95,4%, enquanto para classificar que no
estava com dengue foi de 55,7%. Como o bagging do paradigma de comit de
classificadores, este desempenho foi influenciado pela escolha dos classificadores. No
caso, o algoritmo J48.

5.6 Anlise AdaBoost
Tabela 7: Matriz Confuso Adaboost
No-Dengue Dengue
No-Dengue 67 71
Dengue 44 599
A partir da matriz confuso verificamos que o desempenho do Adaboost para classificar

que uma pessoa estava com dengue foi de 93,1%, enquanto para classificar que no
estava com dengue foi de 48,5%. Assim como o Bagging o AdaBoost tambm do
paradigma de comit de classificadores, porm por formar seus modelos de forma
iterativa e seu novo modelo ser influenciado pela performance dos anteriores,
apresentou um dos F-measures mais baixos (0.846), vencendo apenas do Naive Bayes,
que teve o pior dos resultados.
6. Concluso
Analisando o desempenho dos algoritmos de AM propostos neste trabalho, verificamos
que os algoritmos SVM, J48 e MLP obtiveram bons desempenhos na classificao e os
menores nmeros de Falso Positivos e Falso Negativos, enquanto o Naive Bayes obteve
o pior desempenho, j o SVM foi o melhor obtendo 0.893 de F-measure. Resultado que
pode ser justificado pelo fato desse mtodo precisar de poucas instncias de treinamento
para generalizar bem casos novos. Este trabalho fundamenta o argumento de que a
distribuio de dados relacionados aos registros de casos de vtimas de dengue por parte
das instituies de sade, podem ser teis para o processo de minerao de dados, bem
como para outras tarefas de extrao de conhecimento e tomada de deciso. Observa-se,
ainda, a necessidade de melhoria da qualidade dos dados a serem disponibilizados pelo
portal de dados abertos da Prefeitura do Recife, bem como a incluso do conjunto de
sintomas apresentados pelos indivduos nas bases de dados: Zika e Chikungunya. Isso
permitir que em trabalhos futuros possamos promover mais um mtodo de diagnstico
que auxiliem mdicos a diagnosticar essas viroses de forma mais acertiva.
7. Referncias
Soares, R. G. Uso de meta-aprendizado para a seleo e ordenao de algoritmos de
agrupamento aplicados a dados de expresso gnica. Master's thesis, Centro
de Informtica- Universidade Federal de Pernambuco, Recife, 2008.
A. Braga, A. Carvalho, and L. T. Redes Neurais Arti ciais Teoria e Aplicac~ao. 10. The
name of the publisher, LTC Editora, Rio de Janeiro-RJ, 2000.
Acritica.UOL, Dengue em debate: problemas e solues. Disponvel em:
http://acritica.uol.com.br/vida/Dengue-debate-problemas-solucoes_0_1094290581>
Acesso em: Julho de 2016.
Dados Recife, O Portal de Dados Abertos da Prefeitura da Cidade do Recife. Disponvel
em <http://dados.recife.pe.gov.br/about> Acesso em: 4 de junho. 2016.
Brasil. Portal Brasileiro de Dados Abertos. (2014b). O que so Dados Abertos? 2014.

Retirado de <http://www.governoeletronico.gov.br/acoes-e-projetos/Dados-Abertos>
Facelli, K., Lorena, A. C., Gama, J., & Carvalho, A. C. P. L. F. (2011). Inteligncia
Artificial: Uma abordagem de aprendizado de mquina. Rio de Janeiro: LTC.
Luiz Vieira, Qual a definio de Aprendizado de Mquina? (Machine Learning).
Disponvel em <http://pt.stackoverflow.com/questions/113343/qual-%C3%A9-a-
defini%C3%A7%C3%A3o-de-aprendizado-de-m%C3%A1quina-machine-learning>,
Acesso em 25 de junho. 2016.
Fathima, Shameem A., and Nisar Hundewale. "Comparitive analysis of machine
learning techniques for classification of arbovirus." Proceedings of 2012 IEEE-
EMBS International Conference on Biomedical and Health Informatics. IEEE, 2012.
Witten, I. H., & Frank, E. (2009). Data Mining: Practical machine learning tools and
techniques with java implementations. Burlington, Massachusetts: Morgan
Kaufmann.
Rezende, S. O., Pugliesi, J. B., Melanda, E. A., & Paula, M. D. (2003). Minerao de
dados. In: REZENDE, S.O. (Org.). Sistemas inteligentes: Fundamentos e aplicaes.
So Paulo: Manole.
Weka 3: Data mining software in java. <http://www.cs.waikato.ac.nz/~ml/weka/> .
Acesso em Junho de 2016
Hani M.Aburas,B.Gultekin Cetiner and Murat Sari, Dengue confirmed-cases
prediction:A neural network model, Expert Systems with Applications: An
International Journal , Volume 37 Issue 6, June, 2010
Janana Gomide, Adriano Veloso, Wagner Meira Jr., Virglio Almeida, Fabrcio
Benevenuto, Fernanda Ferraz and Mauro Teixeira Dengue surveillance based on a
computational model of spatio temporal locality of Twitter, Journal Web science
2011 ACM.
Ana Lisa V. Gomes, Lawrence J. K. Wee, Asif M. Khan, Laura H. V. G. Gil, Eresto T. A.
Marques, Jr, Carlos E. Calzavara-Silva and Tin Wee Tan , Classification of Dengue
Fever Patients based On Gene Expression Data Using Support Vector Machines,
PLoS One. 2010; 5(6): e11267

Aprendizado de máquina para diagnóstico de Dengue usando dados abertos

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aprendizado de máquina para diagnóstico de Dengue usando dados abertos

Enviado por

Direitos autorais:

Formatos disponíveis

XIII Encontro Nacional de Inteligencia Artificial e Computacional

Aprendizado de mquina aplicado ao diagnstico de Dengue

Departamento de Estatstica e Informtica Universidade Federal Rural de

Abstract. This study analyzes the application of machine learning algorithms

SBC ENIAC-2016 Recife - PE 697

2. Mtodo de Aprendizado de Mquina

2.1 Naive Bayes

SBC ENIAC-2016 Recife - PE 698

O algoritmo Naive Bayes assume que no existe relao de dependncia entre os

2.2 Redes MLP (MultiLayer Perceptron)

2.3 Mquinas Vetores Suporte

SBC ENIAC-2016 Recife - PE 699

2.4 rvores de deciso

Onde: S o conjunto de exemplo de treino; p+ a poro de exemplos positivos;

Ganho- O ganho definido como a reduo na entropia. Ganho(S,A) significa a

2.5 Comit de Classificadores

SBC ENIAC-2016 Recife - PE 700

Comit de classificadores tem mostrado maior desempenho e confiabilidade do

SBC ENIAC-2016 Recife - PE 701

autores construram um modelo de regresso linear baseado em quatro dimenses:

SBC ENIAC-2016 Recife - PE 702

dengue de 138. Se realizssemos um balanceamento nessa base, uma grande

4.2 Ajuste de Parmetros para os Algoritmos de Aprendizado de Mquina

SBC ENIAC-2016 Recife - PE 703

FP - Quantidade de pessoas classificadas com dengue incorretamente; FN - Quantidade

Para maximizar o precision necessrio que o moderador automtico no

Para maximizar o recall necessrio que o moderador automtico diminua a

O F-Measure uma mdia harmnica entre o Recall e o Precision. O resultado

5. Anlises dos Resultados

Algoritmo Precision Recall F-Measure

Naive Bayes 0.838 0.10 0.843 0.14 0.840 0.10

MLP 0.887 0.13 0.892 0.15 0.888 0.12

LibSVM 0.891 0.15 0.895 0.14 0.893 0.12

J48 0.888 0.14 0.892 0.16 0.889 0.13

Bagging 0.877 0.12 0.885 0.15 0.879 0.12

AdaBoost 0.843 0.13 0.853 0.15 0.846 0.11

SBC ENIAC-2016 Recife - PE 704

Como pode ser observado, os algoritmos tiveram desempenho prximos e a taxa

Tabela 2: Matriz Confuso Naive Bayes

A partir da matriz confuso observamos que o desempenho do Naive Bayes para

5.2 Anlise Rede Neural (MLP)

Tabela 3: Matriz Confuso Rede Neural

A partir da matriz confuso pudemos verificar que o desempenho do Multilayer

5.3 Anlise SVM (LibSVM)

SBC ENIAC-2016 Recife - PE 705

Tabela 4: Matriz Confuso SVM

A partir da matriz confuso observamos que o desempenho do LibSVM para

5.4 Anlise rvore de deciso (J48)

Tabela 5: Matriz confuso rvore de deciso

Tabela 6: Matriz Confuso Bagging

A partir da matriz confuso observamos que o desempenho do Bagging para classificar

SBC ENIAC-2016 Recife - PE 706

5.6 Anlise AdaBoost

Tabela 7: Matriz Confuso Adaboost

A partir da matriz confuso verificamos que o desempenho do Adaboost para classificar

SBC ENIAC-2016 Recife - PE 707

SBC ENIAC-2016 Recife - PE 708

Você também pode gostar