Escolar Documentos
Profissional Documentos
Cultura Documentos
1. Introduo
Considerada atualmente como uma das arboviroses mais conhecidas pelo mundo
(Acritica.UOL, 2016), a dengue, doena transmitida pelo mosquito Aedes aegypti, tem
preocupado as autoridades de sade no Brasil. Um dos principais desafios enfrentados
pelos rgos de sade lidar com a dificuldade de diagnstico, uma vez que os
sintomas da Dengue se confundem com os sintomas de outras doenas como
Chikungunya e Zika. Em situaes de diagnsticos e classificao de doenas as
tcnicas de aprendizado de mquina tm se mostrado eficazes. Um grande fator de
contribuio para o avano dessas tcnicas a grande quantidade de dados digitais
produzidos e disponibilizados na atualidade. Diversos pases tm demonstrado interesse
em disponibilizar seus dados governamentais de forma pblica. A publicao dos dados
em formato aberto permite que qualquer cidado desenvolva aplicaes ou
visualizaes que facilitem a anlise dos dados. Essa atitude promove a melhoria de
servios por meio da inovao e da criatividade, e contribuindo para uma maior
participao da sociedade junto ao governo (Dados Recife, 2016). Segundo a descrio
do Portal Brasileiro de Dados Abertos, esse movimento denominado Open Data teve
incio em 2009, sendo que o Brasil aderiu iniciativa em 2011 (Portal Brasileiro de
Dados Abertos, 2014). No decorrer dos ltimos anos essa iniciativa tem se estendido s
esferas estaduais e municipais, e tanto os estados como os municpios tm implantado
portais de dados abertos. No portal de Dados Abertos da Prefeitura do Recife podem ser
encontradas bases de dados com registros dos casos de dengue, entre os anos de 2014 e
2016, provenientes dos relatrios das unidades de sade pblicas e particulares. Uma
tarefa interessante e relevante que serviria, no apenas para a populao recifense mas
para a sociedade brasileira como um todo, seria o de analisar esses dados na tentativa de
extrair padres alm dos que j so conhecidos, ou seja, procurar fazer a anlise levando
em considerao a localidade onde mora o indivduo e tambm os sintomas
apresentados por ele. Tal anlise poderia auxiliar profissionais de sade no processo de
diagnstico.
2.5.1 Bagging
O mtodo bagging (Breiman, 1999) bastante utilizado para a construo de comits,
onde os classificadores bases so formados a partir de padres diferentes. A
implementao do bagging simples, ele foi o primeiro algoritmo construdo para
implementao de EBS. Nele a sada dos classificadores so combinadas por meio de
votos e o classificador que obtiver o maior nmero de votos para uma determinada
instncia ser a resposta. A diversidade no bagging obtida com o uso de diferentes
subconjuntos de dados criados aleatoriamente. E cada subconjunto utilizado para treinar
um classificador do mesmo tipo.
2.5.2 AdaBoost
O nome "AdaBoost" deriva de Adaptive Boosting (em portugus, impulso ou estmulo
adaptativo). um algoritmo de aprendizado supervisionado do tipo boost. Esse
algoritmo combina um conjunto de funes simples de classificao, denominadas
classificadores fracos para formar um classificador forte. Um classificador forte
composto de um conjunto de classificadores fracos, associados a pesos que classificam
de forma precisa dois conjuntos de dados pr-rotulados, onde as caractersticas com
pesos maiores so mais significativas para a classificao de exemplos definidos como
parte de um certo conjunto. Dado uma base de dados de entrada, a funo do AdaBoost
encontrar o conjunto de caractersticas que comporo o classificador forte provendo
uma melhor classificao do conjunto de entrada.
3. Trabalhos Relacionados
Vrios pesquisadores j publicaram trabalhos relacionados aprendizagem de mquina
no diagnstico de arboviroses, isto , doenas transmitidas por insetos, assim como a
Dengue. O trabalho proposto por (Fathima e Nisar, 2012), fez uma anlise comparativa
entre SVM e Naive Bayes na minerao de dados mdicos para fazer a classificao
entre dengue e outras doenas febris. O resultado da comparao mostrou que o SVM
superou o Naive Bayes no diagnstico da doena.
Em (Hani et al.,2010), os pesquisadores prognosticaram casos de dengue que
foram posteriormente confirmados, por meio da utilizao de Redes Neurais artificiais
(ANNs). Para criao do modelo, os autores utilizaram 14.209 casos de dengue
registrados e confirmados. Eles levaram em considerao muitos parmetros fsicos
como temperatura mdia, umidade relativa mdia e volume total de chuva. Esse modelo
de predio tem mostrado eficcia nos experimentos e nas avaliaes dos casos
confirmados de dengue.
Em (Janaina Gomide et al.,2011), pesquisadores fizeram uma proposta de
abordagem de vigilncia da dengue que produzisse um relatrio semanal do que estava
acontecendo em cada cidade fazendo uma comparao com as semanas anteriores. Os
4. Experimentos
Base de dados - Para a realizao desse trabalho foram utilizados dados oferecidos pelo
portal de dados abertos da prefeitura do Recife. A publicao dos dados em formato
aberto permite que qualquer um desenvolva aplicaes ou visualizaes, buscando
facilitar a anlise dos dados, promovendo a melhoria de servios por meio da inovao e
da criatividade, e contribuindo para uma maior participao da sociedade junto ao
governo municipal (Dados Recife, 2016). Para este estudo, devido significativa
quantidade de dados disponibilizada no Portal, optamos pela utilizao das ocorrncias
de dengue do perodo de Janeiro a Maio durante o ano de 2016. Uma das etapas que
antecede o processo de aprendizagem de mquina o de pr-processamento que
engloba o tratamento e a preparao dos dados. Para que sejam descobertos padres de
qualidade importante que essa etapa seja cuidadosamente executada (Witten; Frank,
2009 ; Rezende at al.,2003). Ainda segundo (Facelli at al.,2011), o desempenho dos
algoritmos de aprendizado de mquina geralmente afetado pelo estado em que os
dados se encontram, ou seja, pela qualidade dos dados disponveis. Podem ser
mencionadas algumas das tarefas includas nessa fase, a saber: limpeza dos dados,
tratamento de dados faltantes, seleo e construo de atributos, dentre outras.
4.1 Pr-processamento
Remoo de instncias que possuam dados faltosos - A base original possua 11.249
instncias, no entanto apenas 995 dessas possuam informaes dos sintomas
apresentados pelos indivduos. Foi necessrio tambm, retirar as instncias que apesar
de possurem os dados clnicos do paciente no havia definio se a pessoa estava com
ou sem o vrus da dengue. Ao final da remoo de todas as instncias com dados
faltosos, restaram apenas 781 registros para realizarmos os experimentos.
Converso de valores - Algumas tcnicas de aprendizado de mquina
manipulam internamente apenas valores numricos, o caso do SVM e da Rede Neural.
Com isso foi necessria aplicao do processo de transformao de dados nominais em
valores numricos. Devido a necessidade de se ter os nmeros entre 0 e 1, algumas
entradas descritas nesse trabalho foram divididas por 10. Assim, ex: a idade de um
paciente que possua "47" anos passou a ter o valor de "0.47".
Balanceamento - No foi realizado o balanceamento da base, pois esse
procedimento poderia ser prejudicial no aprendizado. Enquanto o nmero de instncias
de pessoas com dengue de 643, o nmero de instncias de pessoas que no tm
20, 50, 100}, o momento utilizado foi de 0.8, o nmero de iteraes foi de 500 e o
tamanho da validao foi de 10%.
SVM (LibSVM) - Utilizamos o algoritmo C-SVC com a funo Kernel de
Base Radial (RBF, do ingls Radial Basis Function). Variamos o Gamma em {10 4 , 10
3
, 10 2 , 10 1 , 0.5, 1} e a constante C em {2 7 , 2 3 , 2 0 , 2 3 , 2 7 }.
rvore de Deciso (J48) - Variamos o nmero mnimo de instncias em folha
em {2, 5, 10}, o tamanho do conjunto de validao em {3, 5, 10}, e a opo de usar
poda em {true, false}.
Bagging - O conjunto de amostras variou em um percentual de {10, 20, 50, 75,
100} o classificador utilizado foi rvore de deciso (J48) Padro do Weka e o nmero
de iteraes variou em {10, 20, 50, 75, 100, 200}.
AdaBoost - O Classificador utilizado foi rvore de deciso (J48) Padro do
Weka e variamos o nmero de iteraes em {10, 20, 50, 75, 100, 200}.
4.3 Validao
Para seleo do melhor conjunto de parmetros dos algoritmos de AM foi utilizada a
medida de preciso (Precision) e cobertura (Recall) e F-Measure. Na seo abaixo
faremos uma discusso sobre os critrios citados e suas aplicaes, utilizando as
seguintes abreviaes: VP - Quantidade de pessoas corretamente classificadas com
dengue; VN - Quantidade de pessoas corretamente classificadas com No-Dengue;
F-Measure
precision . recall
f measure= 2
precision+recall
No-Dengue Dengue
No-Dengue 71 67
Dengue 56 587
No-Dengue Dengue
No-Dengue 84 54
Dengue 30 613
No-Dengue Dengue
No-Dengue 90 48
Dengue 34 609
No-Dengue Dengue
No-Dengue 86 52
Dengue 32 611
A partir da matriz confuso obtivemos que o desempenho do J48 para classificar que
uma pessoa estava com dengue foi de 95,2%, enquanto para classificar que no estava
com dengue foi de 62,3%. O desempenho do J48 foi o segundo melhor obtendo 0.889
de F-measure. Um fator que pode ter influenciado no bom desempenho desse modelo,
o fato da anlise dos componentes principais na etapa de pr-processamento ter sido
feita tambm com o algoritmo J48. Atravs da visualizao da rvore de deciso
retornada pela execuo da classificao do weka, percebemos que o sintoma febre foi
transformado em n raiz da rvore, o que nos leva inferir que esse um sintoma muito
caracterstico das vtimas de dengue.
5.5 Anlise Bagging
No-Dengue Dengue
No-Dengue 77 61
Dengue 29 614
No-Dengue Dengue
No-Dengue 67 71
Dengue 44 599
6. Concluso
Analisando o desempenho dos algoritmos de AM propostos neste trabalho, verificamos
que os algoritmos SVM, J48 e MLP obtiveram bons desempenhos na classificao e os
menores nmeros de Falso Positivos e Falso Negativos, enquanto o Naive Bayes obteve
o pior desempenho, j o SVM foi o melhor obtendo 0.893 de F-measure. Resultado que
pode ser justificado pelo fato desse mtodo precisar de poucas instncias de treinamento
para generalizar bem casos novos. Este trabalho fundamenta o argumento de que a
distribuio de dados relacionados aos registros de casos de vtimas de dengue por parte
das instituies de sade, podem ser teis para o processo de minerao de dados, bem
como para outras tarefas de extrao de conhecimento e tomada de deciso. Observa-se,
ainda, a necessidade de melhoria da qualidade dos dados a serem disponibilizados pelo
portal de dados abertos da Prefeitura do Recife, bem como a incluso do conjunto de
sintomas apresentados pelos indivduos nas bases de dados: Zika e Chikungunya. Isso
permitir que em trabalhos futuros possamos promover mais um mtodo de diagnstico
que auxiliem mdicos a diagnosticar essas viroses de forma mais acertiva.
7. Referncias
Soares, R. G. Uso de meta-aprendizado para a seleo e ordenao de algoritmos de
agrupamento aplicados a dados de expresso gnica. Master's thesis, Centro
de Informtica- Universidade Federal de Pernambuco, Recife, 2008.
A. Braga, A. Carvalho, and L. T. Redes Neurais Arti ciais Teoria e Aplicac~ao. 10. The
name of the publisher, LTC Editora, Rio de Janeiro-RJ, 2000.
Acritica.UOL, Dengue em debate: problemas e solues. Disponvel em:
http://acritica.uol.com.br/vida/Dengue-debate-problemas-solucoes_0_1094290581>
Acesso em: Julho de 2016.
Dados Recife, O Portal de Dados Abertos da Prefeitura da Cidade do Recife. Disponvel
em <http://dados.recife.pe.gov.br/about> Acesso em: 4 de junho. 2016.
Brasil. Portal Brasileiro de Dados Abertos. (2014b). O que so Dados Abertos? 2014.
Retirado de <http://www.governoeletronico.gov.br/acoes-e-projetos/Dados-Abertos>
Facelli, K., Lorena, A. C., Gama, J., & Carvalho, A. C. P. L. F. (2011). Inteligncia
Artificial: Uma abordagem de aprendizado de mquina. Rio de Janeiro: LTC.
Luiz Vieira, Qual a definio de Aprendizado de Mquina? (Machine Learning).
Disponvel em <http://pt.stackoverflow.com/questions/113343/qual-%C3%A9-a-
defini%C3%A7%C3%A3o-de-aprendizado-de-m%C3%A1quina-machine-learning>,
Acesso em 25 de junho. 2016.
Fathima, Shameem A., and Nisar Hundewale. "Comparitive analysis of machine
learning techniques for classification of arbovirus." Proceedings of 2012 IEEE-
EMBS International Conference on Biomedical and Health Informatics. IEEE, 2012.
Witten, I. H., & Frank, E. (2009). Data Mining: Practical machine learning tools and
techniques with java implementations. Burlington, Massachusetts: Morgan
Kaufmann.
Rezende, S. O., Pugliesi, J. B., Melanda, E. A., & Paula, M. D. (2003). Minerao de
dados. In: REZENDE, S.O. (Org.). Sistemas inteligentes: Fundamentos e aplicaes.
So Paulo: Manole.
Weka 3: Data mining software in java. <http://www.cs.waikato.ac.nz/~ml/weka/> .
Acesso em Junho de 2016
Hani M.Aburas,B.Gultekin Cetiner and Murat Sari, Dengue confirmed-cases
prediction:A neural network model, Expert Systems with Applications: An
International Journal , Volume 37 Issue 6, June, 2010
Janana Gomide, Adriano Veloso, Wagner Meira Jr., Virglio Almeida, Fabrcio
Benevenuto, Fernanda Ferraz and Mauro Teixeira Dengue surveillance based on a
computational model of spatio temporal locality of Twitter, Journal Web science
2011 ACM.
Ana Lisa V. Gomes, Lawrence J. K. Wee, Asif M. Khan, Laura H. V. G. Gil, Eresto T. A.
Marques, Jr, Carlos E. Calzavara-Silva and Tin Wee Tan , Classification of Dengue
Fever Patients based On Gene Expression Data Using Support Vector Machines,
PLoS One. 2010; 5(6): e11267