Escolar Documentos
Profissional Documentos
Cultura Documentos
PASSOS, MG
2019
Igor Yaro da Silva
PASSOS, MG
2019
Dedico este trabalho a minha família e amigos, pelo
apoio durante toda minha graduação.
AGRADECIMENTOS
Aos meus pais, Nádia e José Reis, que sempre estiveram do meu lado em
todos os momentos da minha vida.
À minha avó, Olga, que me motivou durante toda a sua vida.
Ao meu irmão Italo, pelos momentos de diversão e raiva que passamos juntos.
Aos meus amigos de longa data, Icaro e Hannauer, que sempre estiveram
comigo nos momentos difíceis e nos momentos de prosperidade.
Aos meus amigos que conheci durante a graduação, Bruce, Renato, Eduardo, João
Roberto, Gustavo, Brian, Rhamon e Isaac. Considero todos como irmãos.
Ao meu orientador, Hiran, pelo suporte e ensinamentos passados durante
execução deste trabalho.
Ao professor Taffarel, por todos os ensinamentos passados durante a
graduação e apoio durante execução deste trabalho.
Aos professores do IFSULDEMINAS, que foram de extrema importância
durante toda minha formação acadêmica, agradeço pelos ensinamentos e dedicação.
A todos que me desejaram prosperidade e me apoiaram durante toda essa fase
da minha vida. Muito obrigado!
RESUMO
Dentre as doenças que afetam os brasileiros, as doenças cardíacas têm o maior índice
de mortalidade. Tendo em vista a dificuldade em se traçar um perfil do paciente que
possa desenvolver uma doença cardíaca, algumas técnicas da computação podem
ser aplicadas de forma a traçar este perfil. Técnicas de mineração de dados são
comumente utilizadas voltadas a área da saúde, tendo em vista que são técnicas que
quando aplicadas a uma determinada base de dados, é retornada uma informação
que deve ser interpretada e tida como conhecimento. Sendo assim, o presente
trabalho consiste em utilizar técnicas de mineração de dados de forma a traçar um
perfil de pacientes que possam desenvolver doenças cardíacas. Na literatura existem
algumas técnicas que se destacam em trabalhos de predição de doenças, como por
exemplo, predição de pacientes que possam desenvolver acidente vascular cerebral,
câncer de pulmão, dentre outras doenças. No presente trabalho foi realizado um
estudo a respeito de quais técnicas apresentam melhores resultados quando
classificando doenças cardíacas, a partir disso, foi selecionada a técnica de
agrupamento, mais especificamente o algoritmo K-means. Após aplicação do
algoritmo, foi possível compreender os perfis dos pacientes presentes em cada um
dos clusters. Obteve-se três perfis diferentes, dentre eles dois perfis saudáveis e um
perfil com alta chance de desenvolver doenças cardíacas.
Equação 1 ................................................................................................................. 18
LISTA DE ABREVIATURAS E SIGLAS
1 INTRODUÇÃO ....................................................................................................... 10
1.1 Objetivo Geral .................................................................................................... 12
1.2 Objetivos Específicos ....................................................................................... 12
2 REFERENCIAL TEÓRICO..................................................................................... 13
2.1 Descoberta de Conhecimento em Bases de Dados ....................................... 13
2.1.1 Mineração de Dados ........................................................................................ 14
2.1.2 Mineração de Dados aplicado à saúde ............................................................ 16
2.1.3 Pré-processamento dos dados ......................................................................... 17
2.2 Algoritmos de mineração de dados ................................................................. 17
2.2.1 Algoritmo K-means ........................................................................................... 18
3 MATERIAL E MÉTODOS ...................................................................................... 21
3.1 Levantamento de Requisitos ............................................................................ 21
3.2 Pré-processamento dos dados ........................................................................ 22
3.3 Clusterização com algoritmo K-means ........................................................... 23
4 RESULTADOS E DISCUSSÕES ........................................................................... 25
4.1 Análise Cluster X Atributos .............................................................................. 25
4.2 Perfil dos Clusters ............................................................................................. 31
4.2.1 Perfil do Cluster 0 ............................................................................................. 32
4.2.2 Perfil do Cluster 1 ............................................................................................. 33
4.2.3 Perfil do Cluster 2 ............................................................................................. 34
6 CONCLUSÃO ........................................................................................................ 35
REFERÊNCIAS ......................................................................................................... 37
10
1 INTRODUÇÃO
Nos últimos anos, as doenças cardíacas têm atingido uma parte significativa da
população mundial, sendo a maior causa das mortes em 2016. Segundo dados da
World Health Organization (WHO, 2018), doenças cardíacas são responsáveis por
aproximadamente 10 milhões de mortes ao ano.
No Brasil, segundo dados da Sociedade Brasileira de Cardiologia (SBC, 2017),
as doenças cardíacas se encontram em primeiro lugar como principal causa de
mortes, afetando ambos os sexos e diferentes faixas etárias. Muitas dessas mortes
poderiam ser evitadas ou postergadas caso houvessem cuidados preventivos ou
predição de possíveis pacientes.
Neste contexto, a Mineração de Dados (MD) se torna uma opção para predizer
e traçar um perfil de pacientes que possam a vir desenvolver determinada doença.
Mineração de dados pode ser brevemente definida como uma forma de analisar um
conjunto de dados a fim de encontrar relacionamentos inesperados, ou então produzir
um conjunto de padrões dos dados processados (CAMILO e SILVA, 2009).
Sendo assim, a descoberta de conhecimento através de uma base de dados
se torna possível quando aplicadas técnicas de Mineração de Dados. Cada uma
dessas técnicas têm vantagens ou desvantagens em problemas do mundo real,
principalmente para diagnósticos e tratamentos na área da medicina (LIAO e LEE,
2002).
Técnicas de mineração de dados aplicadas à saúde já se mostraram eficazes
em alguns trabalhos da literatura acadêmica, classificando e traçando perfis de
pacientes relacionados a uma determinada doença (CANLAS, 2009). Thangavel et al.
(2006) desenvolveram através da aplicação de técnicas de mineração de dados uma
forma de detecção não invasiva de câncer cervical. Já Panzarasa et al. (2010)
utilizaram-se de algumas técnicas para analisar o processo de atendimento e
cuidados à pacientes que tenham sofrido um AVC. Os autores Chaurasia e Pal (2013)
aplicaram as técnicas de mineração de dados de forma a predizer pacientes com risco
de doenças cardíacas.
Como mostrado por Canlas (2009), a relação entre mineração de dados e a
área da saúde pode trazer alguns benefícios e auxiliar no tratamento de diversas
doenças. Dentre os trabalhos da literatura, Carvalho et al. (2012) aplicou o algoritmo
baseado em árvores de decisão C4.5, tendo como intuito a descoberta de
11
Com base no texto exposto o presente trabalho visa aplicar o algoritmo K-means com
o intuito de traçar um perfil de pacientes que tenham predisposição a desenvolver
doenças cardíacas.
2 REFERENCIAL TEÓRICO
algoritmo. O algoritmo C4.5 obteve uma melhor acurácia atingindo uma acurácia de
95.42% , enquanto a acurácia do algoritmo KNN para os valores de K supracitados
foram, respectivamente: 94,18, 92,81, 93,06 e 91.82.
Palaniappan e Awang (2008) utilizaram-se de três técnicas de classificação
para predição de ataque cardíaco em seu trabalho. As técnicas utilizadas foram as
Árvores de Decisão, o algoritmo de Naive Bayes e as Redes Neurais Artificiais. O
classificador probabilístico Naive Bayes foi o que obteve melhor desempenho. O
presente trabalho, realizará a mineração de dados voltada a predição de doenças
cardíacas, assim como o autor citado anteriormente. Já o algoritmo de agrupamento
selecionado, será abordado na próxima seção.
De acordo com Silva et al. (2016), para que a mineração de dados aconteça
de forma efetiva, os dados precisam passar por uma etapa de pré-processamento. A
primeira tarefa a ser realizada na etapa de pré-processamento é a limpeza destes
dados (do termo em inglês Data Cleaning). Esta tarefa tem como objetivo remover os
valores ausentes e a existência de valores ruidosos. Valores ausentes podem
comprometer o desenvolvimento dos algoritmos e o processo classificação do mesmo.
Já os valores ruidosos referem-se a modificações dos valores originais que possam
influenciar de forma errada na classificação, como por exemplo, a aparição de valores
negativos em um atributo que deveria somente ter valores positivos.
Outra etapa a ser realizada é a integração dos dados de forma a formatar os
dados de forma que se tornem íntegros. Isto é, padronizar os dados todos em uma
mesma forma, colocando-os por exemplo em uma escala de 0 a 10.
2 2
𝐷𝑖𝑠𝑡â𝑛𝑐𝑖𝑎 𝐸𝑢𝑐𝑙𝑖𝑑𝑖𝑎𝑛𝑎 = √(𝑋𝑝1 − 𝑋𝑝2 ) − (𝑌𝑝1 − 𝑌𝑝2 ) (1)
O ponto será alocado no cluster que obtiver a menor distância, tendo em vista
que menor distância representa maior similaridade entre o ponto e o centroide. Este
processo é realizado até o momento em que os pontos já estão devidamente alocados
19
e não haja alteração nas distâncias entre ponto e centroide (WAGSTAFF, 2001;
HARTIGAN, 1975).
De acordo com Wagstaff (2001) e Silva et al. (2016) o processo de
clusterização pelo K-means pode ser descrito como ilustra a Figura 2.
3 MATERIAL E MÉTODOS
1
Disponível em: https://archive.ics.uci.edu/ml/datasets/heart+Disease
2
Disponível em: https://www.cs.waikato.ac.nz/ml/weka/
22
4 RESULTADOS E DISCUSSÕES
Fonte: Autor.
Classe
Cluster 0 Saudável
Cluster 1 Saudável
Fonte: Autor.
Fonte: Autor.
O atributo Exercício Induz Dor foi o terceiro atributo mais influente no trabalho
de Chaurasia e Pal (2013). Entretanto, neste trabalho pode-se notar que os clusters
têm pacientes agrupados com os dois resultados possíveis. Logo, pode-se
compreender que este atributo pode não influenciar diretamente no resultado do
agrupamento utilizando o algoritmo K-means.
Como não há uma característica única nos clusters quando levado em
consideração o atributo Exercício Induz Dor, na Tabela 3 será adicionado somente os
valores predominantes. Entretanto, posteriormente será discutido e abordado as
variações destas características citadas anteriormente, juntamente com os perfis
resultantes destas variações.
30
Fonte: Autor.
31
Hipertrofia
Cluster 0 Saudável Ventrículo Não -
Esquerdo
Predisposição à Hipertrofia
Cluster 2 doença cardíaca Ventrículo Sim Assintomático
Esquerdo
Fonte: Autor.
Fonte: Autor.
Perfil 1 Não
Saudável -
Perfil 4 Sim
Fonte: Autor.
O Cluster 2 é o único cluster que tem agrupado somente pacientes que têm
predisposição a desenvolver doenças cardíacas, sendo assim nenhum dos pacientes
agrupados neste cluster tem como valor da classe “saudável”. Levando em
consideração o atributo Resultado Exame depara-se com dois diagnósticos, sendo
eles “Hipertrofia do Ventrículo Esquerdo” e “Normal”. Quando considerado o atributo
Exercício Induz Dor temos pacientes agrupados que sentem dor após atividade física
e também pacientes que não sentem dor após atividade física.
O atributo Tipo de Dor no Peito se difere neste cluster dos demais pois, em
sua grande maioria possui pacientes com os valores “dor não angina” e
“assintomático”. É possível perceber somente alguns pacientes com valor “angina
atípica” (valor 2) e nenhum paciente com valor “angina típica” foi agrupado. Sendo
assim, o atributo Tipo de Dor no Peito neste caso será considerado para traçar os
perfis deste cluster, excluindo somente pacientes com valor 1 e 2.
Perfil 1 Hipertrofia do
Ventrículo Não Dor Não Angina
Predisposição à Esquerdo
Perfil 2 doença cardíaca Assintomático
Perfil 4 Assintomático
Fonte: Autor.
Compreende-se então, que o Cluster 2 têm 4 perfis diferentes. Divergindo
entre si pelos atributos Resultado Exame, Exercício Induz Dor e Tipo de Dor no Peito.
Entretanto, está presente dois perfis predominantes neste cluster sendo o primeiro
caracterizado por predisposição à doença cardíaca, hipertrofia do ventrículo
esquerdo, dor após execução de atividade física e dor não angina. Já o segundo perfil
predominante é dado pelas seguintes características: predisposição à doença
cardíaca, hipertrofia do ventrículo esquerdo, dor após execução de atividade física e
sem sintomas de dor no peito.
35
REFERÊNCIAS BIBLIOGRÁFICAS
BREAULT, Joseph L.; GOODALL, Colin R.; FOS, Peter J. Data mining a diabetic
data warehouse. Artificial Intelligence in Medicine, [S.I], v. 26, p. 37–54, 2002.
CANLAS, Ruben D.. Data Mining in HealthCare: current applications and issues.
Carnegie Mellon University, Australia, 2009.
CHAURASIA, Vikas; PAL, Saurabh. Early Prediction of Heart Diseases Using Data
Mining Techniques. Caribbean Journal of Science and Technology, Caribe, v.1, p.
208-217, 2013.
DUBES, Richard C. How Many Clusters Are Best? – And Experiment. Pergamon
Journals Ltd, Grã Bretanha, v. 20, n. 6, p. 645-663, 1987.
FAYYAD, Usama; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to
Knowledge Discovery in Databases, v. 17, n. 3, p. 37-54, 1996.
HAN, Jiawei; MICHELINE, Kamber. Data Mining: Concepts and Techniques. 2000.
HARTIGAN, John A. Clustering Algorithms. Canada: John Wiley & Sons, Inc. 1975.
LIAO, Shang-Chih; LEE, I-Nong; Appropriate medical data categorization for data
mining classification techniques. Med-Inform, v. 27, n. 1, p. 59–67, 2002.
SHOUMAN, Mai; TURNER, Tim; STOCKER, Rob. Integrating Decision Tree and K-
Means Clustering with Different Initial Centroid Selection Methods in the Diagnosis of
Heart Disease Patients. In: Proceedings of the International Conference on Data
Mining, 2012, Las Vegas.
39
SINGH, Archana; YADAV, Avantika; RANA, Ajay. K-means with Three different
Distance Metrics. In: INTERNATIONAL JOURNAL OF COMPUTER APPLICATIONS,
2013, Pennsylvania, p. 13-17.
World Health Organization. (WHO). The top 10 causes of death. Disponível em:
https://www.who.int/news-room/fact-sheets/detail/the-top-10-causes-of-death.
Acesso em: 10/04/2019.