Você está na página 1de 40

INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DO SUL DE

MINAS GERAIS – CAMPUS PASSOS

Igor Yaro da Silva

Técnicas de Mineração de Dados Aplicadas à Predição de Doenças Cardíacas:


Uma Abordagem Utilizando o Algoritmo K-means

PASSOS, MG
2019
Igor Yaro da Silva

Técnicas de Mineração de Dados Aplicadas à Predição de Doenças Cardíacas:


Uma Abordagem Utilizando o Algoritmo K-means

Trabalho de Conclusão de Curso apresentado ao


IFSULDEMINAS como parte das exigências do curso
de graduação em bacharelado em Ciência da
Computação para a obtenção do título de Bacharel
em Ciência da Computação.

Orientador: Prof. Dr. Hiran Nonato Macedo Ferreira

PASSOS, MG
2019
Dedico este trabalho a minha família e amigos, pelo
apoio durante toda minha graduação.
AGRADECIMENTOS

Aos meus pais, Nádia e José Reis, que sempre estiveram do meu lado em
todos os momentos da minha vida.
À minha avó, Olga, que me motivou durante toda a sua vida.
Ao meu irmão Italo, pelos momentos de diversão e raiva que passamos juntos.
Aos meus amigos de longa data, Icaro e Hannauer, que sempre estiveram
comigo nos momentos difíceis e nos momentos de prosperidade.
Aos meus amigos que conheci durante a graduação, Bruce, Renato, Eduardo, João
Roberto, Gustavo, Brian, Rhamon e Isaac. Considero todos como irmãos.
Ao meu orientador, Hiran, pelo suporte e ensinamentos passados durante
execução deste trabalho.
Ao professor Taffarel, por todos os ensinamentos passados durante a
graduação e apoio durante execução deste trabalho.
Aos professores do IFSULDEMINAS, que foram de extrema importância
durante toda minha formação acadêmica, agradeço pelos ensinamentos e dedicação.
A todos que me desejaram prosperidade e me apoiaram durante toda essa fase
da minha vida. Muito obrigado!
RESUMO

Dentre as doenças que afetam os brasileiros, as doenças cardíacas têm o maior índice
de mortalidade. Tendo em vista a dificuldade em se traçar um perfil do paciente que
possa desenvolver uma doença cardíaca, algumas técnicas da computação podem
ser aplicadas de forma a traçar este perfil. Técnicas de mineração de dados são
comumente utilizadas voltadas a área da saúde, tendo em vista que são técnicas que
quando aplicadas a uma determinada base de dados, é retornada uma informação
que deve ser interpretada e tida como conhecimento. Sendo assim, o presente
trabalho consiste em utilizar técnicas de mineração de dados de forma a traçar um
perfil de pacientes que possam desenvolver doenças cardíacas. Na literatura existem
algumas técnicas que se destacam em trabalhos de predição de doenças, como por
exemplo, predição de pacientes que possam desenvolver acidente vascular cerebral,
câncer de pulmão, dentre outras doenças. No presente trabalho foi realizado um
estudo a respeito de quais técnicas apresentam melhores resultados quando
classificando doenças cardíacas, a partir disso, foi selecionada a técnica de
agrupamento, mais especificamente o algoritmo K-means. Após aplicação do
algoritmo, foi possível compreender os perfis dos pacientes presentes em cada um
dos clusters. Obteve-se três perfis diferentes, dentre eles dois perfis saudáveis e um
perfil com alta chance de desenvolver doenças cardíacas.

Palavras-chave: Clusterização. Doenças Cardíacas. K-means.


LISTA DE ILUSTRAÇÕES

Figura 1: Processos da Descoberta de Conhecimento. ........................................... 14


Figura 2: Execução do Algoritmo K-Means. .............................................................. 19
Figura 3: Gráfico Clusters X Classe. ......................................................................... 26
Figura 4: Gráfico Clusters X Resultado do Exame de Eletrocardiografia. ................. 27
Figura 5: Gráfico Clusters X Exercício Induz Dor. ..................................................... 29
Figura 6: Gráfico Clusters X Tipo de Dor no Peito. ................................................... 30
LISTA DE TABELAS

Tabela 1: Classe predominante nos clusters............................................................. 26


Tabela 2: Resultado Exame predominante nos clusters. .......................................... 28
Tabela 3: Exercício Induz Dor predominante nos clusters. ....................................... 30
Tabela 4: Tipo de Dor no Peito predominante nos clusters. ...................................... 31
Tabela 5: Perfis Cluster 0. ......................................................................................... 32
Tabela 6: Perfis Cluster 1. ......................................................................................... 33
Tabela 7: Perfis Cluster 2. ......................................................................................... 34
LISTA DE EQUAÇÕES

Equação 1 ................................................................................................................. 18
LISTA DE ABREVIATURAS E SIGLAS

WHO World Health Organization


MD Mineração de Dados
KDD Knowledge Discovery in Databases
EBM Evidence Based Medicine
CSV Comma-Separated Values
SUMÁRIO

1 INTRODUÇÃO ....................................................................................................... 10
1.1 Objetivo Geral .................................................................................................... 12
1.2 Objetivos Específicos ....................................................................................... 12
2 REFERENCIAL TEÓRICO..................................................................................... 13
2.1 Descoberta de Conhecimento em Bases de Dados ....................................... 13
2.1.1 Mineração de Dados ........................................................................................ 14
2.1.2 Mineração de Dados aplicado à saúde ............................................................ 16
2.1.3 Pré-processamento dos dados ......................................................................... 17
2.2 Algoritmos de mineração de dados ................................................................. 17
2.2.1 Algoritmo K-means ........................................................................................... 18
3 MATERIAL E MÉTODOS ...................................................................................... 21
3.1 Levantamento de Requisitos ............................................................................ 21
3.2 Pré-processamento dos dados ........................................................................ 22
3.3 Clusterização com algoritmo K-means ........................................................... 23
4 RESULTADOS E DISCUSSÕES ........................................................................... 25
4.1 Análise Cluster X Atributos .............................................................................. 25
4.2 Perfil dos Clusters ............................................................................................. 31
4.2.1 Perfil do Cluster 0 ............................................................................................. 32
4.2.2 Perfil do Cluster 1 ............................................................................................. 33
4.2.3 Perfil do Cluster 2 ............................................................................................. 34
6 CONCLUSÃO ........................................................................................................ 35
REFERÊNCIAS ......................................................................................................... 37
10

1 INTRODUÇÃO

Nos últimos anos, as doenças cardíacas têm atingido uma parte significativa da
população mundial, sendo a maior causa das mortes em 2016. Segundo dados da
World Health Organization (WHO, 2018), doenças cardíacas são responsáveis por
aproximadamente 10 milhões de mortes ao ano.
No Brasil, segundo dados da Sociedade Brasileira de Cardiologia (SBC, 2017),
as doenças cardíacas se encontram em primeiro lugar como principal causa de
mortes, afetando ambos os sexos e diferentes faixas etárias. Muitas dessas mortes
poderiam ser evitadas ou postergadas caso houvessem cuidados preventivos ou
predição de possíveis pacientes.
Neste contexto, a Mineração de Dados (MD) se torna uma opção para predizer
e traçar um perfil de pacientes que possam a vir desenvolver determinada doença.
Mineração de dados pode ser brevemente definida como uma forma de analisar um
conjunto de dados a fim de encontrar relacionamentos inesperados, ou então produzir
um conjunto de padrões dos dados processados (CAMILO e SILVA, 2009).
Sendo assim, a descoberta de conhecimento através de uma base de dados
se torna possível quando aplicadas técnicas de Mineração de Dados. Cada uma
dessas técnicas têm vantagens ou desvantagens em problemas do mundo real,
principalmente para diagnósticos e tratamentos na área da medicina (LIAO e LEE,
2002).
Técnicas de mineração de dados aplicadas à saúde já se mostraram eficazes
em alguns trabalhos da literatura acadêmica, classificando e traçando perfis de
pacientes relacionados a uma determinada doença (CANLAS, 2009). Thangavel et al.
(2006) desenvolveram através da aplicação de técnicas de mineração de dados uma
forma de detecção não invasiva de câncer cervical. Já Panzarasa et al. (2010)
utilizaram-se de algumas técnicas para analisar o processo de atendimento e
cuidados à pacientes que tenham sofrido um AVC. Os autores Chaurasia e Pal (2013)
aplicaram as técnicas de mineração de dados de forma a predizer pacientes com risco
de doenças cardíacas.
Como mostrado por Canlas (2009), a relação entre mineração de dados e a
área da saúde pode trazer alguns benefícios e auxiliar no tratamento de diversas
doenças. Dentre os trabalhos da literatura, Carvalho et al. (2012) aplicou o algoritmo
baseado em árvores de decisão C4.5, tendo como intuito a descoberta de
11

conhecimento voltados à fisioterapia. Apesar da formação da base de dados ter sido


o maior problema neste trabalho, onde alguns atributos se encontravam vazios, o
algoritmo conseguiu descobrir conhecimento de forma eficaz. Isto é, compreendeu
que os atributos idade e profissão eram os mais influentes no diagnóstico final dos
pacientes.
No trabalho de Chaurasia e Pal (2013) os autores utilizaram-se de três
técnicas de mineração de dados para predição de doenças cardíacas. Todas as três
são variações de árvores de decisão, sendo elas: C4.5, CART, e ID3. Dentre os
algoritmos apresentados pelos autores, o que obteve melhor desempenho foi o
algoritmo CART, com uma acurácia de 83,49%.
Breault et al. (2002) também utilizou o algoritmo CART em seu trabalho,
porém este, aplicado a uma base de dados de pacientes com diabetes. O algoritmo
após processamento, apresentou que atributo de maior importância para este caso é
a idade, estando diretamente ligada à pacientes diabéticos. No trabalho de Sathyadevi
(2011), o autor utilizou-se dos algoritmos supracitados CART, ID3 e C4.5, desta vez
aplicando-os ao diagnóstico de pacientes com Hepatite. Estes, por sua vez, obtiveram
uma acurácia de 83,2%, 64,8% e 71,4% respectivamente.
Os autores Patel e Sinha (2010) utilizaram em seu trabalho técnicas de
mineração de dados, em específico a técnica de agrupamento, para agrupar e
compreender características dos resultados de exames de câncer de mama. A base
de dados utilizada neste estudo foi dada por imagens dos resultados do exame de
mamografia realizado pelos pacientes. O algoritmo K-means foi utilizado neste
trabalho, entretanto algumas modificações foram realizadas a fim de se comparar os
resultados obtidos com os trabalhos correlatos. O algoritmo K-means modificado pelos
autores se mostrou mais eficaz no agrupamento e identificação dos padrões.
Já Shouman et al. (2012), utilizou-se de árvores de decisão e técnicas de
agrupamento para predizer possível pacientes que pudessem desenvolver um ataque
cardíaco. O algoritmo de agrupamento selecionado foi o K-means, onde o foco
principal foi comparar os métodos de seleção do centroide inicial dos clusters
utilizados pelo algoritmo. O valor K representa o número de clusters que será utilizado
para agrupamento, sendo neste trabalho apresentado resultados para 2, 3, 4 e 5
clusters.
12

1.1 Objetivo Geral

Com base no texto exposto o presente trabalho visa aplicar o algoritmo K-means com
o intuito de traçar um perfil de pacientes que tenham predisposição a desenvolver
doenças cardíacas.

1.2 Objetivos Específicos

- Realizar um levantamento bibliográfico a respeito de descoberta de


conhecimento e técnicas de mineração de dados;
- Compreender a base de dados obtida;
- Selecionar a técnica e o algoritmo que serão utilizados;
- Realizar o pré-processamento dos dados;
- Aplicar o algoritmo de agrupamento na base de dados pré-processada;
- Analisar os resultados obtidos.
13

2 REFERENCIAL TEÓRICO

No campo da mineração de dados, diversas tecnologias são utilizadas, sendo


cada uma delas necessária em algum momento de todo o processo de mineração de
dados. De modo a compreender as principais ferramentas e/ou tecnologias presentes
neste trabalho, este capítulo apresentará uma fundamentação teórica. Na Seção 2.1
é abordada a Descoberta de Conhecimento em Bases de Dados e etapas da
mineração de dados, juntamente com uma visão geral a respeito de suas aplicações
e abordagens. Na Seção 2.2 é descrito o algoritmo que será utilizado.

2.1 Descoberta de Conhecimento em Bases de Dados

Descoberta de Conhecimento em Bases de Dados, pode ser definida de uma


maneira geral como o ato de descobrir conhecimento através de uma base de dados.
Porém, esta base de dados, na maioria das vezes são volumosas, sendo necessário
um trabalho sistemático, analítico e automatizado. Este trabalho por sua vez, pode ser
denominado como “mineração” (SILVA et al., 2016).
O termo Knowledge Discovery in Databases (KDD), ou em português
“Descoberta de Conhecimento em Bases de Dados” foi cunhado por Piatetsky-Shapiro
(1990) em seu workshop voltado a temática de Análise de Dados. Neste trabalho, o
autor cita algumas áreas na qual KDD faz parte, sendo elas: sistemas especialistas,
aprendizado de máquina, raciocínio baseado em casos e estatísticas e aquisição de
conhecimento.
O objetivo geral do KDD é encontrar padrões em bases de dados, que não
estão explícitos, sendo estes padrões assimilados de forma mais fácil, em forma de
conhecimento. Este conhecimento adquirido pode ser aplicado em diversas áreas do
mundo real. Fayyad et al. (1996) cita em seu trabalho algumas destas áreas, como
por exemplo: marketing, telecomunicação, detecção de fraudes e investimentos
econômicos.
A representação do conhecimento adquirido é sugerido por Frawley et al.
(1992) na forma de linguagem natural, formas lógicas e representações visuais de
informação. Sendo estas representações para quando o usuário final a receber o
conhecimento for um ser humano. Por outro lado, caso o usuário final seja uma
14

máquina, como por exemplo sistemas especialistas, o conhecimento deve ser


representado na forma de linguagens de programação ou formalismos declarativos.
Silva et al. (2016) separa KDD em quatro etapas, sendo elas: Obtenção de
dados (1), Pré-Processamento (2), Mineração de Dados (3) e Pós-processamento (4).
Sendo o processo de KDD, iterativo e interativo, cada fase pode ser executada na
sequência usual ou fora dela, como observado na Figura 1.

Figura 1: Processos da Descoberta de Conhecimento.

Fonte: Silva et al. (2016).

Na etapa de Obtenção de dados (1), é realizada a obtenção de uma base de


dados que será utilizada durante todo o processo de KDD. Esta base de dados sofre
um pré-processamento (2), onde os dados são tratados de forma a eliminar instâncias
repetidas e/ou valores repetidos, selecionar quais dados serão utilizados para
treinamento e validação de testes, e normalização destes dados colocando-os em
uma mesma escala. Tendo os dados passado pelo pré-processamento, se torna
possível realizar a mineração de dados (3). Esta etapa tem como objetivo a resolução
de tarefas como predição, associação e agrupamentos. Já no pós-processamento (4)
é realizada a validação dos dados e formatados de forma a se obter gráficos, relatórios
estruturados e tabelas.

2.1.1 Mineração de Dados

Mineração de dados por ser considerado um assunto interdisciplinar,


apresenta diversas definições. Estas definições variam de acordo com o campo de
atuação do autor que as definem. Camilo e Silva (2009) destacam em seu trabalho,
15

três áreas consideradas de maior expressão dentro da mineração de dados, sendo


elas: Estatística, Aprendizado de Máquina e Banco de Dados. Zhou (2002) apresenta
três perspectivas tendo como base estas três áreas.
Pela perspectiva estatística de Hand et al. (2001), mineração de dados é
considerada a análise de conjuntos numerosos de dados com o intuito de resumi-los.
De forma a torná-los úteis e/ou compreensíveis ao proprietário, encontrando
relacionamentos imprevisíveis.
Já Cabena et al. (1998) define mineração de dados pela perspectiva de banco
de dados, como um campo onde a partir de uma grande base de dados, técnicas
podem ser aplicadas para extrair informações previamente desconhecidas. Técnicas
como reconhecimento de padrões, estatísticas, máquinas de conhecimento,
visualização e banco de dados são citadas pelo autor.
Pela perspectiva do aprendizado de máquina, Fayyad et al. (1996) define que
mineração de dados consiste na aplicação de algoritmos de descoberta e na
realização de uma análise dos dados, que produzem um conjunto de padrões. Sendo
mineração de dados, um passo no processo de Descoberta de Conhecimento.
Dentro de mineração de dados existem diversas técnicas com diversos
procedimentos no qual sua escolha, depende do objetivo final esperado. Isto é, o seu
objetivo final, implica diretamente na escolha da técnica que será utilizada. Neste
trabalho será citado algumas destas técnicas (CAMILO e SILVA, 2009).
De acordo com Han et al. (2000) Técnicas de Associação é uma das vertentes
mais famosas dentro de mineração de dados, tendo como exemplo a Análise da Cesta
de Compras. Esta técnica consiste em identificar a partir de uma base de dados, os
itens que têm relacionamento mais frequente. Seu desenvolvimento é dado por
construção de regras de associação.
O autor também define Técnicas de Classificação como um conjunto de
funções ou modelos que distinguem e descrevem determinadas classes de dados.
Sendo este modelo passível de representação em diversas formas como: regras,
fórmulas matemáticas, redes neurais artificiais e árvores de decisão.
Técnicas de Agrupamento são técnicas que a partir de um conjunto de dados,
realiza agrupamentos, nos quais estes agrupamentos têm dados semelhantes uns aos
outros. Estes dados se tornam semelhantes através de medidas de similaridade, a
qual é calculada através de medidas de distância tradicionais como: Euclidiana e
16

Manhattan. Dentro de um determinado agrupamento os dados são similares, porém


se comparado dois agrupamentos distintos os dados serão dissimilares.
No presente trabalho será utilizado o algoritmo K-means, sendo este, baseado
em técnicas de agrupamento no qual agrupa os dados ou atributos de acordo com
sua semelhança. Na Seção 2.2 será melhor abordado o algoritmo selecionado para
este trabalho.

2.1.2 Mineração de Dados aplicada à saúde

De acordo com o autor Canlas (2009) o uso de dados concretos para


aplicações na área da saúde não é uma novidade. A partir destes dados, é possível
chegar a um diagnóstico ou conclusão, sendo denominada como medicina baseada
em evidências (sigla em inglês EBM).
John Snow, no ano de 1854, utilizou-se de um gráfico em barras com alguns
dados para provar que a Cólera era transmitida através do abastecimento de água da
cidade. Para chegar a esta conclusão, ele agrupou o ponto das mortes, concluiu qual
região era mais afetada e após observação chegou ao seu veredito (CANLAS, 2009).
Neste cenário, o pesquisador necessitou coletar os dados manualmente e
realizar suas análises para que conseguisse obter um resultado. Porém, caso esse
amontoado de dados fosse maior, teria um nível de dificuldade maior para agrupá-los.
Outro fator importante a ser destacado, é a complexidade em assimilar um amontoado
de dados e como eles combinam de forma a conseguir obter um determinado
conhecimento. Sendo assim, a mineração de dados seria uma alternativa para estes
casos.
Delen et al. (2005) em seu trabalho, propõem um comparativo entre três
abordagens, duas de aprendizado de máquina e uma estatística, aplicando-as na
predição de câncer de mama. Sendo estas abordagens Rede Neural Artificial (MLP),
Árvore de Decisão Indutiva (modelo C5) e Regressão Logística. Neste trabalho,
árvores de decisão obtiveram o melhor desempenho, com uma acurácia de 93,6%,
seguida pela MLP com 91,2% e regressão logística com 89,2%.
Amini et al. (2013) em seu trabalho, comparam duas técnicas para predição e
controle de AVC’s. As técnicas utilizadas foram Árvore de Decisão, algoritmo C4.5, e
K-Nearest Neighbor (KNN). Para o KNN, os valores de K foram: 1, 3, 7 e 11. Estes
valores representam o número de vizinhos selecionados para comparação do
17

algoritmo. O algoritmo C4.5 obteve uma melhor acurácia atingindo uma acurácia de
95.42% , enquanto a acurácia do algoritmo KNN para os valores de K supracitados
foram, respectivamente: 94,18, 92,81, 93,06 e 91.82.
Palaniappan e Awang (2008) utilizaram-se de três técnicas de classificação
para predição de ataque cardíaco em seu trabalho. As técnicas utilizadas foram as
Árvores de Decisão, o algoritmo de Naive Bayes e as Redes Neurais Artificiais. O
classificador probabilístico Naive Bayes foi o que obteve melhor desempenho. O
presente trabalho, realizará a mineração de dados voltada a predição de doenças
cardíacas, assim como o autor citado anteriormente. Já o algoritmo de agrupamento
selecionado, será abordado na próxima seção.

2.1.3 Pré-processamento dos dados

De acordo com Silva et al. (2016), para que a mineração de dados aconteça
de forma efetiva, os dados precisam passar por uma etapa de pré-processamento. A
primeira tarefa a ser realizada na etapa de pré-processamento é a limpeza destes
dados (do termo em inglês Data Cleaning). Esta tarefa tem como objetivo remover os
valores ausentes e a existência de valores ruidosos. Valores ausentes podem
comprometer o desenvolvimento dos algoritmos e o processo classificação do mesmo.
Já os valores ruidosos referem-se a modificações dos valores originais que possam
influenciar de forma errada na classificação, como por exemplo, a aparição de valores
negativos em um atributo que deveria somente ter valores positivos.
Outra etapa a ser realizada é a integração dos dados de forma a formatar os
dados de forma que se tornem íntegros. Isto é, padronizar os dados todos em uma
mesma forma, colocando-os por exemplo em uma escala de 0 a 10.

2.2 Algoritmos de mineração de dados

Dentre as diversas técnicas e algoritmos envolvendo mineração de dados,


alguns se destacam na literatura pelo seu desempenho, tanto positivamente como
negativamente. Utilizando-se da técnica de agrupamento, no presente trabalho será
utilizado um algoritmo específico denominado K-means. Na presente seção será
abordado o funcionamento e especificações deste algoritmo.
18

2.2.1 Algoritmo K-means

O algoritmo K-means também conhecido como K-médias, foi descrito com


detalhes por Hartigan (1975) em seu livro “Clustering Algorithms”. O foco do algoritmo
K-means é encontrar a melhor divisão de um conjunto N de dados em K grupos, onde
o valor K é definido em sua inicialização. Este, é um algoritmo não supervisionado,
tendo em vista que não é necessário a supervisão humana para seu funcionamento.
Inicialmente, todos os clusters têm um centroide iniciado, de forma a ser utilizado
como base para os cálculos de distância. O centroide é o ponto central do clusters,
isto é, o centro do cluster. (FONSECA, 2011; HARTIGAN, 1975).
Os dados são agrupados calculando a distância entre um determinado ponto
e os centroides dos clusters. Os centroides dos clusters devem ser alocado utilizando-
se de alguma métrica. Shouman (2012) compara algumas métricas em seu trabalho
para selecionar o centroide de um cluster. A métrica que obteve melhor sucesso foi a
de se iniciar o centroide no ponto de menor valor dos atributos que serão agrupados.
No presente trabalho, o ponto inicial dos centroides foi definido aleatoriamente.
A distância entre determinado ponto e o centroide do cluster deve ser
calculada para que este ponto seja realocado. Essa distância pode ser calculada de
várias formas, como por exemplo, distância Manhattan, distância Chebychev e
distância Euclidiana. Essa última foi a métrica utilizada no presente trabalho, tendo
em vista que é a mais comumente utilizada em trabalhos de clusterização utilizando-
se o algoritmo K-means (SINGH, 2013; HARTIGAN, 1975).
A distância Euclidiana, representada na Equação 1, é definida como a
distância entre dois pontos em um plano bidimensional. Logo, Xp1 e Xp2 representam
respectivamente as coordenadas do eixo X do ponto 1 e do ponto 2, e 𝑌𝑝1 e 𝑌𝑝2
representam respectivamente as coordenadas do eixo Y do ponto 1 e do ponto 2.

2 2
𝐷𝑖𝑠𝑡â𝑛𝑐𝑖𝑎 𝐸𝑢𝑐𝑙𝑖𝑑𝑖𝑎𝑛𝑎 = √(𝑋𝑝1 − 𝑋𝑝2 ) − (𝑌𝑝1 − 𝑌𝑝2 ) (1)

O ponto será alocado no cluster que obtiver a menor distância, tendo em vista
que menor distância representa maior similaridade entre o ponto e o centroide. Este
processo é realizado até o momento em que os pontos já estão devidamente alocados
19

e não haja alteração nas distâncias entre ponto e centroide (WAGSTAFF, 2001;
HARTIGAN, 1975).
De acordo com Wagstaff (2001) e Silva et al. (2016) o processo de
clusterização pelo K-means pode ser descrito como ilustra a Figura 2.

Figura 2 – Execução do Algoritmo K-Means.

Fonte: Silva et al. (2016)

Inicialmente é especificado o conjunto de dados que será utilizado para a


aplicação do algoritmo, isto é, para realizar a etapa de clusterização. A base de dados
deve ter sido pré-processada, de forma a tratar possíveis irregularidades na mesma.
O valor de partições a serem descobertos (K) deve ser especificado previamente,
juntamente com a métrica que será utilizada para cálculo da distância entre os
elementos que serão clusterizados. Na Figura 2-a é possível observar os dados que
passarem por esta etapa.
O próximo passo a ser seguido é escolher aleatoriamente os valores iniciais
para os centroides que serão utilizados na clusterização. Após este passo ter sido
completado, dá-se início à clusterização. Enquanto houver, alterações nas
associações dos elementos aos grupos representados por cada centroide deve ser
realizado o cálculo do elemento em relação a cada um dos centroides, como pode ser
observado na Figura 2-b.
Após o cálculo ter sido realizado, é associado o elemento selecionado ao
centroide que minimiza a distância calculada, como é possível ver na Figura 2-c. Na
Figura 2-d, é possível compreender a última etapa da iteração, onde após todos os
20

elementos serem associados a algum dos K centroides, é necessário realocar o


centroide dos clusters. A realocação é dada pela média dos elementos associados à
aquele cluster.
21

3 MATERIAL E MÉTODOS

3.1 Levantamento de Requisitos

Inicialmente, foi realizado um levantamento bibliográfico a respeito de técnicas


e tecnologias utilizadas a fim de descobrir conhecimento através de uma determinada
base de dados. Descobriu-se que algumas técnicas de mineração de dados se
sobressaem perante outras dependendo do resultado que deseja-se obter. Dentre as
técnicas analisadas, pode-se citar técnicas de classificação, de regressão e de
agrupamento.
Dentre os diversos trabalhos encontrados, podem ser destacados dois em
específico que foram tomados como base para desenvolvimento do presente trabalho.
Chaurasia e Pal (2013) utilizou-se de árvores de decisão com o intuito de predizer
quais pacientes possam vir a desenvolver doenças cardíacas. Já Soni et al. (2011)
utiliza-se de técnicas de classificação, de regressão e de agrupamento voltadas à
predição de doenças cardíacas. Percebeu-se que ambos têm resultados diferentes
em alguns aspectos, como o atributo de maior influência e a acurácia de suas técnicas.
Foi realizado uma pesquisa voltada à encontrar a base de dados que seria
utilizada para o desenvolvimento do presente trabalho. Ambos os autores
supracitados utilizaram-se da base de dados de doenças cardíacas disposta no “UC
Irvine Machine Learning Repository1”. Este é um repositório gratuito, que têm como
intuito dar suporte aos pesquisadores que visam desenvolver projetos voltado ao
aprendizado de máquina. Informações a respeito da base de dados, assim como seu
processamento serão dispostas na Seção 3.2.
Durante o levantamento de requisitos compreendeu-se que a ferramenta
Weka2 é comumente utilizada para trabalhos de mineração de dados. Essa ferramenta
tem capacidade para minerar dados utilizando diversas abordagens, podendo ser
citadas tarefas de clusterização, classificação, regressão entre outras. O Weka
suporta arquivos de entrada no formato .arff e .csv e também têm diversos algoritmos
voltados à mineração de dados já instalados em sua versão padrão, como por
exemplo o algoritmo K-means que foi utilizado neste trabalho.

1
Disponível em: https://archive.ics.uci.edu/ml/datasets/heart+Disease
2
Disponível em: https://www.cs.waikato.ac.nz/ml/weka/
22

3.2 Pré-processamento dos dados

A base de dados bruta que foi utilizada no presente projeto, contém


informações de 4 hospitais diferentes. Sendo necessário um pré-processamento de
forma a tratar os dados para que pudessem ser passíveis de agrupamento utilizando
o algoritmo de clusterização selecionado.
No primeiro momento, foi escolhido a base de dados do centro médico “Long
Beach and Cleveland Clinic Foundation”, localizado em Cleveland - Estados Unidos
da América (USA). Essa base de dados foi selecionada tendo em vista que é a base
de dados que contém o atributo Classe especificado. Este atributo é de grande
importância, pois classifica o paciente como saudável ou possível candidato a
desenvolver doenças cardíacas.
A base de dados selecionada para o presente trabalho continha em sua forma
bruta 303 instâncias e 76 atributos. Estes foram submetidos a um algoritmo
desenvolvido em linguagem Java, de forma a selecionar os atributos que seriam
utilizados. Através da aplicação deste algoritmo foi possível formatar a entrada dos
dados de forma que fosse possível a clusterização.
O arquivo final foi formatado no padrão Comma-Separated Values (CSV), que
significa valores separados por vírgula. Sendo assim, cada amostra fica disposta em
uma linha e cada um dos atributos são separados por vírgula, onde o último atributo
é a classe daquela instância. Na primeira linha é obrigatória a especificação de cada
um dos atributos que serão utilizados em ordem, seguidos pelo valor “class” que
representa a classe dos atributos.
Das 280 instâncias presentes na base bruta, somente 3 tinham atributos
faltantes, sendo estes removidos. Apesar de serem passíveis de tratamento, as
instâncias que tinham atributos faltantes foram desconsideradas neste trabalho por
ser um número relativamente baixo em comparação com a base total.
Para selecionar os atributos que seriam utilizados neste trabalho, foi tido
como base os trabalhos supracitados na seção 3.1. Chaurasia e Pal (2013) destaca
que os atributos “tipo de dor no peito”, “exercício induz dor” e “resultado do
eletrocardiograma” foram os mais influentes na classificação dos pacientes. Já Soni
et al. (2011) aborda de forma diferente os atributos de maior influência. Como o autor
analisou três abordagens diferentes, cada uma delas obteve atributos mais influentes
diferentes.
23

Inicialmente, foram realizados testes com 4, 6 e 8 atributos, entretanto, a


clusterização com 4 atributos foi a que obteve melhor clareza na obtenção de
resultados. Sendo assim, decidiu-se então que o presente trabalho iria trabalhar com
4 atributos para agrupamento. Abaixo encontram-se os atributos utilizados assim
como um breve esclarecimento sobre cada um deles:
Atributo 1. Dor no peito:
a. Valor 1 = Dor angina típica;
b. Valor 2 = Dor angina atípica;
c. Valor 3 = Dor não angina;
d. Valor 4 = Assintomático.
Atributo 2. Resultado do eletrocardiograma:
a. Valor 0 = Normal;
b. Valor 1 = Anormalidade nas ondas ST-T;
c. Valor 2 = Apresenta hipertrofia do ventrículo esquerdo de acordo
com o critério de Este.
Atributo 3. Exercício físico induz dor:
a. Valor 0 = Não;
b. Valor 1 = Sim.
Atributo 4. Classificador:
a. Valor 0 = Saudável;
b. Valor 1 = Possivelmente desenvolverá uma doença cardíaca.

3.3 Clusterização com algoritmo K-means

Como abordado na seção 2.2.1 o algoritmo K-means funciona com a


especificação de quantos cluster (valor K) serão utilizados para agrupamento. Dubes
(1987) propõe em seu trabalho uma abordagem para determinar o melhor número
inicial de clusters. O autor utiliza-se de um índice denominado DB, no qual quanto
menor o valor resultante de DB em relação a K, melhor será o valor de K. Como
resultado para K, o autor obtém os resultados 3, 4 e 5, sendo estes os que obtiveram
menor valor no índice DB.
Levando em consideração o trabalho de Dubes (1987), foram realizados
testes para definir o número de clusters que seriam utilizados no presente trabalho.
Testou-se a clusterização com 3, 4 e 5 clusters, entretanto a clusterização com 4 ou
24

5 clusters não obtiveram um agrupamento da forma esperada, tornando assim,


inviável para o presente projeto. Sendo assim, ficou definido o valor de K como 3 para
utilização do presente trabalho.
Após definir o número de clusters que seriam utilizados, a base de dados já
processada foi submetida à clusterização. Inicialmente, os centroides foram iniciados
aleatoriamente, como abordado na seção 2.2.1. A partir das interações resultantes o
centroide foi recalculado para que desse continuidade ao agrupamento, assim como
descrito no pseudocódigo do algoritmo K-means.
A ferramenta Weka expõe os resultados da clusterização na forma de gráficos
onde é escolhido os valores dos eixos X e Y para que seja possível a análise e
obtenção dos resultados. Inicialmente, foi analisado os gráficos resultantes na relação
Cluster X Classe, sendo possível compreender a predominância dos pacientes
saudáveis ou possíveis de desenvolver doenças cardíacas em cada um dos clusters.
Posteriormente, foi analisado o gráfico na relação Cluster X Resultado do Exame de
Eletrocardiograma, onde foi possível analisar a influência dos resultados dos
pacientes em relação ao cluster que se localizava. O terceiro gráfico analisado é dado
pela relação Cluster X Exercício Induz Dor, sendo este utilizado para compreender se
os pacientes presentes nos clusters sentem dor após realizar atividades físicas. Por
último, foi analisado o gráfico dado pela relação Cluster X Tipo de Dor no Peito, este
por sua vez, foi o gráfico onde não houve um comportamento como o esperado. O
conhecimento obtido através da análise dos agrupamentos obtidos serão expostos no
capítulo seguinte.
25

4 RESULTADOS E DISCUSSÕES

Neste capítulo, são descritos os resultados obtidos após desenvolvimento e


execução dos métodos supracitados. Também serão expostas discussões a respeito
dos resultados obtidos, comparando-os com trabalhos da literatura.

4.1 Análise Cluster X Atributos

Após as etapas citadas anteriormente terem sido concluídas, foram gerados


gráficos para visualização do agrupamento obtido. Os gráficos são expostos na forma
Eixo x por Eixo Y, sendo selecionado ambos os atributos que desejam ser
comparados e visualizados.
Tendo em vista que a tarefa de agrupamento utilizando-se o algoritmo K-
means gera clusters de acordo com o valor de K, é necessário a identificação de cada
um dos clusters. Inicialmente, será apresentado um levantamento em relação aos
atributos de cada um dos clusters, para então, traçar um perfil dos pacientes
agrupados juntamente com a relação entre cada um dos atributos. Dentre os 3 clusters
que foram utilizados para agrupamento, obteve-se no Cluster 0, o agrupamento de 91
indivíduos. Para o Cluster 1, foram agrupados 137 indivíduos e no Cluster 2 agrupou-
se 75 indivíduos.
Na Figura 3 é mostrado o gráfico resultante quando selecionado os atributos
Cluster para o eixo X e Classe para o eixo Y. É possível compreender a partir deste
gráfico, que o Cluster 0 é composto unicamente por instâncias classificadas como
saudável, enquanto o Cluster 2 é composto unicamente por instâncias classificadas
como possíveis de desenvolver uma doença cardíaca.
Já o Cluster 1, têm em sua grande parte instâncias classificadas como
“saudáveis”. Entretanto, algumas instâncias agrupadas neste cluster têm o valor 1,
isto é, são classificadas como pacientes “possíveis de desenvolver uma doença
cardíaca”.
26

Figura 3 - Gráfico Clusters X Classe.

Fonte: Autor.

Será preenchida uma tabela conforme cada atributo que é apresentado,


sendo possível identificar informações relevantes a respeito de cada um dos clusters.
Inicialmente, ela se encontra preenchida somente com as características únicas de
cada um dos atributos. Posteriormente, será analisado e comparado as variações
interpretadas de cada um dos clusters. Sendo assim, na Tabela 1 encontra-se a classe
predominante de cada um dos clusters.

Tabela 1: Classe predominante nos clusters.

Classe

Cluster 0 Saudável

Cluster 1 Saudável

Cluster 2 Predisposição à doença cardíaca


Fonte: Autor.
27

Na Figura 4 é apresentado o gráfico levado em consideração cluster por


resultado do exame de eletrocardiografia. Sendo assim, é possível compreender após
análise que o Cluster 0 tem em sua totalidade apenas instâncias no qual o resultado
do exame foi dado como valor 2, isto é, “hipertrofia do ventrículo esquerdo de acordo
com o critério de Este”. Já o Cluster 1, têm somente indivíduos que foram
diagnosticados no exame como “normal”. O Cluster 2, por sua vez, apresenta em sua
maioria indivíduos que foram “diagnosticados com hipertrofia do ventrículo esquerdo”.
Entretanto, uma pequena parcela deste cluster tem o resultado do exame classificado
como “normal”.
Figura 4 - Gráfico Clusters X Resultado do Exame de Eletrocardiografia.

Fonte: Autor.

É interessante destacar que no trabalho de Chaurasia e Pal (2013), o atributo


Resultado Exame do Eletrocardiograma foi o quarto atributo de maior influência para
classificação dos pacientes. No presente trabalho, este atributo se comportou da
forma esperado nos clusters 0 e 1, isto é obtiveram um agrupamento, tendo somente
no cluster 2 um comportamento esparso.
28

Após análise da Figura 4, é adicionado na Tabela 2 o atributo juntamente com


a característica predominante de cada um dos clusters. Sendo assim, agora o Cluster
0 contém pacientes Saudáveis e com Hipertrofia do Ventrículo Esquerdo. Já os outros
dois clusters, permanecem somente com uma característica predominante em cada
um dos atributos.

Tabela 2: Resultado Exame predominante nos clusters.

Classe Resultado Exame

Cluster 0 Saudável Hipertrofia Ventrículo


Esquerdo

Cluster 1 Saudável Normal

Cluster 2 Predisposição à doença Hipertrofia do


cardíaca Ventrículo Esquerdo
Fonte: Autor.

Analisando a Figura 5, é realizado a comparação entre Exercício Induz Dor e


Clusters. Neste caso, o Cluster 0 têm em sua maioria pacientes que não sentem dor
após atividade física. Entretanto, é possível notar que alguns dos pacientes agrupados
neste cluster sentem dor após atividade física. Sendo assim, este cluster não tem uma
característica única quando leva-se em consideração o atributo Exercício Induz Dor.
O Cluster 1 apresenta característica semelhante ao Cluster 0, onde em sua
grande maioria é agrupado pacientes que não sentem dor após atividade física.
Porém, este também apresenta em menor quantidade, pacientes que sentem dor após
atividade física. Logo, este Cluster não tem uma característica única quando levado
em consideração o atributo Exercício Induz Dor.
Quando analisado o Cluster 2, compreendemos a ausência de uma
característica única. Porém, apresenta uma característica diferente dos demais, tendo
como predominante os pacientes que sentem dor após exercício físico. Já os
pacientes que não sentem dor após exercício físico são minoria quando considerado
o atributo Exercício Induz Dor.
29

Figura 5 - Gráfico Clusters X Exercício Induz Dor.

Fonte: Autor.

O atributo Exercício Induz Dor foi o terceiro atributo mais influente no trabalho
de Chaurasia e Pal (2013). Entretanto, neste trabalho pode-se notar que os clusters
têm pacientes agrupados com os dois resultados possíveis. Logo, pode-se
compreender que este atributo pode não influenciar diretamente no resultado do
agrupamento utilizando o algoritmo K-means.
Como não há uma característica única nos clusters quando levado em
consideração o atributo Exercício Induz Dor, na Tabela 3 será adicionado somente os
valores predominantes. Entretanto, posteriormente será discutido e abordado as
variações destas características citadas anteriormente, juntamente com os perfis
resultantes destas variações.
30

Tabela 3: Exercício Induz Dor predominante nos clusters.

Classe Resultado Exame Exercício Induz Dor

Cluster 0 Saudável Hipertrofia Ventrículo Não


Esquerdo

Cluster 1 Saudável Normal Não

Cluster 2 Predisposição à Hipertrofia Ventrículo Sim


doença cardíaca Esquerdo
Fonte: Autor

O último atributo a ser analisado é o Tipo de Dor no Peito do paciente, sendo


este representado na Figura 6. No Cluster 0 é possível notar a presença de pacientes
com os 4 tipos de valores, sendo assim, não há predominância de alguma
característica em específico. Isto se repete para o Cluster 1, onde também não há
predominância de uma característica em específico.

Figura 6 - Gráfico Clusters X Tipo de Dor no Peito.

Fonte: Autor.
31

Entretanto, o Cluster 2 apresenta de forma sútil alguns pacientes que sentem


dor do tipo não-angina e de forma predominante pacientes que não sentem dor no
peito. Neste cluster, não foi agrupado nenhum paciente cuja dor fosse classificada
como “angina típica”. Sendo assim, a Tabela 4 atualizada após análise do último
atributo ficará da seguinte forma:

Tabela 4: Tipo de Dor no Peito predominante nos clusters.

Classe Resultado Exercício Induz Tipo de Dor no


Exame Dor Peito

Hipertrofia
Cluster 0 Saudável Ventrículo Não -
Esquerdo

Cluster 1 Saudável Normal Não -

Predisposição à Hipertrofia
Cluster 2 doença cardíaca Ventrículo Sim Assintomático
Esquerdo
Fonte: Autor.

Optou-se por não especificar o Tipo de Dor no Peito para os Clusters 0 e 1,


tendo em vista que não tiveram um valor predominante para este atributo. No entanto,
no trabalho de Chaurasia e Pal (2013), o atributo Tipo de Dor no Peito foi o atributo
de maior influência na classificação de pacientes doentes ou saudáveis. Porém, no
presente trabalho, o atributo Tipo de Dor no Peito não é o atributo de maior influência
para agrupamento dos clusters. Isto é, este atributo tem um comportamento esparso
como mostrado na Figura 6.

4.2 Comportamento dos Clusters

Na Seção 4.1 foi realizado o levantamento e a análise a respeito dos atributos


e características predominantes de cada um dos clusters. Com isso, é possível
compreender o perfil dos pacientes que foram agrupados em cada um dos clusters.
Entretanto, alguns clusters têm características que apesar de não serem
predominantes, são de fundamental importância para este trabalho.
Sendo assim, nesta seção será traçado o perfil de cada um dos clusters,
juntamente com suas variações. As tabelas 1, 2, 3 e 4 serão utilizadas como base na
32

elaboração destes perfis juntamente com algumas características analisadas durante


a Seção 4.1.

4.2.1 Perfil do Cluster 0

O Cluster 0 é composto por pacientes cuja Classe é unicamente de valor


“pacientes saudáveis”, não tendo nenhuma instância com predisposição a
desenvolver doenças cardíacas agrupado no mesmo. Quando levado em
consideração o atributo Resultado Exame (eletrocardiograma) é possível
compreender que foram agrupados neste cluster, somente pacientes diagnosticados
com “hipertrofia do ventrículo esquerdo”.
Entretanto, se levarmos em consideração o atributo Exercício Induz Dor,
notamos que predominantemente este cluster contém pacientes que não sentem dor
após atividade física. Porém, alguns pacientes que sentem dor após execução de uma
atividade física também foram alocados neste cluster. Sendo assim, tem-se uma
variação no perfil do Cluster 0, essa variação será exposta na Tabela 5.

Tabela 5: Perfis Cluster 0.

Classe Resultado Exercício Tipo de Dor


Exame Induz Dor no Peito

Perfil 1 Hipertrofia do Não


Saudável Ventrículo -
Esquerdo
Perfil 2 Sim

Fonte: Autor.

Compreende-se então dois perfis diferentes presentes no Cluster 0. Como a


variação ocorre no atributo Exercício Induz Dor, é possível afirmar que nem sempre
dor no peito após uma atividade física pode indicar predisposição em desenvolver
uma doença cardíaca. Já o atributo Tipo de Dor no Peito, não influencia no traçamento
deste perfil, tendo em vista que no Cluster 0 é possível notar pacientes assumindo
todos os valores possíveis para este atributo. Logo, este atributo não será considerado
em ambos os perfis. O perfil predominante neste cluster é o paciente saudável, com
hipertrofia do ventrículo esquerdo no qual não sente dor após execução de uma
atividade física.
33

4.2.2 Perfil do Cluster 1

O cluster 1 têm em sua totalidade 4 perfis diferentes, pois os atributos Classe


e Exercício Induz Dor têm uma predominância nos valores “saudável” e “exercício não
induz dor”. Entretanto, é interessante destacar que apesar destes valores serem
predominantes, foram agrupados pacientes que divergem destes valores. No caso do
atributo Classe, uma minoria dos pacientes que tinham predisposição a desenvolver
uma doença cardíaca foram agrupados neste cluster, logo, é possível compreender
um perfil alternativo de pacientes. Já o atributo Exercício Induz Dor tem em sua grande
parte pacientes que não sentem dor após atividade física. Entretanto, alguns
pacientes que sentem dor após atividade física foram agrupados neste cluster, logo,
outro perfil alternativo é apresentado.
O atributo Resultado Exame teve um único valor neste cluster, sendo este
valor rotulado “normal”. Este valor representa que não há uma anormalidade nas
ondas ST-T obtidas no eletrocardiograma e também não há uma hipertrofia do
ventrículo esquerdo nos pacientes. Já o atributo Tipo de Dor no Peito têm um
comportamento semelhante ao do Cluster 0, onde os pacientes assumem todos os
valores possíveis. Sendo assim, este atributo se demonstra irrelevante para traçar o
perfil do Cluster 1.
Tabela 6: Perfis Cluster 1.

Classe Resultado Exercício Tipo de Dor


Exame Induz Dor no Peito

Perfil 1 Não
Saudável -

Perfil 2 Normal Sim

Perfil 3 Predisposição à Não


doença cardíaca -

Perfil 4 Sim

Fonte: Autor.

Compreende-se então, 4 perfis diferentes agrupados no Cluster 1. Porém, o


perfil predominante deste cluster é o paciente saudável, com resultado do exame
normal que não sente dor após exercício físico.
34

4.2.3 Perfil do Cluster 2

O Cluster 2 é o único cluster que tem agrupado somente pacientes que têm
predisposição a desenvolver doenças cardíacas, sendo assim nenhum dos pacientes
agrupados neste cluster tem como valor da classe “saudável”. Levando em
consideração o atributo Resultado Exame depara-se com dois diagnósticos, sendo
eles “Hipertrofia do Ventrículo Esquerdo” e “Normal”. Quando considerado o atributo
Exercício Induz Dor temos pacientes agrupados que sentem dor após atividade física
e também pacientes que não sentem dor após atividade física.
O atributo Tipo de Dor no Peito se difere neste cluster dos demais pois, em
sua grande maioria possui pacientes com os valores “dor não angina” e
“assintomático”. É possível perceber somente alguns pacientes com valor “angina
atípica” (valor 2) e nenhum paciente com valor “angina típica” foi agrupado. Sendo
assim, o atributo Tipo de Dor no Peito neste caso será considerado para traçar os
perfis deste cluster, excluindo somente pacientes com valor 1 e 2.

Tabela 7: Perfis Cluster 2.

Classe Resultado Exercício Tipo de Dor


Exame Induz Dor no Peito

Perfil 1 Hipertrofia do
Ventrículo Não Dor Não Angina
Predisposição à Esquerdo
Perfil 2 doença cardíaca Assintomático

Perfil 3 Dor não Angina


Normal Sim

Perfil 4 Assintomático

Fonte: Autor.
Compreende-se então, que o Cluster 2 têm 4 perfis diferentes. Divergindo
entre si pelos atributos Resultado Exame, Exercício Induz Dor e Tipo de Dor no Peito.
Entretanto, está presente dois perfis predominantes neste cluster sendo o primeiro
caracterizado por predisposição à doença cardíaca, hipertrofia do ventrículo
esquerdo, dor após execução de atividade física e dor não angina. Já o segundo perfil
predominante é dado pelas seguintes características: predisposição à doença
cardíaca, hipertrofia do ventrículo esquerdo, dor após execução de atividade física e
sem sintomas de dor no peito.
35

6 CONCLUSÃO, LIMITAÇÕES E TRABALHOS FUTUROS

No presente trabalho foi apresentado uma abordagem utilizando técnicas de


mineração de dados aplicadas à saúde, em específico a técnica de agrupamento. A
base de dados no qual foi aplicado esta técnica, é proveniente do “UC Irvine Machine
Learning Repository” e é composta por pacientes que foram diagnosticados como
saudáveis ou com predisposição a desenvolver doenças cardíacas.
Sendo assim, este trabalho teve como objetivo traçar um perfil dos pacientes
saudáveis e também dos que tivessem predisposição a desenvolver doenças
cardíacas. Para que este objetivo fosse cumprido, foi necessário um pré-
processamento dos dados, seguido da aplicação do algoritmo K-means na base de
dados pré-processada. Compreendeu-se então, o comportamento de cada um dos
clusters formados, juntamente com os atributos predominantes em cada um. Foram
traçados dez perfis diferentes, entretanto, somente três se comportaram de forma
predominante em cada um dos clusters.
O primeiro perfil predominante é composto por pacientes saudáveis que foram
diagnosticados com hipertrofia do ventrículo esquerdo, não sentem dor após atividade
física e que sentem os 4 tipos de dores no peito. Sendo assim, é possível concluir que
apesar dos pacientes serem diagnosticados com hipertrofia do ventrículo esquerdo,
isso não representa uma predisposição para desenvolver doenças cardíacas em sua
grande parte. Já a ausência de dor no peito após atividades físicas pode ser
considerado uma informação relevante para pacientes saudáveis, tendo em vista que
em grande parte os pacientes com predisposição a doenças cardíacas sentem dores
após atividade física. O atributo tipo de dor no peito não foi relevante no traçamento
deste perfil, tendo em vista que não se tem uma predominância dos valores
apresentados.
O segundo perfil é predominantemente composto por pacientes classificados
como saudáveis que têm em sua totalidade o diagnóstico do eletrocardiograma como
“normal”. Quando levado em consideração se atividade física induz dor no peito, em
sua grande maioria os pacientes agrupados neste perfil não apresentam dores. Já os
tipos de dores no peito deste perfil não podem ser especificados, pois tiveram um
comportamento esparso no agrupamento. Compreende-se então, que o atributo
exercício induz dor, novamente pode ser um diferencial para se classificar um paciente
como saudável ou com predisposição a doenças cardíacas.
36

O terceiro perfil predominantemente composto por pacientes com


predisposição a desenvolver doenças cardíacas. Estes pacientes em sua grande
maioria foram diagnosticados com hipertrofia do ventrículo esquerdo e sentem dor no
peito após atividade física. Levando em consideração o tipo de dor no peito
compreendido neste perfil, temos o valor assintomático como predominante. Isto é,
estes pacientes em sua maioria não sentem nenhum tipo de dor no peito. Também é
possível notar neste perfil a presença de pacientes com dores não-angina. Este foi o
único perfil onde o atributo tipo de dor no peito não teve um comportamento
completamente esparso.
Tendo sido exposto os três perfis predominantes juntamente com o
comportamento dos atributos utilizados neste trabalho, é possível concluir que o
atributo Exercício Induz Dor foi o atributo de maior relevância para traçar um perfil
como saudável ou com predisposição a doenças cardíacas. O resultado do
eletrocardiograma influenciou diretamente no segundo perfil, sendo possível
compreender que resultados de exame “normal” pode estar associado diretamente
com um paciente saudável. Já o atributo Tipo de Dor no Peito foi o que menos
influenciou para traçar os perfis, tendo importância somente no terceiro perfil
supracitado.
Tendo em vista trabalhos futuros, pode-se destacar a mesma abordagem
através de técnicas de agrupamento, porém utilizando-se de atributos diferentes.
Informações como se o paciente é fumante, ingere bebidas alcoólicas e se tem uma
alimentação saudável podem ser atributos interessantes para se utilizar no
agrupamento. Um aumento no número dos atributos pode tornar o trabalho mais
preciso, entretanto deve-se atentar e analisar se o comportamento dos clusters
permanecem de forma sólida para compreensão das informações.
Dentre as limitações do presente trabalho, pode ser citado o baixo número de
atributos utilizados para o agrupamento. Tendo em vista as diversas variações
fisiológicas dos pacientes, um trabalho com mais atributos pode ser mais preciso em
classificar e compreender características de pacientes que possam desenvolver
doenças cardíacas.
37

REFERÊNCIAS BIBLIOGRÁFICAS

AMINI, Leila; AZARPAZHOUH, Reza; FARZADFAR, Mohammad Taghi; MOUSAVI,


Sayed ali; JAZAIERI, Farahnaz; KHORVASH, Fariborz; NOURZI, Rasul;
TOGHIANFAR, Nafiseh. Prediction and Control of Stroke by Data Mining.
International Journal of Preventive Medicine, 2013, [S.I].

BREAULT, Joseph L.; GOODALL, Colin R.; FOS, Peter J. Data mining a diabetic
data warehouse. Artificial Intelligence in Medicine, [S.I], v. 26, p. 37–54, 2002.

CABENA, P; HADJINIAN, P; STADLER, R; JAAPVERHEES; ZANASI, A.


Discovering Data Mining: From Concept to Implementation. Prentice Hall, 1998.

CAMILO, Cássio Oliveira; SILVA, João Carlos. Mineração de Dados: Conceitos,


Tarefas, Métodos e Ferramentas. Goiás, 2009.

CANLAS, Ruben D.. Data Mining in HealthCare: current applications and issues.
Carnegie Mellon University, Australia, 2009.

CARVALHO, Deborah Ribeiro; MOSER, Auristela Duarte; SILVA, Verônica Andrade;


DALAGASSA, Marcelo Rosano. Mineração de Dados aplicada à fisioterapia.
Fisioterapia em Movimento, Curitiba, v. 25, n. 3, p. 595-605, jul./set. 2012.

CHAURASIA, Vikas; PAL, Saurabh. Early Prediction of Heart Diseases Using Data
Mining Techniques. Caribbean Journal of Science and Technology, Caribe, v.1, p.
208-217, 2013.

DELEN, Dursun; WALKER, Glenn; KADAM, Amit. Predicting breast cancer


survivability: a comparison of three data mining methods. Artificial Intelligence in
Medicine, v. 34, p. 113-127, 2004.

DUBES, Richard C. How Many Clusters Are Best? – And Experiment. Pergamon
Journals Ltd, Grã Bretanha, v. 20, n. 6, p. 645-663, 1987.
FAYYAD, Usama; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to
Knowledge Discovery in Databases, v. 17, n. 3, p. 37-54, 1996.

FRAWLEY, William J.; PIATETSKY-SHAPIRO, G.; MATHEUS, Christopher J.


Knowledge Discovery in Databases: An Overview, In: Journal of Record for the AI
Community, 1992, p. 57-70.
38

FONSECA, José Manuel Matos Ribeiro. Indução de Árvores de Decisão: HistClass


- Proposta de um algoritmo não paramétrico, 1994. 149f. Dissertação (Mestrado) -
Universidade Nova de Lisboa, Lisboa, 1994.

HAN, Jiawei; MICHELINE, Kamber. Data Mining: Concepts and Techniques. 2000.

HAND, D; MANNILA, H; SMYTH, P. Principles of Data Mining. Massachusetts: MIT


Press, 2001.

HARTIGAN, John A. Clustering Algorithms. Canada: John Wiley & Sons, Inc. 1975.

LIAO, Shang-Chih; LEE, I-Nong; Appropriate medical data categorization for data
mining classification techniques. Med-Inform, v. 27, n. 1, p. 59–67, 2002.

PALANIAPPAN, Sellappan; AWANG, Rafiah. Intelligent Heart Disease Prediction


System Using Data Mining Techniques. IJCSNS International Journal of Computer
Science and Network Security, [S.I], v. 8, n. 8, p. 343-350, Agosto 2008.

PANZARASA, Silvia; QUAGLINI, Silvana; SACCHI, Lucia; CAVALLINI, Anna;


MICIELI, Giuseppe; STEFANELLI, Mario. Data mining techniques for analyzing
stroke care processes. In: MEDINFO, 2010, p. 939-943.

PATEL, Bhagwati Charan; SINHA, G. R. An Adaptive K-means Clustering Algorithm


for Brest Image Segmentation. International Journal of Computer Applications,
[S.I], v. 10, n. 4, p. 35-38, Novembro 2010.

PIATETSKY-SHAPIRO, Gregory. Knowledge Discovery in Real Databases: A Report


on the IJCAI-89 Workshop. In: International Joint Conference on Artificial
Intelligence, 1990, Detroit, p. 68-70.

SATHYADEVI, G. Application of CART Algorithm in Hepatitis Diseade Diagnosis. In:


INTERNATIONAL CONFERENCE ON RECENT TRENDS IN INFORMATION
TECHNOLOGY, 2011, Chennai, p. 1283-1287.

SHOUMAN, Mai; TURNER, Tim; STOCKER, Rob. Integrating Decision Tree and K-
Means Clustering with Different Initial Centroid Selection Methods in the Diagnosis of
Heart Disease Patients. In: Proceedings of the International Conference on Data
Mining, 2012, Las Vegas.
39

SILVA, Leandro Augusto; PERES, Sarajane Marques; BOSCARIOLI, Clodis.


Introdução à Mineração de Dados: Com aplicações em R. São Paulo: Elsevier, 2016.

SINGH, Archana; YADAV, Avantika; RANA, Ajay. K-means with Three different
Distance Metrics. In: INTERNATIONAL JOURNAL OF COMPUTER APPLICATIONS,
2013, Pennsylvania, p. 13-17.

Sociedade Brasileira de Cardiologia. (SBC). Cerca de 300 mil brasileiros morrem de


doenças cardiovasculares por ano. Disponível em: http://www.brasil.gov.br/noticias/s
aude/2017/09/cerca-de-300-mil-brasileiros-morrem-de-doencas-cardiovasculares-
por-ano. Acesso em: 29/07/2019.

THANGAVEL, Kuttiannan; JAGANATHAM, P. Palanichamy; EASMI, P.O. Data


Mining Approach to Cervical Cancer Patients Analysis Using Clustering Technique.
In: Asian Journal of Information Technology 5. 2006, India, 5.

WAGSTAFF, Kiri; CARDIE, Claire; ROGERS, Seth; SCHROEDL, Stefan.


Constrained K-means Clustering with Background Knowledge. In: Proceedings of the
Eighteenth International Conference on Machine Learning, 2001, [S.I], p. 577–584.

World Health Organization. (WHO). The top 10 causes of death. Disponível em:
https://www.who.int/news-room/fact-sheets/detail/the-top-10-causes-of-death.
Acesso em: 10/04/2019.

ZHOU, Zhi-Hua. Three perspectives of data mining, Artificial Intelligence, v. 143 p.


139–146, (2003).

Você também pode gostar