Escolar Documentos
Profissional Documentos
Cultura Documentos
Sorocaba - SP
Julho/2020
GUILHERME AUGUSTO DE SOUSA RA:0030481721005
LEANDRO DOS ANJOS BARROS RA:0030481721013
YUGO SATO RA:0030481721019
Sorocaba - SP
Julho/2020
Processo de KDD 2
Sumário
SUMÁRIO ................................................................................................................................................................................ 3
1. INTRODUÇÃO .............................................................................................................................................................. 4
2. ATIVIDADES DE PRÉ-PROCESSAMENTO REALIZADAS ................................................................................ 6
NUMERICTONOMINAL .............................................................................................................................................................6
NORMALIZE................................................................................................................................................................................7
3. ATIVIDADES E PARAMETRIZAÇÕES REALIZADAS......................................................................................... 8
CLUSTERIZAÇÃO INICIAL .........................................................................................................................................................8
CRIANDO ARQUIVO COM CLUSTERS ASSOCIADOS ................................................................................................................9
ABRINDO ARQUIVO COM CLUSTERS ASSOCIADOS ................................................................................................................9
TRABALHANDO COM OS CLUSTERS ASSOCIADOS .............................................................................................................. 10
3.4.1. Cluster 0 ..................................................................................................................................................................... 10
3.4.2. Cluster 1 ..................................................................................................................................................................... 10
3.4.3. Cluster 2 ..................................................................................................................................................................... 11
3.4.4. Cluster 3 ..................................................................................................................................................................... 11
3.4.5. Cluster 4 ..................................................................................................................................................................... 11
ANÁLISE DOS CLUSTERS ....................................................................................................................................................... 12
3.5.1. Cluster 0 ..................................................................................................................................................................... 12
3.5.2. Cluster 1 ..................................................................................................................................................................... 12
3.5.3. Cluster 2 ..................................................................................................................................................................... 12
3.5.4. Cluster 3 ..................................................................................................................................................................... 12
3.5.5. Cluster 4 ..................................................................................................................................................................... 12
ALGORITMOS DE CLASSIFICAÇÃO ........................................................................................................................................ 13
3.6.1. Algoritmo J48 ........................................................................................................................................................... 13
3.6.2. Algoritmo MultilayerPerceptron ...................................................................................................................... 14
3.6.3. Algoritmo IBk ........................................................................................................................................................... 15
4. JUSTIFICATIVA DAS ESCOLHAS ......................................................................................................................... 15
5. ANÁLISE DOS RESULTADOS OBTIDOS DURANTE TODO O PROCESSO ................................................ 16
ME CUIDO ................................................................................................................................................................................ 16
SAÚDE DE FERRO.................................................................................................................................................................... 16
ABUSO NO SAL ........................................................................................................................................................................ 16
NÃO PROCURO, SENÃO ACHO................................................................................................................................................ 16
MULHER QUE SE CUIDA ......................................................................................................................................................... 16
6. CONSIDERAÇÕES FINAIS ...................................................................................................................................... 17
Processo de KDD 3
1. Introdução
As doenças cardiovasculares matam aproximadamente 17 milhões de pessoas em
todo o mundo a cada ano, e elas aparecem principalmente como infarto do miocárdio e
insuficiência cardíaca. A insuficiência cardíaca (IC) ocorre quando o coração não consegue
bombear sangue suficiente para atender às necessidades do corpo. O prontuário médico
eletrônico disponível dos pacientes quantifica os sintomas, as características do corpo e os
valores dos exames clínicos laboratoriais, que podem ser usados para realizar análises
bioestatísticas com o objetivo de destacar padrões e correlações indetectáveis pelos médicos. O
aprendizado de máquina, em particular, pode prever a sobrevivência dos pacientes a partir de
seus dados e individualizar os recursos mais importantes entre os incluídos em seus registros
médicos.
O data set utilizado contém os registros médicos de 299 pacientes com insuficiência
cardíaca coletados do Faisalabad Institute of Cardiology e no Allied Hospital in Faisalabad
(Punjab, Paquistão), durante o período de abril a dezembro de 2015. Os pacientes foram
constituídos por 105 mulheres e 194 homens, com idades entre 40 e 95 anos. Todos os 299
pacientes apresentaram disfunção sistólica do ventrículo esquerdo e apresentaram insuficiência
cardíaca prévia que os colocaram nas classes III ou IV da classificação da New York Heart
Association (NYHA) dos estágios da insuficiência cardíaca.
Tabela 1 – Descrição do Data Set
Processo de KDD 4
O conjunto de dados contém 13 atributos, que relatam informações clínicas,
corporais e sobre estilo de vida, que descrevemos brevemente aqui. Alguns recursos são
binários: anemia, pressão alta, diabetes, sexo e tabagismo. O médico do hospital considerou um
paciente com anemia se os níveis de hematócrito fossem inferiores a 36%. Em relação ao Sexo
sendo os dados de valor 0 relativo a Feminino e 1 a Masculino.
Em relação aos atributos, a creatinina fosfoquinase (CPK) indica o nível da enzima CPK no
sangue. Quando um tecido muscular é danificado, o CPK flui para o sangue. Portanto, altos
níveis de CPK no sangue de um paciente podem indicar uma insuficiência cardíaca ou lesão. A
fração de ejeção indica a porcentagem de quanto sangue o ventrículo esquerdo bombeia a cada
contração. A serum creatinine é um resíduo gerado pela creatina, quando um músculo se
decompõe. Especialmente, os médicos se concentram na creatinina sérica no sangue para
verificar a função renal. Se um paciente tiver altos níveis de creatinina sérica, isso pode indicar
disfunção renal. O sódio é um mineral que serve para o correto funcionamento dos músculos e
nervos. O teste sérico de sódio é um exame de sangue rotineiro que indica se um paciente tem
níveis normais de sódio no sangue. Um nível anormalmente baixo de sódio no sangue pode ser
causado por insuficiência cardíaca. O atributo de evento de morte, que usamos como alvo em
nosso estudo de classificação binária, declara se o paciente morreu ou sobreviveu antes do final
do período de acompanhamento, ou seja, em média 130 dias. Em relação ao desequilíbrio do
conjunto de dados, os pacientes sobreviventes (evento de morte = 0) são 203, enquanto os
pacientes mortos (evento de morte = 1) são 96. Em termos estatísticos, existem 32,11%
positivos e 67,89% negativos.
Processo de KDD 5
2. Atividades de pré-processamento realizadas
Para a utilização o Data Set Heart failure clinical records no processo de KDD pela
abordagem da Clusterização no pré-processamento foi necessária a aplicação de dois filtros, o
NumericToNominal e o Normalize.
NumericToNominal
O Filtro NumericToNominal foi aplicado nos atributos 2, 4, 6, 10, 11 e 13, a fim de
manter os dados Boolean desta data set como 0 ou 1 após o Normalize.
Figura 1
Processo de KDD 6
Normalize
Para a abordagem da Clusterização é necessário normalizar os dados, aplicando o
filtro Normalize em todo o data set, neste trabalho o data set foi normalizado em uma escala de
1.0, transição de 0.0 e ignorando a classe.
Figura 2
Processo de KDD 7
3. Atividades e parametrizações realizadas
A fim de realizar o processo de KDD, foi realizada a clusterização do data set
utilizando o algoritmo SimpleKMeans, foi criado uma arquivo com os clusters associados e os
mesmo foi utilizado para análise.
Clusterização Inicial
Inicialmente a clusterização foi feita com 2 clusters, mas não foi obtida uma boa
distribuição dos dados, então foram feitos testes, aumentando o número de clusters de 1 em 1,
até chegar em 5 clusters, onde foi obtida uma melhor disposição dos dados, como pode ser visto
na Figura 4.
Figura 3
Figura 4
Processo de KDD 8
Criando arquivo com Clusters Associados
Clicando com o botão direito do mouse em cima do resultado de Clusters com a
distribuição que foi considerada, e posteriormente em Visualize Cluster Assignments, é exibida
a tela que possibilita o salvamento do dos clusters associados em uma arquivo com extensão
arff.
Figura 5
Figura 6
Processo de KDD 9
Trabalhando com os Clusters Associados
Utilizando o software Excell foi feito gráficos de frequência/Histograma para cada
atributo de cada Cluster, para análise dos Clusters.
3.4.1. Cluster 0
Figura 7
3.4.2. Cluster 1
Figura 8
Processo de KDD 10
3.4.3. Cluster 2
Figura 9
3.4.4. Cluster 3
Figura 10
3.4.5. Cluster 4
Figura 11
Processo de KDD 11
Análise dos Clusters
Utilizando os dados obtidos com todo o processo realizado até este ponto, foi
possível analisar e explicar cada Cluster.
3.5.1. Cluster 0
Composto por Homens de idades mais próximas de 62~73 todos desse cluster
sobreviveram, muitos não tinham pressão alta e quase nenhum tinha anemia, em relação a fumar
estão distribuídos, mas tendem a não fumar, o tempo de acompanhamento é mediano no geral.
3.5.2. Cluster 1
Semelhante ao cluster0, mas este tem mulheres e o tempo de acompanhamento
predominante é curto, a faixa que mais ocorre está entre 4~54 dias, nenhuma das pessoas deste
cluster morreu, a maioria das pessoal não tinha problema de saúde ou fumava. Sua maioria é
composta por pessoas com idades menores do total apresentado, por volta de 45~81 anos.
3.5.3. Cluster 2
Neste cluster já aparecem alguns casos de morte, maioria é homem não fumante,
mas com alguns problemas de saúde como diabetes e anemia, o tempo de acompanhamento foi
por volta de 72~136 dias, tivemos também mais uso de serum_sodium neste cluster.
3.5.4. Cluster 3
Cluster composto por quase apenas homens, sua maior parte é fumante e possui
anemia, a idade predominante está entre 51~61 anos, o tempo de acompanhamento fica por
volta de 58~108 em sua maioria e uma pequena parte desse grupo chegou a morrer.
3.5.5. Cluster 4
Cluster formado apenas por mulheres que quase nenhuma fuma, não tem problemas
de saúde, mas com um tempo de acompanhamento consideravelmente extenso, ficou por volta
de 73~134 dias ou 195~256 dias, muitas das mulheres desse grupo sobreviveram, apenas uma
pequena parte chegou a morrer
Processo de KDD 12
Algoritmos de Classificação
Para obter uma classificação, foram aplicados algoritmos de classificação nos
clusters.
Figura 12
A Figura 13 mostra os resultados da árvore de decisão.
Processo de KDD 13
Figura 13
Figura 14
Processo de KDD 14
3.6.3. Algoritmo IBk
Na Figura 15 é exibido os resultados utilizando o algoritmo IBk.
Figura 15
Processo de KDD 15
5. Análise dos resultados obtidos durante todo o processo
A partir dos dados obtidos com todos os processos realizados e selecionados, foi
traçado cinco perfis de pessoas possuem insuficiência cardíaca que chegaram a óbito ou não,
estes perfis foram chamados de “Me cuido”, “Saúde de ferro”, “Abuso no sal”, “Não procuro,
senão acho” e “Mulher que se cuida”.
Me cuido
É composto por pessoas que sobreviveram, são Homens de idades entre 62 e 73,
muitos não tinham pressão alta e quase nenhum tinha anemia, tendem a não fumar e o tempo
de acompanhamento médico é mediano.
Saúde de ferro
Nenhuma das pessoas deste grupo morreu, ele composto por homens e mulheres de
45 a 81 anos de idade, o tempo de acompanhamento médico predominante é curto, entre 4 e 54
dias, a maioria das pessoal não tinha problema de saúde ou fumava.
Abuso no sal
Neste grupo é registrado alguns casos de morte, maioria das pessoas é homem não
fumante, mas com alguns problemas de saúde como diabetes e anemia, o tempo de
acompanhamento foi de 72 a 136 dias. Também foi identificado o nível de sódio no sangue um
pouco alto.
Processo de KDD 16
6. Considerações finais
Com base nos resultados obtidos, podemos relacionar os altos níveis da pressão,
sódio e doenças pré-existentes a óbitos no caso de insuficiência cardíaca, mas um dos fatores
que mais se destaca nos resultados é a relação entre o baixo acompanhamento médico e os casos
de morte, salientando a importância do acompanhamento médico, que com essa proximidade,
possibilita que o médico controle doenças e níveis anormais das condições clinicas da pessoa,
assim prolongando a vida do paciente.
Processo de KDD 17