Você está na página 1de 17

FACULDADE DE TECNOLOGIA DE SOROCABA

“JOSÉ CRESPO GONZALES”

CURSO DE TECNOLOGIA EM ANÁLISE E


DESENVOLVIMENTO DE SISTEMAS

Disciplina: Inteligência Artificial

Prof.ª. Maria das Graças J. M. Tomazela

PROJETO: PROCESSO DE KDD

GUILHERME AUGUSTO DE SOUSA


LEANDRO DOS ANJOS BARROS
YUGO SATO

Sorocaba - SP
Julho/2020
GUILHERME AUGUSTO DE SOUSA RA:0030481721005
LEANDRO DOS ANJOS BARROS RA:0030481721013
YUGO SATO RA:0030481721019

PROJETO: PROCESSO DE KDD

Projeto sobre Processo de KDD apresentado na


disciplina de Inteligência Artificial do curso de
Análise e Desenvolvimento de Sistemas na
FATEC – SO, 6º Semestre – Diurno.

Prof.ª. Maria das Graças J. M. Tomazela

Sorocaba - SP
Julho/2020

Processo de KDD 2
Sumário
SUMÁRIO ................................................................................................................................................................................ 3
1. INTRODUÇÃO .............................................................................................................................................................. 4
2. ATIVIDADES DE PRÉ-PROCESSAMENTO REALIZADAS ................................................................................ 6
NUMERICTONOMINAL .............................................................................................................................................................6
NORMALIZE................................................................................................................................................................................7
3. ATIVIDADES E PARAMETRIZAÇÕES REALIZADAS......................................................................................... 8
CLUSTERIZAÇÃO INICIAL .........................................................................................................................................................8
CRIANDO ARQUIVO COM CLUSTERS ASSOCIADOS ................................................................................................................9
ABRINDO ARQUIVO COM CLUSTERS ASSOCIADOS ................................................................................................................9
TRABALHANDO COM OS CLUSTERS ASSOCIADOS .............................................................................................................. 10
3.4.1. Cluster 0 ..................................................................................................................................................................... 10
3.4.2. Cluster 1 ..................................................................................................................................................................... 10
3.4.3. Cluster 2 ..................................................................................................................................................................... 11
3.4.4. Cluster 3 ..................................................................................................................................................................... 11
3.4.5. Cluster 4 ..................................................................................................................................................................... 11
ANÁLISE DOS CLUSTERS ....................................................................................................................................................... 12
3.5.1. Cluster 0 ..................................................................................................................................................................... 12
3.5.2. Cluster 1 ..................................................................................................................................................................... 12
3.5.3. Cluster 2 ..................................................................................................................................................................... 12
3.5.4. Cluster 3 ..................................................................................................................................................................... 12
3.5.5. Cluster 4 ..................................................................................................................................................................... 12
ALGORITMOS DE CLASSIFICAÇÃO ........................................................................................................................................ 13
3.6.1. Algoritmo J48 ........................................................................................................................................................... 13
3.6.2. Algoritmo MultilayerPerceptron ...................................................................................................................... 14
3.6.3. Algoritmo IBk ........................................................................................................................................................... 15
4. JUSTIFICATIVA DAS ESCOLHAS ......................................................................................................................... 15
5. ANÁLISE DOS RESULTADOS OBTIDOS DURANTE TODO O PROCESSO ................................................ 16
ME CUIDO ................................................................................................................................................................................ 16
SAÚDE DE FERRO.................................................................................................................................................................... 16
ABUSO NO SAL ........................................................................................................................................................................ 16
NÃO PROCURO, SENÃO ACHO................................................................................................................................................ 16
MULHER QUE SE CUIDA ......................................................................................................................................................... 16
6. CONSIDERAÇÕES FINAIS ...................................................................................................................................... 17

Processo de KDD 3
1. Introdução
As doenças cardiovasculares matam aproximadamente 17 milhões de pessoas em
todo o mundo a cada ano, e elas aparecem principalmente como infarto do miocárdio e
insuficiência cardíaca. A insuficiência cardíaca (IC) ocorre quando o coração não consegue
bombear sangue suficiente para atender às necessidades do corpo. O prontuário médico
eletrônico disponível dos pacientes quantifica os sintomas, as características do corpo e os
valores dos exames clínicos laboratoriais, que podem ser usados para realizar análises
bioestatísticas com o objetivo de destacar padrões e correlações indetectáveis pelos médicos. O
aprendizado de máquina, em particular, pode prever a sobrevivência dos pacientes a partir de
seus dados e individualizar os recursos mais importantes entre os incluídos em seus registros
médicos.
O data set utilizado contém os registros médicos de 299 pacientes com insuficiência
cardíaca coletados do Faisalabad Institute of Cardiology e no Allied Hospital in Faisalabad
(Punjab, Paquistão), durante o período de abril a dezembro de 2015. Os pacientes foram
constituídos por 105 mulheres e 194 homens, com idades entre 40 e 95 anos. Todos os 299
pacientes apresentaram disfunção sistólica do ventrículo esquerdo e apresentaram insuficiência
cardíaca prévia que os colocaram nas classes III ou IV da classificação da New York Heart
Association (NYHA) dos estágios da insuficiência cardíaca.
Tabela 1 – Descrição do Data Set

Processo de KDD 4
O conjunto de dados contém 13 atributos, que relatam informações clínicas,
corporais e sobre estilo de vida, que descrevemos brevemente aqui. Alguns recursos são
binários: anemia, pressão alta, diabetes, sexo e tabagismo. O médico do hospital considerou um
paciente com anemia se os níveis de hematócrito fossem inferiores a 36%. Em relação ao Sexo
sendo os dados de valor 0 relativo a Feminino e 1 a Masculino.
Em relação aos atributos, a creatinina fosfoquinase (CPK) indica o nível da enzima CPK no
sangue. Quando um tecido muscular é danificado, o CPK flui para o sangue. Portanto, altos
níveis de CPK no sangue de um paciente podem indicar uma insuficiência cardíaca ou lesão. A
fração de ejeção indica a porcentagem de quanto sangue o ventrículo esquerdo bombeia a cada
contração. A serum creatinine é um resíduo gerado pela creatina, quando um músculo se
decompõe. Especialmente, os médicos se concentram na creatinina sérica no sangue para
verificar a função renal. Se um paciente tiver altos níveis de creatinina sérica, isso pode indicar
disfunção renal. O sódio é um mineral que serve para o correto funcionamento dos músculos e
nervos. O teste sérico de sódio é um exame de sangue rotineiro que indica se um paciente tem
níveis normais de sódio no sangue. Um nível anormalmente baixo de sódio no sangue pode ser
causado por insuficiência cardíaca. O atributo de evento de morte, que usamos como alvo em
nosso estudo de classificação binária, declara se o paciente morreu ou sobreviveu antes do final
do período de acompanhamento, ou seja, em média 130 dias. Em relação ao desequilíbrio do
conjunto de dados, os pacientes sobreviventes (evento de morte = 0) são 203, enquanto os
pacientes mortos (evento de morte = 1) são 96. Em termos estatísticos, existem 32,11%
positivos e 67,89% negativos.

Processo de KDD 5
2. Atividades de pré-processamento realizadas
Para a utilização o Data Set Heart failure clinical records no processo de KDD pela
abordagem da Clusterização no pré-processamento foi necessária a aplicação de dois filtros, o
NumericToNominal e o Normalize.

NumericToNominal
O Filtro NumericToNominal foi aplicado nos atributos 2, 4, 6, 10, 11 e 13, a fim de
manter os dados Boolean desta data set como 0 ou 1 após o Normalize.

Figura 1

Processo de KDD 6
Normalize
Para a abordagem da Clusterização é necessário normalizar os dados, aplicando o
filtro Normalize em todo o data set, neste trabalho o data set foi normalizado em uma escala de
1.0, transição de 0.0 e ignorando a classe.

Figura 2

Processo de KDD 7
3. Atividades e parametrizações realizadas
A fim de realizar o processo de KDD, foi realizada a clusterização do data set
utilizando o algoritmo SimpleKMeans, foi criado uma arquivo com os clusters associados e os
mesmo foi utilizado para análise.

Clusterização Inicial
Inicialmente a clusterização foi feita com 2 clusters, mas não foi obtida uma boa
distribuição dos dados, então foram feitos testes, aumentando o número de clusters de 1 em 1,
até chegar em 5 clusters, onde foi obtida uma melhor disposição dos dados, como pode ser visto
na Figura 4.

Figura 3

Figura 4
Processo de KDD 8
Criando arquivo com Clusters Associados
Clicando com o botão direito do mouse em cima do resultado de Clusters com a
distribuição que foi considerada, e posteriormente em Visualize Cluster Assignments, é exibida
a tela que possibilita o salvamento do dos clusters associados em uma arquivo com extensão
arff.

Figura 5

Abrindo arquivo com Clusters Associados


Ao abrir o arquivo gerado no processo anterior foi obtido os histogramas da Figura.

Figura 6

Processo de KDD 9
Trabalhando com os Clusters Associados
Utilizando o software Excell foi feito gráficos de frequência/Histograma para cada
atributo de cada Cluster, para análise dos Clusters.

3.4.1. Cluster 0

Figura 7

3.4.2. Cluster 1

Figura 8

Processo de KDD 10
3.4.3. Cluster 2

Figura 9

3.4.4. Cluster 3

Figura 10

3.4.5. Cluster 4

Figura 11

Processo de KDD 11
Análise dos Clusters
Utilizando os dados obtidos com todo o processo realizado até este ponto, foi
possível analisar e explicar cada Cluster.

3.5.1. Cluster 0
Composto por Homens de idades mais próximas de 62~73 todos desse cluster
sobreviveram, muitos não tinham pressão alta e quase nenhum tinha anemia, em relação a fumar
estão distribuídos, mas tendem a não fumar, o tempo de acompanhamento é mediano no geral.

3.5.2. Cluster 1
Semelhante ao cluster0, mas este tem mulheres e o tempo de acompanhamento
predominante é curto, a faixa que mais ocorre está entre 4~54 dias, nenhuma das pessoas deste
cluster morreu, a maioria das pessoal não tinha problema de saúde ou fumava. Sua maioria é
composta por pessoas com idades menores do total apresentado, por volta de 45~81 anos.

3.5.3. Cluster 2
Neste cluster já aparecem alguns casos de morte, maioria é homem não fumante,
mas com alguns problemas de saúde como diabetes e anemia, o tempo de acompanhamento foi
por volta de 72~136 dias, tivemos também mais uso de serum_sodium neste cluster.

3.5.4. Cluster 3
Cluster composto por quase apenas homens, sua maior parte é fumante e possui
anemia, a idade predominante está entre 51~61 anos, o tempo de acompanhamento fica por
volta de 58~108 em sua maioria e uma pequena parte desse grupo chegou a morrer.

3.5.5. Cluster 4
Cluster formado apenas por mulheres que quase nenhuma fuma, não tem problemas
de saúde, mas com um tempo de acompanhamento consideravelmente extenso, ficou por volta
de 73~134 dias ou 195~256 dias, muitas das mulheres desse grupo sobreviveram, apenas uma
pequena parte chegou a morrer

Processo de KDD 12
Algoritmos de Classificação
Para obter uma classificação, foram aplicados algoritmos de classificação nos
clusters.

3.6.1. Algoritmo J48


Conforme a árvore de decisão obtida através do algoritmo J48 aponta na Figura 12,
podemos fazer um caminho com aproximadamente 98% de acertos na amostra total analisada
que nos levará a um paciente morto ou não.
Com isso podemos visualizar relações dos atributos com as mortes ocorridas, por
exemplo podemos analisar o ejection_fraction, serum_sodium (>139), sexo, anemia estão mais
relacionados pois aparecem relacionados a algumas mortes, portanto temos como analisar
diversos caminhos que podem ter uma tendência ao paciente morrer.

Figura 12
A Figura 13 mostra os resultados da árvore de decisão.

Processo de KDD 13
Figura 13

3.6.2. Algoritmo MultilayerPerceptron


A Figura 14 mostra os resultados obtidos com o algoritmo MultilayerPerceptron.

Figura 14

Processo de KDD 14
3.6.3. Algoritmo IBk
Na Figura 15 é exibido os resultados utilizando o algoritmo IBk.

Figura 15

4. Justificativa das escolhas


Antes do processo de Clusterização, foi aplicada a abordagem por Associação, mas
como a as regras obtidas não eram de muita qualidade e para obter mais regras foi necessário
baixar muito a confiabilidade, foi decidido aplicar a Clusterização, onde foi obtido melhores
resultados.
A Clusterização proporcionou o agrupamento de 5 grupos com características
distintas que proporcionou análise dos perfis que compõem este data set.
No caso dos algoritmos de classificação foi descartada a utilização dos dados
obtidos através do algoritmo J48, pois ela foi a única que não obteve 100% de confiabilidade,
diferente dos algoritmos IBk que obteve 100% e MultilayerPerceptron atingiu mais de 100%.

Processo de KDD 15
5. Análise dos resultados obtidos durante todo o processo
A partir dos dados obtidos com todos os processos realizados e selecionados, foi
traçado cinco perfis de pessoas possuem insuficiência cardíaca que chegaram a óbito ou não,
estes perfis foram chamados de “Me cuido”, “Saúde de ferro”, “Abuso no sal”, “Não procuro,
senão acho” e “Mulher que se cuida”.

Me cuido
É composto por pessoas que sobreviveram, são Homens de idades entre 62 e 73,
muitos não tinham pressão alta e quase nenhum tinha anemia, tendem a não fumar e o tempo
de acompanhamento médico é mediano.

Saúde de ferro
Nenhuma das pessoas deste grupo morreu, ele composto por homens e mulheres de
45 a 81 anos de idade, o tempo de acompanhamento médico predominante é curto, entre 4 e 54
dias, a maioria das pessoal não tinha problema de saúde ou fumava.

Abuso no sal
Neste grupo é registrado alguns casos de morte, maioria das pessoas é homem não
fumante, mas com alguns problemas de saúde como diabetes e anemia, o tempo de
acompanhamento foi de 72 a 136 dias. Também foi identificado o nível de sódio no sangue um
pouco alto.

Não procuro, senão acho


Este grupo compõem uma pequena parte de pessoas que chegou a óbito, é composto
praticamente apenas por homens de 51 a 61 anos de idade, em sua maioria fumante e possui
anemia, com o tempo de acompanhamento médico pequeno, por volta de 58 a 108 dias em sua
maioria.

Mulher que se cuida


Grupo formado apenas por mulheres, onde quase nenhuma fuma, não tem
problemas de saúde, com um tempo de acompanhamento médico consideravelmente extenso,
por volta de 73 e 256 dias, muitas das mulheres desse grupo sobreviveram, apenas uma pequena
parte chegou a morrer.

Processo de KDD 16
6. Considerações finais

Com base nos resultados obtidos, podemos relacionar os altos níveis da pressão,
sódio e doenças pré-existentes a óbitos no caso de insuficiência cardíaca, mas um dos fatores
que mais se destaca nos resultados é a relação entre o baixo acompanhamento médico e os casos
de morte, salientando a importância do acompanhamento médico, que com essa proximidade,
possibilita que o médico controle doenças e níveis anormais das condições clinicas da pessoa,
assim prolongando a vida do paciente.

Processo de KDD 17

Você também pode gostar