Classificação de Patologia Cardíaca Com Redes Neurais Artificias

1
Classificação de Patologia Cardíaca com Redes

Neurais Artificias
Paulo R. N. Marchesini
paulomarchesini@usp.br
Escola de Engenharia de São Carlos – USP, São Carlos, Brasil
Resumo — A detecção de patologias é um extenso campo de doenças cardíacas.
estudo na área medicinal. A pesquisa na área de inteligência A base de dados utilizada foi a Heart Disease Data Set,
artificial faz largo uso de ferramentas como redes neurais. É sabido proveniente do UCI machine learning repository [2], na qual é
que estas são capazes de atuar como potentes classificadores para
amplamente utilizada em artigos científicos, sendo desta
diferentes problemas, além da possibilidade de serem utilizadas
como métodos de aproximação de funções muito complexas para forma uma fonte segura de informação.
serem encontradas de forma analítica. Dessa forma, o objetivo deste A base de dados está dividida em treze atributos de entrada,
trabalho é explorar os padrões dos exames laboratoriais e que representam as informações dos pacientes entrevistados, e
entrevistas médicas com pacientes saudáveis e patológicos para um atributo de saída que representa o laudo médico indicando:
observar a capacidade de classificação oferecido por uma ▪ Valor 0 – Redução da artéria menor que 50% - Não
Perceptron Multicamadas (PMC).
existência de doença cardíaca
Palavras Chaves — redes neurais, patologia cardíaca, PMC
▪ Valor 1 – Redução da artéria maior que 50% -
Existência de doença cardíaca
I. INTRODUÇÃO Item Descrição

Anualmente morrem no mundo cerca de 17 milhões de 1. Idade em anos
pessoas por problemas cardíacos e a estimativa é que este 2. Homem ou mulher
número passe para 23 milhões até 2030 [1]. Métodos de
Tipo de dor no peito (angina típica, angina atípica,
detecção de patologia cardíaca mais rápido e eficientes podem 3.
não angina ou angina assintomática
ajudar a diminuir está preocupante previsão.
A pesquisa na área de classificação de patologias é 4. Pressão arterial em repouso (mm Hg)
indispensável para o desenvolvimento de novos métodos de 5. Colesterol Sérico (mg/dl)
identificação. Os diagnósticos tradicionais muitas vezes são Açúcar no sangue em jejum (< 120 mg/dl or > 120
6.
errôneos pois o médico responsável por avaliar os exames pode mg/dl)
não ter parâmetros e base suficiente para tomar uma decisão. Resultados eletrocardiográficos de repouso (normal,
Com uma ferramenta capaz de comparar as informações de 7. anormalidade da onda ST-T ou hipertrofia ventricular
centenas de pacientes com as mesmas características clinicas e esquerda)
retornar uma resposta de precisão aceitável, ajuda o médico a Máxima frequência cardíaca obtida durante o teste de
8.
tomar uma decisão muito mais rápida e consistente, com estresse com tálio
chances de erros drasticamente reduzidas. 9. Angina induzida por exercício (sim ou não)
Depressão do segmento ST induzida pelo exercício
10.
em relação ao repouso
Inclinação do segmento ST de pico do exercício
II. DEFINIÇÃO DO PROBLEA 11.
(ascendente, plano ou inclinado)
Redes neurais tem sido largamente utilizada em diferentes 12. Número de grandes vasos coloridos por fluoroscopia
escopos. O poder de classificação das Redes Neurais Artificiais
(RNA) é largamente explorado: na computação aplicada à Resultado do teste de estresse de tálio (defeito fixo
13.
medicina [3, 4], seja esta através do auxílio no diagnóstico de normal ou defeito reversível)
imagens ou sinais de voz, na computação aplicada as
engenharias [5], sistemas inteligentes são projetados para 14. Atributo de saída. Doença cardíaca
proteger diferentes equipamentos de falhas e melhorar a
Tabela 1. Atributos de entradas e saída
qualidade da energia [5].
O objetivo deste trabalho é definir a capacidade de
classificação de uma Rede Neural Perceptron Multicamadas
(PMC) quando utilizado para a classificação de pacientes com
2
III. METODOLOGIA o algoritmo a convergência esperada, desta forma a quantidade

Para análise dos dados, primeiramente as amostras foram de topologias limitou-se a uma camada neuronal escondida com
mescladas de tal forma que não houvesse mais um padrão entre até 20 neurônios.
elas. Como as amostras são formadas por valores obtidos Para validação dos dados foi utilizado o método da validação
através de entrevistas com os pacientes - gerando respostas cruzada de k-partições. Afim de avaliar todos os treinamentos
padronizadas - e por meio de exames laboratoriais com formato com os mesmos critérios de comparação, foi adotado uma
de números reais, fez-se necessário a normatização dos dados partição de 50 amostras de um conjunto de 300 amostras, onde
através do teorema de Thales (1) para o correto funcionamento todas as janelas eram as mesmas (formadas pelas mesmas
do algoritmo, no qual utiliza a função logística como função de amostras) em todos os treinamentos, ou seja, as 6 janelas
ativação, com valores entre 0 a 1. existentes contavam com as mesmas amostras em todos os
treinamentos. Desta maneira, foi garantido que todas as
𝑥 − 𝑥min amostras utilizadas tanto na fase de aprendizagem quanto na
𝑥𝑛𝑜𝑟𝑚𝑎𝑡𝑖𝑧𝑎𝑑𝑜 = (1)
𝑥𝑚𝑎𝑥 − 𝑥min fase de operação fossem as mesmas. Abaixo é apresentado o
esquema de treinamento utilizado.
Para definição da topologia da rede a ser utilizada foi adotada
uma premissa de classificação levando-se em conta o tipo
problema a ser mapeado. Por se tratar de um problema de
detecção de patologia cardíaca em pessoas, é de suma
importância que o algoritmo tenha a menor taxa de erro possível
sobre falsos negativos, mesmo que a taxa de erro para falsos
positivos seja mais elevada. Entende-se por falso negativo a
classificação negativa de patologia em uma pessoa com doença
cardíaca comprovada por laudo médico e entende-se por falso
positivo a classificação positiva em uma pessoa saudável.
Um falso positivo fará a pessoa passar por uma bateria de
exames na qual logo detectará a falha do algoritmo, enquanto
que por outro lado, um erro de falso negativo induzirá o médico
a prescrever alta a um paciente com patologias cardíacas,
comprometendo sua saúda e intensificando sua doença.
Para escolha da melhor topologia de rede neural a ser utilizada
foi desenvolvido um algoritmo Matlab® para definir as
Figura 1- Esquema de treinamento utilizado para escolha da
seguintes premissas:
topologia de rede
• Número de camadas escondidas: uma ou duas

• Valor de limite para classificação
• Partição de amostras (Janelas) para a fase de IV. RESULTADOS
aprendizagem e operação
Dentre todas as topologias candidatas, sendo elas topologias
O número de camadas escondidas, número de neurônios e o que variavam de uma ou duas camadas escondidas de um até 20
valor de limite para classificação foram obtidos de forma neurônios por camada, a que apresentou melhor resultado foi a
empírica através de diversas sequências de treinamentos topologia de rede com apenas uma camada neuronal escondida
consecutivos. Foram testadas todas as combinações possíveis e quatorze neurônios.
com uma e duas camadas neuronais escondidas com até 20 Esta topologia apresentou um equilíbrio entre falsos
neurônios por camada e os valores de limite para classificação negativos e falso positivo.
foram testados de 0,1 até 1 com passos de 0,1. Para validação e comprovação da eficácia da topologia
Por se tratar de uma rede PMC para classificação de padrão, escolhida foi aplicado novamente a validação cruzada com
foi necessário a escolha de um fator de limite para classificação. janelas de 50 amostras, porém desta vez as janelas foram
Como a saída da rede é um número real, este fator é responsável compostas por amostras aleatórias e diferentes em cada novo
por denominar a resposta de saída padronizada, atribuindo o treinamento, onde foi executado 20 treinamentos para esta
valor 1 caso o valor real de saída da rede seja superior ao valor topologia
do limite de classificação. Após vários treinamentos, chegou-se Os resultados obtidos são mais realistas do que os resultados
à conclusão de que o melhor fator de limite de classificação, no encontrados pelo critério aplicado para seleção da topologia
qual manteve o índice de falsos negativos baixo e ao mesmo vencedora, pois desta vez as amostras foram aleatórias em cada
tempo não elevou demasiadamente o índice de falso positivo, novo treinamento, não havendo garantia de que nos
foi o fator de limite 0,2. treinamentos todas as amostras foram utilizadas tanto na fase
Foi observado que valores acima de 20 neurônios por camada de aprendizagem quanto na fase de operação.
escondida e redes com duas camadas escondidas não levavam
3
O PMC foi capaz de classificar os dados conforme tabela devem ser acompanhados por um especialista e utilizado como
abaixo: parte de um conjunto de testes e avaliações clinicas.
Valores Reais Como trabalho futuro, recomenda-se a investigação de quais
Saudável Patológico Total variáveis possam ser retiradas, modificadas ou acrescentadas
Saudável 478 112 590 para que se possa obter uma taxa de acerto de 100%.
Valores
Patológico 84 326 410
Preditos
Total 562 438 1000
REFERÊNCIAS
Tabela 2. Matriz de confusão
[1] World Heart Federation, “Cardiovascular diseases (CVDs) -
A tabela 2 é chamada de matriz de confusão e compara os Global facts and figures” [https://www.world-heart-
resultados obtidos pelo software com os resultados previamente federation.org/resources/cardiovascular-diseases-cvds-
laudados pelos especialistas. As linhas representam a global-facts-figures/], 2017.
classificação dada pelo software, enquanto as colunas [2] C. Blake, E. Keogh, and C. J. Merz, “UCI Repository of
representam a classificação dada pelo especialista. machine learning databases”
Por esta tabela fica claro que o PMC foi capaz de acertar, em [http://www.ics.uci.edu/~mlearn/ MLRepository.html],
número absolutos, 95,2% e 93,6% da quantidade total de Irvine, CA: University of California, Department of
pessoas saudáveis e patológicas respectivamente, entretanto a Information and Computer Science, 1998.
quantidade final de pessoas patológicas ou saudáveis não é [3] Shreya Aliwadi et al. “Diagnosis of diabetic nature of a
parâmetro para avaliar a eficácia da rede, pois o PMC deve ser person using SVM and ANN approach”. In: 2017 6th
International Conference on Reliability, Infocom
capaz de classificar corretamente as pessoas com patologia ou
Technologies and Optimization (Trends and Future
não, sem ocorrer falsos positivos ou negativos.
Directions) (ICRITO). 2017.
Analisando os resultados das 1.000 amostras avaliadas na
[4] Mahima and N. B. Padmavathi. “Comparative study of
fase de operação durante os 20 treinamentos, o PMC obteve as kernel SVM and ANN classifiers for brain neoplasm
seguintes taxas: classification”. In: 2017 International Conference on
Intelligent Computing, Instrumentation and Control
Falso Negativo 8,40% Technologies (ICICICT). 2017.
Falso Positivo 11,20% [5] Deepak Sharma, Abdul Hamid Bhat, and Aijaz Ahmad.
“ANN based SVPWM for three-phase improved power
Verdadeiro Negativo 32,60% quality converter under disturbed AC mains”. In: 2017
Verdadeiro Positivo 47,80% 6th International Conference on Computer Applications
Tabela 3. Resultados da rede PMC In Electrical Engineering-Recent Advances (CERA).
2017.
V. CONCLUSÃO
O objetivo deste trabalho foi investigar a capacidade do PMC
de classificar um conjunto de dados composto por dois grupos:
saudáveis e patológicos.
Várias topologias foram testadas e a vencedora foi aquela que
apresentou menor quantidade de falsos negativos e um bom
equilíbrio com os falsos positivos.
Para a topologia vencedora foi executado 20 treinamentos
com amostras aleatórios e apresentado os resultados.
Através da tabela 1 e 2, mostrou-se que o PMC obtive um
bom desempenho, porém seus resultados devem ser
acompanhados por um especialista, visto que por melhor que
tenha sido o desempenho da rede, a mesma não apresentou
100% de acertos.
Os resultados devem ser interpretados da seguinte maneira:
▪ Classificação 0: 91,6% de chances de o paciente ter
redução da artéria menor que 50%, ou seja, 91,2%
de chances de não haver patologias cardíacas.
▪ Classificação 1: 88,2% de chances de o paciente ter
redução da artéria maior que 50%, ou seja, 88,2%
de chances de haver patologias cardíacas.
Conclui-se que o PMC é uma ferramenta poderosa para
classificação de patologias cardíacas, porém seus resultados

Classificação de Patologia Cardíaca Com Redes Neurais Artificias

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Classificação de Patologia Cardíaca Com Redes Neurais Artificias

Enviado por

Direitos autorais:

Formatos disponíveis

1

Classificação de Patologia Cardíaca com Redes

I. INTRODUÇÃO Item Descrição

III. METODOLOGIA o algoritmo a convergência esperada, desta forma a quantidade

• Número de camadas escondidas: uma ou duas

Você também pode gostar