Você está na página 1de 3

1

Classificação de Patologia Cardíaca com Redes Neurais Artificias

Paulo R. N. Marchesini paulomarchesini@usp.br Escola de Engenharia de São Carlos USP, São Carlos, Brasil

Resumo A detecção de patologias é um extenso campo de estudo na área medicinal. A pesquisa na área de inteligência artificial faz largo uso de ferramentas como redes neurais. É sabido que estas são capazes de atuar como potentes classificadores para diferentes problemas, além da possibilidade de serem utilizadas como métodos de aproximação de funções muito complexas para serem encontradas de forma analítica. Dessa forma, o objetivo deste trabalho é explorar os padrões dos exames laboratoriais e entrevistas médicas com pacientes saudáveis e patológicos para observar a capacidade de classificação oferecido por uma Perceptron Multicamadas (PMC).

Palavras Chaves redes neurais, patologia cardíaca, PMC

I.

INTRODUÇÃO

Anualmente morrem no mundo cerca de 17 milhões de pessoas por problemas cardíacos e a estimativa é que este número passe para 23 milhões até 2030 [1]. Métodos de detecção de patologia cardíaca mais rápido e eficientes podem ajudar a diminuir está preocupante previsão. A pesquisa na área de classificação de patologias é indispensável para o desenvolvimento de novos métodos de identificação. Os diagnósticos tradicionais muitas vezes são errôneos pois o médico responsável por avaliar os exames pode não ter parâmetros e base suficiente para tomar uma decisão. Com uma ferramenta capaz de comparar as informações de centenas de pacientes com as mesmas características clinicas e retornar uma resposta de precisão aceitável, ajuda o médico a tomar uma decisão muito mais rápida e consistente, com chances de erros drasticamente reduzidas.

II. DEFINIÇÃO DO PROBLEA

Redes neurais tem sido largamente utilizada em diferentes escopos. O poder de classificação das Redes Neurais Artificiais (RNA) é largamente explorado: na computação aplicada à medicina [3, 4], seja esta através do auxílio no diagnóstico de imagens ou sinais de voz, na computação aplicada as engenharias [5], sistemas inteligentes são projetados para proteger diferentes equipamentos de falhas e melhorar a qualidade da energia [5]. O objetivo deste trabalho é definir a capacidade de classificação de uma Rede Neural Perceptron Multicamadas (PMC) quando utilizado para a classificação de pacientes com

doenças cardíacas.

A base de dados utilizada foi a Heart Disease Data Set,

proveniente do UCI machine learning repository [2], na qual é

amplamente utilizada em artigos científicos, sendo desta forma uma fonte segura de informação.

A base de dados está dividida em treze atributos de entrada,

que representam as informações dos pacientes entrevistados, e um atributo de saída que representa o laudo médico indicando:

Valor 0 Redução da artéria menor que 50% - Não existência de doença cardíaca

Valor 1 Redução da artéria maior que 50% - Existência de doença cardíaca

Item

Descrição

1.

Idade em anos

2.

Homem ou mulher

3.

Tipo de dor no peito (angina típica, angina atípica, não angina ou angina assintomática

4.

Pressão arterial em repouso (mm Hg)

5.

Colesterol Sérico (mg/dl)

6.

Açúcar no sangue em jejum (< 120 mg/dl or > 120 mg/dl) Resultados eletrocardiográficos de repouso (normal,

7.

anormalidade da onda ST-T ou hipertrofia ventricular esquerda)

8.

Máxima frequência cardíaca obtida durante o teste de estresse com tálio

9.

Angina induzida por exercício (sim ou não)

10.

Depressão do segmento ST induzida pelo exercício em relação ao repouso

11.

Inclinação do segmento ST de pico do exercício (ascendente, plano ou inclinado)

12.

Número de grandes vasos coloridos por fluoroscopia

13.

Resultado do teste de estresse de tálio (defeito fixo normal ou defeito reversível)

14.

Atributo de saída. Doença cardíaca

Tabela 1. Atributos de entradas e saída

2

III.

METODOLOGIA

Para análise dos dados, primeiramente as amostras foram mescladas de tal forma que não houvesse mais um padrão entre elas. Como as amostras são formadas por valores obtidos através de entrevistas com os pacientes - gerando respostas padronizadas - e por meio de exames laboratoriais com formato de números reais, fez-se necessário a normatização dos dados através do teorema de Thales (1) para o correto funcionamento do algoritmo, no qual utiliza a função logística como função de ativação, com valores entre 0 a 1.

= min min

(1)

Para definição da topologia da rede a ser utilizada foi adotada uma premissa de classificação levando-se em conta o tipo problema a ser mapeado. Por se tratar de um problema de detecção de patologia cardíaca em pessoas, é de suma importância que o algoritmo tenha a menor taxa de erro possível sobre falsos negativos, mesmo que a taxa de erro para falsos positivos seja mais elevada. Entende-se por falso negativo a classificação negativa de patologia em uma pessoa com doença cardíaca comprovada por laudo médico e entende-se por falso positivo a classificação positiva em uma pessoa saudável. Um falso positivo fará a pessoa passar por uma bateria de exames na qual logo detectará a falha do algoritmo, enquanto que por outro lado, um erro de falso negativo induzirá o médico a prescrever alta a um paciente com patologias cardíacas, comprometendo sua saúda e intensificando sua doença. Para escolha da melhor topologia de rede neural a ser utilizada foi desenvolvido um algoritmo Matlab® para definir as seguintes premissas:

Número de camadas escondidas: uma ou duas

Valor de limite para classificação

Partição de amostras (Janelas) para a fase de aprendizagem e operação

O número de camadas escondidas, número de neurônios e o valor de limite para classificação foram obtidos de forma empírica através de diversas sequências de treinamentos consecutivos. Foram testadas todas as combinações possíveis com uma e duas camadas neuronais escondidas com até 20 neurônios por camada e os valores de limite para classificação foram testados de 0,1 até 1 com passos de 0,1. Por se tratar de uma rede PMC para classificação de padrão, foi necessário a escolha de um fator de limite para classificação. Como a saída da rede é um número real, este fator é responsável por denominar a resposta de saída padronizada, atribuindo o valor 1 caso o valor real de saída da rede seja superior ao valor do limite de classificação. Após vários treinamentos, chegou-se à conclusão de que o melhor fator de limite de classificação, no qual manteve o índice de falsos negativos baixo e ao mesmo tempo não elevou demasiadamente o índice de falso positivo, foi o fator de limite 0,2. Foi observado que valores acima de 20 neurônios por camada escondida e redes com duas camadas escondidas não levavam

o algoritmo a convergência esperada, desta forma a quantidade

de topologias limitou-se a uma camada neuronal escondida com até 20 neurônios. Para validação dos dados foi utilizado o método da validação cruzada de k-partições. Afim de avaliar todos os treinamentos com os mesmos critérios de comparação, foi adotado uma partição de 50 amostras de um conjunto de 300 amostras, onde

todas as janelas eram as mesmas (formadas pelas mesmas amostras) em todos os treinamentos, ou seja, as 6 janelas existentes contavam com as mesmas amostras em todos os treinamentos. Desta maneira, foi garantido que todas as amostras utilizadas tanto na fase de aprendizagem quanto na fase de operação fossem as mesmas. Abaixo é apresentado o esquema de treinamento utilizado.

Abaixo é apresentado o esquema de treinamento utilizado. Figura 1- Esquema de treinamento utilizado para escolha

Figura 1- Esquema de treinamento utilizado para escolha da topologia de rede

IV.

RESULTADOS

Dentre todas as topologias candidatas, sendo elas topologias que variavam de uma ou duas camadas escondidas de um até 20

neurônios por camada, a que apresentou melhor resultado foi a topologia de rede com apenas uma camada neuronal escondida

e quatorze neurônios. Esta topologia apresentou um equilíbrio entre falsos negativos e falso positivo. Para validação e comprovação da eficácia da topologia escolhida foi aplicado novamente a validação cruzada com janelas de 50 amostras, porém desta vez as janelas foram

compostas por amostras aleatórias e diferentes em cada novo treinamento, onde foi executado 20 treinamentos para esta

topologia

Os resultados obtidos são mais realistas do que os resultados encontrados pelo critério aplicado para seleção da topologia vencedora, pois desta vez as amostras foram aleatórias em cada

novo treinamento, não havendo garantia de que nos treinamentos todas as amostras foram utilizadas tanto na fase de aprendizagem quanto na fase de operação.

3

O PMC foi capaz de classificar os dados conforme tabela

abaixo:

 

Valores Reais

 

Saudável

Patológico

Total

 

Saudável

478

112

590

Valores

       

Preditos

Patológico

84

326

410

Total

562

438

1000

Tabela 2. Matriz de confusão

A tabela 2 é chamada de matriz de confusão e compara os

resultados obtidos pelo software com os resultados previamente laudados pelos especialistas. As linhas representam a

classificação dada pelo software, enquanto as colunas representam a classificação dada pelo especialista. Por esta tabela fica claro que o PMC foi capaz de acertar, em número absolutos, 95,2% e 93,6% da quantidade total de pessoas saudáveis e patológicas respectivamente, entretanto a quantidade final de pessoas patológicas ou saudáveis não é parâmetro para avaliar a eficácia da rede, pois o PMC deve ser capaz de classificar corretamente as pessoas com patologia ou não, sem ocorrer falsos positivos ou negativos. Analisando os resultados das 1.000 amostras avaliadas na fase de operação durante os 20 treinamentos, o PMC obteve as seguintes taxas:

Falso Negativo

8,40%

Falso Positivo

11,20%

Verdadeiro Negativo

32,60%

Verdadeiro Positivo

47,80%

Tabela 3. Resultados da rede PMC

V.

CONCLUSÃO

O objetivo deste trabalho foi investigar a capacidade do PMC

de classificar um conjunto de dados composto por dois grupos:

saudáveis e patológicos.

Várias topologias foram testadas e a vencedora foi aquela que apresentou menor quantidade de falsos negativos e um bom equilíbrio com os falsos positivos. Para a topologia vencedora foi executado 20 treinamentos com amostras aleatórios e apresentado os resultados. Através da tabela 1 e 2, mostrou-se que o PMC obtive um bom desempenho, porém seus resultados devem ser acompanhados por um especialista, visto que por melhor que tenha sido o desempenho da rede, a mesma não apresentou 100% de acertos. Os resultados devem ser interpretados da seguinte maneira:

Classificação 0: 91,6% de chances de o paciente ter redução da artéria menor que 50%, ou seja, 91,2% de chances de não haver patologias cardíacas.

Classificação 1: 88,2% de chances de o paciente ter redução da artéria maior que 50%, ou seja, 88,2% de chances de haver patologias cardíacas. Conclui-se que o PMC é uma ferramenta poderosa para classificação de patologias cardíacas, porém seus resultados

devem ser acompanhados por um especialista e utilizado como parte de um conjunto de testes e avaliações clinicas. Como trabalho futuro, recomenda-se a investigação de quais variáveis possam ser retiradas, modificadas ou acrescentadas para que se possa obter uma taxa de acerto de 100%.

REFERÊNCIAS

[1] World Heart Federation, “Cardiovascular diseases (CVDs) - Global facts and figures[https://www.world-heart-

global-facts-figures/], 2017. [2] C. Blake, E. Keogh, and C. J. Merz, “UCI Repository of

machine learning

databases”

[http://www.ics.uci.edu/~mlearn/ MLRepository.html], Irvine, CA: University of California, Department of Information and Computer Science, 1998. [3] Shreya Aliwadi et al. “Diagnosis of diabetic nature of a person using SVM and ANN approach”. In: 2017 6th International Conference on Reliability, Infocom Technologies and Optimization (Trends and Future Directions) (ICRITO). 2017. [4] Mahima and N. B. Padmavathi. “Comparative study of kernel SVM and ANN classifiers for brain neoplasm classification”. In: 2017 International Conference on Intelligent Computing, Instrumentation and Control Technologies (ICICICT). 2017.

[5] Deepak Sharma, Abdul Hamid Bhat, and Aijaz Ahmad. “ANN based SVPWM for three-phase improved power

quality converter under disturbed AC mains”. In: 2017 6th International Conference on Computer Applications In Electrical Engineering-Recent Advances (CERA).

2017.