Escolar Documentos
Profissional Documentos
Cultura Documentos
DE DADOS DESBALANCEADAS
Dissertação de Mestrado
Universidade Federal de Pernambucoposgraduacao@cin.ufpe.br
www.cin.ufpe.br/~posgraduacao
RECIFE
2013
DE DADOS DESBALANCEADAS
Trabalho apresentado ao Programa de Pós-graduação em
RECIFE
2013
Catalogação na fonte Bibliotecária Joana D’Arc L. Salvador, CRB 4-572 Tavares, Thiago Ribeiro.
Utilização de técnicas de inteligência artificial para classificação de crianças cardiopatas em base de dados desbalanceadas / Thiago
Ribeiro Tavares. – Recife: O Autor, 2013. 107 f.: fig., tab. Orientador: Adriano Lorena Inácio de Oliveira.
Dissertação (Mestrado) - Universidade Federal de Pernambuco. CIN. Ciência da Computação, 2013. Inclui referências e apêndice.
1. Inteligência artificial. 2. Cardiologia pediátrica. 3. Mineração de dados (computação) I. Oliveira, Adriano Lorena Inácio de
(orientador). II. Título. 006.3 (22. ed.) MEI 2014-87
Dissertação de Mestrado apresentada por Thiago Ribeiro Tavares à Pós-Graduação em Ciência
em base de dados desbalanceadas” orientada pelo Prof. Adriano Lorena Inácio de Oliveira
———————————————————————–
———————————————————————–
———————————————————————–
RECIFE
2013
potencial.
Agradecimentos
Eu gostaria de agradecer a DEUS por tudo que tem feito na minha vida e por ter guiado
Eu considero a gratidão um dos sentimentos mais nobres que um ser humano pode
ter. Por isso, sempre procuro exaltar e agradecer MUITO às pessoas que de alguma forma me
ajudaram em qualquer situação e nesse trabalho não poderia ser diferente. Eu dedico e agradeço
Aos meus pais, pela dedicação e preocupação comigo para que eu me tornasse uma
Ao meu orientador, Adriano Lorena Inácio de Oliveira que acreditou no meu potencial,
Mattos, grande amiga e uma das pessoas mais excepcionais que tive a oportunidade de conhecer.
Participou de tudo e como profissional da área, me deu o feedback necessário para ajustar e
Aos queridos amigos Dr. Felipe Mourato, Carol Paim e Renata Grigório que sempre me
Aos demais amigos do Círculo do Coração de Pernambuco (Dra. Rossana Severi, Dra.
Lúcia Moser, Dra. Alyne Raneci, Dra. Vanessa Pacífico, Dra. Candyce Cardoso, Dra. Juliana
Landim, Jaílson, Dra. Thamine Hatem, Dra. Juliana Soares, Dr. Cláudio Regis)
E por último, contudo não menos importante ao meu Amor, namorada, amiga, colega de
trabalho e paz em pessoa, Ana Elizabeth, que me apoiou em todos os momentos além de toda
paciência e compreensão na minha ausência para trabalhar, escrever e concluir essa pesquisa.
Aninha, EU TE AMO!
Resumo
no primeiro ano de vida. Inúmeros trabalhos demonstram que quanto antes for estabelecido o
suspeita de cardiopatia gera uma grande quantidade de informação, porém a diferenciação entre
sinais e sintomas normais ou patológicos logo no início, por exemplo, na marcação da consulta,
pode ser aspecto fundamental para agilizar o atendimento. Há algum tempo a Inteligência
Artificial, mais especificamente a subárea de Mineração de Dados, tem sido utilizada como
Apesar da maioria das aplicações nesse contexto utilizarem Árvore de Decisão para classificação
(Support Vector Machines - SVM) têm demonstrado, em várias aplicações, um maior poder de
não produz um conhecimento explícito de modo que um médico, especialista no domínio, possa
médica que auxilie na detecção de cardiopatias em crianças, a partir de dados iniciais, como
gênero, peso, altura e presença de sopros, com o objetivo de priorizar o seu atendimento médico.
Técnicas para lidar com bases de dados desbalanceadas, tais como SMOTE e SVM com pesos
Além disso, foi possível realizar a extração de regras a partir dos resultados obtidos pela SVM.
à decisão que pode ser incorporado à prática clínica para melhorar a qualidade dos serviços
prestados.
Palavras-chave: Mineração de Dados em Medicina, SVM com pesos, Bases de Dados Desba-
Abstract
Heart disease is the first cause of mortality in Brazil as well as in the World. Among
them, the congenital form, which is present at birth, accounts for 8 to 10 in every 1000 life births,
and approximately 1/3 of these babies require treatment during the first year of life. Innumerous
works have shown that the earlier the diagnosis the better the chances of success from treatment.
The care for children with suspected heart problems generates a huge number of data, however
the differentiation between normal and abnormal signs or symptoms at an early stage, such
as during the appointment schedule, could be an important step to speed up the child‘s initial
consultation. For some time now, Artificial Intelligence, more so its subarea of Data Mining,
has been used as a support tool for medical decision in different medical specialties, including
Cardiology. Despite the fact the most applications within this context use Decision trees to
classify due to their interpreting and rule extraction power, in various applications, Support
Vector Machines (SVM) have demonstrated a greater power to generalization thus producing
better results. However, this type of black-box algorithm, does not produce an explicit knowledge
thus requiring a physician, specialist in the field, to interpret it. Another important challenge to be
overcome is the unbalanced type databases often found in the medical field. The purpose of this
paper is the development of a medical decision support system to help detect cardiac problems in
children from their initial data, such as gender, weight, heart and the presence of a heart murmur,
with the object of prioritizing their medical care. Techniques to deal with unbalanced databases,
such as SMOTE and SVM with weights were used in order to improve results in relation to
conventional classifiers. Besides that, it was possible to perform rule extraction from results
obtained with SVM. According to medical specialists, the results obtained made it possible to
use the decision support system and it can be added to clinical practice to improve the quality of
services delivered.
Keywords: SMOTE, Data Mining in Medicine, SVM Weighted, Unbalanced Dataset, Decision
Lista de Figuras
2.1 Sopro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.8 Distribuição do atributo Peso para cada faixa etária pelo resultado do exame de
ECO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.9 Distribuição do atributo Altura para cada faixa etária pelo resultado do exame de
ECO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.10 Distribuição do atributo IMC para cada faixa etária pelo resultado do exame de
ECO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.11 Distribuição do atributo Superfície Corporal para cada faixa etária pelo resultado
do exame de ECO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.12 Distribuição do atributo Frequência Cardíaca para cada faixa etária pelo resultado
do exame de ECO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.4 Curvas ROC dos modelos de Árvore de Decisão aplicados ao conjunto de testes 74
ao conjunto de testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.12 Curva ROC do modelo SVM com pesos + MLP aplicado ao conjunto de teste . 86
5.13 Gráfico com a distância de KS do modelo SVM com pesos + MLP aplicado ao
conjunto de teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Lista de Tabelas
3.4 Termos utilizados nas conclusões dos laudos de ecocardiograma quando o resul-
3.5 Termos utilizados nas conclusões dos laudos de ecocardiograma quando alguma
3.6 Número e porcentagem dos resultados dos exames de ECO realizados na UCMF,
3.7 Número e porcentagem de resultados dos exames de ECO após a exclusão dos
diograma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
ecocardiograma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
diograma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
50%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
100%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
150%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
200%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.10 Resultados obtidos no conjunto de teste quando utilizado como melhor ponto de
5.12 Matriz de confusão para o modelo SVM considerando o melhor ponto de opera-
5.17 Resultados obtidos no conjunto de teste quando utilizado como melhor ponto de
5.18 Resultados obtidos no conjunto de teste quando utilizado como melhor ponto de
5.20 Matriz de confusão para o modelo SVM considerando o melhor ponto de opera-
significância de 0,05. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
Sumário
1 Introdução 16
1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2 Doenças Cardíacas 21
2.8 Sopros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.1.1.1 UCMF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.1 Implantação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1 Modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.1.6 PART . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2 Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2.3 Lift . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.1 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.1.3 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
15
6 Conclusões 96
6.1 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Referências 100
Apêndice 105
16
Introdução
motivações. Na sequência, os objetivos gerais e específicos são abordados. Por fim, é apresentada
a estrutura da dissertação.
A medicina, além de ser bastante complexa, ainda não é totalmente entendida em todos os
seus aspectos, diferente de outras áreas técnicas conhecidas (HORN, 2001). A incidência mundial
são as que mais matam no Brasil e no mundo (The world health report, 2010).
a alguma conclusão sobre a gravidade ou não de um paciente com sintomas que indiquem
nem sempre esse recurso está disponível para ser utilizado e agilizar o tratamento do paciente,
alguns países onde muitas vezes faltam cardiologistas capacitados de plantão nas unidades de
emergência pediátrica. Essa situação pode levar ao atraso no atendimento do paciente além de
mês de vida (BEGUM et al., 2008). Quanto mais precoce for a intervenção num neonato com
O sopro cardíaco (SC) é o sinal de alerta mais comum para a cardiopatia na infância. Em
um estudo realizado em Israel (REIN AJ OMOKHODION SI, 2000), constatou-se que 86% dos
neonatos que apresentam sopro cardíaco nos primeiros dias de vida, têm alguma doença cardíaca
estrutural. Já outro estudo (ANISWORTH S. WYLLIE JP., 1999) mostrou que cerca de 44%
das malformações apresentadas na infância podem ser detectadas através de um exame neonatal
cardíaco num neonato não implica diretamente a presença ou ausência de uma cardiopatia.
definição de quais sopros são normais e quais são patológicos é o aspecto mais importante na
Para que haja um maior entendimento dos dados na medicina, a Inteligência Artificial
(IA) tem se mostrado como uma área da Ciência da Computação na busca de descobertas e
classificação, sendo a Mineração de Dados, subárea da IA, uma das mais utilizadas para criação
iniciado o mais cedo possível, poderá ser menos oneroso para o paciente podendo evitar algum
procedimento ou até mesmo uma intervenção cirúrgica. Além disso, quando a situação do
Para tentar atingir esse objetivo, foi feita uma investigação para tentar identificar as
artificial para resolver problemas na área médica ou, pelo menos, ajudar o especialista na tomada
de decisão.
Ainda em 1994 as Redes Neurais Artificiais (RNAs) e Redes de Função de Base Radial
(RFB) foram utilizadas para detecção de doença arterial coronariana (DORFFNER; PORENTA,
1994). Nesse trabalho os dados de leitura de exames de angiografia foram utilizados como
trabalho que as Redes Neurais Multilayer Perceptron (MLP) podem ser úteis para o auxílio à
Em 1997, uma equipe de pesquisadores brasileiros (Rabelo Júnior, et al., 1997) com
o apoio do CNPQ, FINEP e IBM, criaram um sistema especialista baseado em regras cujo o
paciente tais como idade e sexo, também foram utilizadas informações clínicas dos pacientes
como sintoma, tipo de dor, local da dor, intensidade da dor, fatores de risco, leitura de pulsos,
para tentar predizer a existência de pneumonia adquirida em pacientes com queixas respiratórias
(HECKERLING et al., 2004). AGs foram utilizados para criar cromossomos binários com genes
de nós nas camadas escondidas, taxa de aprendizagem e outros parâmetros da rede. Para medir a
precisão do classificador foi utilizado o valor da Área sob a Curva ROC(AUC). Os resultados
obtidos no grupo de treinamento (AUC=0,93) e essa diferença ocorreu porque, segundo o autor,
os dados dos pacientes que foram separados para testar a precisão do classificador tinham uma
probabilidade maior de terem doenças respiratórias por conta da localização geográfica onde tais
pacientes moravam.
Além de Regras, RNAs e AGs, outros métodos têm sido propostos na literatura para
Em 2011, uma pesquisa (YEH; CHENG; CHEN, 2011) utilizou mineração de dados para
criação de um modelo preditivo para diagnóstico de doença cerebrovascular. Para eleger qual
o objetivo de avaliar a eficiência de cada um. Três classificadores foram estudados na pesquisa:
eficiências de classificação, o modelo de árvore de decisão foi escolhido como o modelo ideal
Árvores de decisão também foram utilizadas em SAMANTA et al. (2009) para identificar
que é uma lesão cerebral comumente encontrada em crianças prematuras com doenças cardíacas.
Diversos trabalhos (YEH; CHENG; CHEN, 2011; SAMANTA et al., 2009; KOPRINSKA;
cisão para a mineração de dados na medicina. Trata-se de uma estrutura muito usada na
tomam como entrada uma situação descrita por um conjunto de atributos e retornam uma decisão.
Também são utilizadas para gerar regras de classificação de fácil interpretação pelos especialistas
do domínio trabalhado.
Em 1992 (BOSER; GUYON; VAPNIK, 1992), uma pesquisa propôs o Support Vector
Machine (SVM) como novo método de aprendizagem de máquina para classificação binária.
SVM baseia-se na teoria do aprendizado estatístico e tem mostrado uma boa capacidade de
com dados linearmente separáveis, novos algoritmos já foram derivados para resolver problemas
WATKINS, 1999).
foi propostp a utilização de SVM para classificar os tipos de arritmias cardíacas utilizando a
faz uma comparação dos resultados obtidos na classificação de arritmia utilizando SVM com
outros métodos de classificação investigados por outros autores para o mesmo problema e foi
O SVM também foi utilizado em AVCI (2009) para a classificação de doenças cardíacas
através das ondas dos sinais utilizando o ultra-som Doppler. Nesse mesmo estudo, conforme
Grande parte dos bancos de dados encontrados na área médica apresentam desbalan-
não estão proporcionalmente iguais, ou seja, a maioria dos classificadores tendem a atribuir as
classes positivas (da classe minoritária) dentro da região de decisão para as classes negativas (da
classificadores.
em COHEN et al. (2006) onde dados relacionados à infecção hospitalar são utilizados nos
dos dados (34%:66%) são utilizadas. O mesmo problema ocorre com os dados dessa pesquisa
Em GURGEL (2007) outra base de dados foi utilizada para a investigação da cardiopatia
em crianças. Nesse trabalho foi utilizado Redes Neurais MLP e Árvores de Decisão para modelar
como entrada para os classificadores. Além desse, nenhum outro trabalho foi encontrado
cardíacas em crianças.
20 1.3. OBJETIVOS
1.3 Objetivos
• Classificar pacientes cardiopatas utilizando apenas seus dados básicos tais como: peso,
• Extrair regras do SVM de modo que os médicos possam entender como se deu o processo
patias, o sopro cardíaco e outras informações relacionadas às doenças cardíacas, bem como a
utilizado na pesquisa explicando cada atributo. Também é descrito como novos atributos foram
criados.
SVM, SVM com pesos, SVM com pesos + MLP, Árvore de Decisão e SMOTE. Também
são descritos todos os experimentos realizados, bem como uma discussão sobre os resultados
alcançados.
O Capítulo 5 apresenta uma avaliação dos resultados obtidos baseada nas métricas de
21
Doenças Cardíacas
—CHICO SCIENCE
mens e mulheres no Brasil, apesar de seu valor apresentar tendência decrescente nos últimos anos.
Mesmo com seu grande impacto, entretanto, apenas alguns fatores de risco são responsáveis pela
grande maioria de tais agravos. Dentre estes os principais são o tabagismo, o sedentarismo e
2011).
Até aqui, foi considerado o impacto das doenças cardiovasculares nos adultos e idosos.
Na faixa etária pediátrica, entretanto, pode estar o início dos comportamentos que levarão aos
fatores de risco supracitados. Um exemplo são os erros alimentares cada vez mais prevalentes
nessa idade que pode levar, por exemplo, a um aumento do nível de colesterol, associado ou não
à obesidade infantil (GIULIANO, 2008). Esse fato, isolado, é tão impactante que, considerando
de dislipidemias entre crianças chega a até 40% no Brasil (MOURA E.; CASTRO, 2000). Além
disso, o mundo está passando por uma epidemia de sobrepeso e obesidade infantil (MIRANDA J.
M. Q.; ORNELAS, 2011), atingindo aproximadamente 43 milhões de crianças abaixo dos 5 anos
no mundo (MIRANDA J. M. Q.; ORNELAS, 2011). Com isso, pode-se perceber a importância
do combate a tais fatores de risco ainda na faixa etária pediátrica para diminuir a incidência de
futuros eventos cardiovasculares na idade adulta. Apesar da importância dos fatores de risco na
cardíacas específicas dessa faixa etária que podem ser divididas em adquiridas e congênitas.
Geralmente está relacionada a uma injúria endotelial (camada mais interna dos vasos) prévia
sangue, essas mesmas bactérias podem se alojar em tais lesões. Fungos, vírus e outros micro-
das endocardites infecciosas é bastante variada, sendo febre o sinal mais comum.
imune exacerbada contra antígenos do estreptococo, uma bactéria responsável por boa parte das
tecido subcutâneo e, mais raramente, o sistema nervoso central. A febre reumática, em sua
forma crônica, é responsável por lesões nas valvas cardíacas (estruturas que controlam o fluxo
de sangue entre as várias câmaras do coração e entre estas e o corpo) que culminam em até
90% das cirurgias valvares na faixa etária pediátrica no Brasil (LOPES, 2011). Seu diagnóstico
pois com a utilização de antibióticos (SAúDE, 2013) (o padrão mais utilizado no Brasil é a
valvar.
etiologia indeterminada, que envolve diversos órgãos (ATIK, 2007). A grande maioria dos
casos ocorre em crianças de até cinco anos de idade. O acometimento cardíaco é o aspecto
vascular de uma artéria) das artérias coronárias, ambas podendo ser analisadas com a utilização
mais (maior que 38,9 °C) e presença de pelos menos quatro dos seguintes critérios: eritema
dos lábios ou na cavidade oral ou rachaduras nos lábios; rash no tronco; edema ou eritema
das mãos ou pés; hiperemia conjuntival; linfonodos palpáveis no pescoço de pelo menos 15
milímetros (GANDOLFI L.; PRATESI, 2011). Apesar de ser seguro o diagnóstico de doença de
Kawasaki quando esses critérios são encontrados, é possível que alguns casos não preencham o
número necessário para o diagnóstico e o seguimento e tratamento sejam efetuados devido à alta
pode ser, dependendo do quadro clínico, suficiente para o diagnóstico de doença de Kawasaki.
2010). A sua incidência mundial é de aproximadamente 8-10 a cada mil nascidos vivos e é uma
cardiopatias congênitas podem ocorrer com cianose isolada (sinal ou um sintoma marcado
pela coloração azul-arroxeada da pele, leitos ungueais ou das mucosas), insuficiência cardíaca
isolada (situação em que o coração não está capacitado a manter as necessidades circulatórias do
pela passagem do fluxo de sangue através das estruturas do coração) sem outras alterações
(LOPES, 2011).
com insuficiência cardíaca isolada; cardiopatias commistura completa nas que se apresentam com
importante. Nas cardiopatias adquiridas, para iniciar um tratamento adequado o mais cedo
possível e evitar sequelas futuras e, no caso das cardiopatias congênitas, também iniciar o
tratamento precocemente (seja ele clínico ou cirúrgico) para melhorar a qualidade de vida
destes pacientes. Um exemplo pode ser feito com as cardiopatias que cursam com hiperfluxo
interventricular. Casos mais graves dessas cardiopatias podem levar a um quadro de hipertensão
pulmonar que, inicialmente, pode ser revertido, mas, a longo prazo, torna-se irreversível causando
24 2.6. ANAMNESE E EXAME FÍSICO
pacientes.
Mas como fazer o diagnóstico precoce destes pacientes e, uma vez passado o momento
ideal, identificar aqueles que necessitam de uma abordagem mais urgente? Atualmente, há
grama, que consegue identificar com grande sensibilidade e especificidade a grande maioria
dessas cardiopatias. Entretanto, esse método possui suas limitações. Uma delas é o custo para
ser realizado como uma triagem, além do baixo número de profissionais capacitados na sua
realização.
paciente (EXAME CLíNICO - BASES PARA A PRáTICA MéDICA, 2008). É, nas mãos de
médicos experientes, o fator isolado mais importante para se chegar a um diagnóstico (EXAME
CLíNICO - BASES PARA A PRáTICA MéDICA, 2008). Tanto isso é verdade que quando
exames complementares demostrarem algo que vá de encontro aos dados obtidos na anamnese
o médico acertará mais vezes quando confiar nesta última. O objetivo básico da anamnese é
identificar sinais e sintomas que levem ao diagnóstico da doença, assim como fatores de risco
Já o exame físico constitui uma ferramenta médica que, junto com a anamnese, visa
inspeção (olhar o aspecto do paciente ou do órgão acometido), palpação (verificar por meio
corpo, o som resultante pode orientar se há ou não alguma alteração patológica), a ausculta
(com a utilização do estetoscópio que, ao captar determinados sons, antes inaudíveis, auxilia
Nota-se, então, que a anamnese e o exame físico são de extrema importância na medicina
e não poderia ser diferente com as patologias cardíacas. Na anamnese, por exemplo, podem
ser identificados fatores de risco como o tabagismo e a obesidade que são, muitas vezes, deter-
minantes na origem das doenças cardiovasculares. No exame físico, podem ser identificados
vários sinais e sintomas que podem ter em sua origem alguma cardiopatia. Alguns exemplos
são a presença de taquicardia (coração acelerado), cianose, a presença de sopro, dentre outros.
BINGER, 2003). Entretanto, é difícil seu pleno domínio, tanto por estudantes de medicina
como para médicos já formados (KOBINGER, 2003). Nela, buscam-se eventos acústicos em
áreas determinadas do tórax do paciente (ver Figura 2.1) que podem demonstrar algum evento
patológico e, assim, facilitar o raciocínio clínico. Esses eventos são, basicamente, as bulhas, os
estalidos, os atritos e os sopros.
• Bulhas: São sons originários do fechamento das valvas cardíacas, brusca desaceleração
fechamento das valvas mitral e tricúspide. A segunda bulha (B2) é originária do fechamento
das valvas aórtica e pulmonar. A terceira bulha (B3) é originária das vibrações da parede
ventricular subitamente distendida, sua presença pode ser normal em crianças e adolescente
ou indicar alguma patologia cardíaca. A quarta bulha (B4) parece ser originária da
desaceleração brusca do fluxo sanguíneo e sua presença pode ser normal ou patológica
em momentos distintos, originando dois sons) que pode ocorrer na CIA (comunicação
interatrial).
• Estalidos: sua importância está na identificação de lesões das valvas cardíacas, portanto é
importante analisar em que fase do ciclo cardíaco ocorre. O estalido de abertura mitral
ocorre, por exemplo, em muitos pacientes com sequelas valvares da febre reumática.
• Atrito: é um ruído provocado pelo roçar dos folhetos pericárdicos quando deixam de ser
26 2.8. SOPROS
• Sopro: os sopros são produzidos por vibrações decorrentes de alterações no fluxo sanguí-
neo (EXAME CLíNICO - BASES PARA A PRáTICA MéDICA, 2008). Devido a sua
2.8 Sopros
patias relacionadas com a infância. Podem surgir devido ao aumento da velocidade do fluxo
sanguíneo, diminuição da viscosidade sanguínea, passagem do sangue por uma área dilatada e
passagem do sangue por uma membrana de borda livre ou associação de mais de um mecanismo
previamente citados (EXAME CLíNICO - BASES PARA A PRáTICA MéDICA, 2008). Seme-
lhantemente aos estalidos, a posição dentro do ciclo cardíaco é importante para determinar o
local originador do sopro, entretanto outras características são essenciais como a qualidade do
som (sopro de ejeção ou regurgitação), a irradiação (outras áreas onde o sopro é mais audível),
obrigatória de uma patologia. Nesse caso ele será denominado de sopro inocente, que é bastante
comum na infância e, dentre suas características, pode-se destacar que sempre são sistólicos
ou contínuos, sua intensidade é baixa, não se ocorrem concomitantemente com alteração das
bulhas ou estalidos, dentre outros (KOBINGER, 2003). Entretanto, mesmo com a presença de
sinais que demonstram o sopro como inocente, quando presente algum outro sinal e sintoma de
seus fatores de risco podem estar presentes desde a infância, além de algumas doenças cardíacas
serem específicas desta faixa etária. As cardiopatias na infância podem ser divididas em adqui-
podem ser classificadas de acordo com os sinais e sintomas na sua apresentação em: cianose
cardíaca e presença de sopro sem outras alterações. Apesar da presença de várias tecnologias
para o diagnóstico de tais cardiopatias, a anamnese e o exame físico ainda permanecem com
melhor custo benefício. Na anamnese e exame físico cardiovasculares são procurados sinais e
sintomas, além de achados como os sopros cardíacos, para auxiliar no raciocínio clínico. Eles
também são importantes para a determinação de urgência do quadro, assim como a necessidade
27
A mente que se abre a uma nova ideia jamais voltará ao seu tamanho
original.
—ALBERT EINSTEIN
Databases - KDD) surgiu da necessidade de analisar e entender uma massa de dados que está
aquém da capacidade humana em coletar e armazenar essas informações. Para tanto, técnicas
útil a partir do grande volume de dados que é diariamente gerado pelas empresas (FAYYAD;
dados até a apresentação do conhecimento obtido para o usuário final. Tem como finalidade
as relações implícitas existentes entre dados, referidos como padrões ou modelos, como suporte
o médico à melhor tomada de decisão possível. Assim, um classificador pode ser considerado
como uma segunda opinião, que o médico pode ou não considerar relevante quando tiver de
tomar uma ação quanto a um dado problema. Dessa forma, dependendo do caso, o médico
DM)
2000). O modelo fornece uma visão geral do ciclo de vida de um projeto de mineração de dados
A Figura 3.1 descreve visualmente o ciclo de vida do processo. A sequência das fases
não é rigorosa. As setas indicam apenas as dependências mais importantes entre as fases, mas
em um determinado projeto, dependendo do resultado de cada fase, outra fase ou uma tarefa em
particular tem de ser realizada em seguida (WIRTH; HIPP, 2000). O processo é dividido em seis
fases:
4. Modelagem (Modeling);
5. Avaliação (Evaluation);
6. Implantação (Deployment);
Nas subseções a seguir serão detalhadas cada fase do processo CRISP-DM e quais as
Esta fase tem como objetivo entender os requisitos do projeto sob a perspectiva do
3.1.1.1 UCMF
a supervisão da Dra. Sandra Mattos, preparada para atender o feto e a criança cardi-
nutricionista.
Aproximadamente 800 pacientes são atendidos mensalmente sendo que 25% destes são carentes
Paraíba).
pertinentes ao dia a dia da clínica. O início da utilização desse sistema organizou a coleta
de informações dos pacientes onde, a partir de então, todo o histórico de doenças, exames e
medicações de cada paciente pode ser recuperado a qualquer momento. A utilização desse
sistema de informação facilitou tanto a evolução clínica dos pacientes, como a recuperação de
cardíaco, a partir dos seus dados básicos cadastrais que podem ser capturados pelo próprio
atendente do serviço no momento que o responsável do paciente entra em contato para realizar
aprendizagem de máquina com o objetivo de extrair conhecimento dos dados através de regras
para o melhor entendimento dos motivos que levam uma criança a ter uma cardiopatia.
A fase de entendimento dos dados tem como objetivo a coleta, a descrição e entendimento
dos dados e a análise da qualidade dos mesmos (SHARMA; OSEI-BRYSON; KASPER, 2012).
ecocardiograma.
apresentam sopro cardíaco e que o exame de ecocardiograma é o meio mais confiável para
detectar tais doenças, esse trabalho apenas considerou os pacientes que visitaram a clínica e
Todo paciente que chega na clínica passa pela entrevista (ou Anamnese) e pelo Exame
Físico, conforme explicado na Seção 2.6. Para cada paciente atendido, além das informações
básicas do mesmo (data de nascimento, sexo, altura, etc.), é registrado no sistema a motivação
que levou o mesmo procurar a clínica. Ainda no período supracitado, a procura pelo serviço de
cardiologia da clínica se deu por vários motivos e a Tabela 3.1 mostra a quantidade e os motivos
Kawasaki 82 0,7%
• Sopro: são sons produzidos por variação do fluxo sanguíneo. Dependendo das suas
características pode ser inocente ou patológico. Pode ser o único sinal ao exame físico que
Com ela tenta-se evitar ou identificar precocemente agravos à saúde que ocorrem nesse
• FOP: sigla referente a Forâmen Oval Patente. Trata-se de uma variação anatômica que, na
• HAS: sigla referente a hipertensão arterial sistêmica. Doença cardiovascular mais comum
de vasos de médio calibre que pode, ocasionalmente, provocar aneurismas das artérias
coronárias.
Com exceção do check-up e parecer cardiológico, todos os outros motivos que levaram
um paciente a se consultar na clínica são: a cardiopatia já estabelecida (HAS, CIA, CIV, Arritmia,
Kawasaki, FOP) ou um sintoma que pode representar a presença ou não de uma cardiopatia
(Sopro cardíaco).
que tinham como motivo da consulta uma cardiopatia não foram considerados nesse trabalho
visto que essa seria uma informação a priori, influenciando no modelo de decisão de qualquer
clínica é a identificação de um sopro cardíaco (3.165 registros) através da ausculta feita previa-
mente por algum profissional da área de saúde. Contudo, conforme mencionado na Seção 2.8,
a presença de sopro não significa a presença obrigatória de uma patologia. Por esse motivo, o
Como o foco desse trabalho é a classificação de pacientes cardiopatas até os 17 anos que
procuram a clínica com sintoma de sopro cardíaco, foi feito um filtro na base de dados principal,
trabalhando apenas com os 3.165 pacientes que apresentaram esse sintoma. É importante ressaltar
que esses pacientes que apresentam o sintoma de sopro cardíaco, podem ter uma cardiopatia
estabelecida.
lançadas no sistema utilizado pela clínica, pelo próprio médico ou por algum auxiliar presente
no momento da realização do exame. Diversas informações podem ser coletadas nesse exame,
tais como parâmetros funcionais e hemodinâmicos, dimensões do átrio, integridade dos septos
essas informações e seus respectivos valores são registradas no laudo do exame. Além disso,
cardiologista.
Para uma pessoa que não é da área de saúde ou até mesmo para um médico que não é
conclusão registrada pelo médico que realizou o ecocardiograma. No sistema utilizado pela
clínica também não há um campo onde poderia ser preenchido com NORMAL (paciente não
Conforme explicado na Seção 1.3.2, essa pesquisa tem como objetivo a classificação
de pacientes cardiopatas até os 17 anos, utilizando apenas suas informações cadastrais. Dessa
forma a Tabela 3.2 mostra o dicionário de dados, com os tipos de cada campo e seus respectivos
significados.
clínica
ente
T001_CA_SEXO Categórico
Dicotômico
Sexo do paciente
ograma do paciente
alização do ecocardiograma
realização do ecocardiograma
ecocardiograma
diograma
diograma
cardiograma
cardiograma
iniciam com o mnemônico T001. Já atributos que representam informações dos exames de
Pelo fato das informações serem lançadas em texto livre, normalmente não há uma
padronização nos valores informados, principalmente para os atributos não-numéricos. Esse tipo
de problema é frequente em sistemas médicos (CIOS; MOORE, 2002) e não foi diferente na
máquina (VAN HULSE, 2007). A Tabela 3.3 mostra a qualidade dos dados do banco de dados
ente.
01/01/1900.
pelo sistema.
quatrocentos gramas.
T149_CA_CO_LINHA_01 0,0%
T149_CA_CO_LINHA_02 0,0%
T149_CA_CO_LINHA_03 0,0%
campo
utilizado para identificação de outliers - observações que apresentam um grande afastamento das
restantes ou são inconsistentes. Também podem ser chamados de valores aberrantes ou anormais.
As Figuras 3.2, 3.3 e 3.4 mostram o gráfico de Boxplot para os atributos numéricos especificados
na Tabela 3.2.
Na Figura 3.2 é possível observar que a base de dados tem vários outliers. Isso ocorreu
pelo fato de existirem alguns registros que foram digitados na unidade de medida gramas. Na
Figura 3.3, os outliers também são ocorrências devido ao registro da informação em outra
presentes na Figura 3.4 é bem menor e pelo gráfico é possível observar que são apenas valores
digitados errados.
A fase de Preparação dos Dados, explanada a seguir, detalhará a forma como esses
dos dados (SHARMA; OSEI-BRYSON; KASPER, 2012). Ainda nessa fase, é possível realizar
a criação de novos campos, a partir dos já existentes, com o objetivo de aumentar a quantidade
cias de várias formas. Na maioria das vezes, o erro ocorre na digitação dos valores, ora em uma
unidade de medida, ora em outra unidade. Tais inconsistências podem ser provocadas por falta
seção “Conclusões e Observações” que são representados pelos quatro campos T149_CA_CO_LINHA_01,
nados e explicados na Tabela 3.2. Porém os valores registrados nesses campos devem ser tratados
para serem convertidos em um domínio binário, cujo valores indiquem apenas a presença ou
as diferentes conclusões do exame considerado NORMAL (Figura 3.5) com o exame considerado
ente sem nenhuma cardiopatia) e a Figura 3.6 mostra o laudo de um ecocardiograma considerado
como ANORMAL (paciente com alguma cardiopatia). As figuras representam apenas uma parte
do laudo, pois por questões de privacidade, as informações dos pacientes foram omitidas.
Para utilizar essa base de dados nessa pesquisa, foi necessário realizar uma reunião
com a equipe médica com o objetivo de identificar o padrão do registro de uma conclusão
NORMAL. A partir dessa reunião, alguns padrões foram identificados e considerados para a
nas conclusões os termos mostrados na Tabela 3.4 considera-se como exame NORMAL,
pois, por padrão, esses termos sempre são utilizados pela clínica quando se refere a um
o operador que realizou o ecocardiograma identifica algum problema com o paciente que
achado. No exemplo do laudo mostrado na Figura 3.6, é possível observar o termo “Co-
municação intraventricular. . . ” que indica uma abertura na parede que separa os dois
Tabela 3.4: Termos utilizados nas conclusões dos laudos de ecocardiograma quando o
Termo Significado
Arranjo habitual das vísceras os átrios (direito e esquerdo) estão em seus locais cor-
retos
Diversos outros termos foram levantados pela equipe médica com seus respectivos
em campo de texto livre, é comum encontrar várias palavras/termos que representem a mesma
informação. Como exemplo, é possível observar através da Tabela 3.5 que os termos “CIA”,
“atrial”, “interatrial” ou “inter atrial” representam a mesma informação, sendo, nesse caso, uma
Comunicação Interatrial.
O atributo alvo utilizado nessa pesquisa refere-se à presença ou não de uma cardiopatia,
que indiquem que o mesmo seja NORMAL ou ANORMAL, foi realizado mais um filtro na
base de dados dos pacientes com sopro cardíaco. A Tabela 3.6 mostra a quantidade de registros
Os 711 registros mostrados na tabela 3.6 referem-se às conclusões que não puderam
ser identificadas através dos termos que representam a normalidade ou anormalidade do exame,
conforme especificado nas Tabelas 3.4 e 3.5 respectivamente. Considerando que nessa pesquisa
foram utilizados algoritmos para aprendizagem supervisionada, esses 711 registros que não
puderam ser classificados como NORMAL ou ANORMAL foram descartados restando 2454
A idade dos pacientes não é armazenada na base de dados do sistema da clínica. Entre-
extrair essa informação. Conforme explicado na Tabela 3.2, o atributo T149_DT_CADASTRO ar-
armazena o dia do nascimento do paciente. Para criar o campo idade do paciente bastou realizar
Tabela 3.5: Termos utilizados nas conclusões dos laudos de ecocardiograma quando
Termo Significado
“atrial” ou “interatrial”
ou “inter atrial” ou
“CIA”
“interventricular” ou
“inter ventricular”
cianogênica
estenose estreitamento
estenose pulmonar)
uma CIV)
“anomalo” ou “ano-
mala”
anormal
Tabela 3.6: Número e porcentagem dos resultados dos exames de ECO realizados na
Tabela 3.7: Número e porcentagem de resultados dos exames de ECO após a exclusão
IDADE_ANOS =
(T149_DT_CADASTRO�T001_DT_NASCIMENTO)
360
Apesar do cálculo ser bastante simples, nem todos os pacientes puderam ter suas idades
calculadas. Isso ocorreu porque foi identificado que a data de nascimento do paciente digitada,
em alguns casos, era maior do que a data da realização do exame de ecocardiograma. Apesar
de ainda existirem essas inconsistências, foi possível identificar a idade de 98% dos pacientes,
ecocardiograma.
Idade
Resultado do Ecocardiograma
f % f % f %
Ainda na Figura 3.7 é possível observar que uma grande concentração dos pacientes que
tiveram seu ecocardiograma considerado ANORMAL tem uma idade baixa. Isso é justificável
porque apesar da clínica atender pacientes até a idade adolescente, a grande maioria dos pacientes
cardiopatas atendidos são bebês recém-nascidos ou em seus primeiros anos de vida.
Os 31 pacientes que não tiveram suas idades calculadas, conforme mostrado na Tabela
3.8 tinham suas datas de nascimento digitadas de forma errada, impossibilitando a realização do
cálculo.
Na UCMF os pacientes também são classificados pela sua Faixa Etária de acordo com
a sua idade. Entretanto essa informação não é registrada no sistema. Para representar essa
informação, o atributo Faixa Etária foi criado a partir do atributo Idade do paciente, calculado na
Nessa tabela é possível observar o grande número de cardiopatas na Faixa Etária Neonato,
Lactente e Pré-Escolar.
Tabela 3.10: Número de pacientes e porcentagem por Faixa Etária e Resultado do exame
de ecocardiograma.
Faixa Etária
Resultado do Ecocardiograma
f % f % f %
Após o filtro realizado na Seção anterior, foi feita uma análise no atributo Sexo com o
objetivo de aumentar o ganho de informação. A quantidade de missing data para esse atributo
era considerável. A Tabela 3.11 mostra como era a a distribuição proporcional para os valores:
Sexo Freqências %
informação perdida com os Missing Data. Ao fazer uma análise cuidadosa no banco de dados
considerando esses dados ausentes, observou-se que seria possível recuperar o gênero do paciente
através de seu nome. Contudo, quando o paciente é uma criança recém-nascida, em alguns casos
a mãe ainda não tem um nome do bebê. Como o nome do paciente é uma informação obrigatória,
os funcionários da clínica que realizam esse cadastro, por padrão, nomeiam esses pacientes como
“RN de” concatenado com o nome da mãe. Por exemplo: RN de Maria José da Silva é o filho(a)
de Maria José da Silva. Quando utilizado esse padrão, não foi possível recuperar o sexo do
Os demais 1004 pacientes estavam cadastrados com um nome que era possível a identifi-
cação do sexo. Para isso, foi utilizado o banco de dados de nomes disponível no site Typo3.org1.
O banco de dados do Typo3.org contém cerca de 45000 nomes de pessoas e seus respectivos gê-
neros de várias nacionalidades. Através desse banco de dados foi possível efetuar a identificação
Após esse processamento, houve um ganho de informação no atributo sexo, ficando com
1Typo3.org - http://typo3.org/extensions/repository/download/wt_
genderfromfirstname/0.1.1/zip/
ecocardiograma.
Sexo do Paciente
Resultado do Ecocardiograma
f % f % f %
Indefinido 10 1% 81 14% 91 4%
Conforme já mostrado na Figura 3.2 há diversos outliers no atributo Peso. Com o objetivo
de melhorar a qualidade da informação desse atributo, foi feita uma minuciosa análise colocando
todos os valores dentro da mesma unidade de medida (quilos). Além disso, os missing data para
esse atributo foram substituídos pela média do peso dos pacientes que tinham a mesma idade e
mesmo resultado de ecocardiograma. Por exemplo: se o paciente tinha 2 anos e era cardiopata
mas o peso não foi informado, o novo peso do paciente foi a média dos pesos dos pacientes
O peso de 12 pacientes que não tinham essa informação foi preenchido considerando a
regra acima. Apenas 6 pacientes ficaram sem o valor do peso pois não tinham como utilizar a
regra supracitada uma vez que a idade, altura e o sexo não foram preenchidos. Esses pacientes
é possível observar no Gráfico 3.8 que, em média, crianças com cardiopatias estão abaixo do
peso, independente da faixa etária. Entretanto, para provar essa afirmação foram realizados testes
de hipótese comparando as duas distribuições de pesos dos pacientes cardiopatas e saudáveis
↵⌦ � 3.1
Para realização dos testes de hipóteses, inicialmente foi verificado se cada distribuição
para cada faixa etária segue a distribuição normal. Para isso, foi utilizado o teste de Kolmogorov-
Smirnov (DEGROOT, 2002; DELGAARD, 2002). Para as populações que seguiam a distribuição
normal o teste paramétrico (t-Student) foi utilizado para realizar a comparação. Nos demais
casos, foi utilizado o teste não-paramétrico Mann-Whitney-Wilcoxon Test. Todos os testes foram
confirmado que há diferença com significância estatística ao nível de 95% para as faixas etárias
http://www.r-project.org/
Figura 3.8: Distribuição do atributo Peso para cada faixa etária pelo resultado do exame
de ECO
Nas demais faixas etárias não houve evidência estatística que comprovasse a diferença nos Pesos
médios para cada Faixa Etária. Conclui-se, então, que para essas faixas etárias o peso do paciente
com cardiopatia, em média, é menor do que o peso do paciente saudável.
atributo. Por ser mais uma informação digitada pelos funcionários e médicos da clínica, em
alguns casos a altura foi informada utilizando o metro(m) como unidade de medida, em outros
casos utilizou-se o centímetro(cm). Para padronizar o atributo, todos os registros que estavam
A Figura 3.9 mostra como ficou a distribuição das alturas(em metro) para os pacientes
87 registros (3,5% da base de dados utilizada) continuaram com missing values. Para tentar
reduzir esse número, os missing values foram preenchidos com a altura média considerando o
sexo, faixa etária e o resultado do ecocardiograma. Por exemplo: os cardiopatas da Faixa Etária
“Neonato” do Sexo “Masculino” que estavam sem o valor da altura foram preenchidos com o
Figura 3.9: Distribuição do atributo Altura para cada faixa etária pelo resultado do
exame de ECO
valor médio da altura dos pacientes dessa mesma categoria que tinham a altura preenchida. Com
esse tratamento, o percentual de missing values reduziu de 3,5% para 0,97% ficando apenas 24
tes saudáveis, foi realizado teste de hipótese comparando as duas distribuições nas respectivas
faixas etárias.
↵⌦ � 3.2
Lactente (p-value < 2,2e-16), Pré-Escolar (p-value < 1,685e-08) e Escolar (p-value = 0,01686).
Essa informação confirma uma suspeita dos especialistas do domínio que acreditavam numa
relação entre a baixa estatura e a presença de uma cardiopatia, até certa idade.
O Índice de Massa Corporal (IMC) é um número calculado a partir do peso de uma pessoa
e altura. O IMC fornece um indicador de gordura corporal para a maioria das pessoas e é usado
para triagem de categorias de peso que podem levar a problemas de saúde (ORGANIZATION,
2006).
Conforme já relatado na Seção 2.2, a obesidade pode ser um dos fatores de risco para
doenças cardíacas e o IMC é um dos indicadores mais utilizados para identificação da obesidade
(SINGER-VINE, 2009). Dessa forma, para os pacientes que tinham as informações idade e peso,
foi possível calcular o IMC. O cálculo é realizado utilizando o peso em quilos dividido pelo
quadrado da altura em metros. A Figura 3.10 mostra a distribuição do atributo IMC por cada
Figura 3.10: Distribuição do atributo IMC para cada faixa etária pelo resultado do exame
de ECO
Assim como os gráficos que mostram a distribuição do peso dos pacientes, os gráficos de
boxplot do IMC também mostram que para algumas faixas etárias, normalmente o paciente com
Além do IMC a UCMF utiliza outro atributo para definir a obesidade do paciente. Esse
atributo é o percentil de IMC e é criado a partir do IMC, do sexo e da idade do paciente. Depois
que o IMC é calculado, é plotado um diagrama por sexo e idade onde é feita a classificação do
percentil.
relação a outras crianças e adolescentes do mesmo sexo (HEALTH STATISTCS, 2004). Esse
atributo é calculado apenas para os pacientes entre 2 e 19 anos, conforme mostrado na Figura
anos. Como nessa pesquisa há uma certa quantidade de pacientes com idade entre 0 e 2 anos,
de medicamentos. Assim como o IMC, o atributo Superfície Corporal também foi criado a partir
que a mesma tem alguma relação com a presença de uma cardiopatia e, sendo assim, a mesma
↵⌦ � 3.3
Todos os pacientes que tinham as informações de altura e peso passaram a ter também
o atributo superfície corporal. A Figura 3.12 mostra como ficou a distribuição do atributo
A frequência cardíaca mede o número de batimentos cardíacos por uma unidade de tempo,
geralmente expressa em batimentos por minuto (bpm). A medição pode ser feita manualmente
em algum lugar do corpo onde pode ser detectada a pulsação arterial (INBAR O OREN A, 1994).
Considerando que essa pesquisa utiliza apenas dados básicos do paciente para tentar classificá-lo
como cardiopata ou saudável e visto que essa informação, além de ser fácil de ser mensurada
manualmente, pode influenciar na decisão da classificação, a mesma também será usada como
Figura 3.11: Distribuição do atributo Superfície Corporal para cada faixa etária pelo
A Figura 3.12 mostra a distribuição do atributo Frequência Cardíaca por cada faixa etária.
Testes de hipótese foram realizados com o objetivo de identificar se as médias das distri-
buições das frequências cardíacas, para cada faixa etária, diferem com significância estatística.
Há diferença com significância estatística apenas para as faixas Lactente (p-value = 4,349e-05) e
dade de outliers, alguns pacientes ainda tinham pouca informação como Nome e Sexo. Sem os
demais atributos, tais como Data de Nascimento, Altura e Peso tornou-se inviável a criação dos
demais atributos tais como Idade, ICM, Percentil de IMC e SC. Esses registros foram excluídos
Ao final do tratamento dos atributos que serão utilizados como entrada para os algoritmos
v0(i) =
v(i)�min(v(i))
max(v(i))�min(v(i))
↵⌦ � 3.4
Onde:
Figura 3.12: Distribuição do atributo Frequência Cardíaca para cada faixa etária pelo
Após a exclusão dos registros que não tinham informações relevantes e da normalização,
foi gerado o conjunto de dados utilizado para realização do treinamento e testes. A Tabela 3.13
dos dados no capítulo anterior, para realização dos experimentos, o banco de dados foi dividido
http://www.rapidminer.com
imc_perc, = Baixo Peso bin avg = 0,164 +/- 0,370 [0,000 ; 1,000] 0
imc_perc, = Excesso de Peso 1 bin avg = 0,099 +/- 0,299 [0,000 ; 1,000] 0
em dois conjuntos: Treinamento e Teste. A divisão foi feita de forma estratificada e a Tabela
Após essa divisão, os 597 registros do conjunto de Teste não foi utilizado em nenhuma
fase de treinamento servindo apenas para avaliar os modelos dos experimentos e analisar os
resultados, se tornando uma amostra estatisticamente independente dos dados utilizados para o
treinamento.
3.2.1 Implantação
mente o conhecimento adquirido até a fase anterior deverá ser organizado e apresentado de modo
que o cliente possa utilizá-lo. Dependendo dos requisitos do projeto, essa fase pode ser resumida
dados.
efetuado o processo de preparação dos dados descrito na Seção 3.1.3, foi possível observar o
confirmou, por exemplo, que o baixo peso dos pacientes recém-nascidos está diretamente ligado
53
—SUN TZU
utilizadas nessa pesquisa. Também será explorado uma nova abordagem de balanceamento de
base de dados utilizando SVM com pesos como pré-processador da base de dados. Conforme já
relatado no Capítulo 1, essas técnicas foram escolhidas devido aos bons resultados apresentados
em diversos trabalhos na área médica (ASL; SETAREHDAN; MOHEBBI, 2008; AVCI, 2009;
4.1 Modelagem
Em vários estudos (YEH; CHENG; CHEN, 2011; SAMANTA et al., 2009; KOPRINSKA;
na mesma área já utilizam Support Vector Machines (SVM) devido ao seu melhor poder de
uma grande massa de dados, apresentando melhores resultados em diversos problemas reais de
WATKINS, 1999).
VAPNIK, 1992) e uma das técnicas mais usadas em mineração de dados (WU et al., 2007).
Tem sido usada em uma ampla variedade de aplicações tais como predição de câncer (ALLADI
54 4.1. MODELAGEM
et al., 2008), predição de cárie dental em crianças (MONTENEGRO et al., 2008), análise
genética (GUYON et al., 2002), análise de risco de crédito (HUANG et al., 2004), previsão de
Esse método também tem sido utilizado em bioinformática devido à sua alta precisão,
capacidade de lidar com uma grande dimensão de dados e flexibilidade na modelagem de diversas
O SVM pode ser utilizado para realizar a classificação em bases linear e não-linearmente
separáveis. O termo “linearmente separável” é utilizado para definir a existência de uma fronteira
de decisão que separa, de forma linear, as classes alvo e não alvo (BEN-HUR; WESTON, 2010).
ótimo que classifica corretamente as duas classes e separa os pontos das mesmas o máximo
A otimização pode ser descrita da seguinte forma, considerando xi como o ith vetor no
conjunto de dados {(xi,yi)}ni=1 onde yi é o label associado com xi (BEN-HUR; WESTON, 2010):
min
k w k2
↵⌦ � 4.1
Essa formulação assume que os dados são linearmente separáveis, não havendo espaço
para erros. Entretanto, na maioria das vezes o problema de classificação em questão é não-
linearmente separável. Dessa forma, a variável x (folga) é introduzida para permitir o erro e a
função de otimização tomando a Eq. 4.1 a seguinte forma (BEN-HUR; WESTON, 2010):
55 4.1. MODELAGEM
onde x � 0 são as variáveis de folga que permitem que um exemplo fique dentro da
margem (0 xi 1, também chamada de margem de erro) ou seja classificado errado (xi > 1).
2 utilizando o argumento
min
k w k2 +C
i=1
xi ↵⌦ � 4.2
quantidade de folga.
Quanto maior for o valor do parâmetro C, maior será a penalidade atribuída aos erros da
lado esquerdo, com o maior valor do parâmetro C, a penalidade também é maior e, dessa forma,
os dois pontos mais próximos do hiperplano afetam sua orientação, resultando num hiperplano
que se aproxima de vários outros pontos dos dados (BEN-HUR; WESTON, 2010). Quando
pontos citados tornam-se erros de margem. A orientação do hiperplano é alterada provendo uma
kernel representa a relação entre o dado de entrada e a propriedade de saída a ser modelada
solução do problema pode ser representada como sendo um problema linear. Os parâmetros
dependerão da função de kernel utilizada (largura, para um kernel gaussiano, graus para um
kernel polinomial). Esses parâmetros também têm um efeito significativo sobre a fronteira
56 4.1. MODELAGEM
de decisão. Alguns pesquisadores indicam que o SVM com kernel gaussiano de função de
base radial (Radius Base Function - RBF) tem demonstrado uma melhor habilidade para o
problema de classificação (DONG B., 2005; HAMMER B., 2003; LUKAS L., 2004; YAO X. J.,
2005). Nessa pesquisa foi utilizada a SVM com kernel RBF e para tentar encontrar os melhores
ceadas. Isso ocorre quando uma classe específica tem muito mais exemplos do que a outra classe.
Isso acontece na base de dados dessa pesquisa onde a quantidade de pacientes saudáveis é muito
maior do que a quantidade de pacientes cardiopatas. Esse tipo de base de dados representa um
Uma estratégia para conseguir uma alta acurácia é classificar todos os exemplos como
sendo da classe majoritária. Quando isso acontece, a proporção de predições corretas é extrema-
mente alta mas não leva-se em consideração o que é positivo e o que é negativo. Entretanto, essa
não é uma boa medida para avaliar os classificadores de base de dados desbalanceadas (como no
caso dessa pesquisa). Isto porque normalmente o classificador considera os erros cometidos para
a classe majoritária e erros cometidos para a classe minoritária iguais (BEN-HUR; WESTON,
2010).
tratado atribuindo diferentes custos para as classificações incorretas de cada classe (BEN-HUR;
WESTON, 2010).
Dessa forma, na Equação 4.2, o termo CÂni=1 xi é substituído por dois outros termos
i=1
xi !C+ Â
i2I+
xi+C� Â
i2I�
xi ↵⌦ � 4.3
ondeC+ eC� são os parâmetros C utilizados para os exemplos das classes positivas (minoritária)
respectivas classes. Para atribuir a mesma penalidade a ambas as classes, pode-se assumir que o
exemplos de cada classe (BEN-HUR; WESTON, 2010). Dessa forma, é necessário escolher o
C+n+ =C�n�
↵⌦ � 4.4
(majoritária), respectivamente.
57 4.1. MODELAGEM
Uma investigação foi feita em FARQUAD; BOSE (2012) com o objetivo de usar o
autor ratifica que o principal objetivo do SVM é encontrar um hiperplano ótimo que separa as
classes classificando-as corretamente, minimizando o risco. O autor ainda justifica que quando se
à classe majoritária aumentando o erro de classificação dessa classe. Em outras palavras, mais
erros de classificação passarão a existir nesta classe (falsos positivos) aumentando o número de
instâncias para a classe minoritária. Quando o modelo de SVM é treinado com o valor mais alto
SVM com um parâmetro C tão alto que o classificador teria como resposta mais casos da classe
tese mais balanceada) seria utilizada como conjunto de treinamento para uma Rede Neural
MLP. O modelo de SVM serviu apenas como pré-processador para gerar um novo conjunto de
treinamento a ser utilizado pela MLP. A Figura 4.3 mostra a proposta do autor.
Figura 4.3: Ciclo do processo utilizando o SVM como pré-processador de uma MLP
58 4.1. MODELAGEM
A base de dados utilizada para esse experimento (FARQUAD; BOSE, 2012) foi extraída
do The CoIL Challenge 2000 4, uma competição de mineração de dados ocorrida no ano 2000.
Essa base de dados refere-se aos dados de clientes de uma companhia de seguros. A variável
alvo é o indicador de aquisição ou não do seguro por parte do cliente. No total essa base de
dados tem 86 atributos que vão desde variáveis sócio-demográficas criados a partir dos CEPs
dos clientes, até dados pessoais dos clientes, como por exemplo idade, sexo, religião, nível de
A base de dados tem um total de 5822 registros para treinamento e 4000 registros
para teste. Apenas 348 registros (6%) do conjunto de treinamento representam clientes que
compraram a apólice de seguro. Os demais 5474 (94%) optaram por não adquirir a apólice de
seguro.
O autor (FARQUAD; BOSE, 2012) afirma que após utilizar o modelo de SVM como
pré-processador, analisando as saídas do modelo, consegue obter 42% de clientes que não
optaram pela compra do seguro e 58% de clientes que optaram pela compra. Em outras palavras,
seguindo a metodologia descrita na Figura 4.3 a classe alvo (clientes que compraram o seguro) é
incrementada de 6% para 58%, ficando essa classe com a quantidade de registros maior do que a
outra classe.
Infelizmente, no referido trabalho, o autor não cita quais os parâmetros (C e kernel) foram
utilizados para conseguir tal balanceamento. Ainda no trabalho, foi verificado que o autor só
aplica essa metodologia na base de dados supracitada. Além disso, o mesmo faz uma comparação
modelo de SVM de modo que o mesmo produzisse uma saída mais balanceada. Essa saída
seria utilizada como conjunto de treinamento de uma MLP. A base de dados utilizada para esse
experimento foi a mesma utilizada em (FARQUAD; BOSE, 2012) e a Tabela 4.1 mostra os
resultados alcançados:
(2012). Logo, conclui-se que quando se utiliza o mesmo valor do parâmetro C para penalizar as
http://www.liacs.nl/~putten/library/cc2000/
59 4.1. MODELAGEM
Parâmetros
pesquisa, a metodologia proposta foi utilizada na base de dados dessa dissertação, além de outras
bases de dados médicas disponíveis no repositório do UCI (S. HETTICH, 1996) relacionadas ao
Em nenhuma das três bases de dados foi possível realizar o balanceamento utilizando
SVM como pré-processador. O modelo de SVM foi testado com os mesmos parâmetros apre-
sentados no trabalho FARQUAD; BOSE (2012). Entretanto, esses parâmetros (C=0,8, C=5 e
C=10) foram utilizados apenas para demonstrar graficamente que a fronteira de decisão move-se
não foram informados. Dessa forma, os experimentos foram realizados utilizando as seguintes
configurações: kernel - RBF (gamma = 1) e C = (0,8, 5, 10, 50, 100, 500, 1.000, 5.0000, 10.000,
cações erradas do modelo. Dessa forma, independente do valor utilizado para esse parâmetro,
a penalização será a mesma. Conforme apresentado na Seção 4.1.2, SVM com pesos é uma
solução adotada para tratar o problema do desbalanceamento das classes, uma vez que essa
estratégia utiliza parâmetros C’s diferentes, considerando a proporção de cada classe no conjunto
de treinamento.
Diante disso, uma solução para utilizar o modelo de SVM como pré-processador para
outro modelo (por exemplo MLP), seria a aplicação de SVM com pesos. Nessa abordagem,
60 4.1. MODELAGEM
Tabela 4.2: Conjunto de treinamento após a aplicação de SVM como pré-processador nas
Parâmetros
Original 151 (70%) 64 (29%) 375 (65%) 201 (35%) 1384 (77%) 404 (23%)
Pré-Proc. SVM - C=0.8 159 (73%) 56 (26%) 427 (74%) 149 (26%) 1464 (81%) 324 (19%)
Pré-Proc. SVM - C=5 151 (70%) 64 (29%) 417 (72%) 159 (28%) 1549 (86%) 239 (14%)
Pré-Proc. SVM - C=10 151 (70%) 64 (29%) 421 (73%) 155 (27%) 1548 (86%) 240 (14%)
Pré-Proc. SVM - C=50 151 (70%) 64 (29%) 407 (70%) 169 (30%) 1554 (86%) 234 (14%)
Pré-Proc. SVM - C=100 151 (70%) 64 (29%) 401 (69%) 175 (31%) 1549 (86%) 239 (14%)
Pré-Proc. SVM - C=500 151 (70%) 64 (29%) 392 (68%) 184 (32%) 1536 (85%) 252 (14%)
Pré-Proc. SVM - C=1000 151 (70%) 64 (29%) 381 (66%) 195 (34%) 1524 (85%) 264 (14%)
Pré-Proc. SVM - C=5000 151 (70%) 64 (29%) 384 (66%) 192 (34%) 1498 (83%) 290 (17%)
Pré-Proc. SVM - C=10000 151 (70%) 64 (29%) 380 (65%) 196 (35%) 1481 (82%) 307 (18%)
Pré-Proc. SVM - C=50000 151 (70%) 64 (29%) 377 (65%) 199 (35%) 1441 (80%) 347 (20%)
Pré-Proc. SVM - C=100000 151 (70%) 64 (29%) 380 (65%) 196 (35%) 1433 (80%) 355 (20%)
Pré-Proc. SVM - C=500000 151 (70%) 64 (29%) 375 (65%) 201 (35%) 1424 (79%) 364 (21%)
Pré-Proc. SVM - C=1000000 151 (70%) 64 (29%) 375 (65%) 201 (35%) 1422 (79%) 366 (21%)
Pré-Proc. SVM - C=5000000 151 (70%) 64 (29%) 375 (65%) 201 (35%) 1418 (79%) 370 (21%)
os pesos do modelo seriam definidos de modo que a penalização para os erros de classificação
de cada classe tornassem a saída do modelo balanceado. Uma forma simples de efetuar o
procedimento seria definir o peso da classe minoritária igual a 1 e o peso da classe majoritária
seria um valor <1 tal que o modelo produzisse como saída um conjunto de dados balanceado.
Árvore de Decisão, por ser de fácil representação e interpretação. Diversos algoritmos utilizam a
treinamento e testes. Tipicamente esses algoritmos adotam a estratégia top-down (de cima para
baixo), procurando uma solução em um espaço de busca (KANTARDZIC, 2003) com o objetivo
A Árvore de Decisão é formada por nós onde os atributos são testados. A saída de um nó
4.4 corresponde à Árvore de Decisão para classificação de exemplos dados dois atributos de
entrada (X e Y).
Na figura, todos os exemplos que tem o valor de X>1 e Y=B pertencem à classe 2,
enquanto todos os exemplos que tem o valor de X<1 pertencem à classe 1, independente do valor
da variável Y.
Dado que esses algoritmos utilizam a estratégia top-down, uma decisão importante
(KANTARDZIC, 2003). Um dos algoritmos mais utilizados para geração de Árvore de Decisão
é o C4.5 (QUILAN, 1996). Esse algoritmo utiliza um conjunto de treinamento para produzir
61 4.1. MODELAGEM
2003)
um classificador em forma de Árvore de Decisão com dois tipos de nós: um nó de decisão, que
especifica um teste a ser realizado em um atributo específico (com uma “subárvore” para cada
resultado possível do teste) ou um nó folha, que especifica uma classe. O modelo de Árvore de
Decisão gerado pode ser utilizado para classificar um novo exemplo (KANTARDZIC, 2003).
Devido à sua fácil compreensão, esse classificador tem sido bastante utilizado na área
da medicina (YEH; CHENG; CHEN, 2011; SAMANTA et al., 2009; KOPRINSKA; PFURTS-
implementação da Árvore de Decisão C4.5 e esse algoritmo também foi utilizado nessa pesquisa
4.1.6 PART
O algoritmo PART (FRANK; WITTEN, 1990) utiliza como base da extração de regras a
Árvore de decisão gerada pelo algoritmo C4.5. O processo de geração de regras de produção
atua em dois estágios, onde inicialmente as regras são induzidas de uma árvore e posteriormente
são refinadas.
de uma completa. Uma Árvore de Decisão parcial é uma Árvore comum que ainda contém ramos
para outras subárvores. A mesma é podada e a partir da folha de maior cobertura é feita a regra.
aleatoriamente e é realizada por meio de gerações. Dado que cada cromossomo é um candidato
para uma solução ótima, a cada geração eles são avaliados através de uma função de fitness (ou
62 4.1. MODELAGEM
função objetivo). Essa função é o principal objeto da otimização e compara as soluções para
A seleção dos indivíduos foi feita através do algoritmo de seleção por “roleta” onde os
serem escolhidos.
Nessa pesquisa os AGs são utilizados para encontrar os melhores parâmetros dos modelos
que são utilizados. O objetivo da otimização é maximizar a métrica utilizada para definir o
2002). Os novos registros não são simplesmente duplicados, mas são gerados a partir do espaço
de características formado pelos exemplos reais da classe minoritária e seus k-vizinhos. Ainda
em CHAWLA et al. (2002), o modelo de Árvore de Decisão foi usado para classificação em 8
bases de dados desbalanceadas. Ao final foi comparado, para cada base de dados, a AUC obtida
na aplicação da Árvore de Decisão na base de dados desbalanceada com a AUC obtida pelo
mesmo modelo na base de dados modificada pela técnica SMOTE. Os resultados mostram que a
plo/instância) e os seus k vizinhos mais próximos. Após isso, essa diferença deve ser multiplicada
por uma valor aleatório entre 0 e 1 e somar esse resultado ao valor original. A Figura 4.5 mostra
Figura 4.5: Exemplo para geração de exemplos sintéticos (CHAWLA et al., 2002)
O software Weka (HALL et al., 2009) foi utilizado para geração de exemplos sintéticos para
o banco de dados dessa pesquisa. Para realização dos experimentos, essa técnica foi utilizada
63 4.2. AVALIAÇÃO
4.2 Avaliação
Nesta fase, há a avaliação do(s) modelo(s) construído(s) e os passos seguidos para a sua
desempenho de classificadores tem sido cada vez mais utilizado para avaliar os algoritmos de
aprendizagem de máquinas e mineração de dados. A análise ROC foi estendida para visualização
tem se tornado mais frequente, em grande parte devido à percepção de que o indicador de precisão
Acurracy de classificação não é uma métrica suficiente para medir o desempenho (PROVOST;
FAWCETT, 1997).
classificador utilizado nessa pesquisa produz uma saída (thresholds ou escore) contínua que
varia entre 0 e 1, mapeando as instâncias classificadas nesse intervalo. Para decisão do ponto
de operação do classificador é interessante que um gráfico com a curva ROC seja plotado para
Em cada ponto de operação é possível calcular uma matriz de confusão. Uma matriz
Valor
Correto
Valor Predito
t n Total
t0
True
Positive
False
Negative T
n0
False
Positive
True
Negative N
Total T N
Pela matriz de confusão gerada para determinado ponto de operação é possível calcular
64 4.2. AVALIAÇÃO
os erros e acertos do classificador caso a decisão de classificação seja tomada nesse ponto. Os
• True Positive (TP): número de previsões corretas para os casos realmente positivos.
• False Positive (FP): número de previsões incorretas para os casos realmente negativos,
• True Negative (TN): número de previsões corretas para os casos realmente negativos;
• False Negative (FN): número de previsões incorretas para os casos realmente positivos,
O gráfico da curva ROC tem duas dimensões nas quais Taxa de Verdadeiros Positivos
(TPR - True Positive Rate) é plotada no eixo Y e a Taxa de Falsos Positivos (FPR - False Positive
Rate) é plotada no eixo X. Cada ponto na curva corresponde a um dos modelos induzidos
pelo classificador. O ponto (0,1) representa a classificação perfeita onde nenhum erro é gerado
pelo classificador e caso o mesmo não seja atingido no gráfico, considera-se o ponto de menor
distância da linha da curva até o ponto (0,1) como o melhor ponto de decisão do classificador.
Apesar disso, outros fatores como o custo associado a tomada de decisão também deve ser levado
em consideração.
As Fórmulas 4.5 e 4.6 demonstram o cálculo realizado para gerar esses valores e montar
para analisar os erros e acertos gerados pelo classificador. Para análise dos experimentos a seguir
quanto o resultado do algoritmo é Anormal, considerou-se como positivo, caso contrário foi
considerado negativo.
A partir dos valores gerados pela matriz de confusão é possível extrair as seguintes
predizer corretamente a condição para casos que realmente a têm. A Fórmula 4.8 mostra o
65 4.2. AVALIAÇÃO
predizer corretamente a ausência da condição para casos que realmente não a têm. A
Fórmula 4.9 mostra o cálculo para essa medida.Acurácia= TP + TNP + N ↵⌦ � 4.7Sensibilidade= TPP ↵⌦ � 4.8Especificidade= TNFP + TN ↵⌦ �
4.9
Outra métrica que pode ser utilizada para decidir o ponto de operação de um classificador
O ponto de corte ótimo (a) minimiza o risco de classificação para as classes minoritária
e majoritária e esse ponto é conseguido através da maior distância entre as duas f.d.a. ( f dap(X)
e f dan(X)). Assim como na curva ROC, o ponto de operação da distância de KS também gera
uma matriz de confusão. Dado que um classificador X produz uma saída contínua, o ponto de
Logo, a distância de KS, Dist(X = a), entre duas f.d.a. f dapos(X 6 a) e f daneg(X > a)
é:
A Figura 4.7 mostra um exemplo do gráfico onde o pondo de corte a = 8 seria a maior
distância de KS.
4.2.3 Lift
mensurada através das medidas de lift e confiança. Nessa pesquisa, as regras geradas a partir dos
66 4.2. AVALIAÇÃO
Dado que a seleção de uma regra é composta por todos os registros, o Lift é calculado
como a frequência relativa de representantes de uma determinada classe dividido pela frequência
indicar quantas vezes mais representantes de determinada classe existe em relação à média. Já a
Confiança =
↵⌦ � 4.10
Lift =
A+A0
↵⌦ � 4.11
Neste capítulo foi mostrada uma breve teoria sobre os modelos de SVM, Árvore de
Decisão e PART. Todo o processo descrito neste capítulo serviu para preparar o banco de dados
Neste capítulo também foi proposta uma nova técnica para realizar o balanceamento de
68
You laugh at me because I’m different. I laugh because you are all the same!
—BOB MARLEY
dados, bem como os algoritmos de aprendizagem de máquina. Além disso, é possível integrar
5.1 Experimentos
Ambos os algoritmos, conforme explicado nas Seções 4.1.1 e 4.1.5 necessitam a configuração
de parâmetros. Conforme relatado na Seção 4.1.1, a SVM quando configurada com o Kernel
RBF, é necessário que seja informado além do parâmetro C, o parâmetro gamma. Já para a
Árvore de Decisão, o parâmetro que indica o nível de poda (C) também precisa ser configurado.
Para identificar o melhores valores para esses parâmetros, foi utilizado AG através do operador
ótimos para um conjunto de parâmetros. A Tabela 5.1 mostra a configuração dos parâmetros
utilizada.
Para a realização da busca dos melhores parâmetros pelo AG, o conjunto de treina-
mento foi dividido em 75% treinamento e 25% para teste de forma estratificada considerando o
Para comparação dos modelos foi utilizada a validação cruzada onde o conjunto de
69 5.1. EXPERIMENTOS
Parâmetro Valor
Tamanho da População 50
Prob. Crossover 90%
Seleção Roleta
de positivos e negativos (crianças com cardiopatia e saudáveis) seja a mesma da base de dados
original (DELEN; WALKER; KADAM, 2005). Um dos subconjuntos é retirado para realização
treinamento. O processo se repete por k vezes com cada um dos k (ver Figura 5.1). A vantagem
desse método é que todos os exemplos do conjunto de dados são utilizados para treinamento e
validação.
na Seção 4.1.5, esse tipo de classificador é muito utilizado no campo da medicina pois sua saída
pode ser representada através de um conjunto de regras if-then facilitando a leitura dos resultados
Como o foco dessa pesquisa é a classificação de pacientes com cardiopatia que têm
o sopro cardíaco como sintoma, é interessante que o cardiologista possa entender como os
algoritmos chegaram a tal decisão de modo que eles possam avaliar/validar os resultados.
relações completamente desconhecidas através das variáveis utilizadas como entrada para os
classificadores.
Seção 3.1.3. Como foi possível constatar na Tabela 3.14, a quantidade de pacientes saudáveis
é três vezes maior que a quantidade de pacientes doentes. A primeira parte desse experimento
70 5.1. EXPERIMENTOS
não levou em consideração nenhuma técnica de desbalanceamento para tentar resolver esse
problema.
executado com o objetivo de encontrar o melhor parâmetro C para a Árvore de Decisão. Esse
algoritmo permite definir, através de sua propriedade Grid/Range, o valor mínimo e máximo do
parâmetro que está sendo otimizado. Para o parâmetro C da Árvore de Decisão foi utilizado o
intervalo com os parâmetros definidos na Tabela 5.1 até que não houvesse evolução na AUC
Em cada execução, 75% do conjunto de treinamento foi utilizado para treinar o modelo
e 25% para realização de testes e cálculo das métricas. A Tabela 5.2 mostra um resumo da
otimização e os resultados.
o melhor parâmetro C encontrado. Conforme relatado na Seção 4.2, tanto a AUC como a
distância de KS foram utilizadas para avaliação de desempenho dos modelos. As Figuras 5.2 e
sensibilidade de 63,0%. Logo, caso essa métrica fosse utilizada, o ponto de corte do classificador
seria no escore = 0,222. Entretanto, a AUC conseguida para esse modelo no conjunto de
teste foi de 0,764 e caso o melhor ponto de operação da curva ROC fosse considerado para
esse classificador, com escore = 0,085, o mesmo conseguiria uma sensibilidade de 75,6%
classificando corretamente 102 pacientes cardiopatas dos 135 existentes no conjunto de testes. A
Tabela 5.3 mostra a matriz de confusão encontrada para o melhor ponto de operação da curva
ROC. As Tabelas 5.9 e 5.10, no final desse experimento, mostram o resumo dos experimentos
71 5.1. EXPERIMENTOS
Valor Correto
Anormal Normal
Valor Predito
72 5.1. EXPERIMENTOS
o SMOTE (Seção 4.1.8) foi utilizado para reduzir o desbalanceamento onde é feito um over-
50%, 100%, 150% e 200%. Esses valores correspondem ao percentual de incremento da classe
minoritária, nesse caso, a classe de pacientes com cardiopatia, que é realizado na base de dados
A Tabela 5.4 mostra como ficou a distribuição de cada um dos quatro conjuntos de
executado com o objetivo de encontrar o melhor parâmetro C para os quatro modelos, sendo
um modelo para cada conjunto de treinamento alterado pelo SMOTE. As Tabelas 5.5, 5.6, 5.7 e
50%.
100%.
150%.
200%.
conjunto de treinamento, o conjunto de testes foi utilizado para analisar o desempenho de cada
um. As Figuras 5.4 e 5.5 mostram, respectivamente, as curvas ROC e a distâncias de KS para
cada modelo quando aplicados ao conjunto de testes. As Tabelas 5.9 e 5.10 mostram o resumo
Tabela 5.9: Resultados obtidos no conjunto de teste quando utilizado o melhor ponto de
Anormal 89 108
Anormal 90 87
Anormal 90 118
Anormal 90 92
74 5.1. EXPERIMENTOS
Figura 5.4: Curvas ROC dos modelos de Árvore de Decisão aplicados ao conjunto de
testes
75 5.1. EXPERIMENTOS
Tabela 5.10: Resultados obtidos no conjunto de teste quando utilizado como melhor
Anormal 85 62
Anormal 82 74
Anormal 90 87
Anormal 71 47
Anormal 90 92
Nas duas Tabelas (5.9 e 5.10) é possível observar que o ponto de operação (escore) são
diferentes para cada modelo, com exceção do modelo treinado com SMOTE 200%. Baseado nos
(ROC e KS). Além de produzir a melhor AUC, a Árvore de Decisão aplicada ao conjunto original
de treinamento (sem SMOTE) também produziu a maior separabilidade entre as duas classes
(Normal e Anormal) com uma distância KS de 0,497. Esse modelo também conseguiu a melhor
Dessa forma, no quesito sensibilidade, a Árvore de Decisão não teve nenhum ganho
quantidade de cardiopatas.
76 5.1. EXPERIMENTOS
5.1.3 SVM
conforme relatado na Seção 4.1.1, o SVM tem obtido melhores resultados em várias aplicações.
Especificamente na medicina, essa técnica tem sido utilizada na área da cardiologia (SU; YANG,
2008),(AVCI, 2009). Dessa forma, para tentar melhorar os resultados obtidos no Experimento 1,
na Tabela 3.14, a quantidade de pacientes com cardiopatia é três vezes menor que a quantidade
de pacientes saudáveis.
A função de kernel utilizada para esse experimento foi RBF e dessa forma, além do
tanto, o operador Optimize Parameters (Evolutionary) do RapidMiner foi configurado para tentar
valores máximos e mínimos tanto para o C quanto para o gamma, o valor mínimo e máximo do
parâmetro que está sendo otimizado. Esse valores foram configurados com o mínimo de 0 e o
máximo de 50 e assim como na Árvore de Decisão, o AG executou uma busca nesse intervalo
com os parâmetros definidos na Tabela 5.1 até que não houvesse evolução na AUC após três
gerações seguidas.
Em cada execução, 75% do conjunto de treinamento foi utilizado para treinar o modelo e
com o conjunto de teste para avaliar os resultados. Assim momo na Árvore de Decisão, a AUC e
a distância de KS também foram utilizadas para avaliação de desempenho. As Figuras 5.6 e 5.7
sensibilidade de 57,0%. Logo, caso essa métrica fosse utilizada, o ponto de corte do classificador
77 5.1. EXPERIMENTOS
seria no escore = 0,2923. Entretanto, a AUC conseguida para esse modelo no conjunto de teste
foi de 0,774 e caso o melhor ponto de operação da curva ROC fosse considerado para esse classi-
ficador, com escore = 0,2722, o mesmo conseguiria uma sensibilidade de 64,4% classificando
corretamente 87 pacientes cardiopatas dos 135 existentes no conjunto de testes. A Tabela 5.12
mostra a matriz de confusão encontrada para o melhor ponto de operação da curva ROC. As
Tabelas 5.17 e 5.18, no final desse experimento, mostra o resumo dos experimentos realizados
78 5.1. EXPERIMENTOS
acurácia.
Tabela 5.12: Matriz de confusão para o modelo SVM considerando o melhor ponto de
Valor Correto
Anormal Normal
Valor Predito
A sensibilidade conseguida pela SVM (64,4%) foi pior do que a sensibilidade conseguida
pela Árvore de Decisão (75,6%). Isso pode se justificar pelo fato de que o SVM é mais sensível
no final dessa Seção serão realizados testes de hipóteses com o objetivo de identificar essas
79 5.1. EXPERIMENTOS
no treinamento do modelo SVM apresentado anteriormente. Dessa forma, assim como foi feito
SMOTE, conforme mostrado na Tabela 5.4, também foram utilizados para avaliar o desempenho
executado com o objetivo de encontrar os melhores parâmetros C gamma para os quatro modelos,
sendo um modelo para cada conjunto de treinamento alterado pelo SMOTE. As Tabelas 5.13,
5.14, 5.15 e 5.16 mostram o resumo do AG utilizado para encontrar o melhor parâmetro C
para fazer a classificação no conjunto de teste para análise de desempenho de cada um. As
Figuras 5.8 e 5.9 mostram, respectivamente, as curvas ROC e a distâncias de KS para cada
modelo quando aplicados ao conjunto de testes. As Tabelas 5.17 e 5.18 mostram o resumo dos
Figura 5.8: Curvas ROC dos modelos de SVM aplicados ao conjunto de testes
81 5.1. EXPERIMENTOS
Figura 5.9: Gráfico com as distâncias de KS dos modelos de SVM aplicados ao conjunto
de testes
Tabela 5.17: Resultados obtidos no conjunto de teste quando utilizado como melhor
Anormal 87 80
Anormal 96 124
Anormal 91 86
Anormal 97 120
Anormal 98 125
Dos experimentos apresentados até aqui, o modelo SVM com o conjunto de treinamento
SMOTE 150% foi o que apresentou a melhor acurácia, ou seja, foi o que conseguiu classificar
mais pacientes corretamente. Todavia, conforme explicado na Seção 4.1.2, a acurácia não é um
bom meio para medir o sucesso de um classificador aplicado à banco de dados desbalanceados.
Não é difícil encontrar um classificador que tenha um bom desempenho sobre a classe majoritária.
Além de outras métricas as Tabelas 5.17, 5.18 mostram as matrizes de confusão al-
pelo SMOTE. Analisando detalhadamente cada matriz de confusão, é possível observar que o
melhor modelo é o SMOTE 200% consegue classificar mais pacientes cardiopatas. Isso se deve
à redução do balanceamento efetuado, pois o conjunto de treinamento desse modelo estava com
82 5.1. EXPERIMENTOS
Tabela 5.18: Resultados obtidos no conjunto de teste quando utilizado como melhor
Anormal 77 30
Anormal 91 105
Anormal 84 51
Anormal 76 39
Anormal 75 42
a proporção 53:47, conforme mostrado na Tabela 5.4. Isso garante à esse classificador a melhor
variam em direções opostas. Isto é, geralmente, quando um método é muito sensível a positivos,
tende a gerar muitos falso-positivos, e vice-versa. Assim, um método de decisão perfeito (100%
ser atingido.
com o conjunto de treinamento SMOTE 200% seria o mais indicado quando comparado com os
demais. Essa sensibilidade de 72,6% é menor do que a sensibilidade conseguida pela Árvore de
Decisão (75,6%).
Embora o AG ter sido utilizado para seleção dos melhores parâmetros da SVM, o parâme-
tro C é igual para cada amostra do treinamento e é utilizado sem nenhuma discriminação entre a
classe majoritária (os pacientes saudáveis) e a classe minoritária (pacientes com cardiopatia). No
entanto, em muitas aplicações, como é o caso dessa pesquisa, uma classe específica (cardiopatas)
pode ser mais importante que outra, sendo interessante que o modelo consiga classificar essas
classes mais corretamente, enquanto a outra classe, menos significativa, pode tolerar mais erros
Além do SMOTE, outra técnica foi utilizada nessa pesquisa com o objetivo de diminuir
de classes, sendo possível atribuir um peso ao parâmetro C-SVM de modo que cada classe do
83 5.1. EXPERIMENTOS
C++C� = 1, é possível calcular o peso (weight) que será utilizado para cada classe.
n+ = 404
n� = 1384
temos:
C+n+ =C�n�
ou:
C+ =
n+
)C+ =
1384
1788
)C+ = 0,774049
C� =
n�
)C� =
404
1788
)C� = 0,225951
Uma vez identificado os pesos que serão atribuídos a cada classe, os parâmetros mostra-
dos na Tabela 5.1 foram utilizados novamente para configurar o AG com o objetivo de encontrar
os melhores parâmetros para o modelo SVM seguindo o mesmo procedimento dos experimentos
anteriores.
É possível visualizar o resumo do treinamento da SVM com pesos através da Tabela 5.19.
anteriores constata-se que essa AUC é igual a AUC conseguida pela SVM treinada com o conjunto
de treinamento SMOTE 50% e menor do que os modelos SVM treinados com os conjuntos de
treinamento SMOTE 100%, SMOTE 150% e SMOTE 200%. Apesar disso, o desempenho desse
modelo no conjunto de testes foi superior aos demais desempenhos apresentados até aqui.
de KS. Além da AUC desse modelo ter sido a melhor, a distância de KS também foi a maior
84 5.1. EXPERIMENTOS
conseguida entre todos os modelos. Tanto a curva ROC quanto a distância de KS têm como
melhor ponto de operação o escore 0,3806. Dessa forma, uma única matriz de confusão (Tabela
Figura 5.10: Curva ROC do modelo SVM no conjunto de Teste para o Experimento 3
quando comparado com os demais experimentos até então realizados. A sensibilidade de 76,3%
tornou-o o modelo que consegue melhor classificar os pacientes com cardiopatia. O único
85 5.1. EXPERIMENTOS
modelo que chegou próximo desse valor foi a Árvore de Decisão que classificou corretamente
do modelo de Árvore de Decisão foi de 70,3% classificando apenas 325 pacientes saudáveis.
O classificador SVM com pesos teve uma especificidade de 76,6% classificando 354 pacientes
saudáveis. A acurácia da SVM com pesos também foi maior do que a do modelo de Árvore de
Tabela 5.20: Matriz de confusão para o modelo SVM considerando o melhor ponto de
Valor Correto
Anormal Normal
Valor Predito
Apesar desses números serem a favor do modelo SVM com pesos, os testes de hipó-
tese precisaram ser realizados com o objetivo de comprovar essa diferença com significância
Conforme relatado na Seção anterior, SVM + MLP foi uma abordagem utilizada em
FARQUAD; BOSE (2012) onde o modelo SVM funcionou como um pré-processador, gerando
um novo conjunto de treinamento balanceado, utilizado para treinar uma Rede Neural MLP. Os
parâmetros C’s utilizados para implementação do método foram: 0,8, 5, 10, 50, 100, 500, 1.000,
5.000, 10.000, 50.000, 100.000, 500.000, 1.000.0000 e 5.000.000. Entretanto, apesar da alta
Dado que a utilização de pesos em um modelo SVM exerce de fato uma influência na
classificação considerando o desbalanceamento da base de dados, essa técnica foi utilizada como
um pré-processador de uma Rede Neural MLP e chamada de SVM com pesos + MLP. O objetivo
foi o mesmo de FARQUAD; BOSE (2012): criar um novo conjunto de treinamento, menos
gem aqui proposta utiliza um kernel linear com o parâmetro C = 1 (visto que esse modelo só
servirá para balancear os dados). O parâmetro C de um modelo SVM serve para penalizar as
classificações erradas. Os pesos definidos no modelo de SMV com pesos serve para calcular o
percentual de penalização para cada classe. Visto que o objetivo é balancear o conjunto de dados,
o peso definido para o parâmetro C da classe minoritária é igual a 1, ou seja, a penalidade será
maior. No entanto, o peso atribuído ao parâmetro C da classe majoritária é <1. Desse modo, o
peso funcionará como um percentual de penalização da classe. Por exemplo: se o peso da classe
majoritária for igual a 0,5, isso significa que a penalidade atribuída aos erros da margem será
86 5.1. EXPERIMENTOS
menor (metade). Quando isso acontece (penalização menor), o modelo de SVM retornará mais
A Tabela 5.21 mostra as bases de dados médicas utilizadas nesse experimento, bem o
novo conjunto de dados gerado pelo modelo SVM com pesos usado como pré-processador.
Tabela 5.21: Resultado do balanceamento utilizando SVM com pesos como balanceador.
Base de Dados Conj. De Treinamento Original Peso Novo Conj. De TreinamentoDoente Saudável Doente Saudável
Cardiologia Pediátrica 404 (22%) 1384 (78%) 0,1215 891 (49%) 897 (51%)
Diabetes 201 (34%) 375 (66%) 0,4 278 (48%) 298 (52%)
balanceado pode ser criado a partir da saída de um modelo SVM linear com pesos, desde que
seja atribuído um peso na classe majoritária de modo que diminua a penalidade dos erros de
De posse do conjunto de dados balanceado, o mesmo foi utilizado para treinar uma
Rede Neural MLP. No RapidMiner existe um operador chamado “AutoMLP”. Esse operador
é um algoritmo simples que utiliza também os conceitos de AG’s para encontrar os melhores
da MLP. As Figuras 5.12 e 5.13 mostram, respectivamente, a curva ROC e o gráfico da distância
Figura 5.12: Curva ROC do modelo SVM com pesos + MLP aplicado ao conjunto de
teste
Esse modelo foi o que conseguiu a maior AUC e a maior distância de KS. A Tabela 5.22
mostra a matriz de confusão quando esse modelo foi aplicado ao conjunto de teste da base de
87 5.1. EXPERIMENTOS
Figura 5.13: Gráfico com a distância de KS do modelo SVM com pesos + MLP aplicado
ao conjunto de teste
dados utilizada nesse trabalho. A Seção 5.2 mostrará a comparação dos resultados obtidos por
Tabela 5.22: Matriz de confusão para o modelo SVM com pesos + MLP.
Valor Correto
Anormal Normal
Valor Predito
Para realização dos testes, todos os modelos mostrados até então foram executados com
todo o banco de dados, utilizando a validação cruzada k-fold (k=10). Conforme explicado na
proporção de pacientes com cardiopatia e pacientes saudáveis. Para realizar essa comparação,
todo o conjunto de dados foi utilizado. Após 10 execuções é possível obter as métricas (sensi-
Antes de decidir qual teste estatístico será utilizado para realizar as comparações foi
importante para definir se serão utilizados Testes Paramétricos ou Testes Não-Paramétricos. Para
(DALLAL; WILKINSON, 1986). O software R Statistics foi utilizado para realização de todos os
testes estatísticos realizados nesse trabalho. Os testes de normalidade são avaliados considerando
as seguintes hipóteses:
(
Os resultados dos testes são avaliados através do p-value que corresponde ao menor nível
de significância que pode ser assumido para rejeitar a hipótese nula. A Tabela 5.23 mostra os
significância de 0,05.
Modelo
Teste de Normalidade
Analisando a Tabela 5.23 é possível observar as distribuições que não seguem a distribui-
ção normal são: sensibilidade do modelo SVM SMOTE 200%, a especificidade do modelo SVM
ou mais grupos diferem dos demais. Entretanto, a utilização da ANOVA parte da suposição
de que as observações seguem a distribuição normal. Visto nem todas as distribuições que
serão comparadas seguem a distribuição normal, os testes foram realizados utilizando o Teste de
Kruskal-Wallis.
nem sempre as amostras seguem a distribuição normal, quando contém outliers e quando o
utilizado para testar a hipótese de que três ou mais populações têm a mesma distribuição,
sendo uma das técnicas mais utilizadas para comparação de vários grupos (BIOESTATíSTICA -
A Tabela 5.24 mostra o resumo com a média e respectivo desvio padrão para cada
Tabela 5.24: Resumo das médias (d.p.) de cada métrica por classificador.
Modelo
SVM com pesos + MLP 50,6% 0,09 95,5% 0,02 85,3% 0,03
Gráfico de boxplot serve para uma avaliação rápida e bem resumida de uma amostra
e acurácia para cada modelo. Esses gráficos também constituem outra visão da Tabela 5.24 onde,
por exemplo, é possível observar que a média da sensibilidade do modelo SVM com pesos é
Visualmente, pelos gráficos de boxplot é possível observar qual modelo se sobressai para
cada métrica. Entretanto o teste de hipótese a seguir foi realizado para constatar essa diferença
Uma vez que a hipótese nula foi rejeitada, é provável haver uma diferença entre as médias
dos tratamentos e por isso faz-se necessário saber quais dentre as médias apresentam diferenças
significativas. Analisando a Tabela 5.24 juntamente com o gráfico da Figura 5.14 é possível
observar que a sensibilidade do modelo SVM com pesos tem uma média maior que os demais
modelos.
descobrir onde estão as diferenças. Para tanto, o teste de Bonferroni (ou post-hoc) é executado
para saber quais dentre os grupos as médias apresentam diferenças significativas. O teste de
Pela Tabela 5.25 é possível perceber que o modelo SVM com pesos é o grupo que
provocou a diferença no teste de hipótese. Para validar essa afirmação, o Teste de Kruskal-Wallis
foi realizado novamente, dessa vez sem a amostra desse modelo, comparando apenas as demais
amostras. O resultado do teste foi p-value = 0,8933 não rejeitando-se a hipótese nula e concluindo
que a sensibilidade do modelo SVM com pesos difere de todos os grupos.
Sensibilidade
D.T. D.T. S 100 D.T. S 150 D.T. S 200 D.T. S 50 SVM SVM S 100 SVM S 150 SVM S 200 SVM S 50 SVM W. + MLP
D.T. S 100 1
D.T. S 150 1 1
D.T. S 200 1 1 1
D.T. S 50 1 1 1 1
SVM 1 1 1 1 1
SVM S 100 1 1 1 1 1 1
SVM S 150 1 1 1 1 1 1 1
SVM S 200 1 1 1 1 1 1 1 1
SVM S 50 1 1 1 1 1 1 1 1 1
SVM W. + MLP 1 1 1 1 1 1 1 1 1 1
SVM com Pesos 0,024 0,024 0,024 0,012 0,024 0,012 0,024 0,024 0,023 0,012 0,037
Especificidade
D.T. D.T. S 100 D.T. S 150 D.T. S 200 D.T. S 50 SVM SVM S 100 SVM S 150 SVM S 200 SVM S 50 SVM W. + MLP
D.T. S 100 1
D.T. S 150 1 1
D.T. S 200 1 1 1
D.T. S 50 1 1 1 1
SVM 1 1 1 1 1
SVM S 100 1 1 1 1 1 1
SVM S 150 1 1 1 1 1 1 1
SVM S 200 1 1 1 1 1 1 1 1
SVM S 50 0,916 0,916 0,744 0,024 0,916 0,032 0,057 0,097 0,142
SVM Weighted 0,012 0,012 0,012 0,012 0,012 0,012 0,012 0,012 0,012 0,012 0,012
Acurácia
D.T. D.T. S 100 D.T. S 150 D.T. S 200 D.T. S 50 SVM SVM S 100 SVM S 150 SVM S 200 SVM S 50 SVM W. + MLP
D.T. S 100 1 0 0 0 0 0 0 0 0 0 0
D.T. S 150 1 1 0 0 0 0 0 0 0 0 0
D.T. S 200 1 1 1 0 0 0 0 0 0 0 0
D.T. S 50 1 1 1 1 0 0 0 0 0 0 0
SVM 1 1 1 1 1 0 0 0 0 0 0
SVM S 100 1 1 1 1 1 1 0 0 0 0 0
SVM S 150 1 1 1 1 1 1 1 0 0 0 0
SVM S 200 1 1 1 1 1 1 1 1 0 0 0
SVM S 50 0,916 0,916 0,744 0,024 0,916 0,032 0,057 0,097 0,142 0 0
SVM Weighted 0,012 0,012 0,012 0,012 0,012 0,012 0,012 0,012 0,012 0,012 0,012
testes os modelos que apresentaram diferenças (SVM com pesos e SVM SMOTE 50%), se-
0,63334, respectivamente. Esses valores não rejeitam a hipótese nula, considerando as amostras
estatisticamente iguais.
como o melhor modelo, tendo esse uma média acima dos demais.
Baseado nos experimentos, o modelo SVM com pesos mostrou uma melhor habilidade
resultado. Especialmente para área de medicina, a explicação de como uma decisão foi tomada é
importante para que um especialista do domínio possa avaliar e aceitar a utilização de técnicas
SVM, a abordagem utilizada em HE et al. (2006) foi aplicada ao problema dessa pesquisa. Nesse
trabalho, o autor propõe uma abordagem em que o SVM é combinado com a Árvore de Decisão
pré-processador para a Árvore de Decisão e é dividido em três etapas (HE et al., 2006):
1. O primeiro passo é o treinamento do SVM com o banco de dados original. Esse treinamento
irá gerar uma saída com as predições baseadas na generalização realizada pelo modelo.
corretas do modelo SVM. Esse novo conjunto de treinamento é utilizado para treinar a
árvore de decisão, sendo esse conjunto melhor do que o banco de dados original, uma vez
3. O terceiro passo é a utilização do novo conjunto de treinamento para treinar uma Árvore
O autor defende que a alta capacidade de generalização do modelo SVM ajuda na criação
finalmente utilizada para realizar a classificação. No artigo o autor não deixa claro a separação
dos resultados. Dessa forma, fica subentendido que os registros do conjunto participaram do
Como classificador final, é utilizada uma Árvore de Decisão treinada a partir do conjunto
Nessa pesquisa, o modelo SVM utilizado foi o SVM com pesos que, conforme relatado
na Seção 5.2, teve a melhor sensibilidade classificando o maior número de pacientes com
cardiopatias.
Diferentemente da ideia proposta pelo referido trabalho (HE et al., 2006), nessa pesquisa
a Árvore de Decisão não será utilizada como classificador final. Também não será utilizado
todo o conjunto de dados para realização da validação cruzada k-fold, mas apenas o conjunto de
treinamento.
1. O primeiro passo é o treinamento do SVM com pesos (melhor modelo encontrado conforme
mostrado na seção anterior) apenas com o conjunto de treinamento, sendo feita uma
validação cruzada k-fold (k=10). Para cada fold, as classificações corretas são separadas em
um conjunto a parte. Ao final das dez execuções, temos um novo conjunto de treinamento
As regras extraídas serviram apenas para explicar o modelo de decisão adotado pelo
SVM, dessa forma a classificação final não será efetuada pelo algoritmo PART.
uma classe específica. São de fácil compreensão para o especialista do domínio uma vez que
Tabela 5.28: Regras geradas a partir do conjunto criado com as classificações corretas da
1 SE peso <= 7,9 E imc_percentil 6= (Baixo Peso) ENTÃO ANORMAL 409 298 73% 3,22
MAL
ENTÃO ANORMAL
NORMAL
8 SE sc > 0,612 E sexo = MASCULINO ENTÃO NORMAL 914 858 94% 1,21
31 29 94% 1,21
MAL
52 44 85% 1,09
14 8 57% 0,74
encontrado nos pacientes da clínica. Na regra, são selecionados os pacientes com peso<=7,9
Percentil do IMC é diferente de Baixo Peso, entretanto esse atributo não é calculado para os
pacientes nessa faixa etária. O Percentil de IMC só é calculado para pacientes acima de dois
considerada a Frequência Cardíaca. Quando a FC (nesse caso FC > 106) eleva-se, aumentam as
Uma das restrições da regra N. 3 considera a FC > 111. Ao realizar uma pesquisa no
banco considerando as restrições dessa regra, foi identificado que 99% dos pacientes selecionados
por essa regra são Neonatos ou Lactentes. Isso fortalece à afirmação de que pacientes com maior
Etária Pré-Escolar é a “faixa do sopro inocente” onde os pacientes com essa idade irão iniciar as
atividades escolares e, por conta do sopro, são indicados à procurar um serviço especializado em
cardiologia.
dos mesmos, foi observado que estatisticamente o modelo SVM com pesos consegue obter a
melhor sensibilidade.
Através dos experimentos foi possível comprovar que apesar da utilização das técnicas
para tratar o problema do desbalanceamento da base de dados, SVM com pesos teve um melhor
desempenho, pelo menos nos dados utilizados nessa pesquisa. Por conta disso esse modelo foi
úteis para que os médicos pudessem entender como foi feita a classificação dos pacientes.
96
Conclusões
Esse trabalho teve como proposta a criação de um sistema de apoio a diagnóstico médico
registradas diariamente na área da saúde. Os dados foram cedidos pela UCMF (Unidade de
pacientes que procuram a clínica com o sintoma de Sopro Cardíaco, visto que os demais pacientes,
conforme já relatado na Seção 3.1.2.2, procuram a clínica com uma motivação que já caracteriza
clínica estudar esse universo de pacientes, uma vez que o Sopro Cardíaco não necessariamente
Desde a coleta dos dados até a aplicação dos modelos nos experimentos e avaliação dos
resultados, todo o trabalho foi conduzido seguindo as etapas do processo de mineração de dados
modelos mais utilizados na mineração de dados aplicada à medicina, principalmente por conta da
Entretanto, nesse trabalho, esse classificador não obteve bons resultados, principalmente no que
se refere a sensibilidade, ou seja, na classificação correta dos pacientes com cardiopatia. Outros
experimentos foram realizados utilizando o modelo de SVM com o objetivo de melhorar os
resultados.
Os modelos de SVM têm sido utilizados com bastante frequência em outras áreas, tendo
um bom poder de generalização. Entretanto, nesse trabalho, esse modelo não retornou resultados
expressivamente melhores que a Árvore de Decisão. Isso se deu por conta do problema de
97
ser sempre as melhores possíveis. Há a necessidade de que todos os pacientes doentes sejam
classificados como tal, assim como os saudáveis também sejam classificados como saudáveis.
Como a base de dados utilizada no experimento estava desbalanceada, o modelo tende a classificar
mais pacientes como saudáveis, fazendo com que a sensibilidade seja menor e a especificidade
seja maior.
Para tentar contornar esse problema, técnicas de balanceamento foram utilizadas, tais
como: SMOTE e SVM com pesos. Apesar do SMOTE ter apresentado bons resultados em bases
desbalanceadas (CHAWLA et al., 2002), o modelo de SVM com pesos foi o que obteve a melhor
sensibilidade. Porém, esses modelos considerados como caixa-preta não conseguem expressar
o conhecimento de modo que um especialista no domínio possa entender. Dessa forma, uma
abordagem de extração de regras do SVM (HE et al., 2006) foi utilizada para tornar o modelo de
Algumas regras foram extraídas e validadas pelos médicos que aceitaram e consideraram
que o sistema pode ser utilizado na recepção da clínica tentando filtrar os pacientes que chegam
com sopro cardíaco, agilizando o atendimento dos mesmos quando o sistema especialista indicar
alguma anormalidade.
muitas vezes os primeiros trabalham com métodos muito sofisticados enquanto os clínicos
que podem ser coletados da mãe por uma secretária no setor de marcação de uma clínica ou
hospital, pode se transformar numa ferramenta importante para agilizar a avaliação de pacientes
de risco, semelhante aos scores utilizados em serviços de emergência (faixas verdes, amarelas e
realiza uma pré-consulta e coloca uma "pulseira colorida"sinalizando que o paciente tem pouca
(verde) ou muita (amarela) urgência ou se é uma emergência (vermelho). Este sistema vem sendo
adotado em muitos serviços na maioria dos países de mundo e tem se demonstrado eficiente
para ordenar o fluxo dos pacientes. Porém, esse atendimento é realizado de forma presencial (na
Na marcação de uma consulta para uma criança com suspeita de cardiopatia, seja por
um sopro ou outro sintoma, pode-se estar diante de uma criança completamente normal ou de
um portador de doença cardíaca grave. As listas de espera para marcações de consulta são, por
vezes, muito longas, principalmente para serviços especializado e com um número limitado de
profissionais como é o caso da cardiologia pediátrica. A doença cardíaca, por sua vez, pode ser
muito grave e o paciente se encontrar a pouco tempo de um desfecho grave como uma crise de
98
o quadro clínico destas crianças. Quando um pediatra ausculta um sopro num paciente e o
encaminha para realizar uma consulta com o cardiologista, na maioria das vezes, o próprio
pediatra não está certo do nível de risco do paciente. A mãe, por sua vez, menos ainda e o
primeiro contato com a clinica é geralmente realizado através do telefone com uma secretaria
que agenda a consulta ou o exame de acordo com a disponibilidade do serviço, também sem
de risco dos pacientes a partir de dados simples traz uma grande expectativa para os pacientes.
apoio à diagnóstico na UCMF baseado nos resultados dessa pesquisa e considerando as seguintes
restrições:
de informação utilizado atualmente na clínica. Isso evitará algum tipo de resistência por
Apesar dos resultados obtidos pelo modelo proposto (SVM com pesos + MLP) terem sido
satisfatórios quando aplicado ao conjunto de teste, esse modelo não teve um bom desempenho
quando aplicado em todo conjunto de dados utilizando a validação cruzada k-fold. Apesar disso,
99 6.1. CONTRIBUIÇÕES
6.1 Contribuições
• Conforme já relatado na Seção 4.1.3.2, a proposta feita em FARQUAD; BOSE (2012) não
foi bem sucedida nas bases de dados médicas (diabetes, câncer e cardiologia pediátrica).
Ficou claro que o simples uso do modelo de SVM, através da modificação do parâmetro C,
não funciona.
• Neste trabalho foi proposto uma nova técnica de balanceamento da base de dados utilizando
SVM com pesos como pré-processador e MLP como classificador final. Os resultados dos
os pesos do modelo.
• A análise estatística feita nos atributos dos pacientes foi de grande valia para os médicos
que, através dos gráficos gerados, puderam confirmar o comportamento desses atributos
técnicas aqui utilizadas, criando um projeto piloto na UCMF para avaliar na prática a
Um trabalho futuro seria estender o estudo realizado para outros tipos de exames, tais
como eletrocardiograma. Esse exame é muito útil para identificar problemas como ataque do
coração, falta de fluxo sanguíneo no músculo cardíaco, batimento irregular do coração e falta de
A oximetria é um exame indolor feito por um aparelho colocado nos braços e pernas do recém-
nascido. A partir dele, é possível detectar problemas cardíacos graves. Um trabalho futuro
seria estender a classificação de crianças cardiopatas para tal projeto de modo a tentar entender
gestação da mãe.
100
Referências
ALLADI, S. M. et al. Bioinformation Colon cancer prediction with genetic profiles using
classification using reduced features of heart rate variability signal. Artificial intelligence in
medicine, [S.l.], v.44, n.1, p.51–64, Sept. 2008.
ATIK, E. Doença de Kawasaki: regressão de aneurismas gigantes das artérias coronárias com
AVCI, E. A new intelligent diagnosis system for the heart valve diseases by using genetic-SVM
classifier. Expert Systems with Applications, [S.l.], v.36, n.7, p.10618–10626, Sept. 2009.
BEN-HUR, A.; WESTON, J. A User’s Guide to Support Vector Machines. , [S.l.], p.1–18, 2010.
BOSER, B. E.; GUYON, I. M.; VAPNIK, V. N. A training algorithm for optimal margin
p.321–357, 2002.
CORTES, C.; VAPNIK, V. Support-vector networks. Machine Learning, [S.l.], v.20, n.3,
other kernel-based learning methods. New York, NY, USA: Cambridge University Press, 2000.
101 REFERÊNCIAS
DEGROOT, M. H. Probability and Statistics. New York, NY, USA: Addison Wesley, 2002.
DELEN, D.; WALKER, G.; KADAM, A. Predicting breast cancer survivability: a comparison
of three data mining methods. Artificial intelligence in medicine, [S.l.], v.34, n.2, p.113–27,
June 2005.
DELGAARD, P. Introductory statistcs with R. New York, NY, USA: Springer-Velarg New
York, 2002.
consumption in tropical region. Energy and Buildings, [S.l.], v.37, p.545–553, 2005.
DORFFNER, G.; PORENTA, G. On using feedforward neural networks for clinical diagnostic
tasks. Artificial Intelligence in Medicine, [S.l.], v.6, n.5, p.417–435, Oct. 1994.
DU, S.-x.; CHEN, S.-t. Weighted support vector machine for classification. 2005 IEEE
International Conference on Systems, Man and Cybernetics, [S.l.], v.4, p.3866–3871, 2005.
DUBOIS D, D. E. A formula to estimate the approximate surface area if height and weight be
EXARCHOS, T. P. et al. A methodology for the automated creation of fuzzy expert systems for
ischaemic and arrhythmic beat classification based on a set of rules obtained by a decision tree.
FARQUAD, M.; BOSE, I. Preprocessing unbalanced data using support vector machine.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. The KDD process for extracting useful
knowledge from volumes of data. Communications of the ACM, [S.l.], v.39, n.11, p.27–34,
Nov. 1996.
FRANK, E.; WITTEN, I. H. Generating Accurate Rule Sets Without Global Optimization. ,
[S.l.], 1990.
GAO, M. et al. A combined SMOTE and PSO based RBF classifier for two-class imbalanced
GIULIANO, I. A vida como um bem comum. [S.l.]: Revista da Associação Médica Brasileira,
2008.
1st.ed. Boston, MA, USA: Addison-Wesley Longman Publishing Co., Inc., 1989.
102 REFERÊNCIAS
GUYON, I. et al. Gene Selection for Cancer Classification using Support Vector Machines.
Mach. Learn., Hingham, MA, USA, v.46, n.1-3, p.389–422, Mar. 2002.
HALL, M. et al. The WEKA Data Mining Software: an update. SIGKDD Explor. Newsl., New
HAMMER B., . G. K. A note on the universal approx- imation capability of support vector
HE, J. et al. Rule generation for protein secondary structure prediction with support vector
machines and decision tree. IEEE transactions on nanobioscience, [S.l.], v.5, n.1, p.46–53,
Mar. 2006.
HEALTH STATISTCS, N. C. for. Clinical Growth Charts. [S.l.]: Center for Disease Control
Jan. 2004.
HUANG, Z. et al. Credit rating analysis with support vector machines and neural networks: a
market comparative study. Decis. Support Syst., Amsterdam, The Netherlands, The
incremental exercise in 20- to 70-yr-old men. Medicine Science in Sports and Exercise, [S.l.],
KANTARDZIC, M. Data Mining: concepts, models, methods, and algorithms. New York, NY,
p.87–96, 2003.
echo proton MRS signals. Artificial Intelligence in Medicine, [S.l.], v.31, p.73–89, 2004.
e na Região Metropolitana de São Paulo: atualização 2011. [S.l.]: SciELO Brasil, 2011.
103 REFERÊNCIAS
comparison of the accuracy, sensitivity and specificity of linear discriminant analysis, logistic
regression, neural networks, support vector machines, classification trees and random forests.
MCNICHOLAS, P.; MURPHY, T.; OREGAN, M. Standardising the lift of an association rule.
Computational Statistics & Data Analysis, [S.l.], v.52, n.10, p.4712–4721, June 2008.
Prediction. 2008 20th IEEE International Conference on Tools with Artificial Intelligence,
MOURA E.; CASTRO, C. Perfil lipídico em escolares de Campinas. Rev Saúde, [S.l.], 2000.
under imprecise class and cost distributions. In: IN PROCEEDINGS OF THE THIRD
REIN AJ OMOKHODION SI, N. A. Significance of a cardiac murmur as the sole clinical sign
hemodynamic features using logistic regression and decision tree algorithms. Artificial
SAPANKEVYCH, N.; SANKAR, R. Time Series Prediction Using Support Vector Machines: a
survey. Computational Intelligence Magazine, IEEE, [S.l.], v.4, n.2, p.24 –38, may 2009.
SCHOLKOPF, B.; TSUDA, K.; VERT, J. Kernel Methods in Computational Biology. [S.l.]:
SCHWERTMAN, N. C.; OWENS, M. A.; ADNAN, R. A simple more general boxplot method
for identifying outliers. Computational Statistics & Data Analysis, [S.l.], v.47, n.1,
Discovery and Data Mining process model. Expert Systems with Applications, [S.l.], v.39,
SINGER-VINE, J. Beyond BMI: why doctors won’t stop using an outdated measure for obesity.
104 REFERÊNCIAS
SU, C.-t.; YANG, C.-h. Feature selection for the SVM: an application to hypertension diagnosis.
p.1285–1293, 1988.
TANDON A.; SENGUPTA, S. Risk Factors for Congenital Heart Disease CHD in Vellore, India.
independent samples. Computer methods and programs in biomedicine, [S.l.], v.23, n.1,
VAN HULSE, J. Data quality in data mining and machine learning. 2007. Tese (Doutorado
AAI3253566.
VAPNIK, V. N. The nature of statistical learning theory. New York, NY, USA:
Recognition. 1999.
WIRTH, R.; HIPP, J. CRISP-DM : towards a standard process model for data mining. , [S.l.],
n.24959, 2000.
WU, X. et al. Top 10 algorithms in data mining. Knowl. Inf. Syst., New York, NY, USA, v.14,
toxicity mecha- nisms using support vector machines and radial basis function neural networks.
YEH, D.-Y.; CHENG, C.-H.; CHEN, Y.-W. A predictive model for cerebrovascular disease
using data mining. Expert Systems with Applications, [S.l.], v.38, n.7, p.8970–8977,
July 2011.
Apêndice
106
Percentil IMC