Escolar Documentos
Profissional Documentos
Cultura Documentos
LONDRINA–PR
2013
ANDRÉ AUGUSTO DEL GROSSI
LONDRINA–PR
2013
André Augusto Del Grossi
Comparação e avaliação de técnicas de aprendizado de máquina para indicação
de biópsia para o câncer de próstata/ André Augusto Del Grossi. – Londrina–PR,
2013-
63 p. : il. (algumas color.) ; 30 cm.
CDU 02:141:005.7
ANDRÉ AUGUSTO DEL GROSSI
BANCA EXAMINADORA
LONDRINA–PR
2013
Dedico este trabalho aos meus familiares e ao meu
grande amigo Vínicius Quaglio que me acompanhou
durante o ano nesta jornada.
AGRADECIMENTOS
Agradeço primeiramente aos meus pais Meire e Osvaldo, pelo apoio, suporte e
amor incondicional especialmente durante a execução deste trabalho.
À minha irmã Ana Paula, pela energia positiva e confortante que a sua companhia
me fornece, em particular neste ano, repleto de conquistas e realizações para ambos.
E por fim a todos os meus amigos, que acompanharam de alguma forma o sucesso
e as dificuldades que enfrentei durante o ano.
Todos os homens sonham, mas não da mesma forma.
Aqueles que sonham durante a noite, nos recessos
empoeirados da mente, acordam na manhã seguinte
e descobrem que foi algo efêmero, passageiro;
mas os sonhadores do dia são homens perigosos,
porque ao criar seus sonhos com os olhos abertos,
podem torná-los reais.
(T. E. Lawrence)
DEL GROSSI, A. A.. Comparação e avaliação de técnicas de aprendi-
zado de máquina para indicação de biópsia para o câncer de próstata.
63 p. Trabalho de Conclusão de Curso (Graduação). Bacharelado em Ciência
da Computação – Universidade Estadual de Londrina, 2013.
RESUMO
ABSTRACT
FN Falsos negativos
FP Falsos positivos
VN Verdadeiros negativos
VP Verdadeiros positivos
∈ Pertence
1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2 Fundamentação Teórica . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1 Câncer de próstata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 Aprendizado de máquina . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.1 Regressão logística . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.2 Redes neurais artificiais . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.3 Árvores de decisão . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2.4 Avaliação de classificadores . . . . . . . . . . . . . . . . . . . . . . 37
2.3 Trabalhos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3 Materiais e métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1 O ambiente Weka . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2 Conjunto de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3 Experimentos e testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.1 Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2 Redes Neurais Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.1 MultiLayerPerceptron . . . . . . . . . . . . . . . . . . . . . . . . 50
4.2.2 MLPClassifier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.3 Árvores de Decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3.1 ADTree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.3.2 PART . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.4 Comparação de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
25
1 INTRODUÇÃO
1
Diagrama que representa as relações entre valores de uma ou mais variáveis [4] de forma que uma
linha reta tocando as escalas interceptem nos valores apropriados de cada variável [5].
2
Classificação que avalia o prognóstico do tumor prostático através do procedimento de biópsia; quanto
maior a pontuação, mais acentuada é a agressividade do tumor.
26 Capítulo 1. Introdução
2 FUNDAMENTAÇÃO TEÓRICA
Para uma melhor compreensão do campo de estudo, são apresentados nas seções
a seguir conceitos pertinentes ao problema proposto. Na seção 2.1, é descrita a funda-
mentação médica a respeito ao câncer de próstata, incluindo características da doença,
dificuldades no diagnóstico e tratamentos mais comuns. Em seguida, a área de aprendi-
zado de máquina é introduzida englobando conceitos básicos e técnicas computacionais
pertinentes ao campo de estudo. Por fim, é efetuado um levantamento e breve análise de
trabalhos relacionados acerca do tema com ênfase às técnicas descritas na seção 2.2.
1
Remoção cirúrgica parcial ou total da glándula prostática.
2
Forma de radioterapia onde a fonte de radiação é posicionada internamente ou próxima à região
necessitada de tratamento.
2.2. Aprendizado de máquina 29
𝑒𝑡 1
𝑓 (𝑡) = = f : R ↦→ [0, 1] (2.1)
𝑡
𝑒 +1 1 + 𝑒−𝑡
0.5
0
−6 −4 −2 0 2 4 6
⎧
⎨ 𝑝𝑖 se 𝑦𝑖 = 1
𝑃𝑟 (𝑌𝑖 |𝑥1,𝑖 , 𝑥2,𝑖 , . . . , 𝑥𝑚,𝑖 ) = 𝑝𝑦𝑖 𝑖 (1 − 𝑝𝑖 )1−𝑦𝑖 = (2.2)
⎩ 1 − 𝑝 se 𝑦 = 0
𝑖 𝑖
𝑔(𝑖) = 𝛽 · 𝑋𝑖 (2.4)
No entanto, o valor calculado por g(i) pode assumir valores arbitrários no con-
junto dos números reais, dadas as entradas 𝑥1,𝑖 , 𝑥2,𝑖 , . . . , 𝑥𝑀,𝑖 fornecidas. Para contornar
este problema, a combinação linear de coeficientes e variáveis explanatórias é fornecida à
função logística (eq. 2.1) como parâmetro. A probabilidade de sucesso 𝜋𝑖 é equivalente a
composição 𝑓 ∘ 𝑔, dada na eq. 2.5.
𝜋𝑖 = 𝑓 (𝑔(𝑖))
1
=
1 + 𝑒−𝑔(𝑖)
1
= (2.5)
1 + 𝑒−(𝛽·𝑋𝑖 )
𝑁
∏︁
𝑃 (𝜋𝑖 |𝑋, 𝛽) ≈ 𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝑦𝑖 |𝜋𝑖 (𝛽 · 𝑋𝑖 ))
𝑖=1
𝑁
𝜋𝑖𝑦𝑖 (1 − 𝜋𝑖 )1−𝑦𝑖
∏︁
=
𝑖=1
𝑁 [︂ ]︂𝑦𝑖 [︂ ]︂1−𝑦𝑖
∏︁ 1 1
= 1− (2.7)
𝑖=1 1 + 𝑒−(𝛽·𝑋𝑖 ) 1 + 𝑒−(𝛽·𝑋𝑖 )
√︁
𝑁ℎ = 𝑁𝑖 × 𝑁𝑜 (2.9)
A figura 2 ilustra uma rede neural simples feedforward 3 – os neurônios são repre-
sentados através de círculos, cada um conectado aos neurônios da camada subsequente,
exceto pela camada final. As arestas representam as conexões entre neurônios e possuem
3
Rede neural artificial onde a direção do fluxo de dados é única, i.e. não existem ciclos.
2.2. Aprendizado de máquina 33
Oculta
Entrada
Saída
Figura 2: Visão simplificada das camadas uma rede neural artificial multi-layer perceptron
O funcionamento de uma rede neural artificial dá-se por meio de dois processos:
treinamento e teste. O treinamento é realizado para ‘ensinar’a rede, com o intuito de
obter os valores de saída corretos de acordo com as variáveis de entrada. A técnica de
treinamento mais simples, o backpropagation, emprega o cálculo da variação do erro; este
é então propagado na direção oposta da computação dos dados, alterando os pesos das
conexões de forma que um novo valor de saída seja ainda mais próximo ao valor real [35].
O treinamento é encerrado assim que a taxa de erro cai abaixo do valor de tolerância
especificado. A etapa de teste avalia o desempenho de classificação da rede: utilizando um
conjunto de dados distinto, calculam-se os valores de saída sem que o erro obtido ao final
seja propagado– esta taxa de erro representa o quão próximo os valores reais de saída se
situam comparados aos valores calculados pela rede neural [36].
Existem, no entanto, algumas complicações presentes nas fases de treinamento
e teste de uma rede neural artificial. O overfitting ocorre quando uma rede é treinada
demasiadamente, gerando valores especializados somente no conjunto de dados do trei-
namento, assim quaisquer outras entradas desconhecidas à rede apresentam taxa de erro
maior que a tolerância estabelecida [31]. Outro ponto a ser observado é a interpretação
do erro obtido nas saídas da rede; geralmente calcula-se uma estimativa média do erro
sobre todas os valores processados. Caso as saídas sejam discretas ou até mesmo binárias,
é necessário definir critérios adicionais para avaliação do erro. Em casos onde o conjunto
de dados gera mais de uma saída, como por exemplo na Figura 2 em que a rede neural
possui duas saídas para três valores de entrada, calcula-se a média do erro sobre todas os
valores de saída obtidos e subsequentemente a média sobre todos os registros processados.
A forma de retropropagação do erro em uma rede neural é determinado pelo algo-
ritmo utilizado; a função ilustrada na figura 3, descrita por Russell e Norvig [31] efetua
34 Capítulo 2. Fundamentação Teórica
uma otimização por meio de descida do gradiente, técnica que possui como objetivo mi-
nimizar a soma dos quadrados dos erros utilizando a derivada de primeira ordem. A idéia
por trás do algoritmo é dividir o erro calculado e distribuí-los de acordo com o peso das
conexões aos neurônios das camadas precedentes. A atualização dos pesos é efetuada as-
sim que o gradiente de erro é obtido entre os neurônios que compartilham a conexão.
[39]. Redes neurais RBF são utilizadas para problemas de grande número de dimensões,
e mesclam conceitos de máquinas de vetores suporte por meio da utilização de funções
que constituem uma base arbitrária para os vetores de entrada assim que transferidos à
camada oculta [40]. Redes RBF não apresentam mínimos locais pois os únicos parâme-
tros ajustados são as conexões do mapeamento entre a camada oculta e camada de saída,
porém este tipo de rede necessita que o conjunto de entradas esteja contido no espaço
definido pelas funções de base radial.
Idade
<= 30 > 40
31 - 40
Estudante? Avaliação
Sim de crédito?
Não Sim
Excelente Razoável
Definição 2. Seja 𝑝𝑖 , dada pela equação 2.10 a probabilidade que uma tupla do conjunto
D com m valores possíveis, possui de pertencer a classe 𝐶𝑖 .
𝐶𝑖,𝐷
𝑝𝑖 = (2.10)
𝐷
A entropia do conjunto D é determinada na equação 2.11 e representa a informação
esperada para classificar uma tupla do conjunto.
∑︁
𝐼𝑛𝑓 𝑜(𝐷) = −𝑝𝑖 𝑙𝑜𝑔2 𝑝𝑖 (2.11)
𝑖
𝑣
∑︁ 𝐷𝑗
𝐼𝑛𝑓 𝑜𝐴 (𝐷) = × 𝐼(𝐷𝑗 ) (2.12)
𝑗=1 𝐷
𝑣
𝐷𝑗 𝐷𝑗
∑︁ (︂ )︂
𝐼𝑛𝑓 𝑜𝐷𝑖𝑣𝑖𝑠𝑎𝑜𝐴 (𝐷) = − × 𝑙𝑜𝑔2 (2.14)
𝑗=1 𝐷 𝐷
Ao passo que algoritmos como ID3 [44] e C4.5 [45] utilizam os indicadores de
ganho de informação e proporção de ganho para a construção de árvores de decisão,
outras técnicas como por exemplo CART [46] e IBM IntelligentMiner [47] empregam o
uso do coeficiente Gini, outra métrica popular para construção recursiva de árvores de
decisão.
Acurácia/Exatidão
Capacidade do modelo em determinar rótulos de classe corretos para instâncias novas ou
desconhecidas.
Rapidez
Custos computacionais envolvidos na elaboração e utilização do classificador.
Robustez
Capacidade de classificar instâncias corretamente com dados omissos ou ruído.
Escalabilidade
Construção eficiente de um classificador utilizando um maior volume de instâncias.
Interpretabilidade
Nível de compreensão e abstração provido pelo modelo.
Simplicidade
Grau de complexidade da estrutura construída (ex. tamanho de uma árvore de decisão,
38 Capítulo 2. Fundamentação Teórica
𝑛𝑐
𝜂= (2.16a)
𝑛𝑡
𝑛𝑡 − 𝑛𝑐
𝜀= =1−𝜂 (2.16b)
𝑛𝑡
Além destas medidas, é possível elaborar uma matriz de confusão, fornecendo ainda
mais informações sobre a acurácia do modelo. Em uma matriz de confusão, o eixo hori-
zontal determina os valores de classe corretos enquanto o eixo vertical denota os valores
de classe atribuídos pelo classificador. Desta forma, as quantidades de instâncias classi-
ficadas corretamente são dispostas na diagonal principal, enquanto os outros elementos
representam os exemplos classificados incorretamente. A tabela 1 exemplifica resultados
de classificação para dois valores distintos de classe.
𝑐1 𝑐2
′
𝑐1 23 10
𝑐2 ′ 7 68
𝑉𝑃 23
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 = = = 0.7666 (2.17a)
𝑉 𝑃 + 𝐹𝑁 23 + 7
2.2. Aprendizado de máquina 39
𝑉𝑁 68
𝐸𝑠𝑝𝑒𝑐𝑖𝑓 𝑖𝑐𝑖𝑑𝑎𝑑𝑒 = = = 0.8717 (2.17b)
𝑉 𝑁 + 𝐹𝑃 68 + 10
𝐹𝑃 10
𝐹 𝑎𝑙𝑙 − 𝑜𝑢𝑡 = = = 0.1282 (2.17c)
𝐹𝑃 + 𝑉 𝑁 10 + 68
𝑉𝑃 +𝑉𝑁 23 + 68
𝐴𝑐𝑢𝑟á𝑐𝑖𝑎 = = = 0.8425 (2.17d)
𝑉 𝑃 + 𝑉 𝑁 + 𝐹𝑃 + 𝐹𝑁 23 + 68 + 10 + 7
É possível observar que o teste possui maior exatidão para as instâncias com
classe negativa, uma vez que a especificidade é maior que a sensibilidade. Como ilustrado
na tabela 2, a taxa de verdadeiros positivos determina o quão sensível o modelo é para
instâncias de classe positiva ao passo que a taxa de verdadeiros negativos determina o quão
específico o modelo é para a classificação de instâncias negativas [49]. Um classificador
perfeito possui valores de sensibilidade e especificidade iguais a 1: sendo assim, o índice
de acurácia é diretamente proporcional à alterações nas métricas de verdadeiros positivos
e negativos.
Uma técnica amplamente adotada para avaliar o valor que maximiza a acurácia
do modelo é a construção de uma curva de limiar, também denominada de curva ROC
(receiver operating characteristic), a qual foi inicialmente desenvolvida para detecção de
sinais de radares durante a segunda guerra mundial. A figura 5 ilustra um exemplo desta
ferramenta. Uma curva ROC busca estabelecer uma comparação entre modelos de classi-
ficação avaliando diferentes pontos de limiar para discriminação; enquanto o eixo vertical
do gráfico indica a sensibilidade (taxa de verdadeiros positivos), o eixo horizontal indica a
taxa de falsos positivos (1 - especificidade), onde cada ponto no espaço representa os res-
pectivos valores obtidos de uma matriz de confusão. A diagonal que corta o espaço ROC
40 Capítulo 2. Fundamentação Teórica
ria
leató
0.5 oa
cisã
De
0
0 0.5 1
Taxa de falsos positivos (1 - especificidade)
O cálculo da área sob a curva obtida, também conhecida como AUC (area under
curve) é uma forma de agregação de uma curva ROC em um valor escalar. Dado que
o espaço ROC é limitado entre 0 e 1 em ambos os eixos, os valores da área calculada
se mantém neste alcance. A área abaixo da linha de zero discriminação é 0.5, portanto
espera-se que qualquer classificador possua uma área acima deste limiar. A métrica de
área sob a curva pode ser interpretada como a probabilidade a que um modelo possui
de discriminar um exemplo positivo escolhido aleatoriamente de um exemplo positivo
escolhido aleatoriamente [51]. O valor da área sob a curva pode ser calculado por meio da
média de aproximações trapezoidais.
Estima-se que mais de 500 publicações acadêmicas em periódicos médicos são geradas a
cada ano [52]. No entanto, ensaios clínicos são publicados com menor frequência, assim
como estudos que avaliam o desempenho de redes neurais em contraste com métodos
estatísticos [53].
Entre estes estudos, destaca-se Cinar et al. [9], que propuseram um comparativo
entre redes neurais artificiais e máquinas de vetor de suporte (SVM) utilizando dados
de 300 pacientes do Departamento de Urologia do Hospital de Bornova Sifa na Turquia.
Atributos utilizados incluiram peso, altura, índice de massa corpórea, valores de PSA e
PSA livre, volume prostático, densidade PSA/volume, fumante ou não-fumante, pressão
arterial (sistólica e diastólica), batimento cardíaco e pontuação de Gleason. Os autores
atingiram através da empregação de três técnicas de treinamento em redes neurais ar-
tificiais, uma taxa de acurácia média de 79%; com o uso de funções de núcleo linear,
polinomial e gaussiana, obtiveram percentuais de classificação 77.2%, 81.1% e 78.9%,
respectivamente.
Pesquisas mais recentes, como a de Regnier-Coudert et al. [54], apresentam uma
análise detalhada do uso de técnicas estatísticas, redes neurais artificiais e redes bayesia-
nas. Foram utilizados dados clínicos padronizados pela Associação Britância de Cirurgiões
Urologistas (BAUS) contendo os atributos PSA, pontuação de Gleason e estágio clínico
para inferir a variável de estado patológico; o conjunto inicial continha dados de mais de
7500 pacientes obtidos entre 1999 e 2008, porém apenas 1701 registros foram selecionados
devido à grande quantidade de atributos omissos e dados errôneos no conjunto original.
Um aspecto notável do estudo foi a avaliação do desempenho das tabelas de Partin, que
têm como base pacientes americanos, em indivíduos britânicos; concluiu-se que as dife-
renças demográficas comprometem o desempenho da regressão logística. A eficácia no uso
de tabelas de Partin mostrou-se baixa, por volta de 61%. A introdução de redes bayesia-
nas e redes neurais artificiais mostrou um desempenho de classificação próximo a 67% e
65% respectivamente. Lisboa et al. [55] sugerem a incorporação de técnicas de validação
temporal e externa para avaliar a eficiência dos métodos. Estas variações são baseadas
na clássica validação cruzada, onde os dados são divididos em conjuntos de treinamento
e teste e utilizados distintamente.
O estudo conduzido por Lawrentschuk et al. [56] utilizando uma amostra de 3025
pacientes da Rede de Saúde Universitária (UHN) em Toronto, Canadá, e contendo atri-
butos idade, exame de toque, ultrassom transretal e volume prostático apresenta uma
comparação entre métodos de regressão logística e redes neurais artificiais para classificar
os pacientes em quatro categorias de resultado de biópsia. Os resultados obtidos não foram
satisfatórios: ao passo que os tumores benignos foram identificados com eficácia média de
87%, o câncer de próstata significativo (CSPC) e não-significativo (NSPC) foram classifi-
cados com taxas de 22% e 2% respectivamente. O conjunto inicial de dados continha 7758
42 Capítulo 2. Fundamentação Teórica
registros, onde mais da metade foi descartado devido a falta de integridade. Marin et al.
[57] propuseram através de sua pesquisa meios para reduzir os problemas gerados pela
falta de integridade em um conjunto de dados contendo 950 amostras de testes para di-
agnóstico de câncer de próstata. Após efetuarem a discretização de variáveis linguísticas,
percebeu-se que somente 44 dos 950 registros possuíam todos os atributos com valores
não-nulos. Os autores descrevem então técnicas para corrigir as amostras restantes, como
por exemplo, preenchimento de campos vazios com valor médio do atributo, normaliza-
ção por meio de histograma de frequência, remoção de entradas com valores altamente
discriminantes e seleção de atributos relevantes.
Garzotto et al. [58] conduziram e compararam resultados de testes com árvores
de classificação e regressão (CART) e regressão logística, obtendo precisão similar com
áreas sob a curva ROC iguais a 0.74 e 0.72 respectivamente. O conjunto de dados foi
composto de 1433 pacientes com PSA inferior a 10ng/mL e incluiu fatores como idade,
região demográfica, histórico familiar e dados laboratoriais como exame de toque, vasec-
tomia, densidade de PSA e pontuação Gleason; a árvore de decisão obtida classificou as
instâncias com valores de sensibilidade e especificidade 95.5% e 37.9% respectivamente.
A pesquisa conduzida por Gülkesen et al. [59] baseou-se no algoritmo QUEST (Quick,
Unbiased and Efficient Statistical Tree), uma variação do algortimo CART onde os cri-
térios para seleção de atributos são mais maleáveis e dados omissos são tratados com
imputação. Com dados de 1830 pacientes coletados entre 2001 e 2007, a análise por meio
de árvores de decisão resultou em um modelo com sensibilidade e especificidade iguais a
0.99 e 0.97 respectivamente, estimando que por volta de 13% dos casos analisados foram
poupados do procedimento de biópsia. No entanto, verificou-se que os resultados obtidos
possuiam acurácia similar ao modelo construído utilizando regressão logística, com uma
AUC levemente maior.
43
3 MATERIAIS E MÉTODOS
se 45 ≤ idade ≤ 55 então
se PSA Total ≤ 2,5 então
Ajuste = 1
senão
Ajuste = 0
senão se 55 < idade ≤ 65 então
se PSA Total ≤ 3,5 então
Ajuste = 1
senão
Ajuste = 0
senão se 65 < idade ≤ 75 então
se PSA Total ≤ 4,5 então
Ajuste = 1
senão
Ajuste = 0
senão se idade > 75 então
se PSA Total ≤ 6,5 então
Ajuste = 1
senão
Ajuste = 0
Figura 8: Forma de cálculo para o obtenção do valor do atributo Ajuste
A partir dos 500 casos, estima-se que aproximadamente 40% dos pacientes não fo-
ram submetidos a todos os exames, especialmente ao indicador de PSA livre que apresenta
a maior quantidade de valores omissos, devido ao fato que foram encaminhados para a
46 Capítulo 3. Materiais e métodos
O conjunto contendo os 500 pacientes será utilizado como padrão, porém técnicas
para preenchimento dos valores nulos serão necessários. O subconjunto contendo somente
as instâncias com valores não nulos inclui 305 casos, o qual também será aplicado aos testes
com o objetivo de verificar o impacto da quantidade de exemplos sob o desempenho geral
dos algoritmos.
Parâmetro Valor
Número máximo de iterações −1 (ilimitado)
Cume (ridge) 1.0 × 10−8
MultiLayerPerceptron
Algoritmo padrão que utiliza backpropagation para atualização dos pesos e possui como
parâmetros taxa de aprendizado, momento, declínio (decay) e opções para normalização
e categorização de atributos numéricos (tabela 6).
MLPClassifier
Rede neural artificial baseada no método Quasi-Newton BFGS (Broyden-Fletcher-Goldfarb-
Shanno) para a minimização da soma dos quadrados do erro, juntamente com o parâmetro
de ‘cume’ para penalizar o cálculo dos pesos (tabela 7).
Parâmetro Valor
Declínio (decay) Falso
Número de camadas ocultas (hiddenLayers) 1a3
Taxa de aprendizado (learningRate) 0.08 a 0.4
Momento (momentum) 0.1 a 0.3
Número de épocas (trainingTime) 500 a 750
Parâmetro Valor
Neurônios na camada oculta (numFunctions) 2a5
Cume (ridge) 0.01 a 0.1
Tolerância do erro (delta) 1.0 × 10−10 a 1.0 × 10−6
ADTree
Algoritmo proposto por Freund e Mason através da aplicação de técnicas de boosting1
em árvores de decisão para a obtenção de regras de classificação mais compactas e de
1
Combinação de classificadores gerados por um mesmo algoritmo de aprendizado no qual o funciona-
mento é ajustado de acordo com os erros cometidos pelo classificador anterior [64]
48 Capítulo 3. Materiais e métodos
Parâmetro Valor
Número de iterações (numOfBoostingIterations) 3 a 10
Caminho de busca (searchPath) Melhor caminho z-pure
Parâmetro Valor
Fator de confiança (confidenceFactor) 0.05 a 0.4
Mínimo de instâncias por regra (minNumObj) 2a7
Quantidade de dados para poda (numFolds) 3a8
Não efetuar poda (unpruned) Falso
Adotou-se por padrão a técnica de validação cruzada com k=10, no qual o con-
junto inicial de dados é separado em 10 partes iguais. Para a construção do modelo, são
realizadas dez iterações onde uma das partes é tomada como o conjunto de teste e as
restantes para o treinamento, assim cada parte é utilizada como teste uma vez. Ao final
das iterações, calcula-se a média das estatísticas e métricas de desempenho para todas as
dez iterações, obtendo um valor geral para cada indicador.
49
4 RESULTADOS
Uma vez definidos os valores dos parâmetros utilizados para cada algoritmo des-
crito na seção 3.3, modelos de classificação foram construídos utilizando o conjunto de
dados fornecido pelo Dr. Horácio A. Moreira. Os classificadores descritos neste capítulo
refletem o maior desempenho obtido resultantes de testes efetuados por meio da variação
dos parâmetros de configuração. Curvas ROC e percentuais derivados da matriz de con-
fusão são dados para cada algoritmo usado, assim como o valor de corte (threshold) para
a definição do rótulo de classe para as instâncias.
Falsos negativos
1
Verdadeiros
Falsos positivos 19% positivos
19.6%
11.6%
0.5
Verdadeiros
negativos
49.8%
0
0 0.5 1
1
Também conhecida como razão de possibilidades, ou odds ratio em inglês, indica a razão entre as
chances relativas da ocorrência da saída esperada, dado o valor do atributo analisado
50 Capítulo 4. Resultados
4.2.1 MultiLayerPerceptron
Dentre os modelos gerados utilizando os valores especificados na tabela 6, o clas-
sificador baseado no algoritmo MultiLayerPerceptron que obteve melhor desempenho foi
construído com três camadas ocultas, taxa de aprendizado igual a 0.5 e momento igual
a 0.2– o número de épocas, quando maior que 500 causou redução na performance. A
avaliação do classificador obtido é apresentado na figura 10.
Utilizando o conjunto com as 500 instâncias, o desempenho obtido foi de 68.8%.
Utilizando somente os casos que não possuíam valores nulos (n = 305), a acurácia subiu
para 70.49%. Com isso, foi possível perceber que o algoritmo MultiLayerPerceptron é
sensível a dados faltantes, mesmo com a aplicação de um filtro para correção destes
valores.
Falsos negativos
Verdadeiros
1
Falsos positivos 16.39% positivos
20.33%
13.11%
Verdadeiros
0.5
negativos
50.16%
0
0 0.5 1
4.2.2 MLPClassifier
A utilização do algoritmo MLPClassifier apresentou desempenho levemente supe-
rior ao classificador gerado com o algoritmo MultiLayerPerceptron para ambos os con-
juntos com 500 e 305 instâncias. O classificador obtido com o conjunto de dados onde
os casos com valores nulos foram desconsiderados resultou em acurácia de classificação
igual a 71.14% com 0.51 para o ponto de corte. A figura 11 exibe detalhes adicionais do
desempenho.
1
Falsos negativos
0
0 0.5 1
Na tabela 11, são dispostos os pesos das conexões entre os neurônios da camada
de entrada e a camada oculta. Adicionalmente, três neurônios de bias para cada neurônio
na camada oculta foram criados, com pesos 1.68314, 0.30868 e -1.58390 respectivamente.
Tabela 11: Valores das conexões para o modelo construído com o algoritmo MLPClassifier
1
Falsos negativos
4.3.1 ADTree
O classificador construído por meio do algoritmo ADTree obteve uma taxa de exa-
tidão de 71.8%– um leve ganho de desempenho sob as técnicas de redes neurais artificiais
e regressão logística. A figura 13 ilustra as medidas calculadas para o modelo obtido.
Falsos negativos
Verdadeiros
positivos
0.5
Falsos positivos 12.8%
25.8%
15.4%
Verdadeiros
negativos
46%
0
0 0.5 1
É possível perceber por meio da figura 13b que o classificador apresenta uma
redução da taxa de verdadeiros negativos, porém isso é refletido em um aumento na
taxa de verdadeiros positivos. Isto se deve a um valor de corte estabelecido em 0.4687, o
que causa um aumento na taxa de falsos positivos, atribuindo um comportamento mais
conservativo ao modelo.
Na figura 14, a representação gráfica do classificador ADTree é exibida. Um per-
curso pela árvore passa por todos os nós, com a busca feita em profundidade pré-fixa
(nós da subárvore esquerda são explorados primeiro). Para cada decisão efetuada, o valor
associado ao resultado da decisão é somado e o total obtido representa a probabilidade
4.3. Árvores de Decisão 53
4.3.2 PART
A aplicação do algoritmo PART para extração de regras a partir de uma árvore
de decisão apresentou desempenho similar ao uso de redes neurais, porém produziu um
modelo mais sucinto– as seis regras obtidas para a classificação são dispostas na figura 16.
O classificador construído a partir do conjunto inicial de 500 instâncias obteve desempenho
de 66.4%; ao utilizar somente os 305 casos sem valores nulos, a taxa de exatidão elevou-se
para 71.48%. Na figura 15, os indicadores calculados são exibidos.
1
Falsos negativos
Verdadeiros
Falsos positivos 17.7% positivos
10.82% 19.02%
0.5
Verdadeiros
negativos
52.46%
0
0 0.5 1
Observa-se por meio das regras obtidas, similaridades entre as convenções adota-
das por médicos para delinear a provável necessidade de biópsia. Na segunda condição
avaliada, um paciente que obteve ausência de tumor pelo exame de toque e indicador de
PSA Livre/Total entre 0.21 e 0.58 (zona de incerteza e baixa probabilidade), atribui-se F
4.4. Comparação de Resultados 55
(falso) para o valor de classe, isto é, possui pequena necessidade de submeter-se à biópsia.
Em contraste, a terceira regra obtida atribui V (verdadeiro) com a detecção de um tumor
e recomenda o paciente ao procedimento, independente de outros indicadores.
PART (n=305)
ADTree (n=500)
MLPClassifier (n=500)
MLPClassifier (n=305)
MultiLayerPerceptron (n=305)
MultiLayerPerceptron (n=500)
quesito acurácia geral, entretanto a classificação de verdadeiros positivos sofreu uma re-
dução enquanto a taxa de verdadeiros negativos (maior parte do conjunto) cresceu na
mesma proporção. A escolha entre os modelos de redes neurais artificiais gerados deve
levar em consideração esta variação nas taxas, pois para a tarefa em questão, é preferível
que o classificador possua uma maior taxa de falsos positivos do que falsos negativos,
priorizando um comportamento conservador sobre um comportamento liberal.
Por fim, algoritmos de classificação embasados em árvores de decisão obtiveram as
maiores taxas de desempenho entre todos os outras técnicas. Com a aplicação do algoritmo
ADTree, houve um aumento notável na taxa de verdadeiros positivos, assim como uma
redução nos falsos negativos, características tipicamente conservadoras. A área sob a curva
também mostrou-se mais consistente em relação aos outros algoritmos, resultado de uma
maior concavidade. No entanto, a estrutura obtida ADTree possui complexidade média
pois efetua todas as 16 decisões antes de calcular o valor de probabilidade final para com
isso, atribuir o valor de classe para a instância. O algoritmo PART, por sua vez, elaborou
um conjunto de regras pequeno e sucinto, porém priorizando os verdadeiros negativos
sobre os verdadeiros positivos.
57
5 CONCLUSÃO
REFERÊNCIAS
19 STRUM, S. B.; POGLIANO, D. What every doctor who treats male patients should
know. PCRI Insights, v. 8, p. 4–5, 2005.
20 ITO, K. et al. Free/total psa ratio is a powerful predictor of future prostate cancer
morbidity in men with initial psa levels of 4.1 to 10.0 ng/ml. Journal of Urology, v. 61,
p. 760–764, 2003.
23 SIMON, P. Too Big To Ignore: The Business Case for Big Data. [S.l.]: Wiley, 2013.
24 WITTEN, I. H.; FRANK, E. Data Mining: Practical Machine Learning Tools and
Techniques with Java Implementations. San Francisco, CA: Morgan Kaufmann, 2005.
28 PARTIN, A. W. et al. The use of prostate specific antigen, clinical stage in men with
localized prostate cancer. Journal of Urology, v. 150, p. 110–114, 1993.
34 CHARYTONIUK, W.; CHEN, M. S. Neural network design for short term load
forecasting. In: International Conference on Electric Utility Deregulation and Restructing
and Power Technologies. [S.l.: s.n.], 2000. p. 554–561.
35 HAYKIN, S. O. Neural Networks and Learning Machines. [S.l.]: Prentice Hall, 2008.
46 BREIMAN, L. et al. Classification and Regression Trees. [S.l.]: Chapman and Hall,
1984.
47 CABENA, P. et al. Intelligent Miner for Data Applications Guide. 1999. IBM
Redbooks, SG24-5252-00.
60 HALL, M. et al. The weka data mining software: An update. SIGKDD Explorations,
v. 11, 2009.
65 FREUND, Y.; MASON, L. The alternating decision tree learning algorithm. In:
Proceedings of the Sixteenth International Conference on Machine Learning. [S.l.]:
Morgan Kaufmann Publishers Inc., 1999. p. 124–133.