Artigo PIBITI - Utilização de Aprendizado de Máquina para Diagnóstico de Câncer de Mama A Partir de Exames de Imagem - Definitivo

Utilização de Aprendizado de Máquina para Diagnóstico de Câncer de Mama
a Partir de Exames de Imagem
Dhian Kelson Leite de Oliveira1, Edson Magalhães da Costa1, Maria Eliana Holanda1, Jailton
Wagner Rodrigues Tavares2, Gilberto Nerino de Souza Júnior1 e Marcus de Barros Braga1*
1
Universidade Federal Rural da Amazônia (UFRA), Campus Paragominas. PA-256, s/n,
Nova Conquista, Paragominas/Pará. CEP 68.627-451.
2
Instituto Federal do Pará, Campus Paragominas. Av. dos Cedros, s/n, Juparanã,
Paragominas/Pará. CEP 68629-020.
Resumo
Um dos principais desafios para o tratamento do câncer de mama é realizar um diagnóstico precoce
da doença, pois a maioria dos casos é diagnosticado tardiamente, dificultando as chances de
sobrevida das pacientes. Este estudo faz um estudo de técnicas de classificação para distinguir
tumores benignos de malignos e prever o prognóstico, especialmente a partir de amostras de FNA
(Fine Needle Aspiration), com interpretação computacional, auxiliando no diagnóstico de câncer
de mama. Foram implementados os seguintes algoritmos de aprendizado de máquina: SVM
(Support Vector Machine), RF (Random Forest) k-NN (k-Nearest Neighbors), DT (Decision
Tree), MLP (Multilayer Perceptron) e CNN (Convolutional Neural Network). Os algoritmos, MLP
e CNN, obtiveram os melhores índices na classificação com 97,4% de acurácia. No geral, os
modelos de aprendizado de máquina se mostraram uma excelente ferramenta com robustez,
adaptabilidade e eficiência para uso no apoio ao diagnóstico de doenças que se baseiam em exames
complexos.
Abstract
One of the main challenges for the breast cancer’s treatment is the early diagnosis of the disease,
as most cases are diagnosed late, making it difficult for patients to survive. This study explores
classification techniques to distinguish benign from malignant tumors and predict prognosis,
especially from FNA (Fine Needle Aspiration) samples, with computational interpretation, aiding
in the diagnosis of breast cancer. The following machine learning algorithms were implemented:
SVM (Support Vector Machine), RF (Random Forest) k-NN (k-Nearest Neighbors), DT (Decision
Tree), MLP (Multilayer Perceptron) and CNN (Convolutional Neural Network). The algorithms,
MLP and CNN, obtained the best results in the classification with 97.4% accuracy. Overall,
machine learning models proved to be an excellent tool with robustness, adaptability and
efficiency to be used to support the diagnosis of diseases that are based on complex exams.
Introdução
O câncer é uma doença causada por uma multiplicação celular desordenada ocasionada por
mutações nos genes que codificam as proteínas reguladoras do ciclo celular, fazendo com que as
células cancerosas apresentem diferentes características. Um exemplo disso é a capacidade de
multiplicar-se mesmo com a ausência de fatores ou sinais de proteínas que estimulam o
crescimento, além da metástase (capacidade de migrar para outras partes do corpo) e de não se
submeterem a apoptose (morte celular programada) [1].
Em 2020, 2,3 milhões de mulheres foram diagnosticadas com câncer de mama e 685 mil
vieram a falecer em todo o mundo. No final de 2020, havia 7,8 milhões de mulheres vivas
diagnosticadas com câncer de mama nos últimos 5 anos, tornando este tipo o câncer mais
prevalente do mundo [2]. Aproximadamente metade dos cânceres de mama se desenvolve em
mulheres que não têm nenhum fator de risco de câncer de mama identificável além do sexo
(feminino) e idade (mais de 40 anos). Certos fatores aumentam o risco de câncer de mama,
incluindo idade avançada, obesidade, uso nocivo de álcool, histórico familiar de câncer de mama,
histórico de exposição à radiação, histórico reprodutivo (como idade em que os períodos
menstruais começaram e idade da primeira gravidez), tabagismo e terapia hormonal pós-
menopausa [3].
Certas mutações genéticas herdadas de alta penetrância aumentam muito o risco de câncer
de mama, sendo as mais dominantes as mutações nos genes BRCA1, BRCA2 e PALB-2. As
mulheres que apresentam mutações nesses genes principais podem considerar estratégias de
redução de risco, como a remoção cirúrgica de ambas as mamas. A consideração de uma
abordagem altamente invasiva diz respeito apenas a um número muito limitado de mulheres, deve
ser cuidadosamente avaliada considerando todas as alternativas e não deve ser apressada [4].
Os principais métodos de diagnóstico da doença são a mamografia e o exame clínico, além
de outros como ultrassonografia, ressonância, exames de sangue, raio-X, cintilografia, biópsia,
exames citopatológico e histopatológico e exames de BRCA1 e BRCA2. Porém, mesmo com todos
esses métodos de diagnóstico, o principal desafio ainda está em se ter um diagnóstico precoce da
doença, pois a maioria dos casos é diagnosticado tardiamente dificultando as chances de sobrevida
das pacientes [5]. Quando detectado em seus estágios iniciais, há 30% de chance que o câncer pode
ser tratado de forma eficaz, mas a detecção tardia de tumores em estágio avançado torna o
tratamento mais difícil [6,7]. Outra técnica utilizada para detectar câncer de mama em estágios
iniciais é chamada FNA (Fine Needle Aspiration) com interpretação visual (Figura 1), que chega
a alcançar de 65% a 98% de acerto [8], comparada com a mamografia, com 63% a 97% de acerto
[9] e a cirurgia biópsia, que tem aproximadamente 100% de acerto. Portanto, mamografia e FNA
com correção de interpretação visual variam muito e a biópsia cirúrgica, embora confiável, é
invasiva e cara [10].
Figura 1. Imagens digitalizadas de FNA. Benigno (esquerda) e maligno (direita) [11].
A subárea da inteligência artificial conhecida como aprendizado de máquina, do inglês

machine learning (ML), está se tornando vital para o diagnóstico de doenças. A classificação de
doenças é uma das aplicações da área da ciência da computação onde a inteligência artificial é
utilizada com muito sucesso, auxiliando os médicos com diagnóstico computadorizados de
doenças, obtendo resultados precisos e muito satisfatórios, resolvendo os problemas como falta de
experiência de pessoal que pode, por sua vez, dificultar o diagnóstico [12].
Ao longo das últimas décadas, as técnicas de ML têm sido amplamente utilizadas para
diagnóstico e prognóstico de câncer de mama, aplicando técnicas de classificação para distinguir
tumores benignos de malignos e prever o prognóstico, especialmente a partir de amostras de FNA
com interpretação computacional [13-20]. A classificação é um tipo de problema de otimização
complexo. A classificação precisa pode ajudar ainda mais os médicos a prescrever o regime de
tratamento mais adequado [21].
Este trabalho avalia o desempenho dos seguintes algoritmos classificadores de machine
learning: SVM (Support Vector Machine) [22], RF (Random Forest) [23], k-NN (k-Nearest
Neighbors) [24], DT (Decision Tree) [25], MLP (Multilayer Perceptron) [26] e CNN
(Convolutional Neural Network) [27] no diagnóstico de câncer de mama a partir do conjunto de
dados Wisconsin Diagnostic Breast Cancer (WDBC) [28]. Estes dados consistem em
características que foram computadas a partir de imagens digitalizadas de FNA (Fine Needle
Aspiration) de massas mamárias.
Metodologia
Os algoritmos de aprendizado de máquina foram treinados para detectar câncer de mama

utilizando o banco de dados público Wisconsin Diagnostic Breast Cancer (WDBC) [28],
disponibilizado por Olvi Mangasarian em julho de 1992. Estes dados consistem em características
que foram computadas a partir de imagens digitalizadas de aspirados com agulha fina (FNA, Fine
Needle Aspiration) de massas mamárias. Estes dados descrevem as características dos núcleos
celulares encontrados na imagem.
Para criar o conjunto de dados, foram usadas amostras de fluido, tiradas de pacientes com
massas mamárias sólidas e um programa de computador gráfico chamado XCYT, que é capaz de
realizar a análise de características citológicas com base em uma varredura digital. O programa
usa um algoritmo de ajuste de curva (Figura 2) para computar dez características de cada uma das
células na amostra, e então calcula o valor médio, valor extremo e erro padrão de cada
característica da imagem, retornando um vetor de 30 valores reais.
Figura 2. Imagem ampliada de uma FNA maligna de mama. Os núcleos das células visíveis são
delineados por um programa de ajuste de curvas [29].
Existem 569 amostras no conjunto de dados, sendo 212 de tumores malignos e 357 de
benignos. As características do conjunto de dados são os seguintes:
ID (identificador);
Diagnóstico (M = Maligno; B = Benigno);
(1) Raio (média das distâncias do centro aos pontos do perímetro);
(2) Textura (desvio padrão dos valores de escala de cinza);
(3) Perímetro;
(4) Área;
(5) Suavidade (variação local nos comprimentos dos raios);
(6) Compacidade (perímetro elevado ao quadrado dividido pela área menos 1);
(7) Concavidade (gravidade das porções côncavas do contorno);
(8) Pontos Côncavos (número de porções côncavas do contorno);
(9) Simetria; e
(10) Dimensão Fractal (“aproximação do litoral” menos1).
Cada característica possui três informações:
(1) Média;
(2) Erro Padrão e
(3) “pior” ou maior (média dos três maiores valores) calculados.
Assim, existe um total de 30 características no conjunto de dados.
Cada característica é avaliada em uma escala de 1 a 10, sendo 1 o mais próximo de benigno
e 10 o mais próximo de maligno.
Segundo [30], as nove características a seguir diferem significativamente entre amostras

benignas e malignas: uniformidade da forma da célula, uniformidade do tamanho da célula,
aglomerado espessura, núcleos nus, tamanho da célula, nucléolos normais, coesividade do
aglomerado, cromatina nuclear e mitoses.
Para a classificação deste conjunto de dados, foram implementados alguns algoritmos de

aprendizado de máquina: SVM (Support Vector Machine), RF (Random Forest) k-NN (k-Nearest
Neighbors), DT (Decision Tree), MLP (Multilayer Perceptron) e CNN (Convolutional Neural
Network). Os modelos computacionais foram desenvolvidos na linguagem de programação
Python, utilizando o framework Spyder e Google Colab, com as bibliotecas Keras, TensorFlow,
matplotlib, numpy e scikit-learn.
Os códigos em Python utilizados neste trabalho estão depositados em
https://github.com/npca-ufra/ml-diagnostico-cancer-de-mama .
Antes da classificação do conjunto de dados, alguns pré-processamentos foram realizados
para que os algoritmos de machine learning não fossem afetados em seu rendimento. As colunas
(características) onde os valores possuíam correlação linear maior do que 0.9, o que não é
desejável, foram eliminadas. Em seguida, foi feita a detecção e eliminação de dados faltantes e,
por fim, foi feita a normalização dos dados para que todos os valores estivessem na mesma faixa.
A configuração utilizada no algoritmo Support Vector Machine é mostrada na Tabela 1.
Tabela 1. Parâmetros utilizados no SVM.

Parâmetro Valor
c 1
kernel Rbf
degree 3
gamma Scale
coef0 0
probability false
tol 1e-3
cache-size 200
class_weight none
verbose false
max-iter 1
break_ties False
random_state None
O algoritmo Randon Forest foi utilizado com a configuração a seguir na Tabela 2.
Tabela 2. Parâmetros utilizados no RF.

Parâmetro Valor
n_estimators 400
min_samples_leaf 0.12
random_state seed
Os parâmetros usados no algoritmo k-NN são mostrados na Tabela 3.
Tabela 3. Parâmetros utilizados no k-NN.

Parâmetro Valor
n_neighbors de 1 a 100
O algoritmo Decision Tree utilizou os parâmetros da Tabela 4.
Tabela 4. Parâmetros utilizados no DT.

Parâmetro Valor
max_depth 4
min_samples_leaf 0.14
random_state seed
A rede neural artificial do tipo Multilayer Perceptron utilizou a arquitetura descrita na

Tabela 5.
Tabela 5. Parâmetros utilizados no MLP.

Parâmetro Valor
input layer 32 neurons ReLU activation -
hidden layer 64 neurons ReLU activation dropout (0.5)
hidden layer 32 neurons ReLU activation dropout (0.5)
output layer 1 neuron sigmoid activation -
loss function binary crossentropy
optimizer adam
metrics accuracy
learning rate 0.001
batch size 8
epochs 500
A rede neural artificial profunda do tipo Convolutional Neural Network utilizou a

arquitetura da Tabela 6.
Tabela 6. Parâmetros utilizados no CNN.

Parâmetro Valor
input layer 32 neurons
convolutional layer 32 neurons
conv filters 3x3
ReLU activation
dropout 0.2
batch normalization -
pooling layer 2x2
convolutional layer 64 neurons
conv filters 3x3
ReLU activation
dropout 0.5
batch normalization -
flattening layer -
fully-connected layer (MLP) 64 neurons
ReLU activation
Dropout (0.5)
dropout 0.5
output layer 1 neuron
sigmoid activation
loss function binary crossentropy
optimizer adam
metrics accuracy
learning rate 0.00005
epochs 50
Os algoritmos classificadores construídos foram treinados e testados em um computador

com processador Intel Core i7 – 6 Core de 2,2 GHz, com 16 GB de RAM.
Resultados e Discussão
Algumas medidas de desempenho são geralmente usadas para se avaliar a qualidade do

modelo de aprendizado de máquina para classificar determinados conjuntos de dados. Neste
trabalho, foram utilizadas as seguintes métricas de avaliação de classificadores: acurácia
(acuraccy), função de perda (loss function), precisão (precision), revocação (recall) e score F1 (F1
score). As métricas acurácia e função de perda foram as únicas aplicadas a todos os algoritmos. A
tabela 7 mostra os resultados obtidos pelos seis algoritmos classificadores no diagnóstico do câncer
de mama do banco de dados Wisconsin Diagnostic Breast Cancer (WDBC).
A melhor acurácia de classificação foi obtida pelos dois algoritmos de redes neurais
artificiais, MLP e CNN, ambos com 97,4 %. De modo análogo, os dois algoritmos obtiveram os
menores percentuais de perda, 2,5 (MLP) e 2,6 (CNN). Cabe ressaltar que o que se espera de um
algoritmo classificador é que a função de perda diminua e tenda a zero. Quanto à precisão, os
algoritmos baseados em árvores (RF e DT) tiveram os melhores resultados, 98,2 %. A Revocação
é uma métrica que mede a sensibilidade do modelo aos verdadeiros positivos. Neste item, o SVM
obteve o melhor resultado, 87 %. Em termos de Score F1, que combina a precisão e a revocação
do modelo, o algoritmo RF foi o melhor ranqueado.
Tabela 7. Desempenho de Classificação dos Algoritmos.

Algoritmo Classificador Acurácia Função de Perda Precisão Revocação Score F1
Support Vector Machine 88,0 % 12,0 % 88,7 % 87,0 % 87,6 %
Random Forest 94,2 % 5,8 % 98,2 % 85,9 % 91,7 %
k-NN 96,5 % 3,5 % - - -
Decision Tree 93,6 % 6,4 % 98,2 % 84,4 % 90,8 %
Multilayer Perceptron 97,4 % 2,5 % - - -
CNN 97,4 % 2,6 % - - -
A Figura 3 mostra o desempenho das redes neurais quanto à acurácia nas etapas de
treinamento e validação.
Figura 3. Acurácia. A) Multilayer Perceptron. B) Convolutional Neural Network.
O algoritmo k-NN foi testado com o valor de k variando de 1 até 100. O valor que obteve
a melhor acura1cia foi k = 23, o que pode ser percebido na Figura 5 abaixo.
Figura 4. Acurácia de classificação do algoritmo k-NN para diversos valores de k.
Outra forma de se visualizar graficamente o desempenho de um classificador é através de

sua matriz de confusão, que indica quantos e quais elementos foram classificados de forma
incorreta. A Figura 4 exibe as matrizes de confusão dos algoritmos.
Figura 4. Matriz de confusão. A) Support Vector Machine. B) Random Forest. C) k-NN.
D) Decision Tree. E) Multilayer Perceptron. F) Convolutional Neural Network.
As matrizes de confusão mostram que os algoritmos que classificaram de forma errada o

menor número de casos de câncer de mama foram: o k-NN, que teve um caso benigno classificado
como maligno e três malignos classificados como benignos; o CNN, que teve três casos benignos
classificados como malignos e um maligno classificado como benigno; e o MLP, que teve um caso
benigno classificado como maligno e dois malignos classificados como benignos.
Conclusão
Neste artigo, avaliamos o uso de seis distintas técnicas de aprendizado de máquina para
fazer o diagnóstico de câncer de mama. O primeiro algoritmo, SVM, demonstrou ser o que menor
se adaptou ao conjunto de dados, obtendo um desempenho razoável de 88 % de acurácia de
classificação. O primeiro algoritmo baseado em árvores de decisão testado foi o RF, que se
mostrou um ótimo classificador, com 94,2 % de acurácia, 98,2 % de precisão e 91,7 % no F1
Score. O algoritmo k-NN, quando utilizado com k=23 obteve um valor muito bom de acurácia,
96,5 %, além de resultar em pouquíssimos casos de classificação errada. O algoritmo DT, também
baseado no modelo de árvores de decisão, com 93,6 % de acurácia e 98,2 % de precisão, também
se mostrou apto para classificar o banco de dados de câncer de mama. Por fim, as duas redes
neurais implementadas, MLP e CNN, obtiveram os melhores índices na classificação do dataset,
com 97,4 % de acurácia, comprovando o que já se sabe sobre a robustez, adaptabilidade e
eficiência destes modelos. Como já era esperado, os algoritmos baseados em kernel, como o SVM,
e baseados em arvores de decisão, como RF e DT, tiveram uma taxa mais alta de falso-negativos,
o que pode ser percebido nas matrizes de confusão com os elementos classificados incorretamente.
De forma geral, foi mostrado neste trabalho, que os algoritmos de aprendizado de máquina
são uma excelente ferramenta para uso no apoio ao diagnóstico de doenças que se baseiam em
exames complexos e com muitos dados. Esse é o caso do câncer de mama, cujo exame de maior
precisão, a biopsia, é altamente invasivo e arriscado e cujo diagnostico precoce é fundamental para
a melhor escolha do tratamento adequado.
Agradecimentos
Os autores agradecem à Universidade Federal Rural da Amazônia (UFRA), por meio da

Pró-Reitoria de Pesquisa e Desenvolvimento Tecnológico (PROPED), pelo apoio financeiro a este
estudo. Este trabalho faz parte do Programa de Iniciação Científica PROGRIDI/PIBITI/UFRA
(Edital PROPED 05/2021).
Referências
[1] BERNARDES, Nicole Blanco et al. Câncer de Mama x Diagnóstico. Revista de Psicologia,
[S.l.], v. 13, n. 44, p. 877-885. ISSN 1981-1179. https://doi.org/10.14295/idonline.v13i44.1636.
(2019).
[2] WHO. Breast Cancer. Disponível em: <https://www.who.int/news-room/fact-
sheets/detail/breast-
cancer#:~:text=In%202020%2C%20there%20were%202.3,the%20world's%20most%20prevalen
t%20cancer>. (2021).
[3] ASSIS, M; RAMOS, D.N; TOMAZELI, J.G. Detecção precoce do câncer de mama no
Brasil: Um olhar a partir dos exames realizados no SUS. Rio de Janeiro; Instituto Nacional de
Câncer José Alencar Gomes da Silva. (2014).
[4] CAVALCANTI, L.P.G; SIMÕES, P.S.F; SILVA, M.R.R; GALDINO, P.N.R. Assistência em
Mastologia em uma Unidade de Referência do Sistema Único de Saúde no Ceará, Brasil. Revista
Brasileira de Cancerologia. 58(4): 603-609. (2012).
[5] GINSBURG, O.; YIP, C.H.; BROOKS, A.; CABANES, A.; CALEFFI, M.; DUNSTAN
YATACO, J.A., et al. Breast cancer early detection: A phased approach to implementation.
Cancer.126 Suppl 10: 2379-93. http://www.ncbi.nlm.nih.gov/pubmed/32348566. (2020)
[6] ELMORE, J.G.; NAKANO, C.Y.; KOEPSELL, T.D.; DESNICK, L.M.; & RANSOHO, D.F.
International variation in screening mammography interpretations in community-based
programs. J Natl Cancer Inst 95(18):13841393, (2003).
[7] VERONESI, U.; BOYLE, P., GOLDHIRSCH, A., ORECCHIA, R.; & VIALE. G. Breast
cancer. Lancet 365:17271741. (2005).
[8] RAIMOND, W. M.; GIARD, M.D.; & JO, HERMANS. The value of aspiration cytologic
examination of the breast a statistical review of the medical literature. American Cancer Society,
(2006).
[9] ELMORE, J.G.; ARMSTRONG, K.; LEHMAN, C.D. & FLETCHER, S.W. Screening for
Breast Cancer. The Journal of the American Medical Association. (2005).
[10] Borges, L.R. Analysis of the wisconsin breast cancer dataset and machine learning for
breast cancer detection.". Group 1.369 15-19. (1989).
[11] Zafiropoulos, E., Maglogiannis, I. and Anagnostopoulos, I. A support vector machine
approach to breast cancer diagnosis and prognosis. Artificial Intelligence Applications and
Innovations (2006), 500–507.
[12] DIVYAVANI, M., AND G. KALPANA. An analysis on SVM & ANN using breast cancer
dataset. Aegaeum J 8 (2021): 369-379.
[13] S. G. DURAI, S. H. GANESH, AND A. J. CHRISTY. Novel Linear Regressive Classifier
for the Diagnosis of Breast Cancer,” In Computing and Communication Technologies
(WCCCT), 2017 World Congress on 2018.
[14] S. HAFIZAH, S. AHMAD, R. SALLEHUDDIN, AND N. AZIZAH, “Cancer Detection
Using Artificial Neural Network and Support Vector Machine: A Comparative Study,” J.
Teknol, vol. 65, pp. 73–81, 2018.
[15] TSIROGIANNIS, G. L., et al. Classification of medical data with a robust multi-level
combination scheme." Neural Networks, 2004. Proceedings. 2004 IEEE International Joint
Conference on. Vol. 3. IEEE, (2018).
[16] LEENAVIG. Comparative Analysis of Different Classifiers for the Wisconsin Breast
Cancer Dataset”, Open Access Library Journal, Volume 1 | e660. (2018).
[17] WANG, D. ZHANG AND Y. H. HUANG. Breast Cancer Prediction Using Machine
Learning. Vol. 66, NO. 7. (2018).
[18] B. AKBUGDAY. Classification of Breast Cancer Data Using Machine Learning
Algorithms. 2019 Medical Technologies Congress (TIPTEKNO), Izmir, Turkey, pp. 1-4. (2019).
[19] KELES, M. KAYA. Breast Cancer Prediction and Detection Using Data Mining
Classification Algorithms: A Comparative Study. Tehnicki Vjesnik - Technical Gazette, vol. 26,
no. 1, 2019, p. 149+. (2019).
[20] V. CHAURASIA AND S. PAL. Data Mining Techniques: To Predict and Resolve Breast
Cancer Survivability”, IJCSMC, Vol. 3, Issue. 1, January 2014, pg.10 – 22. (2014).
[21] AGARAP, ABIEN FRED M. On breast cancer detection: an application of machine
learning algorithms on the wisconsin diagnostic dataset. Proceedings of the 2nd international
conference on machine learning and soft computing. (2018).
[22] B. E. BOSER, I. L. GUYON, AND V. N. VAPNIK. A training algorithm for optimal
margin classifiers. In: Proceedings of the 5th Annual Workshop on Computational Learning
Theory, pages 144–152, Pittsburg, Pennsylvania, US. (1992).
[23] BREIMAN, Leo. Random forests. Machine learning, v. 45, n. 1, p. 5-32, 2001.
[24] COVER, T.; HART, P. Nearest neighbor pattern classification. IEEE transactions on
information theory, v. 13, n. 1, p. 21-27. (1967).
[25] HUNT, E.B.; MARIN, J.; AND STONE, P.J. Experiments in Induction. Academic Press,
New York. (1966).
[26] ROSENBLATT, Frank. The perceptron: a probabilistic model for information storage and
organization in the brain. Psychological review, v. 65, n. 6, p. 386. (1958).
[27] B. B. LE CUN, J. S. DENKER, D. HENDERSON, R. E. HOWARD, W. HUBBARD, AND
L. D. JACKEL. Handwritten digit recognition with a backpropagation network, in NIPS.
Citeseer. (1990).
[28] Wolberg, WH, Street, WN and Mangasarian, OL. Breast Cancer Wisconsin (diagnostic)
data set. UCI Machine Learning Repository. Disponível em: <http://archive. ics. uci.edu/ml/>.
(1992).
[29] ZAFIROPOULOS, E., MAGLOGIANNIS, I. AND ANAGNOSTOPOULOS, I. A support
vector machine approach to breast cancer diagnosis and prognosis. Artificial Intelligence
Applications and Innovations, 500–507. (2006).
[30] WILLIAM H. WOLBERG, O. L. MANGASARIAN. Multisurface Method of Pattern
Separation forMedical Diagnosis Applied to Breast Cytology. PNAS - Proceeding of the
National Academy of Sciences. (1990).

Artigo PIBITI - Utilização de Aprendizado de Máquina para Diagnóstico de Câncer de Mama A Partir de Exames de Imagem - Definitivo

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Artigo PIBITI - Utilização de Aprendizado de Máquina para Diagnóstico de Câncer de Mama A Partir de Exames de Imagem - Definitivo

Enviado por

Direitos autorais:

Formatos disponíveis

Utilização de Aprendizado de Máquina para Diagnóstico de Câncer de Mama

a Partir de Exames de Imagem

Figura 1. Imagens digitalizadas de FNA. Benigno (esquerda) e maligno (direita) [11].

A subárea da inteligência artificial conhecida como aprendizado de máquina, do inglês

Os algoritmos de aprendizado de máquina foram treinados para detectar câncer de mama

Cada característica possui três informações:

Assim, existe um total de 30 características no conjunto de dados.

Segundo [30], as nove características a seguir diferem significativamente entre amostras

Para a classificação deste conjunto de dados, foram implementados alguns algoritmos de

Tabela 1. Parâmetros utilizados no SVM.

O algoritmo Randon Forest foi utilizado com a configuração a seguir na Tabela 2.

Tabela 2. Parâmetros utilizados no RF.

Os parâmetros usados no algoritmo k-NN são mostrados na Tabela 3.

Tabela 3. Parâmetros utilizados no k-NN.

O algoritmo Decision Tree utilizou os parâmetros da Tabela 4.

Tabela 4. Parâmetros utilizados no DT.

A rede neural artificial do tipo Multilayer Perceptron utilizou a arquitetura descrita na

Tabela 5. Parâmetros utilizados no MLP.

A rede neural artificial profunda do tipo Convolutional Neural Network utilizou a

Tabela 6. Parâmetros utilizados no CNN.

Os algoritmos classificadores construídos foram treinados e testados em um computador

Algumas medidas de desempenho são geralmente usadas para se avaliar a qualidade do

Tabela 7. Desempenho de Classificação dos Algoritmos.

Figura 3. Acurácia. A) Multilayer Perceptron. B) Convolutional Neural Network.

Figura 4. Acurácia de classificação do algoritmo k-NN para diversos valores de k.

Outra forma de se visualizar graficamente o desempenho de um classificador é através de

As matrizes de confusão mostram que os algoritmos que classificaram de forma errada o

Os autores agradecem à Universidade Federal Rural da Amazônia (UFRA), por meio da

Você também pode gostar