Escolar Documentos
Profissional Documentos
Cultura Documentos
Dhian Kelson Leite de Oliveira1, Edson Magalhães da Costa1, Maria Eliana Holanda1, Jailton
Wagner Rodrigues Tavares2, Gilberto Nerino de Souza Júnior1 e Marcus de Barros Braga1*
1
Universidade Federal Rural da Amazônia (UFRA), Campus Paragominas. PA-256, s/n,
Nova Conquista, Paragominas/Pará. CEP 68.627-451.
2
Instituto Federal do Pará, Campus Paragominas. Av. dos Cedros, s/n, Juparanã,
Paragominas/Pará. CEP 68629-020.
Resumo
Um dos principais desafios para o tratamento do câncer de mama é realizar um diagnóstico precoce
da doença, pois a maioria dos casos é diagnosticado tardiamente, dificultando as chances de
sobrevida das pacientes. Este estudo faz um estudo de técnicas de classificação para distinguir
tumores benignos de malignos e prever o prognóstico, especialmente a partir de amostras de FNA
(Fine Needle Aspiration), com interpretação computacional, auxiliando no diagnóstico de câncer
de mama. Foram implementados os seguintes algoritmos de aprendizado de máquina: SVM
(Support Vector Machine), RF (Random Forest) k-NN (k-Nearest Neighbors), DT (Decision
Tree), MLP (Multilayer Perceptron) e CNN (Convolutional Neural Network). Os algoritmos, MLP
e CNN, obtiveram os melhores índices na classificação com 97,4% de acurácia. No geral, os
modelos de aprendizado de máquina se mostraram uma excelente ferramenta com robustez,
adaptabilidade e eficiência para uso no apoio ao diagnóstico de doenças que se baseiam em exames
complexos.
Abstract
One of the main challenges for the breast cancer’s treatment is the early diagnosis of the disease,
as most cases are diagnosed late, making it difficult for patients to survive. This study explores
classification techniques to distinguish benign from malignant tumors and predict prognosis,
especially from FNA (Fine Needle Aspiration) samples, with computational interpretation, aiding
in the diagnosis of breast cancer. The following machine learning algorithms were implemented:
SVM (Support Vector Machine), RF (Random Forest) k-NN (k-Nearest Neighbors), DT (Decision
Tree), MLP (Multilayer Perceptron) and CNN (Convolutional Neural Network). The algorithms,
MLP and CNN, obtained the best results in the classification with 97.4% accuracy. Overall,
machine learning models proved to be an excellent tool with robustness, adaptability and
efficiency to be used to support the diagnosis of diseases that are based on complex exams.
Introdução
O câncer é uma doença causada por uma multiplicação celular desordenada ocasionada por
mutações nos genes que codificam as proteínas reguladoras do ciclo celular, fazendo com que as
células cancerosas apresentem diferentes características. Um exemplo disso é a capacidade de
multiplicar-se mesmo com a ausência de fatores ou sinais de proteínas que estimulam o
crescimento, além da metástase (capacidade de migrar para outras partes do corpo) e de não se
submeterem a apoptose (morte celular programada) [1].
Em 2020, 2,3 milhões de mulheres foram diagnosticadas com câncer de mama e 685 mil
vieram a falecer em todo o mundo. No final de 2020, havia 7,8 milhões de mulheres vivas
diagnosticadas com câncer de mama nos últimos 5 anos, tornando este tipo o câncer mais
prevalente do mundo [2]. Aproximadamente metade dos cânceres de mama se desenvolve em
mulheres que não têm nenhum fator de risco de câncer de mama identificável além do sexo
(feminino) e idade (mais de 40 anos). Certos fatores aumentam o risco de câncer de mama,
incluindo idade avançada, obesidade, uso nocivo de álcool, histórico familiar de câncer de mama,
histórico de exposição à radiação, histórico reprodutivo (como idade em que os períodos
menstruais começaram e idade da primeira gravidez), tabagismo e terapia hormonal pós-
menopausa [3].
Certas mutações genéticas herdadas de alta penetrância aumentam muito o risco de câncer
de mama, sendo as mais dominantes as mutações nos genes BRCA1, BRCA2 e PALB-2. As
mulheres que apresentam mutações nesses genes principais podem considerar estratégias de
redução de risco, como a remoção cirúrgica de ambas as mamas. A consideração de uma
abordagem altamente invasiva diz respeito apenas a um número muito limitado de mulheres, deve
ser cuidadosamente avaliada considerando todas as alternativas e não deve ser apressada [4].
Os principais métodos de diagnóstico da doença são a mamografia e o exame clínico, além
de outros como ultrassonografia, ressonância, exames de sangue, raio-X, cintilografia, biópsia,
exames citopatológico e histopatológico e exames de BRCA1 e BRCA2. Porém, mesmo com todos
esses métodos de diagnóstico, o principal desafio ainda está em se ter um diagnóstico precoce da
doença, pois a maioria dos casos é diagnosticado tardiamente dificultando as chances de sobrevida
das pacientes [5]. Quando detectado em seus estágios iniciais, há 30% de chance que o câncer pode
ser tratado de forma eficaz, mas a detecção tardia de tumores em estágio avançado torna o
tratamento mais difícil [6,7]. Outra técnica utilizada para detectar câncer de mama em estágios
iniciais é chamada FNA (Fine Needle Aspiration) com interpretação visual (Figura 1), que chega
a alcançar de 65% a 98% de acerto [8], comparada com a mamografia, com 63% a 97% de acerto
[9] e a cirurgia biópsia, que tem aproximadamente 100% de acerto. Portanto, mamografia e FNA
com correção de interpretação visual variam muito e a biópsia cirúrgica, embora confiável, é
invasiva e cara [10].
Metodologia
Figura 2. Imagem ampliada de uma FNA maligna de mama. Os núcleos das células visíveis são
delineados por um programa de ajuste de curvas [29].
Existem 569 amostras no conjunto de dados, sendo 212 de tumores malignos e 357 de
benignos. As características do conjunto de dados são os seguintes:
ID (identificador);
Diagnóstico (M = Maligno; B = Benigno);
(1) Raio (média das distâncias do centro aos pontos do perímetro);
(2) Textura (desvio padrão dos valores de escala de cinza);
(3) Perímetro;
(4) Área;
(5) Suavidade (variação local nos comprimentos dos raios);
(6) Compacidade (perímetro elevado ao quadrado dividido pela área menos 1);
(7) Concavidade (gravidade das porções côncavas do contorno);
(8) Pontos Côncavos (número de porções côncavas do contorno);
(9) Simetria; e
(10) Dimensão Fractal (“aproximação do litoral” menos1).
(1) Média;
(2) Erro Padrão e
(3) “pior” ou maior (média dos três maiores valores) calculados.
Cada característica é avaliada em uma escala de 1 a 10, sendo 1 o mais próximo de benigno
e 10 o mais próximo de maligno.
Resultados e Discussão
O algoritmo k-NN foi testado com o valor de k variando de 1 até 100. O valor que obteve
a melhor acura1cia foi k = 23, o que pode ser percebido na Figura 5 abaixo.
Conclusão
Neste artigo, avaliamos o uso de seis distintas técnicas de aprendizado de máquina para
fazer o diagnóstico de câncer de mama. O primeiro algoritmo, SVM, demonstrou ser o que menor
se adaptou ao conjunto de dados, obtendo um desempenho razoável de 88 % de acurácia de
classificação. O primeiro algoritmo baseado em árvores de decisão testado foi o RF, que se
mostrou um ótimo classificador, com 94,2 % de acurácia, 98,2 % de precisão e 91,7 % no F1
Score. O algoritmo k-NN, quando utilizado com k=23 obteve um valor muito bom de acurácia,
96,5 %, além de resultar em pouquíssimos casos de classificação errada. O algoritmo DT, também
baseado no modelo de árvores de decisão, com 93,6 % de acurácia e 98,2 % de precisão, também
se mostrou apto para classificar o banco de dados de câncer de mama. Por fim, as duas redes
neurais implementadas, MLP e CNN, obtiveram os melhores índices na classificação do dataset,
com 97,4 % de acurácia, comprovando o que já se sabe sobre a robustez, adaptabilidade e
eficiência destes modelos. Como já era esperado, os algoritmos baseados em kernel, como o SVM,
e baseados em arvores de decisão, como RF e DT, tiveram uma taxa mais alta de falso-negativos,
o que pode ser percebido nas matrizes de confusão com os elementos classificados incorretamente.
De forma geral, foi mostrado neste trabalho, que os algoritmos de aprendizado de máquina
são uma excelente ferramenta para uso no apoio ao diagnóstico de doenças que se baseiam em
exames complexos e com muitos dados. Esse é o caso do câncer de mama, cujo exame de maior
precisão, a biopsia, é altamente invasivo e arriscado e cujo diagnostico precoce é fundamental para
a melhor escolha do tratamento adequado.
Agradecimentos
Referências
[1] BERNARDES, Nicole Blanco et al. Câncer de Mama x Diagnóstico. Revista de Psicologia,
[S.l.], v. 13, n. 44, p. 877-885. ISSN 1981-1179. https://doi.org/10.14295/idonline.v13i44.1636.
(2019).
[2] WHO. Breast Cancer. Disponível em: <https://www.who.int/news-room/fact-
sheets/detail/breast-
cancer#:~:text=In%202020%2C%20there%20were%202.3,the%20world's%20most%20prevalen
t%20cancer>. (2021).
[3] ASSIS, M; RAMOS, D.N; TOMAZELI, J.G. Detecção precoce do câncer de mama no
Brasil: Um olhar a partir dos exames realizados no SUS. Rio de Janeiro; Instituto Nacional de
Câncer José Alencar Gomes da Silva. (2014).
[4] CAVALCANTI, L.P.G; SIMÕES, P.S.F; SILVA, M.R.R; GALDINO, P.N.R. Assistência em
Mastologia em uma Unidade de Referência do Sistema Único de Saúde no Ceará, Brasil. Revista
Brasileira de Cancerologia. 58(4): 603-609. (2012).
[5] GINSBURG, O.; YIP, C.H.; BROOKS, A.; CABANES, A.; CALEFFI, M.; DUNSTAN
YATACO, J.A., et al. Breast cancer early detection: A phased approach to implementation.
Cancer.126 Suppl 10: 2379-93. http://www.ncbi.nlm.nih.gov/pubmed/32348566. (2020)
[6] ELMORE, J.G.; NAKANO, C.Y.; KOEPSELL, T.D.; DESNICK, L.M.; & RANSOHO, D.F.
International variation in screening mammography interpretations in community-based
programs. J Natl Cancer Inst 95(18):13841393, (2003).
[7] VERONESI, U.; BOYLE, P., GOLDHIRSCH, A., ORECCHIA, R.; & VIALE. G. Breast
cancer. Lancet 365:17271741. (2005).
[8] RAIMOND, W. M.; GIARD, M.D.; & JO, HERMANS. The value of aspiration cytologic
examination of the breast a statistical review of the medical literature. American Cancer Society,
(2006).
[9] ELMORE, J.G.; ARMSTRONG, K.; LEHMAN, C.D. & FLETCHER, S.W. Screening for
Breast Cancer. The Journal of the American Medical Association. (2005).
[10] Borges, L.R. Analysis of the wisconsin breast cancer dataset and machine learning for
breast cancer detection.". Group 1.369 15-19. (1989).
[11] Zafiropoulos, E., Maglogiannis, I. and Anagnostopoulos, I. A support vector machine
approach to breast cancer diagnosis and prognosis. Artificial Intelligence Applications and
Innovations (2006), 500–507.
[12] DIVYAVANI, M., AND G. KALPANA. An analysis on SVM & ANN using breast cancer
dataset. Aegaeum J 8 (2021): 369-379.
[13] S. G. DURAI, S. H. GANESH, AND A. J. CHRISTY. Novel Linear Regressive Classifier
for the Diagnosis of Breast Cancer,” In Computing and Communication Technologies
(WCCCT), 2017 World Congress on 2018.
[14] S. HAFIZAH, S. AHMAD, R. SALLEHUDDIN, AND N. AZIZAH, “Cancer Detection
Using Artificial Neural Network and Support Vector Machine: A Comparative Study,” J.
Teknol, vol. 65, pp. 73–81, 2018.
[15] TSIROGIANNIS, G. L., et al. Classification of medical data with a robust multi-level
combination scheme." Neural Networks, 2004. Proceedings. 2004 IEEE International Joint
Conference on. Vol. 3. IEEE, (2018).
[16] LEENAVIG. Comparative Analysis of Different Classifiers for the Wisconsin Breast
Cancer Dataset”, Open Access Library Journal, Volume 1 | e660. (2018).
[17] WANG, D. ZHANG AND Y. H. HUANG. Breast Cancer Prediction Using Machine
Learning. Vol. 66, NO. 7. (2018).
[18] B. AKBUGDAY. Classification of Breast Cancer Data Using Machine Learning
Algorithms. 2019 Medical Technologies Congress (TIPTEKNO), Izmir, Turkey, pp. 1-4. (2019).
[19] KELES, M. KAYA. Breast Cancer Prediction and Detection Using Data Mining
Classification Algorithms: A Comparative Study. Tehnicki Vjesnik - Technical Gazette, vol. 26,
no. 1, 2019, p. 149+. (2019).
[20] V. CHAURASIA AND S. PAL. Data Mining Techniques: To Predict and Resolve Breast
Cancer Survivability”, IJCSMC, Vol. 3, Issue. 1, January 2014, pg.10 – 22. (2014).
[21] AGARAP, ABIEN FRED M. On breast cancer detection: an application of machine
learning algorithms on the wisconsin diagnostic dataset. Proceedings of the 2nd international
conference on machine learning and soft computing. (2018).
[22] B. E. BOSER, I. L. GUYON, AND V. N. VAPNIK. A training algorithm for optimal
margin classifiers. In: Proceedings of the 5th Annual Workshop on Computational Learning
Theory, pages 144–152, Pittsburg, Pennsylvania, US. (1992).
[23] BREIMAN, Leo. Random forests. Machine learning, v. 45, n. 1, p. 5-32, 2001.
[24] COVER, T.; HART, P. Nearest neighbor pattern classification. IEEE transactions on
information theory, v. 13, n. 1, p. 21-27. (1967).
[25] HUNT, E.B.; MARIN, J.; AND STONE, P.J. Experiments in Induction. Academic Press,
New York. (1966).
[26] ROSENBLATT, Frank. The perceptron: a probabilistic model for information storage and
organization in the brain. Psychological review, v. 65, n. 6, p. 386. (1958).
[27] B. B. LE CUN, J. S. DENKER, D. HENDERSON, R. E. HOWARD, W. HUBBARD, AND
L. D. JACKEL. Handwritten digit recognition with a backpropagation network, in NIPS.
Citeseer. (1990).
[28] Wolberg, WH, Street, WN and Mangasarian, OL. Breast Cancer Wisconsin (diagnostic)
data set. UCI Machine Learning Repository. Disponível em: <http://archive. ics. uci.edu/ml/>.
(1992).
[29] ZAFIROPOULOS, E., MAGLOGIANNIS, I. AND ANAGNOSTOPOULOS, I. A support
vector machine approach to breast cancer diagnosis and prognosis. Artificial Intelligence
Applications and Innovations, 500–507. (2006).
[30] WILLIAM H. WOLBERG, O. L. MANGASARIAN. Multisurface Method of Pattern
Separation forMedical Diagnosis Applied to Breast Cytology. PNAS - Proceeding of the
National Academy of Sciences. (1990).