Escolar Documentos
Profissional Documentos
Cultura Documentos
São Luís
2023
Brenno Izaias Cardoso Nascimento
São Luís
2023
Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a).
Diretoria Integrada de Bibliotecas/UFMA
São Luís
2023
Agradecimentos
IA Inteligência Artificial
ML Machine Learning
Sumário
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.1 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . 16
2.1 Imagens de fundo de olho . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Aprendizagem Profunda . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3 Redes Neurais Convolucionais . . . . . . . . . . . . . . . . . . . . . . 17
2.3.1 Classificação x Segmentação . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2 U-Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.3 Linknet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.4 PSPNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1 Aquisição das Imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.1 Data Augmentation das imagens . . . . . . . . . . . . . . . . . . . . . . . 24
3.3 Modelos de redes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3.1 Definição de hiperparâmetros . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.4 Avaliação de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.1 Avaliação U-Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2 Avaliação Linknet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.3 Avaliação PSPNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
13
1 Introdução
e retinopatia diabética (ALMAZROA et al., 2015). Porém, essa delimitação não é tão
simples e pode ser auxiliada por meio de modelos de redes neurais segmentando essas
estruturas. Essa tarefa pode ser feita por diferentes arquiteturas de segmentação.
Jiang et al. (2019) propuseram um modelo de rede neural convolucional baseada em
região em que, após a geração de mapas de características, esses mapas são enviados em 2
redes diferentes para a segmentação do disco e para a segmentação da escavação. Além disso,
o estudo indica a proporção entre o disco e a escavação, informação essa que auxilia na
identificação de glaucoma. Esse modelo superou o estado da arte na segmentação do disco
e da escavação e na tarefa de detecção de glaucoma na época da sua publicação. Li et al.
(2020) propuseram um modelo em que não é necessário fazer o recorte da área de interesse
que é o disco e depois fazer a segmentação dessa área de interesse. No modelo proposto,
chamado de Region Focus Network, a detecção da área de interesse e a segmentação de
múltiplas classes é feita unificadamente. O modelo teve ótimo desempenho na base de
dados REFUGE.
Alawad et al. (2022) faz uma revisão das bases de dados e dos métodos utilizados
para a segmentação do disco e da escavação. O estudo buscou em diferentes fontes como
PubMed e Google Scholar diferentes bases de dados e quais eram as arquiteturas mais
utilizadas por métodos propostos para essas bases. De forma semelhante, Bizopoulos,
Vretos e Daras (2020) compararam diferentes arquiteturas de segmentação semântica nas
mesmas condições e ambiente. Porém, essa comparação foi realizada para a segmentação
de lesões no pulmão causadas pela COVID-19 em imagens de tomografia. Ainda assim, o
trabalho traz comparações relevantes entre as arquiteturas.
É notável o grande interesse na área de segmentação do disco e da escavação,
porém grande parte das publicações busca propor novos modelos ou analisar esses modelos
propostos. Portanto, é de fundamental importância comparar as arquiteturas fundamentais
aos modelos criados em um contexto específico da tarefa em que eles serão aplicados.
Neste contexto, este trabalho visa a análise de diferentes arquiteturas utilizadas
para a construção de modelos de segmentação de imagens, voltada para a utilização na
segmentação dessas estruturas em imagens de fundo de olho. Além disso, este trabalho
busca contribuir em outros trabalhos que desejam utilizar uma das arquiteturas para essa
tarefa.
A estrutura do trabalho é delineada de maneira a proporcionar uma compreensão
clara e organizada dos temas abordados. O primeiro capítulo introduz o leitor ao contexto
do estudo. No segundo capítulo, são revisados os principais conceitos que fundamentam o
trabalho, oferecendo uma base sólida para a análise posterior. O terceiro capítulo detalha
a metodologia utilizada. No quarto capítulo, os resultados da pesquisa são apresentados
de forma detalhada e acompanhados de uma análise crítica. O quinto capítulo discute
Capítulo 1. Introdução 15
1.1 Objetivos
O objetivo desse trabalho é avaliar o desempenho de arquiteturas convolucionais
de segmentação semântica na tarefa de segmentação do disco óptico e escavação papilar
em imagens de fundo de olho.
• Avaliação das predições da área de disco óptico e escavação papilar pelas arquiteturas.
16
2 Fundamentação Teórica
Neste capítulo serão abordadas algumas noções necessárias para uma melhor
compreensão do que é apresentado na metodologia deste trabalho, como conceitos médicos,
o processo de deep learning e redes neurais, assim como o funcionamento das arquiteturas
de redes utilizadas neste trabalho: a U-Net, a Linknet e a PSPNet.
Por conta da área oftalmológica ter laços fortes com o diagnóstico por imagens, o
uso de inteligência artificial (IA) se prova uma grande ferramenta. A partir do aprendizado
através do grande volume de dados de imagens de fundo de olho disponíveis, IAs conseguem
identificar padrões e características nessas imagens e facilitar diagnósticos, reduzir erros e
identificar doenças em seus estados iniciais (SCHMIDT-ERFURTH et al., 2018).
Capítulo 2. Fundamentação Teórica 17
As CNNs tiveram grande impacto nos anos 90 e começo dos anos 2000 em tarefas
como reconhecimento facial, porém perderam por um tempo relevância até que em 2012
na competição da Imagenet (DENG et al., 2009) foram utilizadas CNNs e essas tiveram
resultados até 2 vezes melhores que os seus competidores (LECUN; BENGIO; HINTON,
2015).
Hoje existe grande número de pesquisas e proposições de arquiteturas de CNNs e
elas são consideradas as melhores para diversos problemas, principalmente na área de visão
computacional. Algumas das tarefas em que são amplamente utilizadas são: reconhecimento
de imagem, segmentação semântica e detecção de objetos.
Quando se trata das diferenças estruturais entre redes desses dois tipos, pode-se
mencionar que na segmentação não existe uma camada totalmente conectada e, como é
necessário gerar os mapas de características e depois gerar novamente uma imagem, as redes
de segmentação são divididas em duas parte: o encoder e o decoder. O encoder, também
chamado de backbone, é responsável por gerar os mapas e o decoder por interpretar esses
mapas de volta em uma imagem mas agora com os pixels rotulados.
2.3.2 U-Net
A U-Net (RONNEBERGER; FISCHER; BROX, 2015) é uma arquitetura de CNN
criada com o objetivo de segmentar imagens médicas. Geralmente tarefas envolvendo
imagens médicas necessitam que cada pixel da imagem seja classificado, por conta disso
é difícil que existam grandes bases de dados como as que são utilizadas em CNN para
problemas de classificação para essas tarefas. Por conta disso, a U-Net foi construída
para funcionar com poucas imagens de treino e produzindo segmentações precisas, função
necessária em imagens médicas.
2.3.3 Linknet
A Linknet (CHAURASIA; CULURCIELLO, 2017) tem arquitetura e objetivos
extremamente similares a da U-Net, porém ela foi criada com o objetivo de diminuir o
número de parâmetros utilizados em outras redes de segmentação e através disso aumentar
sua eficiência e sua performance. A diferença principal que torna essa melhora possível
é que ao invés de realizar a operação de concatenação entre os mapas do encoder com o
decoder, é feita a soma entre esses dois, permitindo o compartilhamento de conhecimento
entre os dois e diminuindo o número de parâmetros do decoder.
2.3.4 PSPNet
A Pyramid Scene Parsing Network ou PSPNet (ZHAO et al., 2017) é uma rede
que tem como objetivo principal a segmentação e análise de cenas complexas tarefa que
outras redes totalmente convolucionais tem mais dificuldade em predizer com exatidão.
A principal fonte do seu sucesso em análise de cenas se dá por conta da adição de um
modulo de agrupamento em pirâmide que permite a captura de informações em diferentes
contextos espaciais, indo do mais local até um contexto global da imagem. Esse módulo
pode ser visto na Figura 7
O módulo em pirâmide consiste em diferente mapas com contextos diferentes
gerados a partir de diferentes camadas de pooling dos mapas de características gerados
pelo backbone. Cada um desses mapas passará por convoluções e será, por fim, concatenado
com os mapas anteriores e a partir disso é gerada a imagem segmentada. Essa estrutura
pode ser facilmente adaptada para outras arquiteturas
Capítulo 2. Fundamentação Teórica 22
3 Metodologia
Fonte: Autor.
3.2 Pré-processamento
Feita a aquisição das imagens, essas são submetidas a alguns processos para facilitar
e melhorar o treinamento dos modelos. O primeiro passo feito é o redimensionamento
das imagens para 384x384 pixels, pois imagens muito grandes tornariam o processo de
Capítulo 3. Metodologia 24
Fonte: Autor.
Fonte: Autor.
A função loss além de ser o somatório entre a função Binary Cross Entropy e
Jaccard, a segunda foi ajustada para receber pesos para cada uma das classes onde as
classes do disco e escavação receberam peso 1 enquanto a classe de segundo plano recebeu
peso 0,5 para que essa influencie menos no resultado da função por ser a função dominante
na classe.
Também foram utilizadas algumas funções utilitárias no treinamento que são
chamadas ao final de cada época, uma foi a função de checkpoint na qual os pesos da rede
são salvos quando essa tem o seu melhor desempenho e a função de ajustar a taxa de
aprendizagem quando à medida que deixam de acontecer mudanças no desempenho da
rede.
VP
P recisão = (3.1)
V P + FP
VP
Recall = (3.2)
V P + FN
2 ∗ P recisão ∗ Recall
F1 = (3.3)
P recisão + Recall
Por fim, foram geradas imagens a partir das predições das redes e elas foram
dispostas lado a lado com as imagens de segmentação verdadeira para que pudessem ser
Capítulo 3. Metodologia 28
comparadas. Foram escolhidas 3 imagens para cada rede, uma com uma predição boa,
outra com uma predição mediana e outra com uma predição ruim.
29
4 Resultados
Como é usual para redes neurais e pelo fato de utilizar o método de transfer
learning, nas primeiras épocas ocorre a maior melhora de desempenho até atingir um
limite conhecido como platô onde há ajustes menores nos pesos da rede e há uma pequena
ou nenhuma melhora nas métricas e na função loss.
(a)IoU
(b)Loss
Fonte: Autor.
Fonte: Autor.
Fonte: Autor.
Capítulo 4. Resultados 32
Fonte: Autor.
(a)IoU
(b)Loss
Fonte: Autor.
treinamento da U-Net, sendo a grande diferença que tanto o Loss quanto o IoU da validação
da Linknet foram ligeiramente piores que da U-Net.
Como já foi dito anteriormente, as arquiteturas Linknet e U-Net possuem grande
semelhança entre seus resultados. Isso é aparente também na Figura 17 na qual é possível
notar que o caso médio de predição a localização de ambos disco e escavação estão corretas,
mas a proporção entre os dois não está exata. Na imagem de fundo de olho é possível ver
que as cores dos dois são muito próximas e é difícil notar uma diferença clara.
O caso de pior segmentação escolhido da arquitetura Linknet pode ser visto na
Figura 18. Nele observa-se que o IoU e F1-Score foram mais baixos quando comparados
com a U-Net com valores de 0,58 e 0,70 respectivamente. Quando são comparadas a
máscara real com a predita podemos ver que a proporção entre disco e escavação está
correta porém ambos tiveram formato um pouco distante do esperado. Um dos possíveis
motivos para isso acontecer foi o excesso de luz na imagem, tornando difícil para a rede
delimitar o disco.
Na Figura 19 em que é apresentado uma das predições com o melhor resultado da
arquitetura, acontece fato comparável ao da arquitetura U-Net em que casos em que o
disco seja bem definido não possuindo excesso ou falta de luz e não haja variação de cores
próximas e ambos disco e escavação são um pouco maiores os resultados das predições são
melhores. As métricas analisadas foram tão altas quanto da outra rede analisada possuindo
um IoU de 0,94 e F1-Score de 0,96.
Além do que já foi apresentado, foi possível notar durante os experimentos que a
Linknet possuiu mais resultados excepcionais do que a U-Net, em que o IoU ultrapassava
0,92 e o F1-Score ultrapassava 0,95. Porém, também foi notado um maior número de
resultados possuindo IoU abaixo de 0,80. Portanto, pelos resultados analisados a arquitetura
apresentou menor consistência nas suas predições.
Fonte: Autor.
Capítulo 4. Resultados 34
Fonte: Autor.
Fonte: Autor.
(a)IoU
(b)Loss
Fonte: Autor.
Fonte: Autor.
Fonte: Autor.
Fonte: Autor.
37
5 Conclusão
mesmo poderá servir de base para futuros trabalhos que busquem utilizar uma das três
arquiteturas ou adaptá-las em um modelo proposto.
Apesar de ter tipo um bom desempenho na avaliação das arquiteturas apresentadas,
o presente trabalho possui algumas limitações. Uma das principais limitações está na
dependência inerente ao uso de CNNs do conjuntos de dados, uma vez que a eficácia dessas
pode ser comprometida quando confrontadas com imagens que diferem da distribuição
do conjunto de treinamento. Além disso, nesse trabalho são avaliadas apenas algumas
arquiteturas mais básicas que, geralmente, são usadas como base para a criação de modelos
mais complexos e mais precisos, sendo assim esse trabalho interessa mais a criação de
outros trabalhos que propõe outros modelos do que aos profissionais que podem utilizar
um desses modelos.
Em direção aos trabalhos futuros, há diversas oportunidades promissoras para a
expansão e aprimoramento das abordagens propostas neste estudo. Como a otimização e
ampliação de hiperparâmetros utilizados pelas arquiteturas, como o uso de outras funções
Loss, utilização de outros tipos de otimizadores, utilizar pesos de cada classe diferentes,
por exemplo para dar ênfase na classe do disco óptico. Além disso, o uso de uma forma
de otimizar esses parâmetros seria também uma forma de comparar as arquiteturas em
seus melhores ambientes de treinamento. Outro aprimoramento poderia ser a utilização
de formas diferentes de aumento de dados, como a aplicação de mudanças de saturação e
luminosidade das imagens e como essa técnica impacta nos resultados e a aplicação de
outras técnicas de avaliação de resultados como a validação cruzada para utilizar a base
de dados em sua completude e garantir que resultados não dependam da distribuição das
imagens.
39
Referências
ABRÀMOFF, M. D.; GARVIN, M. K.; SONKA, M. Retinal imaging and image analysis.
IEEE reviews in biomedical engineering, IEEE, v. 3, p. 169–208, 2010. Citado na página
16.
ALAWAD, M.; ALJOUIE, A.; ALAMRI, S.; ALGHAMDI, M.; ALABDULKADER, B.;
ALKANHAL, N.; ALMAZROA, A. Machine learning and deep learning techniques for
optic disc and cup segmentation–a review. Clinical Ophthalmology, Taylor & Francis, p.
747–764, 2022. Citado na página 14.
BEELER, P. E.; BATES, D. W.; HUG, B. L. Clinical decision support systems. Swiss
medical weekly, v. 144, n. 5152, p. w14073–w14073, 2014. Citado na página 13.
CORDTS, M.; OMRAN, M.; RAMOS, S.; REHFELD, T.; ENZWEILER, M.;
BENENSON, R.; FRANKE, U.; ROTH, S.; SCHIELE, B. The cityscapes dataset for
semantic urban scene understanding. In: Proceedings of the IEEE conference on computer
vision and pattern recognition. [S.l.: s.n.], 2016. p. 3213–3223. Citado na página 22.
DENG, J.; DONG, W.; SOCHER, R.; LI, L.-J.; LI, K.; FEI-FEI, L. Imagenet: A
large-scale hierarchical image database. In: IEEE. 2009 IEEE conference on computer
vision and pattern recognition. [S.l.], 2009. p. 248–255. Citado 3 vezes nas páginas 18, 22
e 25.
EVERINGHAM, M.; GOOL, L. V.; WILLIAMS, C. K.; WINN, J.; ZISSERMAN, A. The
pascal visual object classes (voc) challenge. International journal of computer vision,
Springer, v. 88, p. 303–338, 2010. Citado na página 22.
Referências 40
GOODFELLOW, I.; BENGIO, Y.; COURVILLE, A. Deep learning. [S.l.]: MIT press,
2016. Citado na página 17.
JIANG, Y.; DUAN, L.; CHENG, J.; GU, Z.; XIA, H.; FU, H.; LI, C.; LIU, J. Jointrcnn: a
region-based convolutional neural network for optic disc and cup segmentation. IEEE
Transactions on Biomedical Engineering, IEEE, v. 67, n. 2, p. 335–343, 2019. Citado na
página 14.
LECUN, Y.; BENGIO, Y.; HINTON, G. Deep learning. nature, Nature Publishing Group
UK London, v. 521, n. 7553, p. 436–444, 2015. Citado 2 vezes nas páginas 17 e 18.
LECUN, Y.; BOTTOU, L.; BENGIO, Y.; HAFFNER, P. Gradient-based learning applied
to document recognition. Proceedings of the IEEE, Ieee, v. 86, n. 11, p. 2278–2324, 1998.
Citado na página 18.
LI, G.; LI, C.; ZENG, C.; GAO, P.; XIE, G. Region focus network for joint optic disc and
cup segmentation. In: Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.:
s.n.], 2020. v. 34, n. 01, p. 751–758. Citado na página 14.
LI, T.; BO, W.; HU, C.; KANG, H.; LIU, H.; WANG, K.; FU, H. Applications of deep
learning in fundus images: A review. Medical Image Analysis, Elsevier, v. 69, p. 101971,
2021. Citado na página 13.
LITJENS, G.; KOOI, T.; BEJNORDI, B. E.; SETIO, A. A. A.; CIOMPI, F.;
GHAFOORIAN, M.; LAAK, J. A. V. D.; GINNEKEN, B. V.; SÁNCHEZ, C. I. A survey
on deep learning in medical image analysis. Medical image analysis, Elsevier, v. 42, p.
60–88, 2017. Citado na página 13.
LO, S.-C.; LOU, S.-L.; LIN, J.-S.; FREEDMAN, M. T.; CHIEN, M. V.; MUN, S. K.
Artificial convolution neural network techniques and applications for lung nodule detection.
IEEE transactions on medical imaging, IEEE, v. 14, n. 4, p. 711–718, 1995. Citado na
página 13.
ORLANDO, J. I.; FU, H.; BREDA, J. B.; KEER, K. V.; BATHULA, D. R.; DIAZ-PINTO,
A.; FANG, R.; HENG, P.-A.; KIM, J.; LEE, J. et al. Refuge challenge: A unified
framework for evaluating automated methods for glaucoma assessment from fundus
photographs. Medical image analysis, Elsevier, v. 59, p. 101570, 2020. Citado 2 vezes nas
páginas 16 e 23.
TAN, M.; LE, Q. Efficientnet: Rethinking model scaling for convolutional neural networks.
In: PMLR. International conference on machine learning. [S.l.], 2019. p. 6105–6114.
Citado na página 26.
WONG, T. Y.; SHANKAR, A.; KLEIN, R.; KLEIN, B. E.; HUBBARD, L. D. Prospective
cohort study of retinal vessel diameters and risk of hypertension. bmj, British Medical
Journal Publishing Group, v. 329, n. 7457, p. 79, 2004. Citado na página 16.
ZHAO, H.; SHI, J.; QI, X.; WANG, X.; JIA, J. Pyramid scene parsing network. In:
Proceedings of the IEEE conference on computer vision and pattern recognition. [S.l.: s.n.],
2017. p. 2881–2890. Citado 3 vezes nas páginas 21, 22 e 25.