TCC Ciência Da Computação UFMA Brenno Izaias Final

UNIVERSIDADE FEDERAL DO MARANHÃO
Curso de Ciência da Computação
Brenno Izaias Cardoso Nascimento
Avaliação de Redes Neurais Convolucionais para

Segmentação Semântica de Estruturas da
Retina em Imagens de Fundo de Olho
São Luís
2023

Segmentação Semântica de Estruturas da Retina em
Imagens de Fundo de Olho
Monografia apresentada ao curso de Ciência

da Computação da Universidade Federal
do Maranhão, como parte dos requisitos
necessários para obtenção do grau de Bacharel
em Ciência da Computação.
Orientador: Prof. Dr. Geraldo Braz Júnior
São Luís
2023
Ficha gerada por meio do SIGAA/Biblioteca com dados fornecidos pelo(a) autor(a).
Diretoria Integrada de Bibliotecas/UFMA
Nascimento, Brenno Izaias Cardoso.

Segmentação Semântica de Estruturas da Retina em Imagens
de Fundo de Olho / Brenno Izaias Cardoso Nascimento. -
2023.
41 f.
Orientador(a): Geraldo Braz Júnior.

Curso de Ciência da Computação, Universidade Federal do
Maranhão, São Luís, 2023.
1. Aprendizado profundo. 2. Imagem de fundo de olho.

3. Segmentação semântica. I. Júnior, Geraldo Braz. II.
Título.

Segmentação Semântica de Estruturas da Retina em
Imagens de Fundo de Olho
Monografia apresentada ao curso de Ciência

da Computação da Universidade Federal
do Maranhão, como parte dos requisitos
necessários para obtenção do grau de Bacharel
em Ciência da Computação.
Trabalho aprovado em São Luís, 21 de dezembro de 2023:
Prof. Dr. Geraldo Braz Júnior

Orientador
Prof. Dr. João Dallyson Sousa de

Almeida
Examinador
Profa. Dra. Simara Vieira da Rocha

Examinadora
São Luís
2023
Agradecimentos
Gostaria de agradecer primeiramente à minha família que sempre incentivou os

meus estudos e me ajudou a crescer e me ensinaram os valores que mais prezo na vida
como sabedoria e gratidão e que formaram o meu caráter. Agradeço profundamente à
minha mãe, Elaine, ao meu pai, Braitner e à minha irmã Ellen.
Gostaria de agradecer especialmente ao meu orientador Prof. Dr. Geraldo Braz
Junior, que mesmo estando com a maior responsabilidade da sua vida, literalmente, nos
braços, conseguiu um tempo para me auxiliar e orientar em um momento que estava em
apuros. Tenho grande admiração e espero ser um profissional e uma pessoa tão incrível
quanto.
Aos meus amigos do colégio Bom Pastor, os quais tenho uma amizade de 10 anos.
Gustavo, Izac, Robert e Victor obrigado pelas muitas memórias e sinto que me tornei uma
pessoa melhor por causa de vocês e obrigado por não desistir de mim em um momento de
distância. Espero que levemos essa amizade pro resto de nossas vidas. Agradeço também
aos amigos que conheci através de vocês como Felipe Raposo o qual me ajudou em diversas
batalhas e Simone que mesmo em outro continente continua sendo muito querida.
Aos meus amigos do colégio Educallis, que também possuo uma amizade duradoura.
Carol, Arthur e Matheus Henrique sinto que minha vida é mais divertida com vocês e
cada um de vocês ajudou a cultivar um aspecto da minha personalidade que não conhecia
e que hoje aprecio. Agradeço também aos amigos de Direito que conheci através de Carol,
Matheus e Larine que sempre colocam um riso no meu rosto com suas personalidades
brilhantes.
Aos meus amigos de curso, que são grandes inspirações pela sua inteligência e
criatividade. Arthur Passos, Daniel, Marcos, Luigi e João Maria nossa jornada não foi
fácil, mas estou feliz de ter compartilhado ela com vocês.
Gostaria de agradecer aos professores do Deinf, todos foram grandes professores
e apesar de termos passado por tempos difíceis durante a pandemia todos deram o seu
melhor para continuar a nos ensinar.
Por último, gostaria de agradecer aos meus companheiros do Tribunal de Contas
do Estado do Maranhão, com eles eu aprendi a desenvolver no mercado de trabalho e me
ajudou a evoluir muito profissionalmente. Aos meus amigos de trabalho Mikael, Felipe
Henrique, meu chefe Ricardo Melo e a todos os outros da GETEC.
"A vida é como uma caixa de chocolates.
Você nunca sabe o que vai encontrar."
Forrest Gump, em "Forrest Gump - O Contador de Histórias"
Resumo
Catarata, glaucoma, degeneração macular relacionada à idade e retinopatia diabética estão
entre as principais causas de cegueira do mundo e devem ser identificadas em seus estágios
iniciais para obter sucesso em seus tratamentos. Para facilitar esse processo, sistemas
que utilizam aprendizado profundo se tornam comuns por conta de sua habilidade em
encontrar padrões complexos. Um dos usos desses sistemas é a delimitação e identificação
de estruturas em imagens, também chamado de segmentação semântica. No caso de
imagens de fundo de olho, pode ser feita a identificação do disco óptico e escavação papilar,
trabalho que nem sempre é tão óbvio para profissionais. Para um trabalho que necessita
de identificações e informações precisas a escolha da arquitetura que vai ser utilizada para
construir o modelo de predição é fundamental. Este trabalho busca avaliar três dessas
arquiteturas na segmentação dessas estruturas, a U-Net, a Linknet e a PSPNet. Pelas
avaliações feitas, a arquitetura que obteve o melhor desempenho foi a U-Net alcançando
IoU de 0,83 com a Linknet possuindo resultados extremamente próximos porém mais
irregulares, já a PSPNet não obteve resultados tão satisfatórios quanto as outras duas na
tarefa com IoU de 0,78.
Palavras-chave: Segmentação semântica, Aprendizado profundo, Imagem de fundo de
olho.
Abstract
Cataract, glaucoma, age-related macular degeneration, and diabetic retinopathy are among
the leading causes of blindness worldwide and should be identified in their early stages
for successful treatment. To facilitate this process, systems utilizing deep learning have
become common due to their ability to detect complex patterns. One of the uses of these
systems is the delineation and identification of structures in images, also known as semantic
segmentation. In the case of fundus images, the identification of the optic disc and optic
cup can be performed, a task that is not always obvious for professionals. For work that
requires accurate identifications and information, the choice of the architecture used to
build the prediction model is crucial. This study aims to evaluate three such architectures
in the segmentation of these structures: U-Net, Linknet, and PSPNet. Based on the
evaluations conducted, the architecture that performed the best was U-Net achieving an
IoU of 0,83, with Linknet exhibiting results extremely close but more irregular. On the
other hand, PSPNet did not achieve as satisfactory results as the other two in the task
with an IoU of 0,78.
Keywords: Semantic segmentation, Deep learning, Fundus images.
Lista de ilustrações
Figura 1 – Exemplo de imagem de fundo de olho colorida. . . . . . . . . . . . . . 16

Figura 2 – Arquitetura da LeNet-5, uma rede neural convolucional. . . . . . . . . 18
Figura 3 – Comparação entre classificação, detecção, segmentação semântica e
segmentação de instância da mesma imagem. . . . . . . . . . . . . . . 19
Figura 4 – SegNet, um exemplo de arquitetura de segmentação semântica. . . . . 19
Figura 5 – Arquitetura da U-Net. . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Figura 6 – Arquitetura da Linknet. . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Figura 7 – Arquitetura da PSPNet. . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Figura 8 – Fluxograma da metodologia. . . . . . . . . . . . . . . . . . . . . . . . . 23
Figura 9 – Exemplo de imagem da base e suas respectivas máscaras de escavação
papilar, disco óptico e segundo plano da imagem. . . . . . . . . . . . . 24
Figura 10 – Exemplo de imagem após alterações e suas respectivas máscaras
igualmente alteradas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Figura 11 – Imagem ilustrativa do IoU. . . . . . . . . . . . . . . . . . . . . . . . . 27
Figura 12 – Gráficos apresentando a função loss e o IoU em cada época do
treinamento da rede U-Net. . . . . . . . . . . . . . . . . . . . . . . . . 30
Figura 13 – Comparação entre segmentação dos especialistas e predição da
arquitetura U-Net. Caso mediano. . . . . . . . . . . . . . . . . . . . . . 31
arquitetura U-Net. Caso de pior segmentação. . . . . . . . . . . . . . . 31
arquitetura U-Net. Caso de melhor segmentação. . . . . . . . . . . . . 32
treinamento da rede Linknet. . . . . . . . . . . . . . . . . . . . . . . . 32
arquitetura Linknet. Caso mediano. . . . . . . . . . . . . . . . . . . . . 33
arquitetura Linknet. Caso de pior segmentação. . . . . . . . . . . . . . 34
arquitetura Linknet. Caso de melhor segmentação. . . . . . . . . . . . 34
treinamento da rede PSPNet. . . . . . . . . . . . . . . . . . . . . . . . 35
arquitetura PSPNet. Caso mediano. . . . . . . . . . . . . . . . . . . . . 36
arquitetura PSPNet. Caso de pior segmentação. . . . . . . . . . . . . . 36
arquitetura PSPNet. Caso de melhor segmentação. . . . . . . . . . . . 36
Lista de tabelas
Tabela 1 – Número de parâmetros treináveis por rede . . . . . . . . . . . . . . . . 25

Tabela 2 – Hiperparâmetros das redes . . . . . . . . . . . . . . . . . . . . . . . . . 26
Tabela 3 – Resultados obtidos na avaliação de cada arquitetura. . . . . . . . . . . 29
Lista de abreviaturas e siglas
CNN Rede Neural Convolucional
IA Inteligência Artificial
IoU Interseção sobre União
ML Machine Learning
Sumário
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.1 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . . . . 16
2.1 Imagens de fundo de olho . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Aprendizagem Profunda . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.3 Redes Neurais Convolucionais . . . . . . . . . . . . . . . . . . . . . . 17
2.3.1 Classificação x Segmentação . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2 U-Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.3 Linknet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.4 PSPNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3 METODOLOGIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1 Aquisição das Imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.1 Data Augmentation das imagens . . . . . . . . . . . . . . . . . . . . . . . 24
3.3 Modelos de redes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3.1 Definição de hiperparâmetros . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.4 Avaliação de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.1 Avaliação U-Net . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2 Avaliação Linknet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.3 Avaliação PSPNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
13
1 Introdução
Catarata, glaucoma, degeneração macular relacionada à idade e retinopatia

diabética estão entre as principais causas de cegueira entre pessoas com mais de 50
anos (STEINMETZ et al., 2021). Essas doenças devem ser identificadas em seus estados
iniciais para garantir o tratamento adequado e os exames que costumam ser empregados
para isso são a fundoscopia e a tomografia de coerência óptica. Exames esses utilizados
para diagnósticos em outras áreas como neurologia, endocrinologia e cardiologia (PAULA,
1998) e se baseiam na análise de imagens digitais.
O uso de sistemas dedicados às análises de imagens digitais impulsionou fortemente
o número de pesquisas que buscam utilizá-los na identificação de padrões no contexto de
análise de imagens médicas (LITJENS et al., 2017). Isso é especialmente verdade para
a área oftalmológica, visto que muitos diagnósticos são realizados a partir de análises
de imagens digitais geradas por exames de mapeamento de fundo de retina. Esse uso é
de grande relevância para os diagnósticos, pois muitas doenças oculares só conseguem
ser identificadas quando estão em um estado avançado e já são irreversíveis (HINTON;
WILKINSON; WIEDEMANN, 2013).
Esses sistemas, também chamados de sistemas de suporte à decisão médica, recebem
e analisam dados do paciente com e geram informações e sugestões que possam melhorar
serviços médicos prestados por profissionais da saúde (BEELER; BATES; HUG, 2014).
Um dos métodos comumente utilizado para criação desse tipo de sistema é o aprendizado
profundo por conta de sua habilidade em encontrar padrões complexos que não são tão
óbvios para seres humanos. Esses padrões são então utilizados para possíveis identificações
de patologias e outras funções como a categorização de estruturas dentro dessas imagens.
Na área de aprendizado profundo, os modelos que obtiveram o maior sucesso
na análise de imagens foram as redes neurais convolucionais (LITJENS et al., 2017).
Essas redes têm aplicações na área de suporte a decisões médicas de até 1995 (LO et al.,
1995), porém apenas recentemente, por volta dos anos de 2015 e 2016, que o número de
publicações sobre as aplicações desses modelos em imagens médicas realmente cresceu.
A maioria das aplicações de redes neurais convolucionais em imagens de fundo
de olho podem ser divididas em tarefas de classificação, segmentação e síntese (LI et al.,
2021). A classificação visa atribuir uma classe a uma imagem, a segmentação define limites
para classes dentro de uma imagem, e a síntese busca gerar imagens desse tipo para fins
de estudo e pesquisa adicionais.
A delimitação do disco óptico e da escavação papilar e a comparação entre o
tamanho dos dois é de grande importância no diagnóstico de doenças como glaucoma
Capítulo 1. Introdução 14
e retinopatia diabética (ALMAZROA et al., 2015). Porém, essa delimitação não é tão
simples e pode ser auxiliada por meio de modelos de redes neurais segmentando essas
estruturas. Essa tarefa pode ser feita por diferentes arquiteturas de segmentação.
Jiang et al. (2019) propuseram um modelo de rede neural convolucional baseada em
região em que, após a geração de mapas de características, esses mapas são enviados em 2
redes diferentes para a segmentação do disco e para a segmentação da escavação. Além disso,
o estudo indica a proporção entre o disco e a escavação, informação essa que auxilia na
identificação de glaucoma. Esse modelo superou o estado da arte na segmentação do disco
e da escavação e na tarefa de detecção de glaucoma na época da sua publicação. Li et al.
(2020) propuseram um modelo em que não é necessário fazer o recorte da área de interesse
que é o disco e depois fazer a segmentação dessa área de interesse. No modelo proposto,
chamado de Region Focus Network, a detecção da área de interesse e a segmentação de
múltiplas classes é feita unificadamente. O modelo teve ótimo desempenho na base de
dados REFUGE.
Alawad et al. (2022) faz uma revisão das bases de dados e dos métodos utilizados
para a segmentação do disco e da escavação. O estudo buscou em diferentes fontes como
PubMed e Google Scholar diferentes bases de dados e quais eram as arquiteturas mais
utilizadas por métodos propostos para essas bases. De forma semelhante, Bizopoulos,
Vretos e Daras (2020) compararam diferentes arquiteturas de segmentação semântica nas
mesmas condições e ambiente. Porém, essa comparação foi realizada para a segmentação
de lesões no pulmão causadas pela COVID-19 em imagens de tomografia. Ainda assim, o
trabalho traz comparações relevantes entre as arquiteturas.
É notável o grande interesse na área de segmentação do disco e da escavação,
porém grande parte das publicações busca propor novos modelos ou analisar esses modelos
propostos. Portanto, é de fundamental importância comparar as arquiteturas fundamentais
aos modelos criados em um contexto específico da tarefa em que eles serão aplicados.
Neste contexto, este trabalho visa a análise de diferentes arquiteturas utilizadas
para a construção de modelos de segmentação de imagens, voltada para a utilização na
segmentação dessas estruturas em imagens de fundo de olho. Além disso, este trabalho
busca contribuir em outros trabalhos que desejam utilizar uma das arquiteturas para essa
tarefa.
A estrutura do trabalho é delineada de maneira a proporcionar uma compreensão
clara e organizada dos temas abordados. O primeiro capítulo introduz o leitor ao contexto
do estudo. No segundo capítulo, são revisados os principais conceitos que fundamentam o
trabalho, oferecendo uma base sólida para a análise posterior. O terceiro capítulo detalha
a metodologia utilizada. No quarto capítulo, os resultados da pesquisa são apresentados
de forma detalhada e acompanhados de uma análise crítica. O quinto capítulo discute
Capítulo 1. Introdução 15
as conclusões obtidas a partir dos resultados, relacionando-as aos objetivos iniciais e

destacando as contribuições do estudo para a área de pesquisa.
1.1 Objetivos
O objetivo desse trabalho é avaliar o desempenho de arquiteturas convolucionais
de segmentação semântica na tarefa de segmentação do disco óptico e escavação papilar
em imagens de fundo de olho.
1.1.1 Objetivos Específicos

Destacam-se como objetivos específicos deste trabalho:
• Análise e comparação entre as arquiteturas: U-Net, Linknet e PSPNet.
• Avaliação das predições da área de disco óptico e escavação papilar pelas arquiteturas.
16
2 Fundamentação Teórica
Neste capítulo serão abordadas algumas noções necessárias para uma melhor
compreensão do que é apresentado na metodologia deste trabalho, como conceitos médicos,
o processo de deep learning e redes neurais, assim como o funcionamento das arquiteturas
de redes utilizadas neste trabalho: a U-Net, a Linknet e a PSPNet.
2.1 Imagens de fundo de olho

A fundoscopia é um dos exames não invasivo com um dos menores custos para
mapeamento e inspeção da retina (ABRÀMOFF; GARVIN; SONKA, 2010). Nele são
geradas imagens que buscam captar em 2D o estado da retina de um paciente e nela
são representadas importantes estruturas do olho como o disco óptico, a escavação e
os vasos sanguíneos. Sua disponibilidade e praticidade o tornam um exame comum em
consultórios de oftalmologia e é incluído no diagnóstico de diversas doenças oculares como
degeneração macular, retinopatia diabética e glaucoma assim como na identificação de
doenças cardiovasculares e neurológicas (WONG et al., 2004).
Figura 1 – Exemplo de imagem de fundo de olho colorida.
Fonte: Base REFUGE (ORLANDO et al., 2020).
Por conta da área oftalmológica ter laços fortes com o diagnóstico por imagens, o
uso de inteligência artificial (IA) se prova uma grande ferramenta. A partir do aprendizado
através do grande volume de dados de imagens de fundo de olho disponíveis, IAs conseguem
identificar padrões e características nessas imagens e facilitar diagnósticos, reduzir erros e
identificar doenças em seus estados iniciais (SCHMIDT-ERFURTH et al., 2018).
Capítulo 2. Fundamentação Teórica 17
2.2 Aprendizagem Profunda

Na sociedade atual a aplicação de machine learning (ML) está muito presente na
vida das pessoas, seja em catálogos e recomendações de produtos, em redes sociais e em
chatbots. Entretanto, técnicas de ML convencionais necessitam que seja feita uma extração
de características nos dados antes de serem processados para gerar predições. As redes
neurais aplicando o aprendizado profundo, deep learning do inglês, resolvem esse problema
e recebendo os dados puros geram uma predição de forma automática (LECUN; BENGIO;
HINTON, 2015).
Redes neurais recebem esse nome por seu funcionamento ser inspirado no
funcionamento de neurônios, em que nós conectam-se com outros nós em camadas e
cada um busca identificar padrões e isso é carregado para as camadas seguintes. A ativação
desses nós é definida por uma função e os parâmetros dessa função são chamados de pesos
e viés e durante o treinamento esses parâmetros que vão ser ajustados e testados buscando
que a rede dê a melhor predição possível. Esse teste busca minimizar uma função de perda
ou função loss que compara as saídas preditas e a saída real (GOODFELLOW; BENGIO;
COURVILLE, 2016).
Com o grande crescimento de poder de processamento e quantidade de informação
disponível nos últimos anos, redes neurais se tornaram o estado da arte em diversas áreas
que envolvem o uso de IA, como visão computacional, processamento de linguagem natural
e reconhecimento de fala. Para o escopo do trabalho, redes neurais tem grande relevância
seja na identificação de padrões patológicos em imagens de fundo de olho ou na detecção e
rotulação das estruturas na imagem para avaliações posteriores (SCHMIDT-ERFURTH et
al., 2018).
2.3 Redes Neurais Convolucionais

Redes neurais convolucionais ou convolutional neural networks (CNN) são um
tipo específico de rede neural projetada para receber dados em formato de vetores como
imagens, áudios e volumes. Isso se dá pelo fato de CNNs usarem convoluções para gerar
mapas de características dos vetores de entrada, compartilhar os pesos entre neurônios e
fazer o agrupamento dos mapas de características.
Uma CNN é formada por alguns tipos de camadas, a camada de convolução tem
como objetivo fundir dois conjuntos de informações, a camada de agrupamento ou pooling
é empregada para diminuir a dimensionalidade, associando a saída do agrupamento de
neurônios em uma camada de neurônio único e, por fim, a camada totalmente conectada
estabelece conexões entre todos os neurônios de uma camada e todos os neurônios de outra
camada (LECUN; BENGIO; HINTON, 2015).
Figura 2 – Arquitetura da LeNet-5, uma rede neural convolucional.
Fonte: (LECUN et al., 1998).
As CNNs tiveram grande impacto nos anos 90 e começo dos anos 2000 em tarefas
como reconhecimento facial, porém perderam por um tempo relevância até que em 2012
na competição da Imagenet (DENG et al., 2009) foram utilizadas CNNs e essas tiveram
resultados até 2 vezes melhores que os seus competidores (LECUN; BENGIO; HINTON,
2015).
Hoje existe grande número de pesquisas e proposições de arquiteturas de CNNs e
elas são consideradas as melhores para diversos problemas, principalmente na área de visão
computacional. Algumas das tarefas em que são amplamente utilizadas são: reconhecimento
de imagem, segmentação semântica e detecção de objetos.
2.3.1 Classificação x Segmentação

Dentro da área de visão computacional existem diferentes tarefas e metodologias
empregadas dependendo do resultado que está se buscando. Duas dessas tarefas são a
classificação e a segmentação e apesar de ambas poderem usar CNNs para fazer predições
sobre imagens a forma que essa predição vai acontecer e os seus objetivos são diferentes.
Na classificação o objetivo é categorizar uma imagem de acordo com possíveis
classes estabelecidas, sendo o resultado de saída de uma rede desse tipo qual rótulo que
aquela imagem tem maior probabilidade de pertencer. Em problemas de segmentação,
porém, o objetivo é delimitar limites na imagem e classificar cada pixel da imagem como
sendo de uma das classes determinadas e a sua saída também é uma imagem como a
entrada porém rotulando cada pixel da mesma. Essa comparação entre esses dois problemas
pode ser visualizada na Figura 3
Figura 3 – Comparação entre classificação, detecção, segmentação semântica e segmentação

de instância da mesma imagem.
Fonte: (MURALI, 2021).
Quando se trata das diferenças estruturais entre redes desses dois tipos, pode-se
mencionar que na segmentação não existe uma camada totalmente conectada e, como é
necessário gerar os mapas de características e depois gerar novamente uma imagem, as redes
de segmentação são divididas em duas parte: o encoder e o decoder. O encoder, também
chamado de backbone, é responsável por gerar os mapas e o decoder por interpretar esses
mapas de volta em uma imagem mas agora com os pixels rotulados.
Figura 4 – SegNet, um exemplo de arquitetura de segmentação semântica.
Fonte: (BADRINARAYANAN; KENDALL; CIPOLLA, 2017).

2.3.2 U-Net
A U-Net (RONNEBERGER; FISCHER; BROX, 2015) é uma arquitetura de CNN
criada com o objetivo de segmentar imagens médicas. Geralmente tarefas envolvendo
imagens médicas necessitam que cada pixel da imagem seja classificado, por conta disso
é difícil que existam grandes bases de dados como as que são utilizadas em CNN para
problemas de classificação para essas tarefas. Por conta disso, a U-Net foi construída
para funcionar com poucas imagens de treino e produzindo segmentações precisas, função
necessária em imagens médicas.
Figura 5 – Arquitetura da U-Net.
Fonte: (RONNEBERGER; FISCHER; BROX, 2015).
A arquitetura da U-Net, apresentada na Figura 5, é composta por duas partes

uma em que a imagem é contraída (encoder) e outra em que ela é expandida (decoder).
A primeira parte é semelhante a uma CNN simples com convoluções seguidas de uma
função de ativação ReLU e uma operação de pooling. Na segunda parte ainda são feitas
convoluções e ReLU, porém ao invés de pooling o decoder possui camadas de upsampling
em que a dimensionalidade é aumentada e, adicionalmente, os mapas de características do
encoder são concatenados ao decoder.
Apesar de ter sido criada voltada para a área de análise de imagens médicas a
U-Net se provou relevante em diversas outras áreas de segmentação semântica por conta
da sua versatilidade. Isso vem do fato de que é possível utilizar como backbone outras
redes convolucionais dependendo do objetivo.
2.3.3 Linknet
A Linknet (CHAURASIA; CULURCIELLO, 2017) tem arquitetura e objetivos
extremamente similares a da U-Net, porém ela foi criada com o objetivo de diminuir o
número de parâmetros utilizados em outras redes de segmentação e através disso aumentar
sua eficiência e sua performance. A diferença principal que torna essa melhora possível
é que ao invés de realizar a operação de concatenação entre os mapas do encoder com o
decoder, é feita a soma entre esses dois, permitindo o compartilhamento de conhecimento
entre os dois e diminuindo o número de parâmetros do decoder.
Figura 6 – Arquitetura da Linknet.
Fonte: (CHAURASIA; CULURCIELLO, 2017).
2.3.4 PSPNet
A Pyramid Scene Parsing Network ou PSPNet (ZHAO et al., 2017) é uma rede
que tem como objetivo principal a segmentação e análise de cenas complexas tarefa que
outras redes totalmente convolucionais tem mais dificuldade em predizer com exatidão.
A principal fonte do seu sucesso em análise de cenas se dá por conta da adição de um
modulo de agrupamento em pirâmide que permite a captura de informações em diferentes
contextos espaciais, indo do mais local até um contexto global da imagem. Esse módulo
pode ser visto na Figura 7
O módulo em pirâmide consiste em diferente mapas com contextos diferentes
gerados a partir de diferentes camadas de pooling dos mapas de características gerados
pelo backbone. Cada um desses mapas passará por convoluções e será, por fim, concatenado
com os mapas anteriores e a partir disso é gerada a imagem segmentada. Essa estrutura
pode ser facilmente adaptada para outras arquiteturas
Figura 7 – Arquitetura da PSPNet.
Fonte: (ZHAO et al., 2017).
Essa arquitetura conseguiu resultados muito positivos em diversas competições e

bases de dados de cenários complexos, como a Imagenet (DENG et al., 2009), a PASCAL
VOC (EVERINGHAM et al., 2010) e a Cityscapes (CORDTS et al., 2016).
23
3 Metodologia
Este capítulo apresenta a metodologia considerada adequada para a avaliação dos

modelos, realizando a aquisição das imagens da base de dados, o pré-processamento das
imagens e aumento das imagens(do inglês data augumentation), a criação dos modelos e
definição dos seus hiperparâmetros, treino do mesmo e, por fim, avaliação dos resultados.
Figura 8 – Fluxograma da metodologia.
Fonte: Autor.
3.1 Aquisição das Imagens

Neste trabalho foi escolhida a base de imagens Retinal Fundus Glaucoma Challenge
(REFUGE) (ORLANDO et al., 2020). A base é composta por 1200 imagens coloridas
de fundo de olho junto de suas respectivas máscaras de segmentação totalizando 2400
arquivos. Das 1200 imagens 400 possuem a resolução de 2124x2056 pixels e 800 imagens
com resolução de 1634x1634 pixels.
As máscaras de segmentação foram demarcadas por profissionais especialistas em
glaucoma delineando o local da imagem em que se encontra o disco óptico e a escavação
papilar e o resto não demarcado foi considerado segundo plano da imagem. As imagens
também foram classificadas quanto a presença ou não de glaucoma, porém esse fator não
será levado em consideração na aplicação dos experimentos e avaliações realizadas.
Além disso, a base já é balanceada, dividida em imagens de treino, de teste e de
validação, na qual as 400 imagens de 2124x2056 pixels são reservadas para treino e as
outras 800 são divididas igualmente para teste e validação.
3.2 Pré-processamento
Feita a aquisição das imagens, essas são submetidas a alguns processos para facilitar
e melhorar o treinamento dos modelos. O primeiro passo feito é o redimensionamento
das imagens para 384x384 pixels, pois imagens muito grandes tornariam o processo de
Capítulo 3. Metodologia 24
Figura 9 – Exemplo de imagem da base e suas respectivas máscaras de escavação papilar,

disco óptico e segundo plano da imagem.
Fonte: Autor.
treinamento muito longo e consumiria muito recurso computacional e pelo fato de a

arquitetura PSPNet necessitar de um tamanho de imagem divisível por 6, isso garante que
cada camada de pooling do seu modulo de agrupamento em pirâmide possa ser aplicada
sem causar problemas de dimensões não inteiras.
O arquivo de máscara original é uma única imagem em que a escavação papilar
corresponde aos pixels de valores 0, o disco aos pixels de valores 128 e o fundo aos valores
255. Por conta do que a rede espera receber, além do mesmo redimensionamento da
imagem, elas também são separadas em diferente canais em que cada canal representa
uma máscara binária de cada uma das 3 classes diferentes em que o valor 1 representa os
pixels em que a classe está presente e 0 onde não está. Essa divisão pode ser visualizada
na Figura 9.
Feito isso, as imagens devem antes passar por uma função implementada
previamente para que possa estar no formato correto, dependendo do backbone escolhido,
antes de começar o treinamento.
3.2.1 Data Augmentation das imagens

Por fim, nessa etapa, as imagens passam por um processo de aumento (Data
augmentation) em que são feitas pequenas alterações de forma aleatória nas imagens,
aumentando a diversidade dos dados que são usados para treinar a rede, visando melhorar
a sua predição.
Para realizar esse processo foi utilizada a biblioteca Albumentations (BUSLAEV
et al., 2020). Através dela foram definidas uma série de possíveis alterações e a imagem
passava por cada uma delas, podendo ser alterada ou não de acordo com uma probabilidade
definida manualmente. As possibilidades de transformações empregadas foram as seguintes:
inversão horizontal, inversão vertical, ruído gaussiano, mudança de contraste e aplicação
de desfoque. Um exemplo de imagem pré-processada pode ser visualizada na Figura 10.
Figura 10 – Exemplo de imagem após alterações e suas respectivas máscaras igualmente

alteradas.
Fonte: Autor.
3.3 Modelos de redes

Com o objetivo de analisar o desempenho de diferentes modelos de arquiteturas de
segmentação semântica de imagens de fundo de olho, foram escolhidos alguns modelos que
possuem notoriedade pelos seus desempenhos em problemas de segmentação.
Os modelos escolhidos foram a U-Net (RONNEBERGER; FISCHER; BROX, 2015)
que foi criada voltada para a segmentação de imagens biomédicas mas se provou eficiente
em diversos problemas de segmentação, a Linknet (CHAURASIA; CULURCIELLO, 2017)
que busca fazer o mesmo que a U-Net porém focando em ser mais eficiente e ter menos
parâmetros e a PSPNet (ZHAO et al., 2017) que utiliza agrupamento em pirâmide e
propõe ser o estado da arte em diversas bases de dados.
Na Tabela 1 são apresentadas as quantidades de parâmetros treináveis de cada
uma das redes.
Tabela 1 – Número de parâmetros treináveis por rede

Arquitetura Número de Parâmetros (Milhões)
U-Net 17,8
Linknet 13,7
PSPNet 19,9
Foram utilizadas implementações de cada arquitetura da biblioteca Segmentation

Models (IAKUBOVSKII, 2019), de onde também é implementado o backbone utilizado
nas redes e sua respectiva função de pré-processamento.
Para aplicar o transfer learning os pesos dos modelos iniciam o treinamento com
valores pré-estabelecidos após serem treinados em outra base. A base utilizada para isso
foi a Imagenet (DENG et al., 2009). Além disso, a função de ativação utilizada em todas
as redes analisadas foi a função softmax pelo fato do problema ser entre 3 classes diferente.
3.3.1 Definição de hiperparâmetros

Como já mencionado anteriormente, as redes utilizam alguns hiperparâmetros que
devem ser definidos manualmente e são geralmente determinados através de processos de
otimização dos mesmos. Um dos hiperparâmetros já citados foi o backbone que as redes
vão utilizar em que foi escolhido a EfficientNetB3 (TAN; LE, 2019) pelo seu desempenho
em imagens médicas.
Outros parâmetros utilizados podem ser conferidos na Tabela 2, nela são
apresentados o tipo do otimizador que foi utilizado, a taxa de aprendizagem da rede, o
tamanho de cada batch de imagens, a quantidade de épocas de treinamento e qual a
função loss utilizada. É importante mencionar que todos os parâmetros escolhidos foram
os mesmos para todas as redes para garantir que se possa fazer uma análise em condições
iguais das arquiteturas.
Tabela 2 – Hiperparâmetros das redes

Hiperparâmetro Valor Definido
Tipo do otimizador Adam
Taxa de aprendizagem 0,0001
Tamanho do batch 4
Quantidade de épocas 30
Função loss Binary Cross Entropy + Jaccard
A função loss além de ser o somatório entre a função Binary Cross Entropy e
Jaccard, a segunda foi ajustada para receber pesos para cada uma das classes onde as
classes do disco e escavação receberam peso 1 enquanto a classe de segundo plano recebeu
peso 0,5 para que essa influencie menos no resultado da função por ser a função dominante
na classe.
Também foram utilizadas algumas funções utilitárias no treinamento que são
chamadas ao final de cada época, uma foi a função de checkpoint na qual os pesos da rede
são salvos quando essa tem o seu melhor desempenho e a função de ajustar a taxa de
aprendizagem quando à medida que deixam de acontecer mudanças no desempenho da
rede.
3.4 Avaliação de resultados

Para realizar a análise dos resultados, os pesos salvos do treinamento com o melhor
desempenho são carregados e o modelo é avaliado sobre a base de dados que não foi
utilizada no treino que corresponde a base de teste. Para quantificar essa avaliação são
utilizadas algumas métricas definidas com o modelo. As métricas escolhidas foram a
Interseção sobre União (IoU, do inglês Intersection over Union) e o F1-Score. Foi utilizada
a média por classe dessas métricas.
O IoU é uma métrica frequentemente usada dentro da área da visão computacional

em problemas de detecção e segmentação semântica pois com ela é possível obter uma
medida de quanto os objetos estão sobrepostos. Ela é calculada através da interseção
entre o que a rede predisse e a anotação de segmentação verdadeira, em relação à união
dessas mesmas áreas. Quanto maior o IoU maior é a sobreposição entre essas duas áreas e,
portanto, a predição está próxima do real. Uma ilustração dessa métrica pode ser observada
na Figura 11.
Figura 11 – Imagem ilustrativa do IoU.
Fonte: (ROSEBROCK, 2016).
O F1-Score é outra métrica bastante utilizada em aprendizagem de máquina em

geral pois ela apresenta em um único número o desempenho geral no problema de acordo
com os valores gerados na matriz de confusão. O F1-Score é calculado através da média
harmônica entre precisão e recall dos resultados que por sua vez são, respectivamente, dos
previstos positivamente quantos foram corretos e quantos foram previstos corretamente do
total de resultados positivos. As equações matemáticas podem ser vistas abaixo, onde VP
corresponde aos verdadeiros positivos, FP aos falsos positivos e FN aos falsos negativos.
VP
P recisão = (3.1)
V P + FP
VP
Recall = (3.2)
V P + FN
2 ∗ P recisão ∗ Recall
F1 = (3.3)
P recisão + Recall
Por fim, foram geradas imagens a partir das predições das redes e elas foram
dispostas lado a lado com as imagens de segmentação verdadeira para que pudessem ser
comparadas. Foram escolhidas 3 imagens para cada rede, uma com uma predição boa,
outra com uma predição mediana e outra com uma predição ruim.
29
4 Resultados
Neste capítulo são apresentados os resultados através das métricas previamente

descritas para cada uma das arquiteturas conforme a metodologia aplicada.
Para aumentar a confiabilidade na avaliação dos resultados, foi utilizado o método
de hold-out em que a base de dados é dividida e uma das partes é a utilizada para testar e
avaliar os resultados de forma que o modelo não tenha visto durante o treino nenhum dos
dados. A mesma função de pré-processamento do backbone deve ser aplicada nesses dados
porém eles não são embaralhados e não são alteradas pelo pipeline de aumento da imagem
mencionado anteriormente.
Para realizar o processo de avaliação, são carregados no modelo os pesos salvos
durante o treinamento na época em que o modelo possuiu o melhor desempenho e as
melhores métricas. A média das métricas de cada uma das 3 classes avaliada em cada
arquitetura podem ser observadas na Tabela 3.
Tabela 3 – Resultados obtidos na avaliação de cada arquitetura.

Arquitetura IoU F1-Score
U-Net 0,83755 0,90357
Linknet 0,83302 0,90067
PSPNet 0,78114 0.86127
A partir da Tabela 3, é possível observar que os resultados das arquiteturas Unet

e Linknet são extremamente próximos, porém a arquitetura PSPNet não possuiu um
desempenho tão bom quanto as outras duas na sua avaliação.
A seguir são apresentados os gráficos de treinamento de cada arquitetura e a alguns
casos de estudo em que é feita a comparação de imagens preditas e a segmentação dos
especialistas. Esses casos de estudo foram escolhidos a partir de experimentos em que
eram feitas predições de 40 imagens da base de teste escolhidas aleatoriamente e foram
escolhidas a imagem com as piores métricas, a com as melhores e uma com métricas
comuns.
4.1 Avaliação U-Net

A U-Net já é uma rede bastante usada na segmentação semântica, principalmente
na área de imagens médicas, portanto, como é possível constatar a partir das métricas
utilizadas nos gráficos da Figura 12, ela possuiu um bom desempenho durante o seu
treinamento.
Capítulo 4. Resultados 30
Como é usual para redes neurais e pelo fato de utilizar o método de transfer
learning, nas primeiras épocas ocorre a maior melhora de desempenho até atingir um
limite conhecido como platô onde há ajustes menores nos pesos da rede e há uma pequena
ou nenhuma melhora nas métricas e na função loss.
Figura 12 – Gráficos apresentando a função loss e o IoU em cada época do treinamento

da rede U-Net.
(a)IoU
(b)Loss
Fonte: Autor.
Na Figura 13 é feita a comparação entre as imagens e o resultado das métricas

de predição foram medianas e foi um dos casos mais comum de acontecer. O IoU foi de
0,84 e o F1-Score foi de 0,90, ambos próximos da média para a rede. Na imagem podemos
notar que a posição de disco e escavação estão próximos da realidade, porém o formato
do disco parece mais deformado do que a realidade. Logo, pode-se notar uma dificuldade
do modelo entre diferenciar o que é disco e o que é escavação, dificuldade ocorrendo em
diferentes arquiteturas.
No caso da Figura 14, a rede teve um desempenho ruim em sua predição. Nela a
predição teve um IoU de 0,67 e um F1-Score de 0,76. Podemos perceber que mesmo em
casos ruins a rede ainda acerta a posição geral de ambos disco e escavação, porém em
grande parte dos casos ruins nota-se que a rede teve dificuldade na predição do formato
do disco. Isso pode acontecer por variações de cores e iluminação próximas ao disco e por
formatos anormais do disco.
Na Figura 15, é apresentado um caso em que a arquitetura teve um desempenho

muito bom na sua predição. Nele o IoU da imagem predita com a máscara real foi
de 0,94 e o F1-Score foi de 0,97, os maiores encontrados em qualquer experimento ou
arquitetura. Percebe-se pela imagem que há uma clara distinção entre as cores do disco e
seus arredores e uma distinção mais clara do que em outros casos entre disco e escavação.
Além disso, pode-se notar pelas outras imagens do experimento que geralmente as melhores
predições ocorrem quando o disco e a escavação se aproximam do formato circular e ambas
apresentam tamanho de mediano para grande.
Além de tudo que já foi comentado, pelos experimentos pode-se notar que o IoU
das predições geralmente ficaram entre 0,80 e 0,90 tendo poucos casos acima de 0,91 ou
abaixo de 0,77. Portanto, julgando apenas pelos casos utilizados no experimento; é possível
notar que a U-Net obteve uma boa consistência nas suas predições.
Figura 13 – Comparação entre segmentação dos especialistas e predição da arquitetura

U-Net. Caso mediano.
Fonte: Autor.

U-Net. Caso de pior segmentação.
Fonte: Autor.

U-Net. Caso de melhor segmentação.
Fonte: Autor.
4.2 Avaliação Linknet

da rede Linknet.
(a)IoU
(b)Loss
Fonte: Autor.
O gráfico da Figura 16 demonstra como se deu o treinamento da rede Linknet,

em que é possível notar a grande semelhança como já mencionada previamente com o
treinamento da U-Net, sendo a grande diferença que tanto o Loss quanto o IoU da validação
da Linknet foram ligeiramente piores que da U-Net.
Como já foi dito anteriormente, as arquiteturas Linknet e U-Net possuem grande
semelhança entre seus resultados. Isso é aparente também na Figura 17 na qual é possível
notar que o caso médio de predição a localização de ambos disco e escavação estão corretas,
mas a proporção entre os dois não está exata. Na imagem de fundo de olho é possível ver
que as cores dos dois são muito próximas e é difícil notar uma diferença clara.
O caso de pior segmentação escolhido da arquitetura Linknet pode ser visto na
Figura 18. Nele observa-se que o IoU e F1-Score foram mais baixos quando comparados
com a U-Net com valores de 0,58 e 0,70 respectivamente. Quando são comparadas a
máscara real com a predita podemos ver que a proporção entre disco e escavação está
correta porém ambos tiveram formato um pouco distante do esperado. Um dos possíveis
motivos para isso acontecer foi o excesso de luz na imagem, tornando difícil para a rede
delimitar o disco.
Na Figura 19 em que é apresentado uma das predições com o melhor resultado da
arquitetura, acontece fato comparável ao da arquitetura U-Net em que casos em que o
disco seja bem definido não possuindo excesso ou falta de luz e não haja variação de cores
próximas e ambos disco e escavação são um pouco maiores os resultados das predições são
melhores. As métricas analisadas foram tão altas quanto da outra rede analisada possuindo
um IoU de 0,94 e F1-Score de 0,96.
Além do que já foi apresentado, foi possível notar durante os experimentos que a
Linknet possuiu mais resultados excepcionais do que a U-Net, em que o IoU ultrapassava
0,92 e o F1-Score ultrapassava 0,95. Porém, também foi notado um maior número de
resultados possuindo IoU abaixo de 0,80. Portanto, pelos resultados analisados a arquitetura
apresentou menor consistência nas suas predições.

Linknet. Caso mediano.
Fonte: Autor.

Linknet. Caso de pior segmentação.
Fonte: Autor.

Linknet. Caso de melhor segmentação.
Fonte: Autor.
4.3 Avaliação PSPNet

Como é possível observar pelos gráficos da Figura 20, o IoU e o Loss do treino foi
similar ao das outras arquiteturas, porém os valores dos mesmos para a base de validação foi
consideravelmente pior. Estes gráficos junto com os resultados apresentados anteriormente
da avaliação do melhor modelo salvo da PSPNet apontam para a possibilidade da rede ter
entrado em overfitting em que ela ajusta demais os pesos para os dados de treino e não
generaliza suas predições para outros casos.
Na Figura 21 é apresentado o resultado mediano da rede analisada. O IoU do
caso escolhido foi de 0,79 e o F1-Score foi de 0,88. É possível perceber que como nas
outras arquiteturas não há grandes problemas quanto a localização das predições, porém
diferentemente das outras nota-se que os formatos do disco e da escavação são mais
irregulares e a proporção entre disco e escavação também não foi ideal.

da rede PSPNet.
(a)IoU
(b)Loss
Fonte: Autor.
Na Figura 22 é apresentado um resultado ruim da rede analisado em que o IoU da

predição foi de 0,58 e o F1-Score foi de 0,69 sendo esse o pior resultado dos casos escolhidos
entre todas as arquiteturas analisadas. Apesar de ter sido o pior resultado, esse resultado
ainda foi relativamente próximo do pior resultado da arquitetura Linknet. Entretanto, é
possível observar que o formato do disco predito não está próximo de nenhum formato
esperado, portanto pode-se dizer que a identificação do formato não foi completamente
aprendido pela arquitetura e a escavação está com uma deslocação em relação a real.
Na Figura 23, o IoU da predição foi de 0,90 e o F1-Score foi de 0,94, portanto a
rede também é capaz de realizar ótimas predições. Não foi possível distinguir claramente
um motivo para melhores resultados nessa arquitetura mas geralmente em imagens que a
escavação era um pouco maior a rede obteve bons resultados. Entretanto pouquíssimos
resultados ultrapassaram 0,85 de IoU.
Apesar de ter apresentado resultados abaixo quando comparado com as outras
duas redes, muitos dos resultados dos experimentos tiveram predições com IoU médio
entre 0,76 e 0,85. Entretanto, a arquitetura também possuiu uma parcela significativa de
resultados abaixo de 0,65 de IoU. Portanto, a partir apenas dos casos analisados, a rede
possuiu uma alta inconsistência nas suas predições.

PSPNet. Caso mediano.
Fonte: Autor.

PSPNet. Caso de pior segmentação.
Fonte: Autor.

PSPNet. Caso de melhor segmentação.
Fonte: Autor.
37
5 Conclusão
Este trabalho pôde explorar a análise de arquiteturas de redes neurais em um

problema de segmentação do disco óptico e escavação papilar em imagens de fundo de
olho. Nele foram analisadas as arquiteturas U-Net, Linknet e PSPNet sob condições iguais,
com a mesma base de dados e foram posteriormente avaliadas de acordo com as mesmas
métricas e suas predições foram comparadas com as marcações dos especialistas.
Pode-se afirmar que as arquiteturas U-Net e Linknet tiveram resultados bons, com
ambas podendo ter alto desempenho na tarefa em questão, e ambas são muito semelhantes
quanto as métricas das suas predições, dos treinos e seus resultados. Apesar da Linknet
propor ser uma arquitetura mais eficiente e possuir menos parâmetros, não foi notado
durantes os testes uma grande diferença entre o tempo de treinamento entre ela e a U-Net,
podendo essa diferença ser melhor percebida em imagens com maior resolução ou bases de
dados maiores.
A PSPNet, no entanto não obteve resultados tão bons quanto das outras duas. Isso
pode ter ocorrido por alguns motivos: analisar diferentes escopos pode ser prejudicial para
a avaliação em casos que a imagem não tenha cenários muito complexos como é normal
em a PSPNet ter os melhores resultados, a combinação de hiperparâmetros pode ter
prejudicado o desempenho da arquitetura ou o fato das imagens de treino serem geradas
por uma máquina diferente e um pouco maiores em resolução comparadas com as imagens
de validação e teste.
Outro ponto que pode ser analisado é quanto a melhoria das predições depende
muito de como a imagem está, o nível de luminosidade, as cores apresentadas na imagem,
principalmente as próximas ao disco óptico. Portanto, a utilização de métodos de aumento
dessas imagens durante o treino para diminuir a influência desses parâmetros.
Um ponto muito importante é que em sistemas que servem como suporte para
decisões e diagnósticos não só é necessário que os sistemas tenham ótimas predições, mas
também tenham constância nelas. Nesse ponto, a partir das análises dos experimentos com
as imagens de predição, a U-Net teve a melhor estabilidade entre as suas predições, apesar
de não ter tido tantos resultados excepcionais quanto a Linknet. Porém, essa análise de
estabilidade entre as predições da rede poderiam ser melhor avaliadas em um método
diferente, como a validação cruzada em que poderia ser extraído o desvio padrão entre as
avaliações da rede.
Este trabalho foi capaz de analisar as três arquiteturas em um ambiente específico
e todas aparentam ter capacidade de gerar bons resultados para a tarefa em questão. O
Capítulo 5. Conclusão 38
mesmo poderá servir de base para futuros trabalhos que busquem utilizar uma das três
arquiteturas ou adaptá-las em um modelo proposto.
Apesar de ter tipo um bom desempenho na avaliação das arquiteturas apresentadas,
o presente trabalho possui algumas limitações. Uma das principais limitações está na
dependência inerente ao uso de CNNs do conjuntos de dados, uma vez que a eficácia dessas
pode ser comprometida quando confrontadas com imagens que diferem da distribuição
do conjunto de treinamento. Além disso, nesse trabalho são avaliadas apenas algumas
arquiteturas mais básicas que, geralmente, são usadas como base para a criação de modelos
mais complexos e mais precisos, sendo assim esse trabalho interessa mais a criação de
outros trabalhos que propõe outros modelos do que aos profissionais que podem utilizar
um desses modelos.
Em direção aos trabalhos futuros, há diversas oportunidades promissoras para a
expansão e aprimoramento das abordagens propostas neste estudo. Como a otimização e
ampliação de hiperparâmetros utilizados pelas arquiteturas, como o uso de outras funções
Loss, utilização de outros tipos de otimizadores, utilizar pesos de cada classe diferentes,
por exemplo para dar ênfase na classe do disco óptico. Além disso, o uso de uma forma
de otimizar esses parâmetros seria também uma forma de comparar as arquiteturas em
seus melhores ambientes de treinamento. Outro aprimoramento poderia ser a utilização
de formas diferentes de aumento de dados, como a aplicação de mudanças de saturação e
luminosidade das imagens e como essa técnica impacta nos resultados e a aplicação de
outras técnicas de avaliação de resultados como a validação cruzada para utilizar a base
de dados em sua completude e garantir que resultados não dependam da distribuição das
imagens.
39
Referências
ABRÀMOFF, M. D.; GARVIN, M. K.; SONKA, M. Retinal imaging and image analysis.
IEEE reviews in biomedical engineering, IEEE, v. 3, p. 169–208, 2010. Citado na página
16.
ALAWAD, M.; ALJOUIE, A.; ALAMRI, S.; ALGHAMDI, M.; ALABDULKADER, B.;
ALKANHAL, N.; ALMAZROA, A. Machine learning and deep learning techniques for
optic disc and cup segmentation–a review. Clinical Ophthalmology, Taylor & Francis, p.
747–764, 2022. Citado na página 14.
ALMAZROA, A.; BURMAN, R.; RAAHEMIFAR, K.; LAKSHMINARAYANAN, V. et al.

Optic disc and optic cup segmentation methodologies for glaucoma image detection: a
survey. Journal of ophthalmology, Hindawi, v. 2015, 2015. Citado na página 14.
BADRINARAYANAN, V.; KENDALL, A.; CIPOLLA, R. Segnet: A deep convolutional

encoder-decoder architecture for image segmentation. IEEE transactions on pattern
analysis and machine intelligence, IEEE, v. 39, n. 12, p. 2481–2495, 2017. Citado na
página 19.
BEELER, P. E.; BATES, D. W.; HUG, B. L. Clinical decision support systems. Swiss
medical weekly, v. 144, n. 5152, p. w14073–w14073, 2014. Citado na página 13.
BIZOPOULOS, P.; VRETOS, N.; DARAS, P. Comprehensive comparison of deep

learning models for lung and covid-19 lesion segmentation in ct scans. arXiv preprint
arXiv:2009.06412, 2020. Citado na página 14.
BUSLAEV, A.; IGLOVIKOV, V. I.; KHVEDCHENYA, E.; PARINOV, A.;

DRUZHININ, M.; KALININ, A. A. Albumentations: Fast and flexible image
augmentations. Information, v. 11, n. 2, 2020. ISSN 2078-2489. Disponível em:
<https://www.mdpi.com/2078-2489/11/2/125>. Citado na página 24.
CHAURASIA, A.; CULURCIELLO, E. Linknet: Exploiting encoder representations for

efficient semantic segmentation. In: IEEE. 2017 IEEE visual communications and image
processing (VCIP). [S.l.], 2017. p. 1–4. Citado 2 vezes nas páginas 21 e 25.
CORDTS, M.; OMRAN, M.; RAMOS, S.; REHFELD, T.; ENZWEILER, M.;
BENENSON, R.; FRANKE, U.; ROTH, S.; SCHIELE, B. The cityscapes dataset for
semantic urban scene understanding. In: Proceedings of the IEEE conference on computer
vision and pattern recognition. [S.l.: s.n.], 2016. p. 3213–3223. Citado na página 22.
DENG, J.; DONG, W.; SOCHER, R.; LI, L.-J.; LI, K.; FEI-FEI, L. Imagenet: A
large-scale hierarchical image database. In: IEEE. 2009 IEEE conference on computer
vision and pattern recognition. [S.l.], 2009. p. 248–255. Citado 3 vezes nas páginas 18, 22
e 25.
EVERINGHAM, M.; GOOL, L. V.; WILLIAMS, C. K.; WINN, J.; ZISSERMAN, A. The
pascal visual object classes (voc) challenge. International journal of computer vision,
Springer, v. 88, p. 303–338, 2010. Citado na página 22.
Referências 40
GOODFELLOW, I.; BENGIO, Y.; COURVILLE, A. Deep learning. [S.l.]: MIT press,
2016. Citado na página 17.
HINTON, D. R.; WILKINSON, C. P.; WIEDEMANN, P. Retina. [S.l.]: Elsevier Health

Sciences, 2013. v. 2. Citado na página 13.
IAKUBOVSKII, P. Segmentation Models. [S.l.]: GitHub, 2019. <https://github.com/

qubvel/segmentation_models>. Citado na página 25.
JIANG, Y.; DUAN, L.; CHENG, J.; GU, Z.; XIA, H.; FU, H.; LI, C.; LIU, J. Jointrcnn: a
region-based convolutional neural network for optic disc and cup segmentation. IEEE
Transactions on Biomedical Engineering, IEEE, v. 67, n. 2, p. 335–343, 2019. Citado na
página 14.
LECUN, Y.; BENGIO, Y.; HINTON, G. Deep learning. nature, Nature Publishing Group
UK London, v. 521, n. 7553, p. 436–444, 2015. Citado 2 vezes nas páginas 17 e 18.
LECUN, Y.; BOTTOU, L.; BENGIO, Y.; HAFFNER, P. Gradient-based learning applied
to document recognition. Proceedings of the IEEE, Ieee, v. 86, n. 11, p. 2278–2324, 1998.
Citado na página 18.
LI, G.; LI, C.; ZENG, C.; GAO, P.; XIE, G. Region focus network for joint optic disc and
cup segmentation. In: Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.:
s.n.], 2020. v. 34, n. 01, p. 751–758. Citado na página 14.
LI, T.; BO, W.; HU, C.; KANG, H.; LIU, H.; WANG, K.; FU, H. Applications of deep
learning in fundus images: A review. Medical Image Analysis, Elsevier, v. 69, p. 101971,
2021. Citado na página 13.
LITJENS, G.; KOOI, T.; BEJNORDI, B. E.; SETIO, A. A. A.; CIOMPI, F.;
GHAFOORIAN, M.; LAAK, J. A. V. D.; GINNEKEN, B. V.; SÁNCHEZ, C. I. A survey
on deep learning in medical image analysis. Medical image analysis, Elsevier, v. 42, p.
60–88, 2017. Citado na página 13.
LO, S.-C.; LOU, S.-L.; LIN, J.-S.; FREEDMAN, M. T.; CHIEN, M. V.; MUN, S. K.
Artificial convolution neural network techniques and applications for lung nodule detection.
IEEE transactions on medical imaging, IEEE, v. 14, n. 4, p. 711–718, 1995. Citado na
página 13.
MURALI, N. Image Classification vs Semantic Segmentation vs Instance

Segmentation. 2021. Disponível em: <https://nirmalamurali.medium.com/
image-classification-vs-semantic-segmentation-vs-instance-segmentation-625c33a08d50>.
Acesso em: 08 dez 2023. Citado na página 19.
ORLANDO, J. I.; FU, H.; BREDA, J. B.; KEER, K. V.; BATHULA, D. R.; DIAZ-PINTO,
A.; FANG, R.; HENG, P.-A.; KIM, J.; LEE, J. et al. Refuge challenge: A unified
framework for evaluating automated methods for glaucoma assessment from fundus
photographs. Medical image analysis, Elsevier, v. 59, p. 101570, 2020. Citado 2 vezes nas
páginas 16 e 23.
PAULA, A. A. d. Fundoscopia. J. bras. med, p. 36–8, 1998. Citado na página 13.

Referências 41
RONNEBERGER, O.; FISCHER, P.; BROX, T. U-net: Convolutional networks for

biomedical image segmentation. In: SPRINGER. Medical Image Computing and
Computer-Assisted Intervention–MICCAI 2015: 18th International Conference, Munich,
Germany, October 5-9, 2015, Proceedings, Part III 18. [S.l.], 2015. p. 234–241. Citado 2
vezes nas páginas 20 e 25.
ROSEBROCK, A. Intersection over Union (IoU) for object detection.

2016. Disponível em: <https://pyimagesearch.com/2016/11/07/
intersection-over-union-iou-for-object-detection/>. Acesso em: 06 dez 2023.
SCHMIDT-ERFURTH, U.; SADEGHIPOUR, A.; GERENDAS, B. S.; WALDSTEIN,

S. M.; BOGUNOVIĆ, H. Artificial intelligence in retina. Progress in retinal and eye
research, Elsevier, v. 67, p. 1–29, 2018. Citado 2 vezes nas páginas 16 e 17.
STEINMETZ, J. D.; BOURNE, R. R.; BRIANT, P. S.; FLAXMAN, S. R.; TAYLOR,

H. R.; JONAS, J. B.; ABDOLI, A. A.; ABRHA, W. A.; ABUALHASAN, A.;
ABU-GHARBIEH, E. G. et al. Causes of blindness and vision impairment in 2020 and
trends over 30 years, and prevalence of avoidable blindness in relation to vision 2020:
the right to sight: an analysis for the global burden of disease study. The Lancet Global
Health, Elsevier, v. 9, n. 2, p. e144–e160, 2021. Citado na página 13.
TAN, M.; LE, Q. Efficientnet: Rethinking model scaling for convolutional neural networks.
In: PMLR. International conference on machine learning. [S.l.], 2019. p. 6105–6114.
WONG, T. Y.; SHANKAR, A.; KLEIN, R.; KLEIN, B. E.; HUBBARD, L. D. Prospective
cohort study of retinal vessel diameters and risk of hypertension. bmj, British Medical
Journal Publishing Group, v. 329, n. 7457, p. 79, 2004. Citado na página 16.
ZHAO, H.; SHI, J.; QI, X.; WANG, X.; JIA, J. Pyramid scene parsing network. In:
Proceedings of the IEEE conference on computer vision and pattern recognition. [S.l.: s.n.],
2017. p. 2881–2890. Citado 3 vezes nas páginas 21, 22 e 25.

TCC Ciência Da Computação UFMA Brenno Izaias Final

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

TCC Ciência Da Computação UFMA Brenno Izaias Final

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DO MARANHÃO

Curso de Ciência da Computação

Brenno Izaias Cardoso Nascimento

Avaliação de Redes Neurais Convolucionais para

Avaliação de Redes Neurais Convolucionais para

Monografia apresentada ao curso de Ciência

Orientador: Prof. Dr. Geraldo Braz Júnior

Nascimento, Brenno Izaias Cardoso.

Orientador(a): Geraldo Braz Júnior.

1. Aprendizado profundo. 2. Imagem de fundo de olho.

Avaliação de Redes Neurais Convolucionais para

Monografia apresentada ao curso de Ciência

Trabalho aprovado em São Luís, 21 de dezembro de 2023:

Prof. Dr. Geraldo Braz Júnior

Prof. Dr. João Dallyson Sousa de

Profa. Dra. Simara Vieira da Rocha

Gostaria de agradecer primeiramente à minha família que sempre incentivou os

Figura 1 – Exemplo de imagem de fundo de olho colorida. . . . . . . . . . . . . . 16

Tabela 1 – Número de parâmetros treináveis por rede . . . . . . . . . . . . . . . . 25

CNN Rede Neural Convolucional

IoU Interseção sobre União

Catarata, glaucoma, degeneração macular relacionada à idade e retinopatia

as conclusões obtidas a partir dos resultados, relacionando-as aos objetivos iniciais e

1.1.1 Objetivos Específicos

• Análise e comparação entre as arquiteturas: U-Net, Linknet e PSPNet.

2.1 Imagens de fundo de olho

Figura 1 – Exemplo de imagem de fundo de olho colorida.

Fonte: Base REFUGE (ORLANDO et al., 2020).

2.2 Aprendizagem Profunda

2.3 Redes Neurais Convolucionais

Figura 2 – Arquitetura da LeNet-5, uma rede neural convolucional.

Fonte: (LECUN et al., 1998).

2.3.1 Classificação x Segmentação

Figura 3 – Comparação entre classificação, detecção, segmentação semântica e segmentação

Fonte: (MURALI, 2021).

Figura 4 – SegNet, um exemplo de arquitetura de segmentação semântica.

Fonte: (BADRINARAYANAN; KENDALL; CIPOLLA, 2017).

Figura 5 – Arquitetura da U-Net.

Fonte: (RONNEBERGER; FISCHER; BROX, 2015).

A arquitetura da U-Net, apresentada na Figura 5, é composta por duas partes

Figura 6 – Arquitetura da Linknet.

Fonte: (CHAURASIA; CULURCIELLO, 2017).

Figura 7 – Arquitetura da PSPNet.

Fonte: (ZHAO et al., 2017).

Essa arquitetura conseguiu resultados muito positivos em diversas competições e

Este capítulo apresenta a metodologia considerada adequada para a avaliação dos

Figura 8 – Fluxograma da metodologia.

3.1 Aquisição das Imagens

Figura 9 – Exemplo de imagem da base e suas respectivas máscaras de escavação papilar,

treinamento muito longo e consumiria muito recurso computacional e pelo fato de a

3.2.1 Data Augmentation das imagens

Figura 10 – Exemplo de imagem após alterações e suas respectivas máscaras igualmente

3.3 Modelos de redes

Tabela 1 – Número de parâmetros treináveis por rede

Foram utilizadas implementações de cada arquitetura da biblioteca Segmentation

3.3.1 Definição de hiperparâmetros

Tabela 2 – Hiperparâmetros das redes

3.4 Avaliação de resultados

O IoU é uma métrica frequentemente usada dentro da área da visão computacional

Figura 11 – Imagem ilustrativa do IoU.

Fonte: (ROSEBROCK, 2016).

O F1-Score é outra métrica bastante utilizada em aprendizagem de máquina em

Neste capítulo são apresentados os resultados através das métricas previamente