Você está na página 1de 3

CLASSIFICAÇÃO DE IMAGENS UTILIZANDO DEEP LEARNING

IMAGE CLASSIFICATION USING DEEP LEARNING

João Antonio Mota Barioni


João Gabriel Cheutchuk
André Silvestre

RESUMO
O código implementa um treinamento de uma Rede Neural Convolucional (CNN) utilizando a
arquitetura ResNet para classificação de imagens. O conjunto de dados STL-10 é utilizado
para treinamento e teste. O modelo é adaptado para lidar com 10 classes de imagens. O
treinamento é realizado por 50 épocas, utilizando transformações de dados e técnicas de
aumento de dados. O objetivo é melhorar a acurácia do modelo além de 85%, permitindo
ajustes em hiperparâmetros, transformações de dados e outros aspectos da arquitetura da rede.
Palavras-chave: Rede Neural Convolucional, Deep Learn.

ABSTRACT

The code implements the training of a Convolutional Neural Network (CNN) using the
ResNet architecture for image classification. The STL-10 dataset is employed for both
training and testing purposes. The model is tailored to handle 10 image classes. Training
spans 50 epochs, incorporating data transformations and augmentation techniques. The
primary objective is to enhance the model's accuracy beyond 85%, allowing for adjustments
to hyperparameters, data transformations, and other aspects of the network architecture.
Key words: Convolutional Neural Network, Deep Learn.

1 INTRODUÇÃO

A visão computacional, impulsionada pelos avanços em redes neurais convolucionais


(CNNs), tem desempenhado um papel central em diversas aplicações, da identificação de
objetos à análise de padrões em imagens. Este trabalho se propõe a explorar e aprimorar a
eficácia da arquitetura ResNet na tarefa específica de classificação de imagens, utilizando
como cenário de estudo o conjunto de dados desafiador STL-10. A escolha estratégica da
ResNet, conhecida por sua capacidade de capturar representações complexas, fundamenta-se
na busca por uma compreensão mais profunda de suas características em um contexto de
visão computacional.

Ao delinear claramente os limites desta pesquisa, concentramo-nos na otimização da acurácia


do modelo por meio de técnicas como aumento de dados e ajustes de hiperparâmetros.
A introdução contextualiza o estado atual do desenvolvimento dessa arquitetura, indicando
lacunas e oportunidades de aprimoramento. Adicionalmente, abordamos o problema central:
atingir uma acurácia superior a 88.67% na classificação de imagens STL-10. Este estudo
contribui não apenas com um código prático e experimental, mas também com uma análise
crítica do potencial da ResNet em ambientes desafiadores, oferecendo insights valiosos para a
comunidade de aprendizado profundo.
2 DESENVOLVIMENTO

A evolução das Redes Neurais Convolucionais (CNN) tem desempenhado um papel


crucial nos avanços da visão computacional, proporcionando a capacidade de extrair
características complexas de imagens. Inspiradas na organização visual do córtex humano, as
CNNs se destacam em tarefas desafiadoras, como a classificação de imagens.
A ResNet, integrante da renomada família ResNet, sobressai-se pela sua habilidade em
treinar redes profundas sem degradação significativa do desempenho. Sua arquitetura com
blocos residuais facilita o fluxo eficiente de informações durante o treinamento, tornando-a
uma escolha relevante e eficaz para a classificação de imagens.
O conjunto de dados STL-10 é um conjunto de dados de reconhecimento de imagem
para o desenvolvimento de algoritmos de aprendizado de recursos não supervisionados,
aprendizado profundo e aprendizado autodidata. (Adam Coates, 2011). O pré-processamento
do conjunto STL-10 é crucial, envolvendo transformação e normalização dos dados, além da
aplicação de técnicas de aumento, como rotações e reflexões horizontais, para diversificar o
conjunto de treinamento.

Fonte: Adam Coates (2011)


A imagem destaca um conjunto de dados com 10 classes: avião, pássaro, carro, gato, veado, cachorro,
cavalo, macaco, navio e caminhão. As imagens, coloridas e de 96x96 pixels, compreendem 500 no conjunto de
treinamento (dividido em 10 dobras) e 800 no conjunto de teste por classe

A implementação personalizada da ResNet para a tarefa de classificação de 10 classes


incluiu ajustes na última camada totalmente conectada conforme os requisitos específicos do
problema. O treinamento do modelo foi realizado com o otimizador Adam, uma taxa de
aprendizado inicial de “1e-4” e uma política de decaimento exponencial. A avaliação de
desempenho baseou-se na CrossEntropyLoss, complementada por um scheduler para ajuste
dinâmico da taxa de aprendizado.
Este estudo, ao integrar teoria e prática, destaca as nuances da implementação da
ResNet na classificação de imagens, abordando desde a escolha da arquitetura até a estratégia
de treinamento. Esses elementos coesos compõem uma abordagem abrangente para explorar o
potencial desta arquitetura em desafios específicos de visão computacional.
Durante as 15 épocas de treinamento, testemunhamos a convergência do modelo,
monitorando atentamente as curvas de perda e acurácia em ambos os conjuntos de
treinamento e teste. Essa análise temporal proporciona uma compreensão dinâmica do
processo de aprendizado da rede neural.
3 CONSIDERAÇÕES FINAIS

Neste estudo, exploramos a aplicação da ResNet na classificação de imagens com o


conjunto STL-10, alcançando uma acurácia final de 88.67% após 15 épocas de treinamento.
A robustez da ResNet, aliada a técnicas de aumento de dados, contribuiu para um
desempenho equilibrado nos conjuntos de treinamento e teste.

Identificamos a sensibilidade do modelo a nuances específicas de classes, sugerindo


investigações futuras para atenuar esse comportamento. Recomendamos explorações
adicionais em estratégias de aumento de dados e ajustes finos na arquitetura da ResNet.

Estas conclusões, além de oferecerem insights práticos, estabelecem uma base para
pesquisas futuras em visão computacional. A interpretabilidade do modelo e experimentações
com outras arquiteturas representam direções promissoras para avanços nesta área dinâmica
do aprendizado profundo.

4 REFERÊNCIAS

MATSUBARA, Takashi; NAKAMURA, Tetsu; OBUCHI, Yoshihiko. Convolutional Neural


Network for Face Expression Recognition. Disponível em:
https://www.iro.umontreal.ca/~pift6080/H09/documents/papers/sparse/matsugo_etal_face_ex
pression_conv_nnet.pdf. Acesso em: 26 nov. 2023.

COATES, Adam. STL-10 Dataset. Disponível em: https://cs.stanford.edu/~acoates/stl10/.


Acesso em: 26 nov. 2023.

PYTORCH. PyTorch Documentation. Disponível em:


https://pytorch.org/docs/stable/index.html. Acesso em: 26 nov. 2023.

PYTORCH. ResNet - PyTorch Vision Documentation. Disponível em:


https://pytorch.org/vision/main/models/generated/torchvision.models.resnet18.html. Acesso
em: 26 nov. 2023.

BARIONI, João. Projeto no GitHub: DeepLearning-STL-10-ResNet. Disponível em:


https://github.com/JoaoBarioni/DeepLearning-STL-10-ResNet. Acesso em: 26 nov. 2023.

Você também pode gostar