Escolar Documentos
Profissional Documentos
Cultura Documentos
SERRA
2022
ISABELLE PEREIRA SOUZA DIAS
SERRA
2022
Dados Internacionais de Catalogação na Publicação (CIP)
CDD 006.32
Aos meus amigos que fizeram meus anos da faculdade serem mais divertidos e me
motivaram ao longo do caminho.
The self-organized map, sometimes also called a Kohonen map, is built using a 2-D
network of predefined nodes and uses unsupervised competitive learning to produce
low-dimensional representations for high-dimensional input data, while still preserving
similarity between the input data. This work proposes to train neural networks of self-
organized maps to identify handwritten digits using the MNIST database as input
patterns. After training the network, a labeling process is carried out in the network,
and for this it is only used 1% of the labels of the training data. The objective of this
work is to compare the performance of Kohonen networks of different sizes, and to
evaluate how the size impacts the metrics. In the end, for the identification of
handwritten digits, it was found that the self-organized map of 16x16, with 256 nodes,
presented the best metrics, reaching an accuracy of 90.03%. This study used the
MNIST database as input, and in future studies the objective is to take full advantage
of unsupervised learning and test it in a database where there are a limited number of
labels.
IA – Inteligência Artificial
1 INTRODUÇÃO...................................................................................... 12
1.1 OBJETIVO GERAL E ESPECÍFICO..................................................... 13
1.2 TRABALHOS CORRELATOS............................................................... 13
1.3 ESTRUTURA DO TEXTO..................................................................... 14
2 REFERENCIAL TEÓRICO................................................................... 15
2.1 INTELIGÊNCIA ARTIFICIAL................................................................. 15
2.2 REDE NEURAL ARTIFICIAL................................................................ 15
2.2.1 Inspiração Biológica........................................................................... 16
2.3 APRENDIZADO DE MÁQUINA............................................................ 18
2.3.1 Aprendizado Supervisionado............................................................ 19
2.3.2 Aprendizado Não Supervisionado..................................................... 21
2.3.3 Aprendizado Semi-supervisionado................................................... 22
2.3.4 Aprendizado por Reforço................................................................... 22
2.4 MAPAS DE KOHONEN........................................................................ 23
2.4.1 História e inspiração neurofisiológica.............................................. 24
2.4.2 Princípios do SOM.............................................................................. 26
2.4.3 Estrutura de um Mapa de Kohonen................................................... 27
2.4.3.1 Topologia da rede................................................................................. 27
2.4.3.2 Tamanho da rede.................................................................................. 28
2.4.4 Operações de aprendizagem do SOM............................................... 28
2.5 ALGORITMO DOS MAPAS DE KOHONEN......................................... 30
2.6 AVALIANDO O MAPA DE KOHONEN................................................. 37
2.7 APLICAÇÕES DO SOM........................................................................ 40
2.7.1 Reconhecimento de fala..................................................................... 41
2.7.2 Imagens e análises médicas.............................................................. 42
2.7.3 Robótica............................................................................................... 43
2.8 FERRAMENTAS PRINCIPAIS.............................................................. 44
2.8.1 Python.................................................................................................. 44
2.8.2 Tensorflow........................................................................................... 44
2.8.3 MNIST................................................................................................... 45
3 DESENVOLVIMENTO.......................................................................... 46
3.1 PRÉ-PROCESSAMENTO DOS DADOS DE ENTRADA...................... 46
3.1.1 Normalização....................................................................................... 46
3.1.2 Redimensionamento........................................................................... 46
3.1.3 Divisão dos dados para treino, rótulo e teste.................................. 48
3.2 ALGORITMO PARA TREINAMENTO DO MAPA AUTO-
ORGANIZÁVEL..................................................................................... 48
3.3 ALGORITMO PARA ROTULAGEM DO SOM TREINADO................... 50
3.4 ALGORITMO PARA TESTE DO SOM TREINADO.............................. 51
3.5 HIPERPARÂMETROS.......................................................................... 52
4 RESULTADOS...................................................................................... 54
4.1 SOM DE TAMANHO 10 × 10................................................................ 55
4.2 SOM DE TAMANHO 32 × 32................................................................ 57
4.3 SOM DE TAMANHO 16 × 16................................................................ 60
4.4 SOM DE TAMANHO 8 × 8.................................................................... 63
4.5 SOM DE TAMANHO 4 × 4.................................................................... 65
4.6 SOM DE TAMANHO 5 × 2.................................................................... 67
4.7 SOM DE TAMANHO 1 × 10.................................................................. 68
4.8 SOM DE TAMANHO 5 × 20.................................................................. 70
4.9 COMPARANDO RESULTADOS........................................................... 71
5 CONCLUSÃO....................................................................................... 74
REFERÊNCIAS..................................................................................... 74
12
1 INTRODUÇÃO
Com base nessas abordagens de aprendizado, o modelo faz previsões nos dados de
teste. Algumas abordagens de algoritmos de aprendizado não supervisionado são
clustering, k-means, análise de componentes principais, entre outros. Clustering
envolve o agrupamento de objetos com base em suas características semelhantes.
Muitas abordagens e algoritmos de aprendizado não supervisionado foram
introduzidos desde a última década, são bem conhecidos e amplamente utilizados. A
aplicação de técnicas de aprendizado não supervisionado é popularmente conhecida
em áreas como visão computacional, processamento de linguagem natural,
reconhecimento de fala e desenvolvimento de carros autônomos. O aprendizado não
supervisionado elimina a necessidade de dados rotulados e engenharia manual de
recursos, permitindo métodos de ML generalizados, mais flexíveis e automatizados
(DRIDI, 2021).
Neste trabalho será utilizada uma abordagem específica de clustering, o mapa auto
organizável. O mapa auto organizável, (do inglês, Self-Organizing Maps - SOM),
também denominado de mapa de Kohonen, usa aprendizado competitivo não
supervisionado para produzir representações de baixa dimensão para dados de
entrada de alta dimensão, preservando relações de similaridade entre os dados
apresentados (MILJKOVIĆ, 2017).
Logo, o SOM é uma técnica de redução de dimensionalidade que pode trazer insights
sobre dados de alta dimensão tentando minimizar o uso de computação. Mapas auto
organizáveis podem ser usados para análise exploratória de dados, problemas de
13
O objetivo geral deste trabalho é realizar um estudo dos mapas de Kohonen para
entender seu funcionamento, suas vantagens e desvantagens. Para isso, será
utilizado o banco de dados MNIST de dígitos manuscritos, onde os dados de entrada
serão imagens de um único dígito manuscrito e a saída será a identificação deste
dígito.
Neste contexto, Spiking Neural Networks (SNN) podem ser usadas para realizar
cálculos “complexos” e resolver tarefas de reconhecimento de padrões. Diehl e Cook
14
2 REFERENCIAL TEÓRICO
A IA está cada vez mais próxima das nossas vidas através de um grande painel de
aplicações. Por exemplo: reconhecimento de voz e imagem, carros autónomos,
sistemas de recomendação, assistência à saúde, etc (KHACEF et al., 2019).
Este trabalho será focado nos ramos de rede neural e aprendizado de máquina da
inteligência artificial.
Um neurônio consiste em uma soma (corpo celular), axônio (uma fibra longa) e
dendritos. O axônio envia sinais e os dendritos recebem sinais. Uma sinapse conecta
um axônio a um dendrito. Dado um sinal, uma sinapse pode aumentar (excitar) ou
diminuir (inibir) o potencial elétrico (YANG; YANG, 2014). Na Figura 1 podemos
observar a estrutura de um neurônio biológico.
A eficácia da sinapse pode ser ajustada pelos sinais que passam pelo neurônio para
que as sinapses possam aprender com as atividades das quais participam (JAIN;
MAO; MOHIUDDIN, 1996b). Ao determinar se um impulso deve ser produzido ou não,
alguns sinais de entrada produzem um efeito inibitório e tendem a impedir o disparo,
enquanto outros são excitatórios e promovem a geração de impulsos. A capacidade
de processamento distinta de cada neurônio deve então residir no tipo - excitatório ou
17
Os neurônios artificiais são unidades nas ANNs que recebem uma ou mais entradas
como valores numéricos associados aos seus respectivos pesos. Um “bias”,
parâmetro que serve para aumentar o grau de liberdade dos ajustes dos pesos, é
adicionado como um valor de entrada adicional à função de soma. O valor somado é
passado para a próxima fase para executar a função de ativação que produz a saída
do neurônio do neurônio (YACIM; BOSHOFF, 2018).
18
Aprender é como a rede se adapta para lidar melhor com uma tarefa, considerando
observações de amostra. Este processo envolve o ajuste dos pesos da rede para
melhorar a precisão dos resultados, minimizando os erros observados, considerando
a saída fornecida e a desejada. O aprendizado acontece quando estamos treinando
nossa rede, e o aprendizado é considerado completo quando o exame de
observações adicionais não reduz de forma útil a taxa de erro. Em geral, a taxa de
erro nunca chega a 0, apenas esperamos que seja pequena o suficiente. Porém, se
depois do aprendizado virmos que a taxa de erros ainda é “alta”, isso significa que
nosso modelo de rede deve ser modificado.
Esses dados possuem rótulos que definem o significado dos dados. Por exemplo,
pode haver milhões de imagens de animais e incluir uma explicação do que é cada
animal e então você pode criar um aplicativo de aprendizado de máquina que
20
diferencie um animal do outro. Ao rotular esses dados sobre tipos de animais, você
pode ter centenas de categorias de espécies diferentes. Como os atributos e o
significado dos dados foram identificados, é bem entendido pelos usuários que estão
treinando os dados modelados para que se ajustem aos detalhes dos rótulos
(LANGLEY; CARBONELL, 1984).
etapas sejam navegadas de forma diferente até que o robô seja treinado por tentativa
e erro para entender como subir escadas. Em outras palavras, o robô aprende com
base em uma sequência bem-sucedida de ações. O algoritmo de aprendizado por
reforço deve ser capaz de descobrir uma associação entre o objetivo de subir escadas
com sucesso sem cair e a sequência de eventos que levam ao resultado (LANGLEY;
CARBONELL, 1984).
Uma das maneiras mais fáceis de pensar sobre o aprendizado por reforço é a maneira
como um animal é treinado para realizar ações com base em recompensas. Se o cão
receber uma guloseima toda vez que se sentar sob comando, ele fará essa ação a
cada vez. Hoje em dia, o aprendizado por reforço é um dos algoritmos que está sendo
usado para carros autônomos (LANGLEY; CARBONELL, 1984).
Neste trabalho o mapa de Kohonen será chamado de SOM, sigla proveniente do termo
self-organizing map, da linguagem inglesa, significando mapa auto organizável.
24
Os mapas auto organizáveis, SOMs, foram introduzido pelo professor finlandês Teuvo
Kohonen na década de 1980 e, portanto, às vezes é chamado de mapa de Kohonen
ou rede de Kohonen (KOHONEN, 1990).
Os mapas desenvolvidos por Kohonen são uma tentativa de imitar as ações aparentes
de uma pequena classe de redes neurais biológicas do cérebro. A ideia é criar uma
rede artificial que possa aprender, sem supervisão, uma representação abstrata de
alguma entrada sensorial (KOHONEN, 1990; SAYERS, 1991).
É importante ressaltar que as células nas redes neurais (na retina ou no cérebro)
também se conectam e interagem horizontalmente. Um experimento feito por Haldan
K. Hartline (Prêmio Nobel de 1967) e seus colegas na década de 1960, revelaram a
chamada atividade de “inibição lateral” entre as células da retina. Em outras palavras,
existe interação excitatória de curto alcance entre células próximas, bem como
interação inibitória de longo alcance entre vizinhos distantes. A inibição lateral nos diz
que os neurônios na retina não apenas alimentam as informações para os níveis
superiores, mas também realizam uma tarefa fundamental do processamento visual:
detecção e foco de bordas (YIN, 2008).
Os SOMs são construídos usando uma rede 2-D de nós predefinidos. Esta rede de
nós tem uma estrutura que é definida dando a cada nó uma localização em 𝑅 2 ,
representada como um vetor 𝑙𝑖 onde 𝑖é o índice daquele nó. Um visual do espaço da
rede pode ser visto na Fiura 5 à esquerda. Cada nó na rede também tem uma posição
no espaço de dados de entrada, representada como um vetor 𝑤𝑖 ∈ 𝑅 𝑑 onde 𝑑 é a
dimensão dos dados de entrada. Cada nó é uma conexão entre 𝑅 𝑑 e 𝑅 2 (PONMALAI;
KAMATH, 2019).
Em tal modo podemos entender como SOMs produzem imagens de projeção de baixa
dimensão de distribuições de dados de alta dimensão, 𝑅 𝑑 → 𝑅 2, preservando ao
mesmo tempo as relações de similaridade entre os dados de entrada (KOHONEN,
2014). A localização espacial de uma unidade de saída em um mapa topográfico
corresponde a um domínio ou característica particular dos dados extraídas do espaço
de entrada (KOHONEN, 1990).
Existem também SOMs especiais nos quais a estrutura e o número de nós na rede
são determinados dinamicamente, dependendo dos dados de entrada (FRITZKE,
1994). Neste estudo será adotada a topologia retangular.
28
Uma das perguntas mais frequentes sobre a estrutura do SOM é quantos nós são
necessários na rede. O SOM é um método de quantização (KOHONEN, 2014). O
mapa possui uma resolução espacial limitada para mostrar os detalhes dos clusters.
Às vezes, o conjunto de dados de entrada pode conter apenas alguns clusters, sendo
suficiente uma baixa resolução. No entanto, se é suspeito que existem muitas
características interessantes nos dados de entrada, será necessária uma matriz maior
para obtermos uma resolução suficiente.
Dito isso, não é possível estimar ou mesmo adivinhar o tamanho exato da matriz de
antemão. O tamanho deve ser determinado pelo método de tentativa e erro, após
análise da qualidade dos resultados com a resolução do primeiro palpite. Pode ser
que seja necessário testar vários tamanhos do SOM para verificar se as estruturas do
cluster são mostradas com resolução e precisão estatística suficientes. As matrizes
SOM típicas variam de algumas dezenas a algumas centenas de nós (KOHONEN,
2014).
A aprendizagem de uma rede neural SOM inclui três tipos de operações: competição,
colaboração e adaptação (KOHONEN, 1990).
Como vimos, a ideia básica por trás da rede de Kohonen é a formação de uma matriz
de nós interconectados. Esses nós são como os neurônios de nossa rede neural.
Nesse exemplo ilustrado na Figura 9, podemos ver um mapa 25x25, ou seja, com 625
neurônios, com dados de entrada sendo vetores de 3 dimensões contendo o valor
RGB de cada cor. Entendendo melhor como é composto o nosso mapa temos uma
rede onde cada neurônio possui um peso associado à ele, na Figura 10. Está ilustrado
a inicialização aleatória de cada neurônio, pode-se verificar que a dimensão do vetor
peso 𝑤𝑖 é a mesma dos vetores de entrada.
A inicialização dos modelos como vetores aleatórios foi originalmente usada apenas
para demonstrar a capacidade do SOM de se tornar ordenado, a partir de um estado
inicial arbitrário. Em aplicações práticas espera-se atingir o ordenamento final o mais
rápido possível, de modo que a seleção de um bom estado inicial pode acelerar a
convergência dos algoritmos em ordens de grandeza (KOHONEN, 2014).
32
O BMU é definido como o nó que está mais próximo do ponto de dados no espaço de
entrada. Para calcularmos essa distância será utilizada a distância Euclidiana
(KOHONEN, 1990). Seja 𝑐(𝑥) o índice da melhor unidade de emparelhamento do
ponto 𝑥𝑗 . O BMU pode ser denotado como:
2
‖𝑤𝑖 − 𝑥𝑗 ‖ = √∑𝑚
𝑖=1(𝑤𝑖 − 𝑥𝑗 ) (2)
Considerando essas três distâncias calculadas, o BMU do exemplo seria o 𝑤625 por
ter a menor distância calculada. O qual visualmente podemos ver que também é o
mais parecido com o input de entrada.
Sendo ‖𝑟𝑖 − 𝑟𝑐 ‖ a distância entre os nós do mapa 𝑐 e 𝑖 na rede, os requisitos para uma
função de vizinhança são:
• ℎ𝑐,𝑖 deve atingir seu máximo quando ‖𝑟𝑖 − 𝑟𝑐 ‖ = 0 e ser simétrica em relação
ao nó vencedor 𝑐.
Qualquer função que atenda a esses requisitos é dita uma função de vizinhança válida
(KOHONEN, 2001).
A função de vizinhança, ℎ𝑐,𝑖 , é a função que cria a conexão entre o espaço de entrada
e o espaço de rede, ela cria a propriedade de auto-organização do mapa (PONMALAI;
KAMATH, 2019).
1‖𝑟𝑖 − 𝑟𝑐 ‖ ≤ 𝜎(𝑡)
• Função Passo: ℎ𝑐,𝑖 = {
0se não
‖𝑟𝑖 −𝑟𝑐 ‖
1− ‖𝑟𝑖 − 𝑟𝑐 ‖ ≤ 𝜎(𝑡)
• Função Triangular: ℎ𝑐,𝑖 = { 2𝜎(𝑡)
0se não
−‖𝑟𝑖 −𝑟𝑐 ‖2
) ‖𝑟𝑖 − 𝑟𝑐 ‖ ≤ 𝜎(𝑡)
• Função Gaussiana com corte: ℎ𝑐,𝑖 = {𝑒𝑥𝑝 ( 2𝜎2 (𝑡)
0se não
−‖𝑟𝑖 −𝑟𝑐 ‖2
• Função Gaussiana: ℎ𝑐,𝑖 = 𝑒𝑥𝑝 ( )
2𝜎2 (𝑡)
−‖𝑟𝑖 −𝑟𝑐 ‖2
ℎ𝑐,𝑖 = 𝛼(𝑡)𝑒𝑥𝑝 ( ) (4)
2𝜎2 (𝑡)
Tanto α(t) quanto σ(t) diminuem com o tempo. Neste estudo, usamos as seguintes
equações, para a taxa de aprendizado e largura da função de vizinhança
respectivamente:
𝑡
𝛼 𝑇
𝛼(𝑡) = 𝛼0 (𝛼𝑇 ) (5)
0
𝑡
𝜎 𝑇
𝜎(𝑡) = 𝜎0 (𝜎𝑇 ) (6)
0
Pelas equações (5) e (6), pode-se ver que ℎ𝑐,𝑖 é uma função decrescente, que
depende principalmente do tempo de iteração t (CHEN et al., 2014).
37
Após a rotulagem, a etapa restante é o teste de precisão, para isso são utilizados os
dados rotulados que não foram utilizados na etapa de treinamento, sendo observado
se os dados são classificados conforme os rótulos definidos. A precisão é calculada
levando em consideração a quantidade de acertos e a quantidade total de dados de
teste.
Ilustrado na Figura 18 para um rótulo de entrada azul foi calculada a distância entre
todos os pesos do mapa organizado de Kohonen e escolhido o de menor distância
como BMU. Após isso cada neurônio, 𝑤𝑖 , acumula sua distância normalizada em
relação à distância BMU em uma variável com o rótulo da classe correspondente.
39
Apesar de sua simplicidade, os SOMs podem ser usados em uma ampla lista de
aplicações. Isso em um sentido amplo inclui visualizações, geração de mapas de
recursos, reconhecimento e classificação de padrões (MILJKOVIĆ, 2017).
Os seres humanos não podem visualizar dados de alta dimensão, portanto, os SOMs
são amplamente utilizados para visualização de dados para uma grade bidimensional.
SOMs também são adequados para geração de mapas de características. Por serem
capazes de detectar agrupamentos de padrões semelhantes sem supervisão, os
SOMs são uma ferramenta poderosa para identificação e classificação de padrões
espaço-temporais (MILJKOVIĆ, 2017).
41
A máquina de escrever fonética neural para finlandês e japonês foi desenvolvida por
Kohonen em 1988 (KOHONEN, 1990). O sinal do microfone segue para o pré-
processamento acústico, formando um vetor padrão de 15 componentes (valores em
15 frequência diferentes tomados a cada 10 ms), contendo uma descrição espectral
de tempo curto da fala. Esses vetores são apresentados a um SOM com a rede
hexagonal de tamanho 8 x 12 (MILJKOVIĆ, 2017).
Por exemplo, em um estudo realizado por Ibrahim et al. (2020), foi utilizado um mapa
de Kohonen para melhor reconhecimento de sepse através de dados médicos. Sepse
é uma resposta à infecção com risco de vida e potencialmente levando à falência de
múltiplos órgãos.
2.7.3 Robótica
Nesta ideia, Vlassis, Papakonstantinou e Tsanakas (1998) fizeram um estudo onde foi
construído um mapa bidimensional auto organizável com um número pré-definido de
nós, neurônios, ao longo de cada dimensão, dispostas de forma hexagonal. A
quantidade de nós depende da estrutura do ambiente.
44
2.8.1 Python
2.8.2 Tensorflow
2.8.3 MNIST
As imagens originais em preto e branco (de dois níveis) do NIST foram normalizadas
em tamanho para caber em uma caixa de 20x20 pixels, preservando sua proporção.
As imagens resultantes contêm níveis de cinza como resultado da técnica de
antiserrilhamento, anti-aliasing, usada pelo algoritmo de normalização. As imagens
foram centralizadas em uma imagem 28x28 utilizando o centro de massa dos pixels
como indicação, e movendo a imagem de forma a posicionar este ponto no centro do
campo 28x28 (LECUN; CORTES, 2010).
3 DESENVOLVIMENTO
3.1.1 Normalização
3.1.2 Redimensionamento
Por isso, os dados de entrada são redimensionados, conforme a Figura 26, para que
seja variada somente uma posição, (𝑖, 1), do padrão de entrada para a posição do
neurônio do SOM, (𝑛, 𝑚) (Figura 27).
O MNIST já possui dados separados para treino e teste, inclusive os rótulos de cada
grupo. Porém, como o objetivo deste trabalho é simular um aprendizado não
supervisionado, os rótulos de treino serão ignorados. Serão guardados somente 1%
de dados com rótulos para rotulagem após o treinamento da rede SOM. Já os rótulos
de teste serão guardados para medirmos a acurácia do algoritmo.
O SOM desenvolvido neste estudo está programado com uma grade de vizinhança
retangular e esse parâmetro não será configurável. Além disso, é esperado que a
dimensão do padrão de entrada seja igual a 1.
49
6. Atualize o peso do neurônio e de seus vizinhos, cujo tamanho da vizinhança é definida por
𝜎(𝑡). Os novos pesos são corrigidos pela Equação 3:
Após treinada a rede SOM iremos entrar na etapa supervisionada de nosso código,
onde, utilizando 1% de rótulos dos dados de treinamento iremos atribuir a cada
neurônio da rede um rótulo.
Como mencionado no referencial teórico, para cada padrão de entrada dado à rede,
é calculada a distância euclidiana entre o padrão de entrada e todos os neurônios da
rede SOM, o neurônio com a menor distância para o padrão de entrada é denominado
neurônio vencedor e é chamado de BMU. Logo esse BMU é definido como o neurônio
que está mais próximo do ponto de dados no espaço de entrada. A noção do BMU é
o que será utilizado como base no algoritmo de rotulagem e teste.
ROTULAGEM
0 58
1 79
2 64
3 59
4 59
5 51
6 54
7 62
8 49
9 65
Total 600
Fonte: Autoria Própria (2022).
3.5 HIPERPARÂMETROS
4 RESULTADOS
Para observar a evolução do SOM durante seu treinamento foi definida uma variável
para armazenar os valores dos pesos em diferentes etapas do seu treinamento. Após
alguns testes optou-se em salvar 10 vezes os mapas de pesos do SOM a cada época.
Além disso, foram testados alguns tamanhos diferentes de mapas de Kohonen, sendo
eles:
• 10 × 10
• 32 × 32
• 16 × 16
• 8×8
• 4×4
Por curiosidade também foi verificado como o mapa se comporta quando ele é
treinado com uma quantidade de neurônios igual à quantidade de classes existentes.
Sendo assim também será verificada mapas de tamanhos:
• 1 × 10
• 5×2
Observando a Figura 30 é possível ver que a grande parte dos neurônios foram bem
treinados, porém, em alguns casos pode ser observado algumas divergências. Por
exemplo, o neurônio da posição (9,3) não se assemelha a nenhum dígito, no entanto,
o processo de rotulagem associou o dígito 2 a ele. Outro exemplo é o neurônio da
posição (9,7), onde visualmente ele se parece como o dígito 3, porém, o processo de
rotulagem o associou ao dígito 5.
Pode ser observado pela matriz de confusão da Figura 31 que os dígitos que foram
classificados errados quase sempre foram classificados como o digito em algum BMU
vizinho.
Por exemplo, na Figura 31 olhando para a classe do dígito 4, é possível observar que
77% dos dígitos de rótulo 4 da base de dados de teste foram classificados
corretamente, porém, 18% desses dígitos foram erroneamente rotulados como 9.
Observando então a Figura 30, pode ser observado que a vizinhança dos BMUs
rotulados como 4 são BMUs rotulados como 9, além disso, a vizinhança entre esses
dois números não está muito clara.
Pode-se notar que devido a quantidade maior de neurônios nessa rede a divisão dos
clusters são mais perceptíveis e localizadas. Ao mesmo tempo é possível perceber
que em zonas de “fronteiras” desses clusters a existência de neurônios sem um
formato dígito distinto.
58
Figura 32 - SOM 32 × 32
Pela matriz de confusão apresentada na Figura 25 pode ser observado que a rede
obteve uma melhor performance para identificar os dígitos manuscritos,
principalmente no que se diz respeito aos dígitos 4 e 9. A acurácia calculada a partir
dos dados reservados para teste foi de 88,44%.
60
Pode-se notar que grande parte dos clusters também foram bem definidos e
separados mesmo tendo metade do tamanho do SOM anterior. Pode-se notar também
que a transição de um cluster para o outro foi feita de um modo bem suave.
61
Figura 35 - SOM 16 × 16
A acurácia calculada a partir dos dados reservados para teste foi de 90,03%. A Figura
37 mostra a matriz de confusão, onde o dígito 4 continua sendo confundido com o
dígito 9. Porém, aqui tem-se uma melhoria na identificação do dígito 4.
63
(a) (b)
Fonte: Autoria Própria (2022).
A acurácia calculada a partir dos dados reservados para teste foi de 81,98%. A Figura
40 apresenta a matriz de confusão e aqui pode-se observar novamente o dígito 4
sendo confundido pelo dígito 9. Nota-se que apenas 55% dos dígitos de rótulo 4 da
base de dados de teste foram classificados corretamente, e 41% desses dígitos foram
65
(a) (b)
Fonte: Autoria Própria (2022).
A acurácia calculada a partir dos dados reservados para teste foi de 67,66%.
Considerando que não existe um rótulo referente ao dígito 9, o SOM 4 × 4 performou
relativamente bem.
A Figura 43 mostra a matriz de confusão e aqui é possível observar que, como não
existe o rótulo 9 do mapa SOM o dígito 4 não pode ser confundido pelo dígito 9. Porém,
observando a Figura 42a é possível ver que o neurônio associado ao rótulo 4, na
posição (3,1) é visualmente parecido com o dígito 9 manuscrito.
(a) (b)
Fonte: Autoria Própria (2022).
68
A acurácia calculada a partir dos dados reservados para teste foi de 57,17%. A Figura
46 mostra a matriz de confusão, onde observa-se que com apenas 10 neurônios não
foi possível obter um bom resultado.
(a) (b)
Fonte: Autoria Própria (2022).
70
A acurácia calculada a partir dos dados reservados para teste foi de 57,17%. A Figura
49 mostra a matriz de confusão para essa estrutura.
Foi observado que as métricas do SOM com a mesma quantidade de neurônios foram
parecidas mesmo com tamanhos de mapas diferentes. Sendo assim, foi feito mais um
teste com 100 neurônios. Na Figura 38 foi possível observar o mapa de Kohonen
organizado em no tamanho 5 × 20, ou seja, com 100 neurônios.
Figura 50 – SOM 5 × 20
A acurácia calculada a partir dos dados reservados para teste foi de 87,12%. A Figura
52 mostra a matriz de confusão.
10x10 0,8717
32x32 0,8844
16x16 0,9003
8x8 0,8198
4x4 0,6766
5x2 0,5717
1x10 0,5717
20x5 0,8712
Fonte: Autoria Própria (2022).
Neste sentido, Spiking Neural Networks (SNN) pode ser usado para realizar cálculos
complexos ou resolver tarefas de reconhecimento de padrões. Diehl e Cook
apresentaram em um artigo uma rede SNN para reconhecimento de dígitos treinando
73
a rede sem utilização de rótulos e a arquitetura proposta atingiu uma precisão de 95%
para os dados de teste dos dígitos MNIST (DIEHL; COOK, 2015).
5 CONCLUSÃO
É relevante mencionar que a rede 16 × 16, logo a de 256 neurônios, atingiu uma
acurácia parecida com a encontrada na literatura. Foi obtido 90,03% de acurácia,
enquanto no estudo desenvolvido por Khacef, Rodriguez e Miramond em 2020 foi
atingida uma precisão de 90,81% para uma rede com a mesma quantidade de
neurônios.
Uma desvantagem do SOM é que os clusters, em alguns casos, não são muito bem
definidos, onde é possível observar que a mesma classe de dígito foi separada em
dois clusters separados.
REFERÊNCIAS
CHEN, L.-P. et al. An improved SOM algorithm and its application to color feature
extraction. Neural Computing and Applications, v. 24, n. 7–8, p. 1759–1770, 27
jun. 2014.
PEI, Y.; YE, L. Cluster analysis of MNIST data set. Journal of Physics: Conference
Series, v. 2181, n. 1, p. 012035, 1 jan. 2022.
SMITH, L. N. Cyclical learning rates for training neural networks. 3 jun. 2015.
YAHYA, A. A.; TAN, J.; HU, M. A Novel Handwritten Digit Classification System
Based on Convolutional Neural Network Approach. Sensors, v. 21, n. 18, p. 6273,
18 set. 2021.