Kmean e SOM

Avaliando o Processo de Segmentação e Classificação de
Imagens Textuais com as Técnicas K-means e SOM

xxxxx1 , xxxxxx1 , xxxxxx1
1
————–(SIGLA)
——————,
———————–
{xxxxx, xxxxxx, xxxxxxx}@gmail.com
Abstract. The use of Digital Image Processing (PDI) techniques has been high-
lighted as a problem solving mechanism in several areas as well as the use of
neural networks and statistical classifiers. From this perspective, a comparison
was made between the K-means and SOM techniques, aiming to evaluate the
image segmentation process as a mechanism for information extraction. The
methodology was based on bibliographic research and tests. The results were
satisfactory based on the information extractions observed in the images.
Resumo. A utilização de técnicas de Processamento Digital de Imagens (PDI)

tem-se destacado como mecanismo resolutivo de problemas em várias áreas,
principalmente com o auxı́lio de recursos como as redes neurais e classificado-
res estatı́sticos. Nessa perspectiva o trabalho abordou a utilização das técnicas
K-means e SOM, objetivando avaliar o processo de segmentação de imagens
como mecanismo de extração de informações. A metodologia baseou-se em
pesquisas bibliográficas e nos testes realizados. Os resultados mostraram-se
satisfatórios tomando como base as extrações de informação observadas nas
imagens.
1. Introdução
A área de processamento digital de imagens vem evoluindo continuamente ao longo dos
anos, com um aumento significativo de estudos envolvendo morfologia matemática, re-
des neurais artificiais, processamento de imagens coloridas, compressão de imagens, re-
conhecimento de imagens e sistemas de análise de imagens baseados em conhecimento
[Gonzalez and Woods 2000].
A motivação para este trabalho está relacionada a importância da aplicação de
técnicas de Processamento Digital de Imagens (PDI) juntamente com redes neurais ou
mesmos classificadores estatı́sticos com a finalidade de extraı́rem melhores resultados
com relação a segmentação de imagens.
Para os testes realizados nesse trabalho foram utilizadas as técnicas do K-means e
SOM. Este trabalho está organizado da seguinte forma: Seção 2 apresenta alguns traba-
lhos relacionados, Seção 3 a fundamentação teórica. Em seguida na Seção 4 a abordagem
proposta. Na Seção 5 resultados e discussões e finalmente conclusões e trabalhos futuros
são descritos na Seção 6.
2. Trabalhos Relacionados
Esta seção apresenta uma revisão bibliográfica sobre a utilização das redes neurais artifi-
ciais e segmentação de imagens com diferentes abordagens e perspectivas.
[de Brito et al. 2019] propuseram um estudo sobre a utilização de técnicas de
Processamento Digital de Imagens (PDI) mostrando a importância das técnicas de
segmentação de imagens na resolução de problemas em várias áreas do conhecimento.
Forma realizadas uma série de experimentos com a imagem ”lena.jpg”, utilizando equa-
lizador de histograma, filtro de sobel, correção gama entre outras técnicas.
[Braun et al. 2015] abordaram o algoritmo K-means com suas diferentes variações
e sua associação a transformadas de Fourier e wavelets para a classificação de sinais
eletroencefalogramas, cuja finalidade era classificar e identificar a presença de padrões
associados à sonolência em diferentes épocas (intervalos de análise dos sinais EEG).
[Gonçalves et al. 2016] propuseram uma metodologia que explora as proprieda-
des do Self-Organizing Map (SOM) para realizar a classificação de padrões de cobertura
terrestre em imagens de satélite. O método proposto efetua uma análise de agrupamentos
dos dados da imagem empregando uma abordagem em três estágios. Primeiramente, os
padrões originais da imagem são agrupados usando o SOM, em seguida o SOM é fil-
trado, e então segmentado através de um método de agrupamento hierárquico que utiliza
as relações de vizinhança dos neurônios e incorpora informações espaciais em seu critério
de fusão.
[Mancin et al. 2017] apresentaram uma solução de software para processamento
de imagens, afim de determinar o status de nitrogênio da planta. O software é implemen-
tado em linguagem Python, juntamente com a biblioteca Opencv 2.7. Para a coleta das
imagens utilizaram a câmera de um smartphone com resolução de 13 megapixels e pro-
cessadas através da técnica de redes neurais artificiais, afim de determinar a dosagem de
nitrogênio em forrageiras. O software implementado conseguiu identificar as variações
de verde na composição do sistema RGB, que foram posteriormente comparadas com os
teores de nitrogênio determinados em laboratório para o treinamento da Rede Multilayer
Perceptron.
3. Abordagem Proposta
A segmentação de imagem aplicada à análise de documentos comumente é utilizada para
extrair o texto de uma imagem, como por exemplo, a segmentação por descontinuidade
ou por similairdade. Dentre os métodos de segmentação de texto, a limiarização e a
clusterização são duas das mais comuns [Wanjari et al. 2015]. Neste trabalho é imple-
mentado duas técnicas de segmentação com clusterização, o K-means e a rede SOM.
3.1. Segmentação por Descontinuidade

As descontinuidades encontradas em uma imagem podem ser pontuais, linhas ou bordas
de um objeto. Essas feições, sobressaem numa imagem, seja por possuir tons de cinza
distintos à região na qual estão inseridas (caso de pontos e linhas) ou por assinalarem
mudanças bruscas de tons de cinza entre regiões (caso de bordas e linhas). Os algo-
ritmos utilizados para detectar essas descontinuidades usualmente usam a convolução,
implicando no uso de máscaras [Saldanha and Freitas 2009].
3.2. Segmentação por Similaridade
A detecção de similaridade tem como fundamento a observação do interior dos objetos

e não as fronteiras que os delimitam. Para tanto, parte da idealização que os pixels que
compõe um objeto têm propriedades similares enquanto que pixels de objetos distintos
têm propriedades distintas [Saldanha and Freitas 2009].
3.3. K-means
A clusterização consiste em agrupar objetos que possuem caracterı́sticas semelhantes

e diferenciá-los de outros objetos. Quando utilizada para segmentação de imagens, a
clusterização visa separar regiões da imagem onde pixels que possuem atributos simila-
res, seja cor, textura ou outros.
Dentre os algoritmos de aprendizado não supervisionado o K-means é o um dos
mais simples e fáceis de implementar. Na segmentação a clusterização K-means trata
cada pixel como tendo um local no espaço e que é possı́vel medir a semelhança entre
os objetos e agrupá-los em k subconjuntos (clusters). Para implementar este algoritmo
primeiramente é preciso definir o número de clusters. A escolha do valor é empı́rica, pois
o valor depende de quantas regiões a imagem deve ser segmentada.
Definido a quantidade k de clusters, são inicializados os centroides de cada cluster
com valores aleatórios. Posteriormente é realizado a etapa de atribuição, onde é calculado
a distância de cada ponto a cada centroide, o ponto é atribuı́do ao clusters com centroide
mais próximo. Logo após é processado a etapa de re-estimação, onde são definidos novos
centroides para cada clusters, sendo eles obtidos por meio da média dos pontos de seus
respectivos clusters. As etapas de atribuição e re-estimação são repetidas até que não apre-
sente considerável mudança nos centroides ou que o algoritmo tenha atingido o máximo
de iterações pré-definidas. O algoritmo 1 apresenta o pseudocódigo da clusterização K-
means.
Algorithm 1: Clusterização K-means

Input: Conjunto de entrada X = {xi }ni=1 com valores dos pixels da imagem a
ser segmentada, número de clusters k
Output: Agrupamento dos pixels
Método:
Inicializar os centros {µh }kh=1 dos clusters aleatoriamente
repetir
{Etapa de atribuição}
para i = 1 até n fazer
Medir similaridades d(xi , µj ) = ||xi − µj ||
Atribuir para cada xi ∈ X um xi ∈ Xh , onde h = argmin d(xi , µj )
fim do para
{Etapa de re-estimação}
Calcular os novos centros dos clusters
até convergir
3.4. Rede Self-Organizing Map (SOM)
O algoritmo da rede SOM é utilizado em problemas de clusterização devido ser de apren-
dizado não supervisionado, ou seja, apenas os padrões de entrada são apresentados a rede
e não há uma saı́da desejada. Durante o processo de aprendizado, o conjunto de entrada é
apresentado continuamente à rede, ela se auto organiza considerando as similaridades dos
padrões apresentados, desta forma os objetos são agrupados em subconjuntos (clusters)
[Silva et al. 2010].
Os pesos sinápticos são inicializados com valores aleatórios para não formatar o
mapa da rede com uma tendência de se iniciar. Durante o treinamento da rede, estes pesos
sinápticos são ajustados de forma competitiva chamado de winner-takes-all, vencedor
leva tudo, ou seja, os neurônios da camada de saı́da competem entre si e o que gerar
maior valor de saı́da é ativado [Braga et al. 2007]. O reajuste dos pesos dos neurônios
vizinhos ao neurônio vencedor é feito de modo cooperativo, onde um neurônio ativado
tende a excitar os neurônios em sua vizinhança.
A cada iteração os pesos são ajustados até que o critério de convergência tenha
sido alcançado ou tenha atingido o limite máximo de iterações. Conforme é realizado
o treinamento, os neurônios são adaptados para cada padrão de entrada, geralmente o
número de regiões agrupadas é igual ao número de neurônios. Observa-se no algoritmo 2
o pseudocódigo da rede SOM.
Algorithm 2: Rede SOM

Input: Conjunto de entrada X = {xi }ni=1 com valores dos pixels da imagem a
ser segmentada
Output: Neurônios adaptados, agrupamento dos pixels
Método:
Inicializa os parâmetros
Inicializa os pesos W = {wj }m j=1 aleatoriamente
repetir
para i = 1 até n fazer
{Etapa competitiva}
para j = 1 até m fazer
Medir similaridades d(xi , wj ) = ||xi − wj ||
fim do para
Encontrar o neurônio vencedor
Atualizar o peso do neurônio vencedor
{Etapa cooperativa}
Encontrar os neurônios vizinhos ao neurônio vencedor
Atualizar os pesos dos neurônios vizinhos
fim do para
até convergir
4. Resultados e Discussões
Segmentar texto em imagem consiste principalmente em separar a região que representa
o texto. A análise das técnicas de segmentação é feita utilizando o algoritmo clássico
K-means e a rede SOM com vinhança quadrada. A medida de similaridade, em ambos, é
realizado por meio da distância euclidiana. A fim de comparar as técnicas implementadas
é utilizado a limiarização de Otsu. Observa-se na Figura1 os resultados da segmentação
por clusterização e por limiarização dos números de uma placa de carro do banco de dados
OpenALPR distribuı́do sob GNU Affero General Public License v3.0.
(a) Imagem original (b) Limiar de Otsu
(c) K-means (d) Rede SOM
Figura 1. Caracteres segmentados de uma placa de carro
É possı́vel observar que com o limiar de Otsu partes da imagem são segmentadas
como mesma região dos caracteres, diferente das técnicas K-means e Rede SOM. Isso
ocorre porque o método de segmentação por limiarização separa a imagem em apenas
duas regiões, enquanto por clusterização é possı́vel definir o número de regiões. Embora
a segmentação de textos em imagens consista em separar apenas o que é texto e o que
não é, ou seja, duas regiões, há problemas em que a imagem pode conter ruı́dos sendo
necessário separar em mais de dois grupos.
Na Figura 1 foi definido para a rede SOM, 3 neurônios, resultando em 3 regiões,
consequentemente foi utilizado o valor k do algoritmo K-means igual a 3. Em ambas
as técnicas é escolhido apenas uma região para representar os caracteres. Na Figura 2
é apresentado os resultados para uma imagem de documento histórico da base de dados
IAM Historical Document Database [Fischer et al. 2010].
Quando avaliado o desempenho das técnicas de segmetação por clusterização im-
plementadas, o K-means e a rede SOM apresentaram resultados semelhantes, visto que
em ambos é utilizado a mesma medida de similaridade e mesma quantidade de clusters,
contudo a rede SOM apresenta um custo computacional mais alto, tornando o K-means
mais eficiente para esta aplicação.
5. Conclusões e Trabalhos Futuros
Este trabalho demonstrou a implementação das técnicas K-means e SOM como instru-
mentos importantes na extração de informações de imagens segmentadas. Ambas foram
avaliadas com relação a performance no processo de aquisição de informações. Como tra-
balhos futuros sugere-se a aplicação das técnicas abordadas no trabalho como mecanismo
de extração de informações em imagens de folhas de tangerinas poncãs na identificação
de doenças como o HLB.
(a) Imagem original (b) Limiar de Otsu
(c) K-means (d) Rede SOM
Figura 2. Segmentação de texto em uma imagem
Referências
Braga, A. P., Carvalho, A. C. P. L. F., and Ludemir, T. B. (2007). Redes neurais artificiais:
teorias e aplicações. LTC, Rio de Janeiro.
Braun, E. T., Rodrigues, C. R., Baratto, G., and Kozakevicius, A. (2015). Algoritmo k-
means associado a transformadas na classificação de sinais eeg. Proceeding Series of
the Brazilian Society of Computational and Applied Mathematics, 3(1).
de Brito, R. X., de Sousa Ximenes, J. N., and Martins, S. F. (2019). A importância do
pré-processamento de imagens como etapa fundamental na construç ao de sistemas de
identificaç ao de expressoes faciais de crianças com autismo. ANAIS ELETRÔNICOS
CAIS TECH 2019, page 5.
Fischer, A., Indermühle, E., Bunke, H., Viehhauser, G., and Stolz, M. (2010). Ground
truth creation for handwriting recognition in historical documents. 9th Int. Workshop
on Document Analysis Systems, pages 3–10.
Gonçalves, M. L., de Andrade Netto, M. L., and Costa, J. A. F. (2016). Explorando
as propriedades do mapa auto-organizável de kohonen na classificação de imagens de
satélite. Curso de Ciência da Computação, Poços de Caldas.
Gonzalez, R. C. and Woods, R. E. (2000). Processamento de imagens digitais. Edgard
Blucher.
Mancin, W. R., Virgı́lio, A. A., Oliveira, M. E. d., Pereira, L. E. T., and Tech, A. R. B.
(2017). Desenvolvimento de software usando processamento digital de imagem e redes
neurais para determinação do status de nitrogênio em brachiaria brizantha. Anais.
Saldanha, M. F. and Freitas, C. (2009). Segmentação de imagens digitais: Uma re-
visão. Divisão de Processamento de Imagens-Instituto Nacional de Pesquisas Espaci-
ais (INPE), São Paulo.
Silva, I. N., Spatti, D. N., and Flauzino, R. A. (2010). Redes neurais artificiais para a
engenharia e ciências aplicadas. ArtLiber, São Paulo.
Wanjari, M. T., Yeotikar, V. K., Kalaskar, K. D., and Dhore, M. P. (2015). Document
image segmentation using k-means clustering technique. IJECSCSE, pages 95–98.

Kmean e SOM

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Kmean e SOM

Enviado por

Direitos autorais:

Formatos disponíveis

Avaliando o Processo de Segmentação e Classificação de

Imagens Textuais com as Técnicas K-means e SOM

Resumo. A utilização de técnicas de Processamento Digital de Imagens (PDI)

3.1. Segmentação por Descontinuidade

A detecção de similaridade tem como fundamento a observação do interior dos objetos

A clusterização consiste em agrupar objetos que possuem caracterı́sticas semelhantes

Algorithm 1: Clusterização K-means

Algorithm 2: Rede SOM

(a) Imagem original (b) Limiar de Otsu

(c) K-means (d) Rede SOM

Figura 1. Caracteres segmentados de uma placa de carro

5. Conclusões e Trabalhos Futuros

(c) K-means (d) Rede SOM

Figura 2. Segmentação de texto em uma imagem

Você também pode gostar