Você está na página 1de 7

Avaliando o Processo de Segmentação e Classificação de

Imagens Textuais com as Técnicas K-means e SOM


xxxxx1 , xxxxxx1 , xxxxxx1

1
————–(SIGLA)
——————,
———————–
{xxxxx, xxxxxx, xxxxxxx}@gmail.com

Abstract. The use of Digital Image Processing (PDI) techniques has been high-
lighted as a problem solving mechanism in several areas as well as the use of
neural networks and statistical classifiers. From this perspective, a comparison
was made between the K-means and SOM techniques, aiming to evaluate the
image segmentation process as a mechanism for information extraction. The
methodology was based on bibliographic research and tests. The results were
satisfactory based on the information extractions observed in the images.

Resumo. A utilização de técnicas de Processamento Digital de Imagens (PDI)


tem-se destacado como mecanismo resolutivo de problemas em várias áreas,
principalmente com o auxı́lio de recursos como as redes neurais e classificado-
res estatı́sticos. Nessa perspectiva o trabalho abordou a utilização das técnicas
K-means e SOM, objetivando avaliar o processo de segmentação de imagens
como mecanismo de extração de informações. A metodologia baseou-se em
pesquisas bibliográficas e nos testes realizados. Os resultados mostraram-se
satisfatórios tomando como base as extrações de informação observadas nas
imagens.

1. Introdução
A área de processamento digital de imagens vem evoluindo continuamente ao longo dos
anos, com um aumento significativo de estudos envolvendo morfologia matemática, re-
des neurais artificiais, processamento de imagens coloridas, compressão de imagens, re-
conhecimento de imagens e sistemas de análise de imagens baseados em conhecimento
[Gonzalez and Woods 2000].
A motivação para este trabalho está relacionada a importância da aplicação de
técnicas de Processamento Digital de Imagens (PDI) juntamente com redes neurais ou
mesmos classificadores estatı́sticos com a finalidade de extraı́rem melhores resultados
com relação a segmentação de imagens.
Para os testes realizados nesse trabalho foram utilizadas as técnicas do K-means e
SOM. Este trabalho está organizado da seguinte forma: Seção 2 apresenta alguns traba-
lhos relacionados, Seção 3 a fundamentação teórica. Em seguida na Seção 4 a abordagem
proposta. Na Seção 5 resultados e discussões e finalmente conclusões e trabalhos futuros
são descritos na Seção 6.
2. Trabalhos Relacionados
Esta seção apresenta uma revisão bibliográfica sobre a utilização das redes neurais artifi-
ciais e segmentação de imagens com diferentes abordagens e perspectivas.
[de Brito et al. 2019] propuseram um estudo sobre a utilização de técnicas de
Processamento Digital de Imagens (PDI) mostrando a importância das técnicas de
segmentação de imagens na resolução de problemas em várias áreas do conhecimento.
Forma realizadas uma série de experimentos com a imagem ”lena.jpg”, utilizando equa-
lizador de histograma, filtro de sobel, correção gama entre outras técnicas.
[Braun et al. 2015] abordaram o algoritmo K-means com suas diferentes variações
e sua associação a transformadas de Fourier e wavelets para a classificação de sinais
eletroencefalogramas, cuja finalidade era classificar e identificar a presença de padrões
associados à sonolência em diferentes épocas (intervalos de análise dos sinais EEG).
[Gonçalves et al. 2016] propuseram uma metodologia que explora as proprieda-
des do Self-Organizing Map (SOM) para realizar a classificação de padrões de cobertura
terrestre em imagens de satélite. O método proposto efetua uma análise de agrupamentos
dos dados da imagem empregando uma abordagem em três estágios. Primeiramente, os
padrões originais da imagem são agrupados usando o SOM, em seguida o SOM é fil-
trado, e então segmentado através de um método de agrupamento hierárquico que utiliza
as relações de vizinhança dos neurônios e incorpora informações espaciais em seu critério
de fusão.
[Mancin et al. 2017] apresentaram uma solução de software para processamento
de imagens, afim de determinar o status de nitrogênio da planta. O software é implemen-
tado em linguagem Python, juntamente com a biblioteca Opencv 2.7. Para a coleta das
imagens utilizaram a câmera de um smartphone com resolução de 13 megapixels e pro-
cessadas através da técnica de redes neurais artificiais, afim de determinar a dosagem de
nitrogênio em forrageiras. O software implementado conseguiu identificar as variações
de verde na composição do sistema RGB, que foram posteriormente comparadas com os
teores de nitrogênio determinados em laboratório para o treinamento da Rede Multilayer
Perceptron.

3. Abordagem Proposta
A segmentação de imagem aplicada à análise de documentos comumente é utilizada para
extrair o texto de uma imagem, como por exemplo, a segmentação por descontinuidade
ou por similairdade. Dentre os métodos de segmentação de texto, a limiarização e a
clusterização são duas das mais comuns [Wanjari et al. 2015]. Neste trabalho é imple-
mentado duas técnicas de segmentação com clusterização, o K-means e a rede SOM.

3.1. Segmentação por Descontinuidade


As descontinuidades encontradas em uma imagem podem ser pontuais, linhas ou bordas
de um objeto. Essas feições, sobressaem numa imagem, seja por possuir tons de cinza
distintos à região na qual estão inseridas (caso de pontos e linhas) ou por assinalarem
mudanças bruscas de tons de cinza entre regiões (caso de bordas e linhas). Os algo-
ritmos utilizados para detectar essas descontinuidades usualmente usam a convolução,
implicando no uso de máscaras [Saldanha and Freitas 2009].
3.2. Segmentação por Similaridade

A detecção de similaridade tem como fundamento a observação do interior dos objetos


e não as fronteiras que os delimitam. Para tanto, parte da idealização que os pixels que
compõe um objeto têm propriedades similares enquanto que pixels de objetos distintos
têm propriedades distintas [Saldanha and Freitas 2009].

3.3. K-means

A clusterização consiste em agrupar objetos que possuem caracterı́sticas semelhantes


e diferenciá-los de outros objetos. Quando utilizada para segmentação de imagens, a
clusterização visa separar regiões da imagem onde pixels que possuem atributos simila-
res, seja cor, textura ou outros.
Dentre os algoritmos de aprendizado não supervisionado o K-means é o um dos
mais simples e fáceis de implementar. Na segmentação a clusterização K-means trata
cada pixel como tendo um local no espaço e que é possı́vel medir a semelhança entre
os objetos e agrupá-los em k subconjuntos (clusters). Para implementar este algoritmo
primeiramente é preciso definir o número de clusters. A escolha do valor é empı́rica, pois
o valor depende de quantas regiões a imagem deve ser segmentada.
Definido a quantidade k de clusters, são inicializados os centroides de cada cluster
com valores aleatórios. Posteriormente é realizado a etapa de atribuição, onde é calculado
a distância de cada ponto a cada centroide, o ponto é atribuı́do ao clusters com centroide
mais próximo. Logo após é processado a etapa de re-estimação, onde são definidos novos
centroides para cada clusters, sendo eles obtidos por meio da média dos pontos de seus
respectivos clusters. As etapas de atribuição e re-estimação são repetidas até que não apre-
sente considerável mudança nos centroides ou que o algoritmo tenha atingido o máximo
de iterações pré-definidas. O algoritmo 1 apresenta o pseudocódigo da clusterização K-
means.

Algorithm 1: Clusterização K-means


Input: Conjunto de entrada X = {xi }ni=1 com valores dos pixels da imagem a
ser segmentada, número de clusters k
Output: Agrupamento dos pixels
Método:
Inicializar os centros {µh }kh=1 dos clusters aleatoriamente
repetir
{Etapa de atribuição}
para i = 1 até n fazer
Medir similaridades d(xi , µj ) = ||xi − µj ||
Atribuir para cada xi ∈ X um xi ∈ Xh , onde h = argmin d(xi , µj )
fim do para
{Etapa de re-estimação}
Calcular os novos centros dos clusters
até convergir
3.4. Rede Self-Organizing Map (SOM)
O algoritmo da rede SOM é utilizado em problemas de clusterização devido ser de apren-
dizado não supervisionado, ou seja, apenas os padrões de entrada são apresentados a rede
e não há uma saı́da desejada. Durante o processo de aprendizado, o conjunto de entrada é
apresentado continuamente à rede, ela se auto organiza considerando as similaridades dos
padrões apresentados, desta forma os objetos são agrupados em subconjuntos (clusters)
[Silva et al. 2010].
Os pesos sinápticos são inicializados com valores aleatórios para não formatar o
mapa da rede com uma tendência de se iniciar. Durante o treinamento da rede, estes pesos
sinápticos são ajustados de forma competitiva chamado de winner-takes-all, vencedor
leva tudo, ou seja, os neurônios da camada de saı́da competem entre si e o que gerar
maior valor de saı́da é ativado [Braga et al. 2007]. O reajuste dos pesos dos neurônios
vizinhos ao neurônio vencedor é feito de modo cooperativo, onde um neurônio ativado
tende a excitar os neurônios em sua vizinhança.
A cada iteração os pesos são ajustados até que o critério de convergência tenha
sido alcançado ou tenha atingido o limite máximo de iterações. Conforme é realizado
o treinamento, os neurônios são adaptados para cada padrão de entrada, geralmente o
número de regiões agrupadas é igual ao número de neurônios. Observa-se no algoritmo 2
o pseudocódigo da rede SOM.

Algorithm 2: Rede SOM


Input: Conjunto de entrada X = {xi }ni=1 com valores dos pixels da imagem a
ser segmentada
Output: Neurônios adaptados, agrupamento dos pixels
Método:
Inicializa os parâmetros
Inicializa os pesos W = {wj }m j=1 aleatoriamente
repetir
para i = 1 até n fazer
{Etapa competitiva}
para j = 1 até m fazer
Medir similaridades d(xi , wj ) = ||xi − wj ||
fim do para
Encontrar o neurônio vencedor
Atualizar o peso do neurônio vencedor
{Etapa cooperativa}
Encontrar os neurônios vizinhos ao neurônio vencedor
Atualizar os pesos dos neurônios vizinhos
fim do para
até convergir

4. Resultados e Discussões
Segmentar texto em imagem consiste principalmente em separar a região que representa
o texto. A análise das técnicas de segmentação é feita utilizando o algoritmo clássico
K-means e a rede SOM com vinhança quadrada. A medida de similaridade, em ambos, é
realizado por meio da distância euclidiana. A fim de comparar as técnicas implementadas
é utilizado a limiarização de Otsu. Observa-se na Figura1 os resultados da segmentação
por clusterização e por limiarização dos números de uma placa de carro do banco de dados
OpenALPR distribuı́do sob GNU Affero General Public License v3.0.

(a) Imagem original (b) Limiar de Otsu

(c) K-means (d) Rede SOM

Figura 1. Caracteres segmentados de uma placa de carro

É possı́vel observar que com o limiar de Otsu partes da imagem são segmentadas
como mesma região dos caracteres, diferente das técnicas K-means e Rede SOM. Isso
ocorre porque o método de segmentação por limiarização separa a imagem em apenas
duas regiões, enquanto por clusterização é possı́vel definir o número de regiões. Embora
a segmentação de textos em imagens consista em separar apenas o que é texto e o que
não é, ou seja, duas regiões, há problemas em que a imagem pode conter ruı́dos sendo
necessário separar em mais de dois grupos.
Na Figura 1 foi definido para a rede SOM, 3 neurônios, resultando em 3 regiões,
consequentemente foi utilizado o valor k do algoritmo K-means igual a 3. Em ambas
as técnicas é escolhido apenas uma região para representar os caracteres. Na Figura 2
é apresentado os resultados para uma imagem de documento histórico da base de dados
IAM Historical Document Database [Fischer et al. 2010].
Quando avaliado o desempenho das técnicas de segmetação por clusterização im-
plementadas, o K-means e a rede SOM apresentaram resultados semelhantes, visto que
em ambos é utilizado a mesma medida de similaridade e mesma quantidade de clusters,
contudo a rede SOM apresenta um custo computacional mais alto, tornando o K-means
mais eficiente para esta aplicação.

5. Conclusões e Trabalhos Futuros

Este trabalho demonstrou a implementação das técnicas K-means e SOM como instru-
mentos importantes na extração de informações de imagens segmentadas. Ambas foram
avaliadas com relação a performance no processo de aquisição de informações. Como tra-
balhos futuros sugere-se a aplicação das técnicas abordadas no trabalho como mecanismo
de extração de informações em imagens de folhas de tangerinas poncãs na identificação
de doenças como o HLB.
(a) Imagem original (b) Limiar de Otsu

(c) K-means (d) Rede SOM

Figura 2. Segmentação de texto em uma imagem

Referências

Braga, A. P., Carvalho, A. C. P. L. F., and Ludemir, T. B. (2007). Redes neurais artificiais:
teorias e aplicações. LTC, Rio de Janeiro.
Braun, E. T., Rodrigues, C. R., Baratto, G., and Kozakevicius, A. (2015). Algoritmo k-
means associado a transformadas na classificação de sinais eeg. Proceeding Series of
the Brazilian Society of Computational and Applied Mathematics, 3(1).
de Brito, R. X., de Sousa Ximenes, J. N., and Martins, S. F. (2019). A importância do
pré-processamento de imagens como etapa fundamental na construç ao de sistemas de
identificaç ao de expressoes faciais de crianças com autismo. ANAIS ELETRÔNICOS
CAIS TECH 2019, page 5.
Fischer, A., Indermühle, E., Bunke, H., Viehhauser, G., and Stolz, M. (2010). Ground
truth creation for handwriting recognition in historical documents. 9th Int. Workshop
on Document Analysis Systems, pages 3–10.
Gonçalves, M. L., de Andrade Netto, M. L., and Costa, J. A. F. (2016). Explorando
as propriedades do mapa auto-organizável de kohonen na classificação de imagens de
satélite. Curso de Ciência da Computação, Poços de Caldas.
Gonzalez, R. C. and Woods, R. E. (2000). Processamento de imagens digitais. Edgard
Blucher.
Mancin, W. R., Virgı́lio, A. A., Oliveira, M. E. d., Pereira, L. E. T., and Tech, A. R. B.
(2017). Desenvolvimento de software usando processamento digital de imagem e redes
neurais para determinação do status de nitrogênio em brachiaria brizantha. Anais.
Saldanha, M. F. and Freitas, C. (2009). Segmentação de imagens digitais: Uma re-
visão. Divisão de Processamento de Imagens-Instituto Nacional de Pesquisas Espaci-
ais (INPE), São Paulo.
Silva, I. N., Spatti, D. N., and Flauzino, R. A. (2010). Redes neurais artificiais para a
engenharia e ciências aplicadas. ArtLiber, São Paulo.
Wanjari, M. T., Yeotikar, V. K., Kalaskar, K. D., and Dhore, M. P. (2015). Document
image segmentation using k-means clustering technique. IJECSCSE, pages 95–98.

Você também pode gostar