Você está na página 1de 45

UNIVERSIDADE ESTADUAL DO NORTE DO PARAN

CAMPUS LUIZ MENEGHEL

RICARDO DE OLIVEIRA ALMEIDA

RECONHECIMENTO AUTOMTICO DE BLOCOS


PARA AUXILIAR A INDEXAO EM SOLUES
GED

Bandeirantes
2014

Ricardo de Oliveira Almeida

RECONHECIMENTO AUTOMTICO DE BLOCOS


PARA AUXILIAR A INDEXAO EM SOLUES
GED

Trabalho de Concluso de Curso submetido


Universidade Estadual do Norte do Paran,
como requisito parcial para a obteno do
grau de Bacharel em Sistemas de Informao.
Orientador: Prof. Dr. Ederson Marcos Sgarbi

Bandeirantes
2014

Ricardo de Oliveira Almeida

RECONHECIMENTO AUTOMTICO DE BLOCOS


PARA AUXILIAR A INDEXAO EM SOLUES
GED

Trabalho

de

Concluso

de

Curso

submetido Universidade Estadual do


Norte do Paran, como requisito parcial
para a obteno do grau de Bacharel em
Sistemas de Informao.

COMISSO EXAMINADORA
______________________________________
Prof. Dr. Ederson Marcos Sgarbi
UENP Campus Luiz Meneghel
______________________________________
Prof. Me. Christian J. de Castro Bussman
UENP Campus Luiz Meneghel
______________________________________
Prof. Me. Bruno Miguel N. de Souza
UENP Campus Luiz Meneghel

Bandeirantes, 17 de Novembro de 2014

LISTA DE ABREVIATURAS E SIGLAS

CMYK

Cyan, Magenta, Yellow, Black

Dpi

Dots Per Inch

GED

Gerncia Eletrnica de Documetos

HSI

Hue Saturation Intensity

NC

Nvel de Cinza

OCR

Optical Caracter Recognition

PDI

Processamento Digital de Imagens

RGB

Red, Green, Blue

LISTA DE FIGURAS

Figura 1: (a) imagem original com rudos e (b) imagem aps aplicado o filtro de
Mdia ........................................................................................................................ 15
Figura 2: (a) imagem original com rudos e (b) o resultado da aplicao da
Mediana (Fonte: Autor). .......................................................................................... 16
Figura 3: (a) imagem original com rudos e (b) imagem aps aplicao do filtro
de moda. (Fonte: Autor) .......................................................................................... 16
Figura 4: (a) imagem original, (b) imagem em tons de cinza e (c) imagem
binria (Fonte: Autor). ............................................................................................. 17
Figura 5: Etapas de todo o processo para o reconhecimento de layout e
posterior indexao (Fonte: Autor). ...................................................................... 22
Figura 6: Documento Digitalizado. ........................................................................ 23
Figura 7: (a) imagem sem tratamento, (b) imagem em tons de cinzas e (c)
imagem aps a binarizao. (Fonte: Autor) .......................................................... 24
Figura 8: (a) imagem binria e (b) imagem com filtro de mediana. ..................... 25
Figura 9: Documento aps aplicao de 40 iteraes de eroso. ...................... 26
Figura 10: Imagem rotulada com cores. ................................................................ 27
Figura 11: Blocos relevantes demarcados pela tcnica de bounding box. ....... 28
Figura 12: Aplicao da OCR em um dos blocos do documento (Fonte: Autor).
.................................................................................................................................. 29
Figura 13: Base de imagens, sendo (a) Ordem de Servio 006/2014, (b) Ato
Executivo 001/2014 e (c) Portaria 430/2014. .......................................................... 30
Figura 14: Teste entre algoritmos de binarizao, (a) imagem em escala de
cinza, (b) imagem binarizada por Johannsen, (c) imagem binarizada por
Threshold T = 128, (d) imagem binarizada por OTSU. ......................................... 31
Figura 15: Teste de abertura com algumas iteraes, (a) imagem original
binria, (b) rudo original, (c) fechamento com i=1, (d) fechamento com i=2, (e)
fechamento com i=3. ............................................................................................... 32
Figura 16: Teste do filtro de mediana com algumas iteraes, (a) imagem
original binria, (b) rudo original, (c) mediana com i=1, (d) mediana com i=2,
(e) mediana com i=3. ............................................................................................... 33

Figura 17; (a) imagem com rudos, aps fechamento com i=1, (b) mediana com
i=1, (c) mediana com i=2, (d) mediana com i=3. ................................................... 34
Figura 18: Imagens com diferentes iteraes de eroso, (a) i=1, (b) i=10, (c)
i=20, (d) i=30, (e) i=40, (f) i=50, (g) i=60, (h) i=70, (i) i=80. ..................................... 35
Figura 19: Blocos de imagens rotulados por nmeros........................................ 36
Figura 20: Imagens dos blocos, aps a tcnica de bounding box. .................... 37
Figura 21: Parte do texto da imagem original processada, (a) imagem original,
(b) texto extrado pela OCR Tesseract 2, (c) texto extrado pela OCR Tesseract
3. ............................................................................................................................... 38

SUMRIO

1. INTRODUO .............................................................................. 10
1.1. O Problema............................................................................. 11
1.2. Justificativa ............................................................................ 11
1.3. Objetivos ................................................................................ 12
1.3.1. Objetivo Geral .......................................................................... 12
1.3.2. Objetivos Especficos ............................................................. 12

1.4. Organizao do Trabalho ..................................................... 12


2. FUNDAMENTAO TERICA .................................................... 13
2.1. Aquisio................................................................................ 13
2.2. Modelos de Representao de Cor ...................................... 14
2.2.1. RGB ........................................................................................... 14

2.3. Pr-Processamento ............................................................... 14


2.3.1. Filtros ........................................................................................ 15

2.4. Binarizao............................................................................. 17
2.5. Segmentao ......................................................................... 18
2.6. Morfologia Matemtica .......................................................... 18
2.6.1. Morfologia Matemtica Binria ............................................... 19

2.7. Rotulao de Componentes Conexos ................................. 20


2.8. Tcnica de Bounding Box .................................................... 20
2.9. OCR ......................................................................................... 20
2.9.1. Tesseract .................................................................................. 21

3. MTODO PROPOSTO ................................................................. 22


3.1. Aquisio da Imagem ............................................................ 22
3.2. Processamento da Imagem .................................................. 24
3.3. RECONHECIMENTO DE LAYOUT ........................................ 27
3.3.1. Rotulao de Componentes Conexos ................................... 27
3.3.2. Tcnica de Bounding Box ....................................................... 28

3.4. OCR ......................................................................................... 29


3.5. Dados Para Indexao .......................................................... 29
4. RESULTADOS EXPERIMENTAIS ............................................... 30
4.1. Base de Imagens ................................................................... 30
4.2. Eliminao de Rudos ........................................................... 31
4.3. Bounding Box ........................................................................ 35
4.4. Teste OCR .............................................................................. 38
5. CONCLUSO ............................................................................... 40
5.1. Trabalhos Futuros ................................................................. 41
REFERNCIAS ................................................................................... 42

RESUMO
O presente trabalho visa o desenvolvimento de uma tcnica para reconhecimento
automtico de documentos, para ferramentas GED. Sistemas GED atualmente, no
possuem um sistema para o reconhecimento automtico de documentos, o que
torna o armazenamento e a recuperao de documentos muito lenta. A tcnica
abordada neste trabalho consiste em segmentar a imagem em blocos de
informaes utilizando a morfologia matemtica binria, e a partir deles, extrair a
informao textual de cada bloco utilizando o motor OCR Tesseract, para assim
gerar arquivos de textos, que sero teis para o processo de indexao de
documentos. Os testes foram realizados em uma base de imagens contendo 90
documentos pblicos, os documentos testados foram: Portaria, Ato Executivo e
Ordem

de

Servio.

Os

testes

apresentaram

resultados

promissores,

reconhecimento dos caracteres foi bem sucedido e no houve perda de informaes


ao realizar o recorte nos blocos de imagens.
Palavras-Chave: 1. Gerncia Eletrnica de Documentos, 2. OCR, 3. GED, 4.
Morfologia Matemtica.

ABSTRACT
This work aims to develop a technique for automatic recognition of documents, tools
for GED. EDM systems currently do not have a system for the automatic recognition
of documents, which makes storage and retrieval of documents very slow. The
technique discussed in this work is to segment the image into blocks of information
using binary mathematical morphology, and from them extract the textual information
of each block using the Tesseract OCR engine, thus generating text files, which will
be useful for process of indexing documents. Tests were conducted on a basis of 90
images containing public documents, the documents were tested: Ordinance, Act
and Executive Order Service. The tests showed promising results, the character
recognition was successful and there was no loss of information when making the cut
in blocks of images.
Keywords: 1. Electronic Document Management, 2. OCR, 3. GED, 4. Mathematical
Morphology.

10

1. INTRODUO
O armazenamento de documentos essencial para todo e qualquer ser
humano, quase todas as decises tomadas geram algum documento, ao se anotar
um nmero de telefone em um papel qualquer, automaticamente gerou-se um
documento, ao comprar uma passagem de nibus um novo documento foi gerado.
Com a inveno de novas tecnologias, foram criadas solues para Gerncia
Eletrnica de Documentos (GED), afim de otimizar o gerenciamento de documentos.
Com a ferramenta GED o armazenamento e a recuperao de documentos se
tornam mais usuais, do que se fosse feita manualmente.
Para se trabalhar eletronicamente com um documento, deve haver a
converso do mesmo para o formato digital, processo denominado digitalizao.
Aps a digitalizao do documento, ele se torna uma imagem digital. Uma imagem
digital no passa de uma matriz de pixels, onde cada pixel armazena informaes da
imagem, tornando-a assim manipulvel.
A digitalizao do documento no garante qualidade imagem, ou seja aps
digitalizado h a possibilidade da imagem conter imperfeies. Para tratar tais
imperfeies existem tcnicas de processamento de imagens, que tm por objetivo
deixar a imagem mais limpa.
Aps um documento ser convertido em imagem, e a mesma ser processada,
ela no ser editvel, portanto para se ter acesso s informaes contidas nela,
deve-se usar uma ferramenta OCR Optical Caracter Recognition, a OCR tem a
funo de reconhecer caracteres contidos no documento digitalizado. Aps o
reconhecimento dos caracteres da imagem.
Para fins de indexao e organizao, o reconhecimento de layout muito
importante para uma aplicao GED, com ele o usurio no precisa se preocupar
em como ir extrair informaes da imagem, ou se est extraindo informaes a
mais, j que ser realizada a deteco do layout automaticamente, assim gerando
blocos de informaes contidos no documento sero onde a OCR far o trabalho, de
extrair toda a informao textual contida nos blocos, para um texto editvel.

11

1.1. O Problema
Empresas de vrios setores trabalham com uma grande carga de documentos
diariamente, existem vrios fatores que podem gerar problemas a partir deste
enorme fluxo de documentos, tais como, armazenamento, preservao, lentido na
busca por documentos, etc.
Sistemas GED atualmente no possuem um sistema de reconhecimento
automtico de layout, o que torna o processo de insero e indexao do documento
mais lento e trabalhoso.
O uso de tcnicas de processamento de imagem faz com que a imagem fique
mais clara, possibilitando maior desempenho ao reconhecimento dos caracteres
pelo OCR. Com o reconhecimento automtico de layout, o usurio no tem de se
preocupar com o nome, local ou tipo de documento, j que esse reconhecimento
visa a extrao de informaes necessrias para a indexao automtica do
documento.

1.2. Justificativa
Existem problemas quanto a grande quantidade de documentos impressos,
o que necessita de amplo local de armazenamento, as buscas so mais demoradas,
os documentos no possuem garantias de longa durabilidade, dentre outros
problemas.
O uso de sistemas de gerenciamento eletrnico de documentos GED, visa
tornar o armazenamento e as consultas mais geis. Solues GED utilizam
aplicaes OCR, para extrair caracteres de textos das imagens, o problema que
OCRs open source reconhecem somente caracteres alfanumricos, o que deixa
invivel a extrao de informaes de tabelas, textos com figuras, etc.
Com um reconhecimento automtico de layout, o sistema fica transparente
ao usurio desde aquisio da imagem, at a indexao do documento, o que torna
tudo automtico e rpido.

12

1.3. Objetivos
1.3.1.Objetivo Geral
Desenvolver

uma

aplicao

em

C#

que

atravs

de

tcnicas

de

processamento de imagens realize o reconhecimento automtico do layout de um


documento, para fins de indexao.

1.3.2.Objetivos Especficos

Utilizar de recursos de processamento de imagens para melhoramento


da imagem;

Definir reas estratgicas na imagem para que assim ocorra o


reconhecimento automtico do layout do documento e;

Estudar e implementar a OCR Tesseract na aplicao.

1.4. Organizao do Trabalho


O trabalho est organizado da seguinte maneira: O captulo 2 apresenta a
Fundamentao terica que se divide em: Aquisio, Processamento de Imagens,
Segmentao, Morfologia Matemtica, Rotulao de Componentes Conexos,
Tcnica de Bounding Box, OCR e Corretor Ortogrfico. O captulo 3 aborda mtodo
proposto para o desenvolvimento desta pesquisa. O captulo 4 expe os resultados
experimentais gerados durante esta pesquisa. E por fim o captulo 5 mostra a
concluso desta pesquisa cientfica e possveis trabalhos futuros.

13

2. FUNDAMENTAO TERICA
O intuito deste captulo abordar a pesquisa bibliogrfica deste estudo.
Utilizando referncias de autores com conhecimento relevante em relao rea de
processamento de imagem, gerncia eletrnica de documentos, layout de
documentos e OCR. As etapas descritas ao decorrer deste captulo so de suma
importncia para o sucesso deste trabalho.
Segundo Marques Filho & Vieira Neto (1999), uma imagem digital pode ser
considerada uma matriz, onde linhas e colunas indicam um ponto na imagem, esse
ponto chamado de pixel abreviatura de picture element, cada pixel carrega
informaes sobre seu RGB, que so os valores que determinam sua respectiva cor.
A partir de Gonzalez & Woods (2008), entende-se que os procedimentos de
processamento de imagens digitais podem ser estruturados por etapas, porm no
h necessidade de que toda a estrutura participe do processamento, j que o intuito
da estruturao para fins de organizao. Ao decorrer deste captulo entraremos
mais a fundo sobre a estrutura do processamento de imagens.
O processamento de imagens dividido em algumas etapas: Aquisio, PrProcessamento, Segmentao e Ps-Processamento, mais adiante ser explicado
cada uma das etapas.

2.1. Aquisio
A etapa de aquisio onde a imagem formada, sem nenhuma alterao,
os instrumentos responsveis pela aquisio de imagens podem gerar o sinal
analgico da imagem, ou realizar a digitalizao da imagem, como o caso de
cmeras digitais, ou scanners(Alves, 2006)
Para Marques Filho & Vieira Neto (1999), aquisio de uma imagem a
converso do cenrio tridimensional para uma imagem analgica. Neste processo a
imagem tem sua dimensionalidade reduzida, deixando de ser tridimensional, assim
se tornando bidimensional.

14

2.2. Modelos de Representao de Cor


O objetivo dos modelos de cores permitir a especificao de cores em um
formato padronizado e aceito por todos (Marques Filho & Vieira Neto, 1999). O
modelo de cor nada mais que a representao de um ponto no sistema de
coordenadas de uma imagem. Os modelos mais utilizados so: RGB(red, green,
bue), CMYK(cyan, magenta, yellow, black), HSI(hue, saturation, intensity). Para
realizar a manipulao dos pixels de uma imagem utilizamos apenas o RGB de cada
pixel, porm ao realizarmos a impresso da mesma, o esquema de cores utilizado
geralmente o CMYK, ao decorrer deste tpico ser descrito um pouco mais sobre
cada modelo citado acima.

2.2.1.RGB
Segundo Facon(2005), o modelo RGB incapaz de representar todas as
cores perceptveis ao olho humano, porm possui grande aproximao delas. Um
problema deste modelo o de no permitir impresses com as mesmas cores que
aparecem na tela, j que impressoras atuais imprimem com o modelo de cor CMYK.
Neste modelo a soma das cores primrias, resultam em uma cor C definida
pela seguinte equao:
C = r.R + g.G + b.B,
sendo R, G, B as cores primrias e r, g, b os coeficientes da combinao das cores,
que em imagens digitais representada pela intensidade do nvel de cinza do pixel,
que varia de 0 a 255, resultando em uma variedade de cores produzidas a partir da
adio de vermelho, azul e verde. Por este motivo se denominam cores primrias
aditivas (IBGE, 2000).

2.3. Pr-Processamento
O processamento da imagem visa preparar a imagem para a anlise digital,
salienta Alves(2006). Onde a imagem passa por um pr-processamento buscando a
correo de problemas advindos da aquisio da imagem. Enquanto a segmentao

15

subdivide a imagem em partes e objetos constituintes, ou seja, a separao de plano


de fundo e objeto. Sero abaixo sero brevemente apresentados alguns mtodos
utilizados nesta etapa do processamento da imagem.

2.3.1.Filtros
Imagens apresentam reas com respostas variadas ao eletromagnetismo,
reas estas representadas pela tonalidade. As variaes de intensidade por unidade
de distncia de uma imagem caracterizam a frequncia espacial (IBGE, 2000).
Facon (2005), diz que h duas classes de filtragem, a filtragem no linear e a linear.

2.3.1.1.

Filtro de Mdia

Segundo IBGE (2000), esse filtro fornece uma suavizao, atravs da


substituio do NC do pixel pela mdia aritmtica dos pixels da mscara. Facon
(2005) diz que, o tamanho da mscara varia de acordo com o tamanho da imagem e
a presena de rudos nela. Uma vizinhana varivel pode ser utilizada com cada
pixel caso seja necessrio. A Figura 1, mostra o resultado da imagem aps a
aplicao do filtro de mdia.

Figura 1: (a) imagem original com rudos e (b) imagem


aps aplicado o filtro de Mdia

2.3.1.2.

Filtro de Mediana

Apesar de no ser um filtro linear como o de Mdia, o filtro de Mediana


caracteriza uma suavizao da imagem, variando notavelmente o NC dos pixels
vizinhos, sendo utilizado tambm para eliminar rudos, dentre outros problemas da

16

imagem (BATISTA, 2005 apud SOUZA; CORREIA, 2007). A Figura 2 apresenta a


aplicao do filtro de mediana em uma imagem ruidosa.

Figura 2: (a) imagem original com rudos e (b) o resultado da


aplicao da Mediana (Fonte: Autor).

2.3.1.3.

Filtro de Moda

O filtro da moda de ordem n produz como valor do pixel de sada a moda


dos valores dos pixels da imagem de entrada em uma vizinhana de (i, j) contendo n
pixels (QUEIROZ; GOMES, 2001). Este filtro bastante utilizado para limpar pixels
isolados em certas classes da imagem. A Figura 3 apresenta a aplicao do filtro de
moda em uma imagem com rudos.

Figura 3: (a) imagem original com rudos e (b) imagem


aps aplicao do filtro de moda. (Fonte: Autor)

17

2.4. Binarizao
A binarizao ou limiarizao da imagem, consiste na adulterao das cores
de uma imagem, de sua cor real para preto e branco. definido um limiar para que
valores acima do limiar alterem o RGB do pixel para 255, onde R = 255, G = 255 e B
= 255, tm-se a cor branca, e valores abaixo do limiar tm os valores do RGB
alterados a 0, entende-se que o oposto de branco preto, ou seja ausncia de cor
(IBGE, 2000). A Figura 4, ilustra a converso da imagem original para tons de cinza,
para posterior limiarizao da imagem.

Figura 4: (a) imagem original, (b) imagem em tons de cinza e (c) imagem binria (Fonte: Autor).

O mtodo de Otsu baseado na anlise de discriminante, onde o limiar L dos


nveis de cinza atribudo automaticamente ao cdigo, assim sendo adequado ao
processo de binarizao (OTSU, 1979).
O mtodo de Johannsen, se baseia na entropia da imagem para realizar o
calculo da binarizao, primeiro calculada a entropia para preto Sb(t) e para
branco Sw(t), depois a imagem divida em duas partes, reduzindo a correlao
entre os NCs (NIBLACK, 1986 apud SILVA, 2009).
O mtodo de multi-binarizao, como o mtodo de OTSU, busca um limiar L
para repartir a imagem em duas classes. O limiar escolhido com base no

18

histograma, ele fica localizado em meio a dois picos no histograma, onde cada pico
corresponde a uma classe. Este mtodo o mais indicado para documentos, j que
reconhecimento de caracteres necessitam de imagens binrias (BRITTO JUNIOR et
al., 2001).

2.5. Segmentao
Segundo Britto Junior et al. (2001), [...]O objetivo da segmentao obter, a
partir de uma imagem, um conjunto de primitivas ou segmentos significativos que
contm a informao semntica relativa imagem.[...]. O problema da segmentao
de uma imagem a incapacidade de saber a quantidade e o tipo de estruturas
contidas na imagem, elas podem ser reconhecidas de acordo com sua geometria,
topologia, forma, cor, etc., escolhendo as que melhor satisfazem.
Facon (2005), diz que a segmentao por regio se da pela ligao de um
conjunto de pontos, onde um ponto pode-se chegar a outro da mesma regio
atravs de um caminho contido na regio, ou seja, essa regio apresenta
homogeneidade quanto ao NC.
A segmentao por textura, um pouco mais complexa, mas se houver
desenvolvimento de algoritmos prprios para texturas a extrao de informaes
mais proveitosa para resolver tarefas de segmentao e classificao (FACON,
2005).
A partir de Gonzalez & Woods (2000), nota-se uma certa semelhana com a
segmentao por regio, porm, h grande divergncia, j que a busca pela ligao
dos pontos em uma determinada rea da imagem, ocorre afim de encontrar uma
fronteira, ou borda. Esse processo pode ocorrer local, ou seja, em uma regio
especfica da imagem, atravs da anlise dos pixels de uma pequena vizinhana ou
global utilizando o calcula da transformada de Hough.

2.6. Morfologia Matemtica


Na biologia, a morfologia se refere a estrutura de plantas e animais,
enquanto a morfologia matemtica, foca seu estudo nos componentes existentes na

19

imagem. A ideia bsica da morfologia matemtica a extrao de informao em


relao geometria e topologia de uma imagem (Facon, 2005).
A teoria de conjuntos utilizada com linguagem da morfologia matemtica,
assim tornado a morfologia uma abordagem eficiente, para diversos problemas em
processamento de imagens Gonzalez & Woods (2000). Na morfologia matemtica,
os conjuntos so representados pelas formas de objetos contidos na imagem. Em
se tratando de imagens binrias esses conjuntos so parte de um espao
bidirecional de nmeros inteiros Z, e quando imagens representadas em nveis de
cinza, os conjuntos so componentes do espao Z.

2.6.1.Morfologia Matemtica Binria


A morfologia matemtica binria como o nome j diz, se aplica imagens que
possuem apenas pixels brancos e pretos. Portanto entende-se que o conjunto que
contm todos os pixels pretos da imagem, caracteriza a imagem por si s, j que os
demais pixels, por definio sero brancos. A seguir sero descritos os operadores
morfolgicos binrios.

Dilatao: Segundo Sgarbi (2013) os resultados obtidos ao se aplicar


a dilatao na imagem diminuir e preencher cavidades e aumentar
os objetos contidos na imagem, podendo tambm interlig-los ou no.

Eroso: J na eroso binria Sgarbi (2013) define que, ao aplicar a


eroso o resultado esperado a diminuio dos objetos existentes na
imagem, ou desconect-los e aumentar e abrir cavidades.

Abertura: Na abertura binria aplica-se primeiro a eroso e


posteriormente o resultado da eroso ditado, a fim de eliminar
rudos (Sgarbi, 2013).

Fechamento: De acordo com Sgarbi (2013), no fechamento binrio


ocorre erodido o resultado da dilatao, do fechamento resulta, o
fechamento de cavidades, com nenhuma alterao no tamanho dos
blocos.

20

2.7. Rotulao de Componentes Conexos


A conectividade dos pixels essencial quando se trabalha com o
processamento de uma imagem, utilizando o conceito de vizinhana de um pixel
que so encontradas bordas de objetos na imagem, possibilita manipulao de
elementos existentes na imagem (Santiago, 2009).
A tcnica de rotulao de componentes conexos baseia-se em rotular os
pixels de um elemento qualquer da imagem binria com um valor X, de carter
numrico Sgarbi (2013).
Gonzalez & Woods (2000) prope um algoritmo de rotulao da seguinte
forma, Para cada pixel P pertencente figura, tomamos um modelo que representa
toda a sua vizinhana (vizinhana-4, -8 ou -m). A cada iterao, procuramos ento a
vizinhana dos pixels vizinhos a P, e fazemos isso sucessivamente at que todos os
pixels da componente conexa tenham sido explorados.

2.8. Tcnica de Bounding Box


Para Sgarbi (2013) a ideia desta tcnica que para cada bloco, para cada
elemento rotulado dentro da imagem, criado um retngulo de acordo com as
coordenadas dos pixels da rotulao.
Haralick e Phillips (2014), em seu estudo sobre reconhecimento de
estruturas de documentos, definem a bounding box como o menor retngulo que
compreende um bloco de texto.

2.9. OCR
Solues OCR, foram criadas com o intuito de reconhecer os caracteres
alfanumricos de uma imagem, e posteriormente transform-los em um texto
editvel. A maior parte destas aplicaes tm seu funcionamento baseado em
apenas dois processos: entrada da imagem e a escolha do idioma (se disponvel
para escolha), o restante ficam por conta da aplicao (TECMUNDO, 2011).

21

2.9.1.Tesseract
O Tesseract-OCR um motor para reconhecimento ptico de caracteres
idealizado por Thomas (1987). Este programa foi desenvolvido utilizando a
linguagem C++ e teve incio em 1984 nos laboratrios da Hewlett-Packard (HP)
(THOMAS).
A HP investiu no desenvolvimento do Tesseract-OCR at o ano de 1994,
ano em que o mesmo foi relegado para projetos de pesquisa na Universidade de
Nevada, Estados Unidos. Esta deciso foi tomada visando concentrar os esforos e
investimentos na linha de produtos de escritrio da HP, j que o Tesseract-OCR at
o presente momento no representava um produto para a empresa. (HOLAHAN,
2006).
Segundo os testes do Information Science Research Institute (ISRI), o
Tesseract-OCR estava entre os trs melhores OCRs do mercado, apresentando
excelentes resultados contra outros motores de OCR comerciais da poca (RICE,
JENKINS, NARTKER, 1995).
O seu desenvolvimento foi retomado em meados de 2005, quando a HP
tornou o Tesseract-OCR um software open source, disponibilizando o seu cdigofonte para a comunidade cientfica atravs do Google Code2 (HOLAHAN, 2006).
No prximo captulo ser explicado passo a passo o mtodo proposto para o
desenvolvimento desta pesquisa, explicando cada etapa de seu desenvolvimento.

22

3. MTODO PROPOSTO
O presente trabalho se enquadra em uma pesquisa sobre tcnicas de
processamento de imagens a fim de encontrar a melhor maneira de realizar o
reconhecimento automtico de layout em documentos. A Figura 5 apresenta as
etapas implementadas para o processo de reconhecimento automtico de layout e
indexao.

Aquisio da
Imagem

Processamento
da Imagem

Dados para
Indexao

Reconhecimento
de Layout

OCR

Figura 5: Etapas de todo o processo para o reconhecimento de layout e posterior indexao


(Fonte: Autor).

De acordo com a Figura 5 preciso seguir 05 etapas para o reconhecimento


automtico de layouts que sero descritos a seguir.

3.1. Aquisio da Imagem


A digitalizao do documento foi realizada atravs de um scanner comum,
com a resoluo de 150 dpi. O processo de digitalizao rpido, e muito simples. A
Figura 6 mostra o documento digitalizado.

23

Figura 6: Documento Digitalizado.

Aps a aquisio da imagem, a mesma deve passar por um processamento,


que composto por vrios filtros, com o intuito de remover rudos advindos da
aquisio ou at mesmo da prpria imagem original.

24

3.2. Processamento da Imagem


Aps obtida a imagem em cores, primeiramente ela convertida para escala
de cinza, para posteriormente ser convertida para o formato binrio atravs de um
filtro automtico de limiarizao. A Figura 7 ilustra os resultados da aplicao dos
filtros de escala de cinza e limiarizao.

Figura 7: (a) imagem sem tratamento, (b) imagem em tons de cinzas e (c) imagem aps a
binarizao. (Fonte: Autor)

25

Para que ocorra a remoo dos rudos, foi utilizado o filtro no linear de
Mediana. A Figura 8, mostra o resultado da aplicao do filtro de mediana.

Figura 8: (a) imagem binria e (b) imagem com filtro de mediana.

Aps aplicado o filtro de mediana, e livre de rudos a imagem est pronta


para aplicao das tcnicas para reconhecimento automtico de layout. Agora um
ltimo filtro aplicado para a formao dos blocos, aplica-se o operador morfolgico
binrio de eroso, a fim de juntar as linhas mais prximas do documento para que
seja possvel a formao de blocos. A Figura 9 ilustra a utilizao dessa tcnica.

26

Figura 9: Documento aps aplicao de 40 iteraes de eroso.

Na seo a seguir ser explicado passo a passo, o funcionamento de cada


tcnica de processamento de imagem, para o reconhecimento automtico de layout.

27

3.3. RECONHECIMENTO DE LAYOUT


Neste trabalho o reconhecimento de layout do documento se d, por um corte
XY em toda a imagem. Primeiro delimitado blocos por toda a imagem, e
posteriormente definido qual a relevncia para sua indexao. Depois de definidos
os blocos, foi aplicado o corte XY para que a OCR seja aplicada separadamente em
cada bloco. A seguir ser explanado cada passo.

3.3.1.Rotulao de Componentes Conexos


Para a rotulao de componentes conexos, foi utilizada a vizinhana-4.
Onde cada bloco preto da Figura 9 apresentado como um componente conexo. A
Figura 10 ilustra cada bloco gerado pintado de uma cor diferente.

Figura 10: Imagem rotulada com cores.

28

Embora a Figura 10, ilustre os blocos em cores, eles so rotulados por


nmeros. Aps o processo de rotulao, a tcnica de bounding box aplicada, como
veremos na prxima seo.

3.3.2.Tcnica de Bounding Box


Aps os blocos devidamente rotulados, e definidos os blocos relevantes para
indexao, extrada a menor e maior coordenada X e Y de cada bloco. Aps isso
so feitos recortes nos blocos, para depois aplicar a OCR. A Figura 11, mostra os
retngulos em volta dos blocos significantes, demarcando a imagem com os
caracteres.

Figura 11: Blocos relevantes demarcados pela tcnica


de bounding box.

29

3.4. OCR
Aps todo processamento da imagem, e a delimitao dos blocos de
informaes significativos para indexao, ocorre a aplicao da OCR em cada um
dos blocos. A Figura 6, apresenta a aplicao da OCR no boco ttulo de uma
portaria.

Figura 12: Aplicao da OCR em um dos blocos do documento (Fonte: Autor).

Aps a aplicao da OCR, no h garantias que todos os caracteres


extrados da imagem sero reconhecidos.

3.5. Dados Para Indexao


Ao fim de todo este processo, so gerados documentos .txt, que podero ser
utilizados no processo de indexao de imagens. No prximo captulo sero
demonstrados todos os testes realizados para chegar a concluso deste trabalho.

30

4. RESULTADOS EXPERIMENTAIS
Neste captulo, sero expostos os testes realizados e resultados alcanados
pelo mtodo proposto. A organizao do captulo est da seguinte forma: na seo
4.1 encontra-se a base de imagens em que foram realizados os testes e, na seo
4.2 o resultado dos experimentos.

4.1. Base de Imagens


Foram testadas 30 imagens de cada tipo de documento, formando uma base
com o total de 90 imagens, cada imagem possui dimenso de 1240x1753 pixels, no
formato JPEG, e resoluo de 150 dpi. A base foi obtida atravs do site da UENP
(http://uenp.edu.br/index.php/documentos/cat_view/64-publicacoes-do-gabinete-doreitor), todas as imagens foram impressas e digitalizadas novamente. A figura 13
ilustra base de imagens.

Figura 13: Base de imagens, sendo (a) Ordem de Servio 006/2014, (b) Ato Executivo 001/2014 e
(c) Portaria 430/2014.

Aps um estudo sobre os documentos, foram constatadas as similaridades


entre eles, e a partir disso pode se concluir qual parte dos documentos, possuem
comum relevncia. Na prxima seo sero mostrados os testes realizados para a
remoo dos rudos encontrados nas imagens.

31

4.2. Eliminao de Rudos


Os filtros de binarizao eliminam grande parte dos rudos. A Figura 14,
mostra os testes entre os algoritmos de OTSU, Johannsen, e Limiarizao por
Threshold T = 128.

Figura 14: Teste entre algoritmos de binarizao, (a) imagem em escala de cinza, (b)
imagem binarizada por Johannsen, (c) imagem binarizada por Threshold T = 128, (d)
imagem binarizada por OTSU.

32

Depois de aplicado o filtro de binarizao, algumas imagens ainda possuam


pequenos rudos. Para a remoo dos rudos foi utilizado fechamento por morfologia
matemtica. O operador foi testado com trs iteraes, i=1, i=2, i=3. A Figura 15
apresenta os resultados do fechamento com as iteraes citadas acima.

Figura 15: Teste de abertura com algumas iteraes, (a) imagem original binria, (b) rudo
original, (c) fechamento com i=1, (d) fechamento com i=2, (e) fechamento com i=3.

33

A partir dos testes realizados na Figura 15, foi observado que aps a
iterao i=1, no houve mudana significativa na imagem. O que indica que o filtro
de fechamento no remove todo o rudo sozinho.
Tambm foram realizados testes com o filtro de mediana, que indicado
para remoo de pequenos rudos na imagem. A Figura 16, ilustra a aplicao do
filtro com o mesmo nmero de iteraes, utilizados na Figura 15.

Figura 16: Teste do filtro de mediana com algumas iteraes, (a) imagem original
binria, (b) rudo original, (c) mediana com i=1, (d) mediana com i=2, (e) mediana com
i=3.

34

Analisando os testes, pode-se perceber que os dois filtros no eliminam o


rudo sozinho. O fechamento reduziu consideravelmente o tamanho do rudo em
apenas uma iterao, enquanto a mediana o diminuiu aos poucos. A Figura 17
apresenta o resultado da aplicao da mediana com trs iteraes, i=1, i=2 e i=3, na
imagem resultante do fechamento com apenas uma.

Figura 17; (a) imagem com rudos, aps fechamento com


i=1, (b) mediana com i=1, (c) mediana com i=2, (d)
mediana com i=3.

De acordo com a Figura 17, a eliminao de rudos, pode ser alcanada


apenas com o fechamento morfolgico e com trs iteraes do filtro de mediana.
Para garantir a remoo dos rudos neste trabalho foi aplicada mais duas iteraes
do filtro de mediana, porm no foi encontrada nenhuma imagem na base a qual
fosse necessria este nmero de iteraes. A prxima seo abordar os testes
realizados para a montagem dos blocos.

35

4.3. Bounding Box


Para que a tcnica de bounding box, seja efetivamente realizada,
necessrio que as linhas mais prximas se juntem, assim formando blocos, pelo
documento. Para que isso seja possvel, a eroso por morfologia matemtica foi
utilizada. A Figura 18 ilustra os testes realizados para se chegar a um resultado
satisfatrio, os testes foram realizados com as seguintes iteraes, i=1, i=10, i= 20,
i=30, i=40, i=60, i=70 e i=80.

Figura 18: Imagens com diferentes iteraes de eroso, (a) i=1,


(b) i=10, (c) i=20, (d) i=30, (e) i=40, (f) i=50, (g) i=60, (h) i=70, (i)
i=80.

36

Na Figura 18, pode-se observar que a imagem (e) com 40 iteraes foi a que
mais se enquadrou nos requisitos para esta pesquisa, ela formou os blocos
corretamente, e ainda manteve uma distancia razovel entre eles. A Figura 19
apresenta os blocos rotulados por nmeros.

Figura 19: Blocos de imagens rotulados por nmeros.

A Figura 19, mostra os blocos de imagens rotulados por nmeros, desses


blocos sabemos que, o bloco 1 a borda criada aps a eroso, o bloco 2 o timbre
da instituio, o bloco 3 o ttulo do documento, os blocos 4 e 5 fazem parte da
smula, os blocos 6 e 7 so o corpo do texto, ou seja a informao mais relevante
do documento, o bloco 8 contm a data de expedio do documento, o bloco 9 a
assinatura do responsvel pelo documento, e o bloco 10 o rodap do documento.

37

Aps a anlise dos documentos estudados neste trabalho, observou-se que


para todos os documentos estudados os blocos sero os mesmos. Os blocos
relevantes so os blocos do 3 ao 8, o restante so descartveis. A Figura 20 mostra
os blocos de imagens relevantes para indexao separados, e recortados aps todo

Figura 20: Imagens dos blocos, aps a tcnica de bounding box.

o processamento.

Aps separados os blocos de informaes da imagem, a mesma esta pronta


para a aplicao da OCR. Na prxima seo, ser apresentado os resultados
aplicados na imagem com a OCR.

38

4.4. Teste OCR


Para concluir o presente trabalho, a OCR foi aplicada em cada bloco
recortado da imagem, para que fosse realizada a extrao da informao da imagem
em carter editvel.
Foram realizados os testes entre verses da OCR Tesseract 2 e 3. A Figura
21 apresenta um teste realizado, comparando as duas verses.

Figura 21: Parte do texto da imagem original processada, (a)


imagem original, (b) texto extrado pela OCR Tesseract 2, (c) texto
extrado pela OCR Tesseract 3.

39

Na Figura acima a imagem (a), o recorte do documento original, a imagem


(b) resulta da aplicao da verso 2 da OCR Tesseract na imagem (a), e a imagem
(c) resultante da aplicao da OCR Tesseract 3 na imagem (a). A verso 3 se
mostrou mais eficaz, comparada verso 2.
Aps esta etapa so gerados documentos .txt a partir da extrao de
informao realizada pela OCR. No prximo captulo est a concluso deste
trabalho, aps todos os testes.

40

5. CONCLUSO
A tcnica de reconhecimento automtico de layout de documentos, estudada
e implementada neste trabalho, obteve a extrao de todas as informaes textuais
dos documentos analisados, demonstrando uma soluo interessante para ser
utilizada em gerenciamentos automticos com indexao.
A Morfologia Matemtica binria em conjunto com outros filtros para o
melhoramento da imagem, foi necessria para a implementao, demonstrando ser
um tima opo para a tcnica de reconhecimento de documentos.
Os experimentos foram realizados a partir de uma base contendo 90
documentos de um rgo pblico, sendo eles separados em trs tipos: Portaria, Ato
Executivo e Ordem de Servio. Foram estudados cada documento, e observou-se a
similaridade entre eles, para a definio dos blocos de informaes relevantes que
eles possuem em comum. Feito isso, foi utilizada a morfologia matemtica binria
para que as linhas se juntassem formando blocos por toda a imagem.
Aps a criao dos blocos, os mesmos foram recortados e foram obtidas as
informaes textuais sobre o documento, que servem para aplicao da ferramenta
Tesseract OCR para o reconhecimento dos caracteres, gerando assim um arquivo
.txt em forma de texto editvel.
Os resultados obtidos aps todo esse processo, foram satisfatrios, no
houve perda de informao ao se fazer o recorte nos blocos, as perdas em relao
ao reconhecimento de caracteres foram mnimas, no alterando o texto de maneira
a inviabilizar a indexao.
Por fim a metodologia proposta se mostrou eficaz para alcanar os objetivos
deste trabalho, e pode ser aplicada em gerenciadores de indexao automtica de
documentos.

41

5.1. Trabalhos Futuros


Como trabalhos futuros pretende-se:

Aplicar a metodologia proposta em documentos antigos;

Adaptar o presente trabalho, ao reconhecimento de documentos


manuscritos;

42

REFERNCIAS
ALVES, G. M. Mtodo fundamentado em processamento digital de imagens para
contagem automtica de unidades formadoras de colnias, So Carlos: UFSCar,
2006.
BRITTO JUNIOR, Alceu de Souza et al. Tcnicas em Processamento e Anlise de
Documentos Manuscritos Alceu. RITA, Curitiba, v. 8 , n. 2, p.47-68, out. 2001.
Disponvel
em:
<http://www.etsmtl.ca/ETS/media/ImagesETS/Labo/LIVIA/Publications/2001/BrittoRI
TA.pdf>.Acesso em: 18 nov. 2013.
FACON, Jacques. Processamento e Anlise de Imagens. Pontifcia Universidade
Catlica do Paran, Curso de Mestrado em Informtica Aplicada. Agosto,
2005.Curitiba-PR
FACON, Jacques. Tcnicas de Processamento Digital de Imagens Aplicadas
rea da Sade. ERI 2006 - XIII Escola Regional de Informtica da SBC Paran.
GOMES, Otvio da Fonseca Martins. Processamento e Anlise de Imagens
Aplicados Caracterizao Automtica de Materiais. 2001. 141 f. Dissertao
(Mestrado) - Curso de Cincia de Materiais e Metalurgia, Puc - Rj, Rio de Janeiro Rj,
GONZALEZ, R. C.; WOODS, R. E. Digital Image Processing. Third Edition, New
Jersey: Pearson Education, 2008.
HARALICK, Jaekyu Ha & Robert M.; PHILLIPS, Ihsin T.. Recursive X-Y Cut using
Bounding
Boxes
of
Connected
Components. Disponvel
em:
<http://www.haralick.org/conferences/71280952.pdf>. Acesso em: 16 out. 2014.
HOLAHAN, C. Google Seeks Help with Recognition. Setembro (2006) Disponvel
em:<http://www.businessweek.com/technology/content/sep2006/tc20060907_73271
4.htm?chan=top+news_top+news+index_technology> .
IBGE. Introduo ao processamento digital de imagens. Rio de Janeiro, Rj: IBGE,
2000.
KUBIA, Stefano. Metodologia Para Melhoramento De Contedos Impressos De
Imagens De Documentos Complexos. 2004. 119 f. Dissertao (Mestrado) - Curso
de Informtica Aplicada, Puc-pr, Curitiba, Pr, 2004. Disponvel em: <Metodologia
Para Melhoramento De Contedos Impressos De Imagens De Documentos
Complexos>. Acesso em: 15 nov. 2013.

43

MARQUES FILHO, Og; VIEIRA NETO, Hugo. Processamento Digital de Imagens,


Rio de Janeiro: Brasport, 1999.
OTSU, Nobuyuki . "A threshold selection method from gray-level histograms". IEEE
Trans. Sys., Man., Cyber. 9 (1): 6266, 1979.
QUEIROZ, Jos Eustquio Rangel de; GOMES, Herman Martins. Introduo ao
Processamento Digital de Imagens. UFRGS, Porto Alegre - Rs, 2001.
RICE, S. V.; Jenkins, F. R.; Nartker, T. A. The Fourth Annual Test of OCR
Accuracy.Las Vegas: 1995.
SANTIAGO, Diego Joo Costa. Otimizao E Eficincia De Algoritmos De Rotulao
De Componentes Conexos Em Imagens Binrias. 2009. 36 f. TCC (Graduao) Curso de Cincia da Computao, Ufpe, Recife.
SANTOS, Tiago Souza dos. SegmentaoFuzzy de Texturas e Vdeos. 2012. 66 f.
Dissertao (Mestrado) - Curso de Sistema e Computao, Universidade Federal do
Rio
Grande
do
Norte,
Natal,
Rn,
2012.
Disponvel
em:
<http://bdtd.bczm.ufrn.br/tde_arquivos/14/TDE-2013-04-15T152914Z4999/Publico/TiagoSS_DISSERT.pdf>. Acesso em: 18 nov. 2013.
SGARBI, Ederson Marcos. SEGMENTACO DO CONTEUDO E ESTIMATIVA DO
FUNDO POR MORFOLOGIA MATEMTICA EM COR DA PRIMEIRA BIBLIA DE
GUTENBERG. 2014. 240 f. Tese (Doutorado) - Curso de Informtica, PUC-Pr,
Curitiba-Pr, 2013.
SILVA, Mara Saboia da. BINARIZAO DE IMAGENS DE CHEQUES. 2009. 58 f.
TCC (Graduao) - Curso de Engenharia da Computao, Universidade de
Pernambuco,
Recife,
Pe,
2009.
Disponvel
em:
<http://tcc.ecomp.poli.br/20091/Tcc_MairaSaboia_BinarizacaoImagensCheque_2009
.1.pdf>. Acesso em: 20 nov. 2013.
SOUZA, Taciana; CORREIA, Suzete. Anais. In: CONGRESSO DE PESQUISA E
INOVAO DA REDE NORTE NORDESTE DE EDUCAO TECNOLGICA, 2.,
2007, Joo Pessoa, Pb. ESTUDO DE TCNICAS DE REALCE DE IMAGENS
DIGITAIS E SUAS APLICAES. Joo Pessoa, Pb: Connepi, 2007. p. 1 - 4
Disponvel
em:
<http://www.redenet.edu.br/publicacoes/arquivos/20080127_131848_INFO-022.pdf>.
Acesso em: 22 nov. 2013.
THOMAS, Rmi. Tessnet2 a .NET 2.0 Open Source OCR assembly using Tesseract
engine. Disponvel
em:
<http://www.pixel-technology.com/freeware/tessnet2/>.
Acesso em: 22 nov. 2013.

44

VON WANGENHEIM, Aldo; SANTOS, Cleiton Almeida dos. Morfologia


Matemtica. Disponvel em: <http://www.inf.ufsc.br/~visao/morfologia.pdf>. Acesso
em: 15 out. 2014.