Você está na página 1de 11

F|gure 1 - RU

Tutorial OCR @ Cuneiform 6.0


OBJETVO:
O objetivo deste tutorial e ensinar passo a passo como se digitaliza um documento que
possui muitas paginas, como por exemplo uma apostila ou um livro, utilizando o software
Cuneiform versao 6.0. Existem varios outros softwares para OCR, como o Fine Reader ou
o Recognita, mas devido a facilidade de uso, alta eficiencia, e baixa exigencia de hardware
(Este tutorial foi feito num +86DX+100 com 2+Nb de RAN utilizando um scanner Genius
Colorpage SP2X SCS!) o Cuneiform foi o software escolhido.
NO OUE CON88TE A OPERAAO DE OCR ?
Basicamente a digitalizaao de um documento e feita em 3 etapas: A captura do
documento original para uma imagem ( que e o processo de Scan propriamente dito) , o
OCR (que consiste na traduao da imagem em texto, atraves do processo de
reconhecimento tico de caracteres) e a correaofformataao do documento digitalizado.
PA88O 1 :: ADOURNDO O CUNEFORM ::
O Cuneiform 6 e um software para OCR (Reconhecimento tico de caracteres) bastante
popular e facil de ser encontrado para download.
No site http:ffwww.superdownloads.com.br voce pode encontrar uma versao trial
totalmente funcional e registravel. Este tutorial foi feito utilizando-se desta versao trial
adquirida no superdownloads. O arquivo tem menos de 10Nb.
PA88O 2 :: N8TALANDO O CUNEFORM ::
A instalaao e bastante simples. Execute o arquivo que baixou do superdownloads e siga
as orientaoes que aparecerao na tela.
Se voce ja possui o numero serial para registro do Software voce deve informar estes
numeros no ato da instalaao, quando solicitado. Se voce nao digitar o numero serial na
instalaao e desejar registrar o software posteriormente, voce devera reinstalar o software
para digitar as informaoes necessarias para o registro durante a reinstalaao.
PA88O 3 :: EXECUTANDO O CUNEFORM ::
Como este tutorial se destina a ensinar a digitalizaao de
documentos com varias paginas, vamos nos ater a ferramenta
Batch Recognition Utility.
Esta ferramenta possibilita a digitalizaao de um numero
infinito paginas de forma seqencial, sem a necessidade de se
reabrir o driver do scanner a cada pagina digitalizada, tornando
o trabalho infinitamente menos trabalhoso. Alem disso, voce
pode parar a digitalizaao a qualquer momento e
posteriormente retomar de onde parou, pois os arquivos de
imagem sao nomeados de forma seqencial. Depois de
instalado o software, execute o Batch Recognition Utility, clicando no icone ilustrado na
figura acima. A tela inicial da ferramenta de reconhecimento em lote devera aparecer:
F|gure 2 - Te|e |n|c|e| do etch Recogn|t|on Ut|||ty
F|gure 3 - Te|e Pr|nc|pe| do RU
F|gure 4 - 8cen w|zerd
F|gure 5 - 8cen w|zerd Pesso 1
Na tela inicial (Figura 2) e apresentado o New Task Wizard (Assistente para Novas
Tarefas). Nao utilizaremos o New Task Wizard, pois geralmente ele e indicado para se
digitalizar documentos de poucas paginas. Assim, para prosseguir com o Scan, clique no
botao Close.
A tela principal do Batch Recognition Utility aparecera. Naximize esta janela e sera
apresentada a tela ilustrada na Figura 3.
PA88O 4 :: 8CAN WZARD ::
O meio mais inteligente de se fazer uma digitalizaao e
capturar em imagens (scannear) todas as paginas do
documento para s depois fazer o OCR. Dessa forma vamos
utilizar o SCAN W!ZARD para fazer a captura das paginas. A
vantagem de se utilizar o SCAN W!ZARD e que voce pode
parar a captura quando desejar e reiniciar posteriormente de
onde parou. Para iniciar o SCAN W!ZARD clique no item OCR
da tela principal do BRU (veja a Figura 2) e depois clique em SCAN W!ZARD, ou se preferir
pode apertar a
tecla F8.
A tela ao lado
devera aparecer.
Onde esta escrito
TWA!N: Genius
Scanner Nodule (32
bit) devera
aparecer a marca e
modelo do seu
scanner. Caso nao
apaream, clique o
botao Scanner
Options" e
selecione o seu
scanner na lista.
Clique no botao
Next para
continuar.
A tela apresentada
na Figura 6 devera
ser aparecer. Este e
o segundo passo de preparaao dos cinco que compoe o SCAN W!ZARD, e nele vamos
escolher o formato de imagem que utilizaremos para capturar as paginas, o tipo de
arquivo que sera salvo e o local onde as imagens serao salvas.
F|gure - 8cen w|zerd Peso 2
F|gure 7 - Pesso 3 do 8cen w|zerd
Recomendo que
as opoes desta
tela sejam
mantidas como
aparecem na
figura ao lado.
A opao Create
Single Page !mage
File(s) deve estar
selecionada para
que a cada pagina
scanneada seja
criada uma nova
imagem
correspondente.
Na caixa Folder:
voce pode
especificar o local
onde estas
imagens serao
armazenadas,
para serem
analisadas posteriormente, no momento do OCR. Na lista !mage File Format: voce pode
escolher o formato de imagem em que as capturas das paginas serao feitas. Utilize
sempre o formato Aldus T!FF (*.tiff). Clique no Botao NEXT para prosseguir.
Como vamos
digitalizar todas as
paginas para s
depois fazer o
OCR devemos
escolher a opao
No, Thank you
quando esta tela
for apresentada.
Ao clicar em No,
Thank you as
demais opoes
serao anuladas e
passaremos direto
para o passo 5.
Feito isso Clique
no botao NEXT
para continuar.
Figura 9 - Configurao do Scanner
Esta e a tela do ultimo passo do SCAN W!ZARD. Para seguir para a fase de captura das
imagens clique no botao Finish.
PA88O 5 :: CAPTURANDO A8 PAGNA8 DO DOCUMENTO ::
Ao clicar o botao Finish (Figura 8) o driver do seu scanner sera aberto para que voce
possa dar inicio a captura de imagens. A tela do driver e diferente para cada marca de
scanner, portanto as Figuras 9 e 10 sao apenas ilustrativas, mas as funoes que nela
estao demonstradas existem em todos os scanners, podendo diferir apenas na
nomenclatura dos botoes.
Antes de comear a scannear as paginas, devemos
ajustar o scanner para a operaao de OCR. Para
capturarmos uma pagina de forma a conseguir bons
resultados devemos selecionar as seguintes opoes:
Tipo f Type: Line Art ou Branco e Preto
ResolutionfResoluao: 300 dpi
Feito isso, podemos partir para a cpia das paginas.
O processo e exatamente o mesmo de se copiar uma
imagem, como por exemplo uma foto.
voce deve posicionar o documento no scanner e clicar
no botao PreviewfPreScan (ou o equivalente deste botao no seu scanner).
F|gure 8 - Pesso 5 do 8cen w|zerd
F|gure 10 - Te|e pr|nc|pe| do 0r|ver do 8cenner
Quando for terminado o
previewfprescan voce deve selecionar
a area a ser scanneada ajustando a
linha tracejada para que ela contenha
todo o conteudo de uma pagina.
Agora podemos dar inicio ao trabalho
repetitivo de scannear todas as
paginas do documento.
Com a primeira pagina do documento
devidamente posicionada no scanner,
clique no botao Scan (ou equivalente
do seu scanner).
A pagina sera scanneada em poucos
segundos e automaticamente
armazenada no local escolhido.
Terminado o Scan desta pagina,
simplesmente levante a tampa do seu
Scanner e posicione a prxima pagina
a ser copiada. Desa a tampa e clique
novamente no botao Scan.
Este passo devera ser repetido ate que
voce tenha scanneado todas as paginas do documento.
Caso voce queira parar a captura das paginas antes do final, nao ha problemas, basta
fechar a tela do driver do scanner. Quando for recomear o trabalho basta repetir todos os
passos anteriormente descritos e continuar a cpia da pagina em que foi interrompida a
digitalizaao. importante nao trocar a pasta onde se armazenam as imagens copiadas,
pois o Cuneiform vai continuar a seqencia de armazenamento sem sobrescrever as
imagens que ja foram copiadas.
Terminada a Captura de todas as paginas do documento, feche o driver do Scanner
(clicando no x do lado direito superior da tela do driver).
Agora vamos dar inicio ao processo de OCR, ou reconhecimento tico de caracteres.
PA88O 6 :: TRAN8FORMANDO MAGEM EM TEXTO ::
Ao terminar a cpia das paginas, a tela ilustrada na Figura 11:
Note que do lado esquerdo da tela sao mostradas as paginas scanneadas. O numero de
imagens e igual ao numero de paginas que voce scanneou.
Para iniciar o reconhecimento ptico dos caracteres tecle F7 ou Clique na barra de menu
no item OCR e depois em Recognition Wizard.
Ao se clicar em OCR\Recognition wizard ou pressionar F7 a tela ilustrada na Figura 12 sera
apresentada.
Na caixa de texto, digite um nome qualquer para a tarefa de OCR, por exemplo ocr",
como esta na figura.
Em seguida marque a caixa de seleao abaixo.
Clique no botao NEXT.
F|gure 11- Preperendo o 06R
Figura 12
Ao se clicar o botao NEXT a seguinte tela sera apresentada:
F|gure 13 - Pesso 2 do 06R w|zerd
F|gure 14 - 8e|eo des |megens pere o 06R
Nesta tela voce deve selecionar a pasta onde foram salvas as imagens scanneadas.
Feito isto, clique no botao NEXT para prosseguir.
A seguinte tela sera apresentada:
Selecione todas as imagens da pasta. Lembre-se que cada imagem deve corresponder a
uma pagina do documento. Nao armazene outras imagens junto com estas ou o OCR nao
sera feito corretamente. Depois de selecionadas todas as !magens, clique no botao NEXT
para prosseguir. A tela ilustrada na Figura 15 sera apresentada:
Selecione a
primeira opao
como esta na
figura, assim as
paginas serao
adicionadas ao
mesmo
documento texto
na ordem correta,
reproduzindo a
ordem em que fi
feita a captura
das paginas.
Na caixa de texto
Document Name
digite o nome do
documento que
sera salvo.
F|gure 1 - F|ne||zendo o 06R w|zerd
Usando o Botao Browse voce podera escolher uma pasta diferente para salvar o
documento, alem de escolher o formato do mesmo. O cuneiform oferece os formatos RTF,
HTNL e TXT. O formato mais indicado e o RTF, pois pode ser aberto posteriormente em
qualquer editor de texto (wordpad, word, wordperfect, openoffice, staroffice, etc).
extremamente recomendavel que todas as imagens estejam num mesmo diretrio
(pasta). Assim, clique na opao No, Thank you, como esta na figura acima.
Para prosseguir clique em NEXT. A seguinte tela sera apresentada:
Narque a caixa
Start Recognition
Now
Se voce ainda nao
selecionou a
lingua em que o
cuneiform vai
fazer o OCR,
agora e a hora
para fazer isso.
Esta alteraao s
precisa ser feita
uma unica vez,
para tal clique no
botao Recognition
Options...
A tela ilustrada na
figura 17 sera
apresentada.
Clique na Guia
Recognition e na caixa Language Selecione Portuguese. Narque as opoes Auto Spell
Checker e se o documento que esta digitalizando tiver apenas uma coluna de texto,
marque a opao One Column.
Feito isso, clique no botao OK.
voce retornara para a tela da
figura 16. Clique em Finish
para iniciar o OCR.
Daqui ate o termino da
digitalizaao tudo sera feito
pelo Cuneiform. Ele vai
interpretar as imagens e
traduzi-las em texto, ou seja,
vai realizar o processo de OCR
automaticamente em todas as
paginas e vai adicionar o texto
traduzido no arquivo indicado
anteriormente, na ordem em
que as paginas foram
capturadas no processo do Scan Wizard.
Uma caixa de dialogo mostrara o progresso da operaao e ao terminar o OCR de todas as
paginas a seguinte tela sera apresentada:
O OCR esta pronto, todas as paginas
scanneadas foram transformadas em
texto. Clique em Close e Feche o
Cuneiform.
PA88O 7 :: FNALZANDO O TRABALHO ::
Abra o Arquivo Criado em um editor de textos, como por exemplo o word.
normal que a formataao nao seja a mesma do livro, tambem e normal que alguns
paragrafos estejam em tamanhos e com fontes diferentes dos outros, por isso e
recomendavel a formataao do arquivo. voce pode criar macros que automatizam a
formataao de qualquer arquivo, facilitando assim este trabalho.
O Cuneiform e um software que garante 95 de acertos na digitalizaao, portanto,
tambem e necessario que voce corrija os 5 de erros. Para este trabalho voce pode
contar com um corretor ortografico, que pode ser o prprio corretor do word.
Sem duvida o trabalho de formataao e principalmente correao sao os mais trabalhosos
na digitalizaao de um documento muito extenso, mas sao imprescindiveis para que se
tenha um resultado final satisfatrio. Nao libere os textos sem antes corrigi-los.
Algumas dicas para se obter menos erros numa digitalizaao:
Nantenha toda a superficie a ser scanneada em contado com o scanner, nao deixe bordas
ou orelhas do documento levantadas, pois assim ocorrerao muitos erros.
Utilize sempre o formato de imagem T!FF.
Faa os Scans com 300 dpi Line ArtfBlack White (1 bit)
Pode ocorrer a criaao de tabelas contendo o texto digitalizado, nesse caso o word pode
nao abrir o documento criado pelo Cuneiform. Para resolver o problema, abra o
documento no wordpad e faa uma pre-fomataao:
Deixe todo o texto com a mesma fonte e o mesmo tamanho de fonte, remova as tabelas
contendo texto que foram criadas, salve o documento como DOC e abra-o no word para
terminar a formataao e fazer a correao.
Comece com textos pequenos para se acostumar com o processo.
http:ffpalanthas.boom.ru
Lista de discussao AdoramosLer @ Yahoogroups.com