Como Escanear Livros Com Qualidade e Produzir Textos Por OCR

Como
escanear
livros com qualidade
e produzir textos por OCR
Prof. José Antonio Meira da Rocha
Edição do Autor
Como escanear livros
com qualidade e produzir
textos com OCR
MEIRA, José Antonio. Como escanear livros com qualidade.

Frederico Westphalen: Edição do Autor, 2012.
Editorado com LibreOffice 3.5.1.

Fontes tipográficas Liberation Serif e Liberation Sans.
Tamanho A5 para ser impresso em libreto, frente e verso.
Ilustrações capturadas e tratadas com IrfanView.
Foto de capa: divulgação HP.
1ª edição.
Frederico Westphalen, Outono de 2012.
http://meiradarocha.jor.br
joseantoniorocha@gmail.com
Esta obra foi licenciada com uma Licença Creative Commons - Atribuição - Uso
Não-Comercial - Partilha nos Mesmos Termos 3.0 Não Adaptada.
Escaneando livros com qualidade 3
Sumário
1 Introdução...............................................................................5
2 Obtenha as imagens..............................................................7
2.1 Escolha a interface do scanner.......................................7
2.2 Escaneie a página...........................................................8
3 Limpe e endireite as imagens..............................................13
4 Aplique o OCR......................................................................23
5 Gere, por OCR, texto editável .............................................33
6 Revise o texto.......................................................................37
1 Introdução
Este manual ensina a escanear livros com qualidade e com
reconhecimento óptico de caracteres (OCR), gerando arquivos nos
formatos Comic Book, PDF com texto pesquisável e copiável, RTF e
TXT.
O formato de imagem recomendado para se produzir livros

escaneados é PNG preto e branco (profundidade de cor de um bit),
300 pontos por polegada (dpi). Esta escolha deve-se às seguintes
características:
• PNG é uma formato de imagens aberto e versátil, com boa

compressão.
• A resolução de 300 dpi é mais adequada para o OCR e pode

ser impressa em qualidade razoável (era a resolução das
primeiras impressoras laser).
• Imagens em preto & branco (profundidade de cor de um bit)

geram arquivos menores.
No entanto, se a página a ser escaneada tiver imagens em tons de

cinza, como fotografias, o espaço de cor deve ser Imagem em escala
de cinza, (profundidade de cor de 256 tons de cinza). Se a página
tiver imagens coloridas, o formato deve ser Imagem colorida.
(profundidade de cor de 24 bits ou milhões de cores).
2 Obtenha as imagens
Em Windows, use o programa gratuito IrfanView
(http://www.irfanview.com/ ) o visualizador de arquivos mais usado
no mundo.
2.1 Escolha a interface do scanner

Vá a “File > Select Twain source” e escolha “WIA...”. Clique em
Selecionar.
8 Escaneando livros com qualidade
2.2 Escaneie a página

Vá ao menu “File > Aquire/batch scanning”, ou tecle
CTRL+SHIFT+A
No diálogo seguinte:
1. Marque “Multiple images”
2. Coloque “Starting counter”: 1 (ou deixe o número sugerido)
3. Escolha “Destination directory”: “Minhas imagens” do

Windows
4. Save as: PNG, Options “Compression”: 9

No diálogo seguinte, escolha “Texto ou imagem em preto e branco”
A seguir, certifique-se de que a resolução é de 300 dpi.

Em geral, já está definido 300 dpi. Faça isto só para conferir.
Depois, clique em Visualizar e, a seguir, em Digitalizar.

Repita as operações para todas as páginas do livro. A numeração das

imagens será incrementada automaticamente. Você obterá uma
coleção de imagens na pasta “Minhas Imagens” do Windows.
Dependendo da velocidade do scanner, o trabalho pode demorar de

30 segundos a um minuto por página.
Depois de terminada esta parte do trabalho, faça um backup de todas

as imagens, comprimindo-as num ZIP.
No capítulo seguinte, aprenda a limpar e endireitar as imagens.

3 Limpe e endireite as imagens

As imagens de livros escaneados apresentam sombras e margens
pretas que devem ser limpas. Para isto, use o IrfanView. Prepare o
IrfanView teclando P (para ver as Propriedades) e escolha
“Browsing/editing > Cut, Choose”, cor branca para o fundo dos
cortes. Isto deve ser feito apenas uma vez. A configuração fica
gravada.
Carregue o primeiro arquivo, que, em geral, tem o nome de

“ScanImage001.png”.
Use a tecla “R” para girar a imagem para a direita (Right).

Marque a mancha preta entre as páginas abrindo um retângulo de alto

a baixo. Use CTRL+X para limpar a área.
Repita a operação na margem de baixo, conforme a seta.

Faça o mesmo na margem da esquerda de alto a baixo.

Repita a operação na margem superior e na margem direita. Depois,

apague eventuais sujeiras na imagem.
Grave com CTRL+S. Se esquecer de gravar, você vai perder o

trabalho. O IrfanView vai perguntar se você quer gravar por cima da
imagem existente. Tecle “S” para dizer que sim, porque você já fez
backup das imagens originais.
Clique na seta “Next file in directory” para ir à próxima imagem na

pasta de imagens escaneadas. Repita as operações de limpeza até
terminar as imagens do livro.
Faça uma revisão para conferir se não esqueceu de escanear nenhuma

das páginas. Se esqueceu, renumere todas as imagens a partir da
última página incrementando um número, até retroceder à página de
número certo. Isto é importante para gerar um livro digital formato
Comic Book.
Escaneie e faça a limpeza na página faltante. O IrfanView vai

numerar automaticamente a página que faltava.
Também verifique se todas as imagens estão sem defeitos. Qualquer

“escorregada” durante o escaneamento vai prejudicar o posterior
processamento por OCR.
Se todas as imagens estiverem corretas e numeradas na sequência

correta, crie uma pasta comprimida com o botão da direita na janela
de arquivos, menu “Novo > pasta compactada (zipada)”. Depois,
copie todas as imagens para esta pasta e renomeie-a trocando a
terminação ZIP por CBZ.
Com isto, você criou um “Comic Book”, um formato simples criado

por piratas de gibis. É simplesmente um arquivo ZIP ou RAR com as
imagens guardadas em sequência numerada.
O formato CBR (comprimido com RAR) ou CBZ (comprimido com

ZIP) pode ser lido com leitores de CBR, como o Comical
(http://comical.sourceforge.net/ ).
Conheça mais comic book readers em Five Best Desktop Comic

Book Readers <http://lifehacker.com/5858906/five-best-desktop-
comic-book-readers>
O formato CBZ é bem útil e simples de ser criado, mas não permite
que se copie o texto. Para isto, precisamos passar as imagens por um
reconhecedor óptico de caracteres (OCR). Veremos como se faz isto
no próximo capítulo.
4 Aplique o OCR
Para usar o OCR, você precisa do software de scanner HP mais
recente. Baixe pelo site da Hewlett-Packard o driver correspondente
ao seu scanner.
Os softwares de scanner da HP estão cada vez piores, mais feios e

mais cheios de recursos inúteis e amadores, o que se chama de
“bloatware”. Enchem nossos computadores de programas e dados
desnecessários. Recentemente, (2009), a empresa liberou a versão 13
de seu software que sequer faz preview: ele escaneia demoradamente
a imagem colorida na resolução máxima do scanner, mesmo que se
necessite apenas de uma parte da imagem que está no vidro do
scanner, em preto e branco.
No entanto, o software da HP traz “escondida” uma versão limitada

do programa de OCR da I.R.I.S., um dos melhores OCRs do
mercado. Este programa permite que se produza um PDF com texto
copiável a partir de imagens já escaneadas.
O OCR da I.R.I.S. Está na pasta: “c:\Arquivos de

programas\HP\Digital Imaging\DocProc\dpe_ocr.exe.”
Puxe um atalho deste arquivo para o desktop.
Ao rodar, o programa avisa que é apenas para fins de debug. Ignore e

clique em OK.
Na primeira vez que roda, o programa (chamado DPE) executa um

passo-a-passo (wizard) que pode ser seguido por comodidade. Ele
primeiro pergunta se é para rodar o “wizard” no início. Deixe ligado
se você quiser manter a comodidade, ou desligue se quiser fazer o
OCR manualmente.
A seguir, o DPE pergunta se você quer imagens do scanner ou já

escaneadas. Esta versão OEM do DPE não permite que se obtenha
imagens diretamente do scanner, o que não é nenhuma desvantagem,
já que as imagens de scanner precisam sempre de uma limpeza.
Escolha “Image file”.
O DPE também vai perguntar se você quer que ele detecte a

orientação das páginas (se estão viradas 90 graus ou normais). Como
você já virou as páginas, deixe desligada esta opção.
A opção “Page Deskewing”, define se você quer que ele alinhe

perfeitamente na horizontal páginas ligeiramente giradas. O DPE faz
um serviço muito bom neste ajuste. Deixe ligado.
Depois, o DPE pedirá para você escolher a língua do texto a ser

reconhecido. Ele deve usar o default do sistema operacional. Mude se
tiver texto em outras línguas.
A seguir, o DPE pede o formato a ser gerado. No nosso caso,

queremos PDF com a imagem e com o texto “por baixo da imagem”.
É um recurso do formato PDF que permite que se tenha uma imagem
por cima de um texto pesquisável e copiável.
Clicando no botão
“Change”, você
configura o formato
de saída, conforme
o diálogo abaixo.
Existem dezenas de
formatos de saída
diferentes, como
RTF para
LibreOffice, mas
queremos guardar
em PDF
pesquisável (Adobe Acrobat/Reader - Image-text) por ser mais
versátil e preservar a imagem original.
Finalmente, tudo configurado, vamos lá! Go!

O DPE pede para você escolher os arquivos a serem oceerrizados.

Clique no primeiro arquivo, segure a tecla SHIFT e clique no último
arquivo, para selecionar todos. Ao clicar em “Abrir”, o DPE importa
e já faz o OCR em todas as páginas automaticamente.
Depois de alguns segundos ou minutos (o trabalho é relativamente

rápido), o DPE apresenta o diálogo de salvar o PDF. Mude o nome
do arquivo para algo bem descritivo, como autor e nome do livro.
Mas, antes de salvar, defina algumas metainformações necessárias

para indexação do documento. Clique em “Properties...”.
Escreva:
• O título
• O autor
• O assunto
• As palavras
chave
• O programa
criador
• A pessoa que
produziu o PDF.
• A instituição
• Etc
Clique OK e grave o documento.
Pronto, você tem um belo PDF com texto pesquisável e copiável.
Se o livro tiver alguma diagramação especial, e o texto ficar

embaralhado, será preciso fazer o OCR à mão, sem usar o “Wizard”.
PDF é um formato muito usado, bem documentado, compatível com

todos os sistemas operacionais e dispositivos, e com futuro garantido.
O fato de ter texto copiável permitirá que pesquisadores copiem
citações, poupando tempo e aumentando a produtividade.
No entanto, o texto copiável não se presta ainda para ser usado por
cegos que usam leitores de texto. Para isto, vamos ver no próximo
capítulo como extrair e formatar texto plano com o DPE.
5 Gere, por OCR, texto editável

O PDF gerado pelo DPE tem boa qualidade de OCR. No entanto, se
o texto for copiado, terá um caracter fim-de-parágrafo no final de
cada linha.
Para pequenos trechos de texto a serem usados em citações, não é

problema reunir todas as linhas em um único parágrafo. Mas, numa
obra inteira, isto é mais trabalhoso e envolveria muitas operações de
procura e troca.
No entanto, o DPE também faz OCR com saída em RTF (Reach Text
Format), um formato de intercâmbio de documentos aceito pela
grande maioria dos editores de texto.
O processo de OCR é o mesmo, mas, depois de gerar o PDF

pesquisável, clique em “Format”.
Mude o formato para OpenOffice Writer 2.0
Marque “Create body text” e “Merge lines into paragraph”.

A seguir, clique em “Recognize and save” para reconhecer e gravar o

documento.
Se o LibreOffice estiver instalado, o texto reconhecido será

carregado e apresentado.
6 Revise o texto
Depois de criado o texto em formato RTF, ele deve ser revisado e
corrigido. O OCR não é perfeito. Sempre existem palavras não
reconhecidas ou reconhecidas erradamente.
Primeiro, formate estilo de texto Padrão (F11) conforme suas

preferências – adicione espaço abaixo dos parágrafos, por exemplo –
e aplique a todo o texto.
Depois, utilize os recursos de correção ortográfica do editor para

corrigir todo o texto.
Mas há erros que o corretor não pega. Certas letras não são
diferenciadas pelo OCR como maiúsculas e minúsculas. S=s, C=c,
O=o, por exemplo.
Barras “/” são reconhecidas como “l”, etc.
As notas de rodapé devem ser reinseridas, ou inseridas no ponto

exato do texto de forma a ficarem adequadas a cegos. Como os
números índices de notas de rodapé são muito pequenos, em geral
não são reconhecidos. Você deve olhar o texto original para achar o
ponto exato de inserção.
Os números de página e rodapés ou cabeçalhos, se forem capturados

(o que é bom para você localizar o texto no original), devem ser
eliminados na versão corrigida do texto.
Depois de revisado, o documento ODT pode ser gravado como TXT,

para uso de cegos.

Como Escanear Livros Com Qualidade e Produzir Textos Por OCR

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Como Escanear Livros Com Qualidade e Produzir Textos Por OCR

Enviado por

Direitos autorais:

Formatos disponíveis

Como

MEIRA, José Antonio. Como escanear livros com qualidade.

Editorado com LibreOffice 3.5.1.

Foto de capa: divulgação HP.

Frederico Westphalen, Outono de 2012.

O formato de imagem recomendado para se produzir livros

• PNG é uma formato de imagens aberto e versátil, com boa

• A resolução de 300 dpi é mais adequada para o OCR e pode

• Imagens em preto & branco (profundidade de cor de um bit)

No entanto, se a página a ser escaneada tiver imagens em tons de

2.1 Escolha a interface do scanner

2.2 Escaneie a página

1. Marque “Multiple images”

2. Coloque “Starting counter”: 1 (ou deixe o número sugerido)

3. Escolha “Destination directory”: “Minhas imagens” do

4. Save as: PNG, Options “Compression”: 9

No diálogo seguinte, escolha “Texto ou imagem em preto e branco”

A seguir, certifique-se de que a resolução é de 300 dpi.

Em geral, já está definido 300 dpi. Faça isto só para conferir.

Depois, clique em Visualizar e, a seguir, em Digitalizar.

Repita as operações para todas as páginas do livro. A numeração das

Dependendo da velocidade do scanner, o trabalho pode demorar de

Depois de terminada esta parte do trabalho, faça um backup de todas

No capítulo seguinte, aprenda a limpar e endireitar as imagens.

3 Limpe e endireite as imagens

Carregue o primeiro arquivo, que, em geral, tem o nome de

Use a tecla “R” para girar a imagem para a direita (Right).

Marque a mancha preta entre as páginas abrindo um retângulo de alto

Repita a operação na margem de baixo, conforme a seta.

Faça o mesmo na margem da esquerda de alto a baixo.

Repita a operação na margem superior e na margem direita. Depois,

Grave com CTRL+S. Se esquecer de gravar, você vai perder o

Clique na seta “Next file in directory” para ir à próxima imagem na

Faça uma revisão para conferir se não esqueceu de escanear nenhuma

Escaneie e faça a limpeza na página faltante. O IrfanView vai

Também verifique se todas as imagens estão sem defeitos. Qualquer

Se todas as imagens estiverem corretas e numeradas na sequência

Com isto, você criou um “Comic Book”, um formato simples criado

O formato CBR (comprimido com RAR) ou CBZ (comprimido com

Conheça mais comic book readers em Five Best Desktop Comic

Os softwares de scanner da HP estão cada vez piores, mais feios e

No entanto, o software da HP traz “escondida” uma versão limitada

O OCR da I.R.I.S. Está na pasta: “c:\Arquivos de

Puxe um atalho deste arquivo para o desktop.

Ao rodar, o programa avisa que é apenas para fins de debug. Ignore e

Na primeira vez que roda, o programa (chamado DPE) executa um

A seguir, o DPE pergunta se você quer imagens do scanner ou já

O DPE também vai perguntar se você quer que ele detecte a

A opção “Page Deskewing”, define se você quer que ele alinhe

Depois, o DPE pedirá para você escolher a língua do texto a ser

A seguir, o DPE pede o formato a ser gerado. No nosso caso,

Finalmente, tudo configurado, vamos lá! Go!

O DPE pede para você escolher os arquivos a serem oceerrizados.

Depois de alguns segundos ou minutos (o trabalho é relativamente

Mas, antes de salvar, defina algumas metainformações necessárias

Clique OK e grave o documento.

Pronto, você tem um belo PDF com texto pesquisável e copiável.

Se o livro tiver alguma diagramação especial, e o texto ficar

PDF é um formato muito usado, bem documentado, compatível com

5 Gere, por OCR, texto editável

Para pequenos trechos de texto a serem usados em citações, não é

O processo de OCR é o mesmo, mas, depois de gerar o PDF

Mude o formato para OpenOffice Writer 2.0

Marque “Create body text” e “Merge lines into paragraph”.