Você está na página 1de 37

Como

escanear
livros com qualidade
e produzir textos por OCR
Prof. José Antonio Meira da Rocha
Edição do Autor
Como escanear livros
com qualidade e produzir
textos com OCR

MEIRA, José Antonio. Como escanear livros com qualidade.


Frederico Westphalen: Edição do Autor, 2012.

Editorado com LibreOffice 3.5.1.


Fontes tipográficas Liberation Serif e Liberation Sans.
Tamanho A5 para ser impresso em libreto, frente e verso.
Ilustrações capturadas e tratadas com IrfanView.

Foto de capa: divulgação HP.

1ª edição.

Frederico Westphalen, Outono de 2012.

http://meiradarocha.jor.br
joseantoniorocha@gmail.com

Esta obra foi licenciada com uma Licença Creative Commons - Atribuição - Uso
Não-Comercial - Partilha nos Mesmos Termos 3.0 Não Adaptada.
Escaneando livros com qualidade 3

Sumário
1 Introdução...............................................................................5
2 Obtenha as imagens..............................................................7
2.1 Escolha a interface do scanner.......................................7
2.2 Escaneie a página...........................................................8
3 Limpe e endireite as imagens..............................................13
4 Aplique o OCR......................................................................23
5 Gere, por OCR, texto editável .............................................33
6 Revise o texto.......................................................................37
Escaneando livros com qualidade 5

1 Introdução
Este manual ensina a escanear livros com qualidade e com
reconhecimento óptico de caracteres (OCR), gerando arquivos nos
formatos Comic Book, PDF com texto pesquisável e copiável, RTF e
TXT.

O formato de imagem recomendado para se produzir livros


escaneados é PNG preto e branco (profundidade de cor de um bit),
300 pontos por polegada (dpi). Esta escolha deve-se às seguintes
características:

• PNG é uma formato de imagens aberto e versátil, com boa


compressão.

• A resolução de 300 dpi é mais adequada para o OCR e pode


ser impressa em qualidade razoável (era a resolução das
primeiras impressoras laser).

• Imagens em preto & branco (profundidade de cor de um bit)


geram arquivos menores.

No entanto, se a página a ser escaneada tiver imagens em tons de


cinza, como fotografias, o espaço de cor deve ser Imagem em escala
de cinza, (profundidade de cor de 256 tons de cinza). Se a página
tiver imagens coloridas, o formato deve ser Imagem colorida.
(profundidade de cor de 24 bits ou milhões de cores).
Escaneando livros com qualidade 7

2 Obtenha as imagens
Em Windows, use o programa gratuito IrfanView
(http://www.irfanview.com/ ) o visualizador de arquivos mais usado
no mundo.

2.1 Escolha a interface do scanner


Vá a “File > Select Twain source” e escolha “WIA...”. Clique em
Selecionar.
8 Escaneando livros com qualidade

2.2 Escaneie a página


Vá ao menu “File > Aquire/batch scanning”, ou tecle
CTRL+SHIFT+A
Escaneando livros com qualidade 9

No diálogo seguinte:

1. Marque “Multiple images”

2. Coloque “Starting counter”: 1 (ou deixe o número sugerido)

3. Escolha “Destination directory”: “Minhas imagens” do


Windows

4. Save as: PNG, Options “Compression”: 9


10 Escaneando livros com qualidade

No diálogo seguinte, escolha “Texto ou imagem em preto e branco”

A seguir, certifique-se de que a resolução é de 300 dpi.


Escaneando livros com qualidade 11

Em geral, já está definido 300 dpi. Faça isto só para conferir.

Depois, clique em Visualizar e, a seguir, em Digitalizar.


12 Escaneando livros com qualidade

Repita as operações para todas as páginas do livro. A numeração das


imagens será incrementada automaticamente. Você obterá uma
coleção de imagens na pasta “Minhas Imagens” do Windows.

Dependendo da velocidade do scanner, o trabalho pode demorar de


30 segundos a um minuto por página.

Depois de terminada esta parte do trabalho, faça um backup de todas


as imagens, comprimindo-as num ZIP.

No capítulo seguinte, aprenda a limpar e endireitar as imagens.


Escaneando livros com qualidade 13

3 Limpe e endireite as imagens


As imagens de livros escaneados apresentam sombras e margens
pretas que devem ser limpas. Para isto, use o IrfanView. Prepare o
IrfanView teclando P (para ver as Propriedades) e escolha
“Browsing/editing > Cut, Choose”, cor branca para o fundo dos
cortes. Isto deve ser feito apenas uma vez. A configuração fica
gravada.
14 Escaneando livros com qualidade

Carregue o primeiro arquivo, que, em geral, tem o nome de


“ScanImage001.png”.
Escaneando livros com qualidade 15

Use a tecla “R” para girar a imagem para a direita (Right).


16 Escaneando livros com qualidade

Marque a mancha preta entre as páginas abrindo um retângulo de alto


a baixo. Use CTRL+X para limpar a área.
Escaneando livros com qualidade 17

Repita a operação na margem de baixo, conforme a seta.


18 Escaneando livros com qualidade

Faça o mesmo na margem da esquerda de alto a baixo.


Escaneando livros com qualidade 19

Repita a operação na margem superior e na margem direita. Depois,


apague eventuais sujeiras na imagem.

Grave com CTRL+S. Se esquecer de gravar, você vai perder o


trabalho. O IrfanView vai perguntar se você quer gravar por cima da
imagem existente. Tecle “S” para dizer que sim, porque você já fez
backup das imagens originais.
20 Escaneando livros com qualidade

Clique na seta “Next file in directory” para ir à próxima imagem na


pasta de imagens escaneadas. Repita as operações de limpeza até
terminar as imagens do livro.

Faça uma revisão para conferir se não esqueceu de escanear nenhuma


das páginas. Se esqueceu, renumere todas as imagens a partir da
última página incrementando um número, até retroceder à página de
número certo. Isto é importante para gerar um livro digital formato
Comic Book.

Escaneie e faça a limpeza na página faltante. O IrfanView vai


numerar automaticamente a página que faltava.
Escaneando livros com qualidade 21

Também verifique se todas as imagens estão sem defeitos. Qualquer


“escorregada” durante o escaneamento vai prejudicar o posterior
processamento por OCR.

Se todas as imagens estiverem corretas e numeradas na sequência


correta, crie uma pasta comprimida com o botão da direita na janela
de arquivos, menu “Novo > pasta compactada (zipada)”. Depois,
copie todas as imagens para esta pasta e renomeie-a trocando a
terminação ZIP por CBZ.

Com isto, você criou um “Comic Book”, um formato simples criado


por piratas de gibis. É simplesmente um arquivo ZIP ou RAR com as
imagens guardadas em sequência numerada.

O formato CBR (comprimido com RAR) ou CBZ (comprimido com


ZIP) pode ser lido com leitores de CBR, como o Comical
(http://comical.sourceforge.net/ ).

Conheça mais comic book readers em Five Best Desktop Comic


Book Readers <http://lifehacker.com/5858906/five-best-desktop-
comic-book-readers>

O formato CBZ é bem útil e simples de ser criado, mas não permite
que se copie o texto. Para isto, precisamos passar as imagens por um
reconhecedor óptico de caracteres (OCR). Veremos como se faz isto
no próximo capítulo.
Escaneando livros com qualidade 23

4 Aplique o OCR
Para usar o OCR, você precisa do software de scanner HP mais
recente. Baixe pelo site da Hewlett-Packard o driver correspondente
ao seu scanner.

Os softwares de scanner da HP estão cada vez piores, mais feios e


mais cheios de recursos inúteis e amadores, o que se chama de
“bloatware”. Enchem nossos computadores de programas e dados
desnecessários. Recentemente, (2009), a empresa liberou a versão 13
de seu software que sequer faz preview: ele escaneia demoradamente
a imagem colorida na resolução máxima do scanner, mesmo que se
necessite apenas de uma parte da imagem que está no vidro do
scanner, em preto e branco.

No entanto, o software da HP traz “escondida” uma versão limitada


do programa de OCR da I.R.I.S., um dos melhores OCRs do
mercado. Este programa permite que se produza um PDF com texto
copiável a partir de imagens já escaneadas.

O OCR da I.R.I.S. Está na pasta: “c:\Arquivos de


programas\HP\Digital Imaging\DocProc\dpe_ocr.exe.”

Puxe um atalho deste arquivo para o desktop.

Ao rodar, o programa avisa que é apenas para fins de debug. Ignore e


clique em OK.
24 Escaneando livros com qualidade

Na primeira vez que roda, o programa (chamado DPE) executa um


passo-a-passo (wizard) que pode ser seguido por comodidade. Ele
primeiro pergunta se é para rodar o “wizard” no início. Deixe ligado
se você quiser manter a comodidade, ou desligue se quiser fazer o
OCR manualmente.
Escaneando livros com qualidade 25

A seguir, o DPE pergunta se você quer imagens do scanner ou já


escaneadas. Esta versão OEM do DPE não permite que se obtenha
imagens diretamente do scanner, o que não é nenhuma desvantagem,
já que as imagens de scanner precisam sempre de uma limpeza.
Escolha “Image file”.

O DPE também vai perguntar se você quer que ele detecte a


orientação das páginas (se estão viradas 90 graus ou normais). Como
você já virou as páginas, deixe desligada esta opção.

A opção “Page Deskewing”, define se você quer que ele alinhe


perfeitamente na horizontal páginas ligeiramente giradas. O DPE faz
um serviço muito bom neste ajuste. Deixe ligado.
26 Escaneando livros com qualidade

Depois, o DPE pedirá para você escolher a língua do texto a ser


reconhecido. Ele deve usar o default do sistema operacional. Mude se
tiver texto em outras línguas.
Escaneando livros com qualidade 27

A seguir, o DPE pede o formato a ser gerado. No nosso caso,


queremos PDF com a imagem e com o texto “por baixo da imagem”.
É um recurso do formato PDF que permite que se tenha uma imagem
por cima de um texto pesquisável e copiável.

Clicando no botão
“Change”, você
configura o formato
de saída, conforme
o diálogo abaixo.
Existem dezenas de
formatos de saída
diferentes, como
RTF para
LibreOffice, mas
queremos guardar
em PDF
pesquisável (Adobe Acrobat/Reader - Image-text) por ser mais
versátil e preservar a imagem original.
28 Escaneando livros com qualidade

Finalmente, tudo configurado, vamos lá! Go!


Escaneando livros com qualidade 29

O DPE pede para você escolher os arquivos a serem oceerrizados.


Clique no primeiro arquivo, segure a tecla SHIFT e clique no último
arquivo, para selecionar todos. Ao clicar em “Abrir”, o DPE importa
e já faz o OCR em todas as páginas automaticamente.
30 Escaneando livros com qualidade

Depois de alguns segundos ou minutos (o trabalho é relativamente


rápido), o DPE apresenta o diálogo de salvar o PDF. Mude o nome
do arquivo para algo bem descritivo, como autor e nome do livro.

Mas, antes de salvar, defina algumas metainformações necessárias


para indexação do documento. Clique em “Properties...”.
Escaneando livros com qualidade 31

Escreva:

• O título

• O autor

• O assunto

• As palavras
chave

• O programa
criador

• A pessoa que
produziu o PDF.

• A instituição

• Etc

Clique OK e grave o documento.

Pronto, você tem um belo PDF com texto pesquisável e copiável.

Se o livro tiver alguma diagramação especial, e o texto ficar


embaralhado, será preciso fazer o OCR à mão, sem usar o “Wizard”.

PDF é um formato muito usado, bem documentado, compatível com


todos os sistemas operacionais e dispositivos, e com futuro garantido.
O fato de ter texto copiável permitirá que pesquisadores copiem
citações, poupando tempo e aumentando a produtividade.

No entanto, o texto copiável não se presta ainda para ser usado por
cegos que usam leitores de texto. Para isto, vamos ver no próximo
capítulo como extrair e formatar texto plano com o DPE.
Escaneando livros com qualidade 33

5 Gere, por OCR, texto editável


O PDF gerado pelo DPE tem boa qualidade de OCR. No entanto, se
o texto for copiado, terá um caracter fim-de-parágrafo no final de
cada linha.

Para pequenos trechos de texto a serem usados em citações, não é


problema reunir todas as linhas em um único parágrafo. Mas, numa
obra inteira, isto é mais trabalhoso e envolveria muitas operações de
procura e troca.

No entanto, o DPE também faz OCR com saída em RTF (Reach Text
Format), um formato de intercâmbio de documentos aceito pela
grande maioria dos editores de texto.

O processo de OCR é o mesmo, mas, depois de gerar o PDF


pesquisável, clique em “Format”.
34 Escaneando livros com qualidade

Mude o formato para OpenOffice Writer 2.0

Marque “Create body text” e “Merge lines into paragraph”.


Escaneando livros com qualidade 35

A seguir, clique em “Recognize and save” para reconhecer e gravar o


documento.

Se o LibreOffice estiver instalado, o texto reconhecido será


carregado e apresentado.
Escaneando livros com qualidade 37

6 Revise o texto
Depois de criado o texto em formato RTF, ele deve ser revisado e
corrigido. O OCR não é perfeito. Sempre existem palavras não
reconhecidas ou reconhecidas erradamente.

Primeiro, formate estilo de texto Padrão (F11) conforme suas


preferências – adicione espaço abaixo dos parágrafos, por exemplo –
e aplique a todo o texto.

Depois, utilize os recursos de correção ortográfica do editor para


corrigir todo o texto.

Mas há erros que o corretor não pega. Certas letras não são
diferenciadas pelo OCR como maiúsculas e minúsculas. S=s, C=c,
O=o, por exemplo.

Barras “/” são reconhecidas como “l”, etc.

As notas de rodapé devem ser reinseridas, ou inseridas no ponto


exato do texto de forma a ficarem adequadas a cegos. Como os
números índices de notas de rodapé são muito pequenos, em geral
não são reconhecidos. Você deve olhar o texto original para achar o
ponto exato de inserção.

Os números de página e rodapés ou cabeçalhos, se forem capturados


(o que é bom para você localizar o texto no original), devem ser
eliminados na versão corrigida do texto.

Depois de revisado, o documento ODT pode ser gravado como TXT,


para uso de cegos.

Você também pode gostar