Escolar Documentos
Profissional Documentos
Cultura Documentos
Como Escanear Livros Com Qualidade e Produzir Textos Por OCR
Como Escanear Livros Com Qualidade e Produzir Textos Por OCR
escanear
livros com qualidade
e produzir textos por OCR
Prof. José Antonio Meira da Rocha
Edição do Autor
Como escanear livros
com qualidade e produzir
textos com OCR
1ª edição.
http://meiradarocha.jor.br
joseantoniorocha@gmail.com
Esta obra foi licenciada com uma Licença Creative Commons - Atribuição - Uso
Não-Comercial - Partilha nos Mesmos Termos 3.0 Não Adaptada.
Escaneando livros com qualidade 3
Sumário
1 Introdução...............................................................................5
2 Obtenha as imagens..............................................................7
2.1 Escolha a interface do scanner.......................................7
2.2 Escaneie a página...........................................................8
3 Limpe e endireite as imagens..............................................13
4 Aplique o OCR......................................................................23
5 Gere, por OCR, texto editável .............................................33
6 Revise o texto.......................................................................37
Escaneando livros com qualidade 5
1 Introdução
Este manual ensina a escanear livros com qualidade e com
reconhecimento óptico de caracteres (OCR), gerando arquivos nos
formatos Comic Book, PDF com texto pesquisável e copiável, RTF e
TXT.
2 Obtenha as imagens
Em Windows, use o programa gratuito IrfanView
(http://www.irfanview.com/ ) o visualizador de arquivos mais usado
no mundo.
No diálogo seguinte:
O formato CBZ é bem útil e simples de ser criado, mas não permite
que se copie o texto. Para isto, precisamos passar as imagens por um
reconhecedor óptico de caracteres (OCR). Veremos como se faz isto
no próximo capítulo.
Escaneando livros com qualidade 23
4 Aplique o OCR
Para usar o OCR, você precisa do software de scanner HP mais
recente. Baixe pelo site da Hewlett-Packard o driver correspondente
ao seu scanner.
Clicando no botão
“Change”, você
configura o formato
de saída, conforme
o diálogo abaixo.
Existem dezenas de
formatos de saída
diferentes, como
RTF para
LibreOffice, mas
queremos guardar
em PDF
pesquisável (Adobe Acrobat/Reader - Image-text) por ser mais
versátil e preservar a imagem original.
28 Escaneando livros com qualidade
Escreva:
• O título
• O autor
• O assunto
• As palavras
chave
• O programa
criador
• A pessoa que
produziu o PDF.
• A instituição
• Etc
No entanto, o texto copiável não se presta ainda para ser usado por
cegos que usam leitores de texto. Para isto, vamos ver no próximo
capítulo como extrair e formatar texto plano com o DPE.
Escaneando livros com qualidade 33
No entanto, o DPE também faz OCR com saída em RTF (Reach Text
Format), um formato de intercâmbio de documentos aceito pela
grande maioria dos editores de texto.
6 Revise o texto
Depois de criado o texto em formato RTF, ele deve ser revisado e
corrigido. O OCR não é perfeito. Sempre existem palavras não
reconhecidas ou reconhecidas erradamente.
Mas há erros que o corretor não pega. Certas letras não são
diferenciadas pelo OCR como maiúsculas e minúsculas. S=s, C=c,
O=o, por exemplo.