Você está na página 1de 4

Como escanear um livro

(um guia prático de pirataria)

Várias pessoas já nos perguntaram como se escaneia um livro, e o objetivo


deste texto é tentar responder isso de uma maneira simples, reunindo algumas
dicas que recebemos de alguns amigos e comparsas ou que descobrimos
quebrando as cabeças em frente ao computador. Esperamos que depois de ler
esses parágrafos você olhe de maneira totalmente nova e ameaçadora para
seus livros empoeirados e aquele scanner do seu vizinho.

O processo de se escanear um livro pode ser dividido em três partes :

1- Transformar a página em uma imagem (escanear)


2- Usar um programa de Reconhecimento Óptico de Caractéres (OCR) para
converter a imagem em texto
3- Revisar o texto criado pelo OCR

Transformando a página em uma imagem

Essa parte é a mais simples e repetitiva. Simplesmente escaneie o livro todo,


tomando um cuidado especial para que as páginas não saiam tortas ou
cortadas nas bordas.
A resolução recomendada para se escanear um livro é de 600 dpi, que torna o
trabalho do scanner mais lento, mas permite o reconhecimento de trechos em
itálico e negrito, além de facilitar e muito o processo de revisão no final.
Para texto em geral use a opção preto e branco. Figuras merecem atenção
especial.
Imagens coloridas devem ser escaniadas em cores para que fiquem como as
originais, mas antes você deve pensar se realmente vale a pena acrescentar
essas figuras que certamente irão tornar o arquivo final muito mais pesado.
Normalmente o melhor a ser fazer é escanear as imagens coloridas utilizando o
modo preto e branco, perdendo parte da qualidade, mas tornando a imagem (e
consequëntemente o arquivo final) muito menor. Repare que existem ocasiões
onde uma figura colorida é necessária, como no caso de alguns mapas e capas
de livros (elas não precisam serem coloridas, mas ficam mais legais).
Figuras que não são coloridas ficam muito boas se escaniadas no modo preto e
branco, mas sempre tenha em mente que mesmo não sendo tão grandes como
suas equivalentes coloridas, as imagens em preto e branco irão aumentar
consideravelmente o tamanho do arquivo final em PDF.
O mais importante na hora de escanear é fazer vários testes utilizando páginas
diferentes e fazendo pequenos ajustes, e só depois de ter certeza que o OCR
está lendo as páginas testes sem dificuldade, escanear o restante do livro.
Acredite, isso pode lhe poupar um bocado de trabalho.

Convertendo a imagem em texto

Antes vamos falar um pouco sobre o programa de Reconhecimento Óptico de


Caractéres ou OCR. Essa pequena maravilha tecnológica identifica o texto
contido em uma imagem e o transforma em texto normal, que pode ser
modificado usando qualquer editor de texto.
O OCR que nós utilizamos e recomendamos é o ABBYY Finereader 5.0, que é
relativamente simples, eficiente, possui suporte para acentos. Uma maneira
legal (sacaram o trocadilho? ;) de se conseguir este programa é pegar sua
versão trial (que funciona por X dias) em sites de software como o tucows ou
download.com. Caso o Finereader conquiste seu coração como fez com os
nossos você pode fazer uma visita no astalavista e pegar o crack que faz a
versão trial funcionar por tempo indeterminado.
Se você não quiser ou puder utilizar o Finereader ainda existem inúmeras
opções de OCR. Infelizmente não temos expêriencia com nenhuma delas.
Tente ir à sites de software e procurar na seção de OCRs e com um pouco de
sorte você vai achar um OCR que funcione decentemente.
Para converter as páginas escaniadas em texto simplesmente as abra em seu
OCR, selecione as que você deseja (na maioria dos casos todas), mande o OCR
lê-las e vá limpar o mouse/ tomar banho/ dormir/ viajar, dependendo do
número de páginas pois o processo é bastante demorado.
Não tenho certeza mas imagino que todos os OCR possuam as famosas caixas
de texto e imagens. Resumidamente essas caixinhas úteis marcam o que é
texto e o que é imagem em uma página, impedindo que o OCR tente ler uma
imagem como um texto e vice-versa. No Finereader existe a opção de caixas
automáticas, ou seja, o próprio programa automaticamente coloca as caixas
onde considera necessário. Nem sempre funciona, mas ajuda bastante. De
qualquer forma, use as caixas e treine um pouco usando seu OCR para não
fazer feio na hora do show.

Revisar o texto criado pelo OCR

O texto que agora está em OCR não está mais inserido em uma imagem, mas
provavelmente contém alguns erros que antes não existiam. Isso acontece
pois nem sempre o OCR consegue identificar o que foi escaniado, ou por fontes
pequenas, papel muito escuro, etc. A melhor maneira de evitar esses erros é
escanear o livro utilizando uma resolução alta, como 600 dpi. E antes que
alguém pergunte, escanear xerox funciona, mas o número de erros aumenta
um pouco devido a perda de qualidade da página e aqueles pontinhos escuros
que sempre aparecem. Mas ainda é possível.
O modo mais fácil de corrigir esses erros do texto recém criado é usando a
ferramenta que todo OCR deve (ou deveria) ter chamada correção ortográfica
(spell checking), que localiza os trechos onde o OCR teve dificuldades para
identificar o que estava escrito. É muito chato, mas é a maneira mais fácil. Se
você gosta de aventura pode tentar achar todos os erros no olho, sem usar
nenhuma ferramenta. Isso sim deve ser excitante hehehehe.
Na minha opnião é melhor fazer a correção de cada página imediatamente
depois desta ter sido escaniada e do texto ter sido criado pelo OCR. Digo isso
pois acho menos cansativo do que escanear o livro todo, passar o OCR em
todas as páginas e depois revisar tudo. Outro bom motivo é que dessa forma
você com certeza estará com o livro original em suas mãos, podendo assim
consultá-lo caso exista alguma dúvida sobre um erro ou algo do tipo.
Uma ferramenta indispensável para a revisão e outros ajustes menores é o
Adobe Acrobat (não é o reader). Esse programa é extremamente confuso, mas
ainda é a melhor e única maneira de se modificar PDFs que conhecemos. Tente
colocar as mãos nele.
Depois da correção salve no formato PDF e coloque na internet.

O processo é mais complexo do que parece e existem muito mais questões,


sendo que a maioria delas nós nem fazemos idéia das respostas. Tente várias
vezes, não se prenda as coisas escritas nesse pequeno manual, e entre em
contato com outras pessoas (uma opção é o fórum da RPGratuito) e boa sorte.

A seguir estão algumas dicas simples mas que podem vir a ser utéis:

- Alguns livros possuem um papel um pouco mais fino, que ao ser escaniado
(principalmente em resoluções maiores) acaba sendo lido pelo scanner nas
duas faces da folha ao mesmo tempo, o que impede o OCR de converter o
texto corretamente. Uma maneira simples de se impedir isso é colar com fita
adesiva uma folha de papel preto no interior da tampa do scanner e escanear
cada folha separadamente.

- Em relação a numeração do livro, o OCR tem o péssimo hábito de identificá-


la como sendo parte do texto da página. Se isso ocorrer com você é melhor
nem selecioná-la na hora de usar as caixas de texto do OCR, e adicione a
numeração a página quando o OCR acabar de criar o texto.

- Muitos scanners possuem a opção de ajuste de brilho automático. Se seu


scanner possui esta opção use-a, mas caso você tenha que ajustar o brilho
manualmente, faça alguns testes em uma página que contenha muito texto.
Repare bem as letras da página escaniada, e se elas estiverem quebradas ou
faltando partes tente novamente, desta vez diminuido o brilho. Se as letras
estiverem coladas umas nas outras, com muitos pontos escuros ao redor tente
aumentar o brilho. Um bom ajuste de brilho no início pode poupar muito tempo
durante a revisão final.

- Certos livros como os da terceira edição de D&D possuem bordas coloridas,


que se adicionadas ao livro do modo convendional o tornarão muito pesado.
Mas usando o Adobe Acrobat você pode substituir essas bordas e usar sempre
as mesmas duas imagens (uma para a borda esquerda, outra para a direita),
tornando o livro mais bonito e infinitamente mais leve. Para isso escaneie
apenas uma página com a borda esquerda e uma com a direita, e depois insira
as mesmas imagens nas outras páginas, se lembrando de ir alterando a
numeração manualmente.
This document was created with Win2PDF available at http://www.win2pdf.com.
The unregistered version of Win2PDF is for evaluation or non-commercial use only.
This page will not be added after purchasing Win2PDF.

Você também pode gostar