Você está na página 1de 3

Como escanear um livro

Várias pessoas já nos perguntaram como se escaneia um livro, e o objetivo deste


texto é tentar responder isso de uma maneira simples, reunindo algumas dicas que
recebemos de alguns amigos e comparsas ou que descobrimos quebrando as cabeças em
frente ao computador. Esperamos que depois de ler esses parágrafos você olhe de maneira
totalmente nova e ameaçadora para seus livros empoeirados e aquele scanner do seu
vizinho.

O processo de se escanear um livro pode ser dividido em três partes :

1- Transformar a página em uma imagem (escanear);

2- Usar um programa de Reconhecimento Óptico de Caractéres (OCR) para converter a


imagem em texto;

3- Revisar o texto criado pelo OCR;

Transformando a página em uma imagem

Essa parte é a mais simples e repetitiva. Simplesmente escaneie o livro todo,


tomando um cuidado especial para que as páginas não saiam tortas ou cortadas nas bordas.
A resolução recomendada para se escanear um livro é de 600 dpi, que torna o trabalho do
scanner mais lento, mas permite o reconhecimento de trechos em itálico e negrito, além de
facilitar e muito o processo de revisão no final.
Para texto em geral use a opção preto e branco. Figuras merecem atenção especial.
Imagens coloridas devem ser escaniadas em cores para que fiquem como as originais, mas
antes você deve pensar se realmente vale a pena acrescentar essas figuras que certamente
irão tornar o arquivo final muito mais pesado. Normalmente o melhor a ser fazer é escanear
as imagens coloridas utilizando o modo preto e branco, perdendo parte da qualidade, mas
tornando a imagem (e consequëntemente o arquivo final) muito menor. Repare que existem
ocasiões onde uma figura colorida é necessária, como no caso de alguns mapas e capas de
livros (elas não precisam serem coloridas, mas ficam mais legais).
Figuras que não são coloridas ficam muito boas se escaniadas no modo preto e branco, mas
sempre tenha em mente que mesmo não sendo tão grandes como suas equivalentes
coloridas, as imagens em preto e branco irão aumentar consideravelmente o tamanho do
arquivo final em PDF.

O mais importante na hora de escanear é fazer vários testes utilizando páginas


diferentes e fazendo pequenos ajustes, e só depois de ter certeza que o OCR está lendo as
páginas testes sem dificuldade, escanear o restante do livro. Acredite, isso pode lhe poupar
um bocado de trabalho.

Convertendo a imagem em texto


Antes vamos falar um pouco sobre o programa de Reconhecimento Óptico de
Caractéres ou OCR. Essa pequena maravilha tecnológica identifica o texto contido em uma
imagem e o transforma em texto normal, que pode ser modificado usando qualquer editor
de texto.

O OCR que nós utilizamos e recomendamos é o ABBYY Finereader 5.0, que é


relativamente simples, eficiente, possui suporte para acentos. Uma maneira legal (sacaram
o trocadilho? ;) de se conseguir este programa é pegar sua versão trial (que funciona por X
dias) em sites de software como o tucows ou download.com. Caso o Finereader conquiste
seu coração como fez com os nossos você pode fazer uma visita no astalavista e pegar o
crack que faz a versão trial funcionar por tempo indeterminado.
Se você não quiser ou puder utilizar o Finereader ainda existem inúmeras opções de OCR.
Infelizmente não temos expêriencia com nenhuma delas. Tente ir à sites de software e
procurar na seção de OCRs e com um pouco de sorte você vai achar um OCR que funcione
decentemente.
Para converter as páginas escaniadas em texto simplesmente as abra em seu OCR,
selecione as que você deseja (na maioria dos casos todas), mande o OCR lê-las e vá limpar
o mouse/ tomar banho/ dormir/ viajar, dependendo do número de páginas pois o processo é
bastante demorado.

Não tenho certeza mas imagino que todos os OCR possuam as famosas caixas de
texto e imagens. Resumidamente essas caixinhas úteis marcam o que é texto e o que é
imagem em uma página, impedindo que o OCR tente ler uma imagem como um texto e
vice-versa. No Finereader existe a opção de caixas automáticas, ou seja, o próprio programa
automaticamente coloca as caixas onde considera necessário. Nem sempre funciona, mas
ajuda bastante. De qualquer forma, use as caixas e treine um pouco usando seu OCR para
não fazer feio na hora do show.

Revisar o texto criado pelo OCR

O texto que agora está em OCR não está mais inserido em uma imagem, mas
provavelmente contém alguns erros que antes não existiam. Isso acontece pois nem sempre
o OCR consegue identificar o que foi escaniado, ou por fontes pequenas, papel muito
escuro, etc. A melhor maneira de evitar esses erros é escanear o livro utilizando uma
resolução alta, como 600 dpi. E antes que alguém pergunte, escanear xerox funciona, mas o
número de erros aumenta um pouco devido a perda de qualidade da página e aqueles
pontinhos escuros que sempre aparecem. Mas ainda é possível.

O modo mais fácil de corrigir esses erros do texto recém criado é usando a
ferramenta que todo OCR deve (ou deveria) ter chamada correção ortográfica (spell
checking), que localiza os trechos onde o OCR teve dificuldades para identificar o que
estava escrito. É muito chato, mas é a maneira mais fácil. Se você gosta de aventura pode
tentar achar todos os erros no olho, sem usar nenhuma ferramenta. Isso sim deve ser
excitante hehehehe.
Na minha opinião é melhor fazer a correção de cada página imediatamente depois
desta ter sido escaniada e do texto ter sido criado pelo OCR. Digo isso pois acho menos
cansativo do que escanear o livro todo, passar o OCR em todas as páginas e depois revisar
tudo. Outro bom motivo é que dessa forma você com certeza estará com o livro original em
suas mãos, podendo assim consultá-lo caso exista alguma dúvida sobre um erro ou algo do
tipo.
Uma ferramenta indispensável para a revisão e outros ajustes menores é o Adobe
Acrobat (não é o reader). Esse programa é extremamente confuso, mas ainda é a melhor e
única maneira de se modificar PDFs que conhecemos. Tente colocar as mãos nele.

Depois da correção salve no formato PDF e coloque na internet.

O processo é mais complexo do que parece e existem muito mais questões, sendo
que a maioria delas nós nem fazemos idéia das respostas. Tente várias vezes, não se prenda
as coisas escritas nesse pequeno manual, e entre em contato com outras pessoas (uma opção
é o fórum da RPGratuito) e boa sorte.

A seguir estão algumas dicas simples mas que podem vir a ser utéis:

- Alguns livros possuem um papel um pouco mais fino, que ao ser escaniado
(principalmente em resoluções maiores) acaba sendo lido pelo scanner nas duas faces da
folha ao mesmo tempo, o que impede o OCR de converter o texto corretamente. Uma
maneira simples de se impedir isso é colar com fita adesiva uma folha de papel preto no
interior da tampa do scanner e escanear cada folha separadamente.

- Em relação a numeração do livro, o OCR tem o péssimo hábito de identificá-la como


sendo parte do texto da página. Se isso ocorrer com você é melhor nem selecioná-la na hora
de usar as caixas de texto do OCR, e adicione a numeração a página quando o OCR acabar
de criar o texto.

- Muitos scanners possuem a opção de ajuste de brilho automático. Se seu scanner possui
esta opção use-a, mas caso você tenha que ajustar o brilho manualmente, faça alguns testes
em uma página que contenha muito texto. Repare bem as letras da página escaniada, e se
elas estiverem quebradas ou faltando partes tente novamente, desta vez diminuido o brilho.
Se as letras estiverem coladas umas nas outras, com muitos pontos escuros ao redor tente
aumentar o brilho. Um bom ajuste de brilho no início pode poupar muito tempo durante a
revisão final.

- Certos livros como os da terceira edição de D&D possuem bordas coloridas, que se
adicionadas ao livro do modo convendional o tornarão muito pesado. Mas usando o Adobe
Acrobat você pode substituir essas bordas e usar sempre as mesmas duas imagens (uma
para a borda esquerda, outra para a direita), tornando o livro mais bonito e infinitamente
mais leve. Para isso escaneie apenas uma página com a borda esquerda e uma com a direita,
e depois insira as mesmas imagens nas outras páginas, se lembrando de ir alterando a
numeração manualmente.

Você também pode gostar