Você está na página 1de 3

Este manual compe a Coletnea Mega Cursos

- www.megacursos.com.br - 1
Como escanear um livro


Vrias pessoas j nos perguntaram como se escaneia um livro, e o objetivo deste
texto tentar responder isso de uma maneira simples, reunindo algumas dicas que
recebemos de alguns amigos e comparsas ou que descobrimos quebrando as cabeas em
frente ao computador. Esperamos que depois de ler esses pargrafos voc olhe de
maneira totalmente nova e ameaadora para seus livros empoeirados e aquele scanner
do seu vizinho.

O processo de se escanear um livro pode ser dividido em trs partes:

1- Transformar a pgina em uma imagem (escanear)
2- Usar um programa de Reconhecimento ptico de Caracteres (OCR) para converter a
imagem em texto
3- Revisar o texto criado pelo OCR


Transformando a pgina em uma imagem

Essa parte a mais simples e repetitiva. Simplesmente escaneie o livro todo,
tomando um cuidado especial para que as pginas no saiam tortas ou cortadas nas
bordas.
A resoluo recomendada para se escanear um livro de 600 dpi, que torna o
trabalho do scanner mais lento, mas permite o reconhecimento de trechos em itlico e
negrito, alm de facilitar e muito o processo de reviso no final.
Para texto em geral use a opo preto e branco. Figuras merecem ateno
especial.
Imagens coloridas devem ser escaneadas em cores para que fiquem como as
originais, mas antes voc deve pensar se realmente vale a pena acrescentar essas figuras
que certamente iro tornar o arquivo final muito mais pesado. Normalmente o melhor a
ser fazer escanear as imagens coloridas utilizando o modo preto e branco, perdendo
parte da qualidade, mas tornando a imagem (e consequntemente o arquivo final) muito
menor. Repare que existem ocasies onde uma figura colorida necessria, como no
caso de alguns mapas e capas de livros (elas no precisam ser coloridas, mas ficam mais
legais).
Figuras que no so coloridas ficam muito boas se escaneadas no modo preto e
branco, mas sempre tenha em mente que mesmo no sendo to grandes como suas
equivalentes coloridas, as imagens em preto e branco iro aumentar consideravelmente
o tamanho do arquivo final em PDF.
O mais importante na hora de escanear fazer vrios testes utilizando pginas
diferentes e fazendo pequenos ajustes, e s depois de ter certeza que o OCR est lendo
as pginas testes sem dificuldade, escanear o restante do livro. Acredite isso pode lhe
poupar um bocado de trabalho.

Convertendo a imagem em texto

Antes vamos falar um pouco sobre o programa de Reconhecimento ptico de
Caracteres ou OCR. Essa pequena maravilha tecnolgica identifica o texto contido em
Este manual compe a Coletnea Mega Cursos
- www.megacursos.com.br - 2
uma imagem e o transforma em texto normal, que pode ser modificado usando qualquer
editor de texto.
O OCR que ns utilizamos e recomendamos o ABBYY Fine-reader 5.0, que
relativamente simples, eficiente, possui suporte para acentos. Uma maneira legal
(sacaram o trocadilho? ;) de se conseguir este programa pegar sua verso trial (que
funciona por X dias) em sites de software como o tucows ou download.com. Caso o
Fine-reader conquiste seu corao como fez com os nossos voc pode fazer uma visita
no astalavista e pegar o crack que faz a verso trial funcionar por tempo indeterminado.
Se voc no quiser ou puder utilizar o Fine-reader ainda existem inmeras
opes de OCR. Infelizmente no temos experincia com nenhuma delas. Tente ir
sites de software e procurar na seo de OCRs e com um pouco de sorte voc vai achar
um OCR que funcione decentemente.
Para converter as pginas escaneadas em texto simplesmente s abra em seu
OCR, selecione as que voc deseja (na maioria dos casos todos), mande o OCR l-las e
v limpar o mouse/ tomar banho/ dormir/ viajar, dependendo do nmero de pginas pois
o processo bastante demorado.
No tenho certeza, mas imagino que todos os OCR possuam as famosas caixas
de texto e imagens. Resumidamente essas caixinhas teis marcam o que texto e o que
imagem em uma pgina, impedindo que o OCR tente ler uma imagem como um texto
e vice-versa. No Fine-reader existe a opo de caixas automticas, ou seja, o prprio
programa automaticamente coloca as caixas onde considera necessrio. Nem sempre
funciona, mas ajuda bastante. De qualquer forma, use as caixas e treine um pouco
usando seu OCR para no fazer feio na hora do show.

Revisar o texto criado pelo OCR

O texto que agora est em OCR no est mais inserido em uma imagem, mas
provavelmente contm alguns erros que antes no existiam. Isso acontece pois nem
sempre o OCR consegue identificar o que foi escaneado, ou por fontes pequenas, papel
muito escuro, etc. A melhor maneira de evitar esses erros escanear o livro utilizando
uma resoluo alta, como 600 dpi. E antes que algum pergunte, escanear xerox
funciona, mas o nmero de erros aumenta um pouco devido a perda de qualidade da
pgina e aqueles pontinhos escuros que sempre aparecem. Mas ainda possvel.
O modo mais fcil de corrigir esses erros do texto recm criado usando a
ferramenta que todo OCR deve (ou deveria) ter chamada correo ortogrfica (spell
checking), que localiza os trechos onde o OCR teve dificuldades para identificar o que
estava escrito. muito chato, mas a maneira mais fcil. Se voc gosta de aventura
pode tentar achar todos os erros no olho, sem usar nenhuma ferramenta. Isso sim deve
ser excitante hehehehe.
Em minha opinio melhor fazer a correo de cada pgina imediatamente
depois desta ter sido escaneada e do texto ter sido criado pelo OCR. Digo isso, pois
acho menos cansativo do que escanear o livro todo, passar o OCR em todas as pginas e
depois revisar tudo. Outro bom motivo que dessa forma voc com certeza estar com
o livro original em suas mos, podendo assim consult-lo caso exista alguma dvida
sobre um erro ou algo do tipo.
Uma ferramenta indispensvel para a reviso e outros ajustes menores o Adobe
Acrobat (no o reader). Esse programa extremamente confuso, mas ainda a melhor
e nica maneira de se modificar PDFs que conhecemos. Tente colocar as mos nele.


Este manual compe a Coletnea Mega Cursos
- www.megacursos.com.br - 3


Depois da correo salve no formato PDF e coloque na internet.

O processo mais complexo do que parece e existem muito mais questes,
sendo que a maioria delas ns nem fazemos idia das respostas. Tente vrias vezes, no
se prenda as coisas escritas nesse pequeno manual, e entre em contato com outras
pessoas (uma opo o frum da RP Gratuito) e boa sorte.

A seguir esto algumas dicas simples, mas que podem vir a ser teis:

- Alguns livros possuem um papel um pouco mais fino, que ao ser escaneado
(principalmente em resolues maiores) acaba sendo lido pelo scanner nas duas faces da
folha ao mesmo tempo, o que impede o OCR de converter o texto corretamente. Uma
maneira simples de se impedir isso colar com fita adesiva uma folha de papel preto no
interior da tampa do scanner e escanear cada folha separadamente.

- Em relao a numerao do livro, o OCR tem o pssimo hbito de identific-la como
sendo parte do texto da pgina. Se isso ocorrer com voc melhor nem selecion-la na
hora de usar as caixas de texto do OCR, e adicione numerao a pgina quando o
OCR acabar de criar o texto.

- Muitos scanners possuem a opo de ajuste de brilho automtico. Se seu scanner
possui esta opo use-a, mas caso voc tenha que ajustar o brilho manualmente, faa
alguns testes em uma pgina que contenha muito texto. Repare bem as letras da pgina
escaneada, e se elas estiverem quebradas ou faltando partes tente novamente, desta vez
diminudo o brilho. Se as letras estiverem coladas umas nas outras, com muitos pontos
escuros ao redor tente aumentar o brilho. Um bom ajuste de brilho no incio pode
poupar muito tempo durante a reviso final.

- Certos livros como os da terceira edio de D&D possuem bordas coloridas, que se
adicionadas ao livro do modo convencional o tornaro muito pesado. Mas usando o
Adobe Acrobat voc pode substituir essas bordas e usar sempre as mesmas duas
imagens (uma para a borda esquerda, outra para a direita), tornando o livro mais bonito
e infinitamente mais leve. Para isso escaneie apenas uma pgina com a borda esquerda e
uma com a direita, e depois insira as mesmas imagens nas outras pginas, se lembrando
de ir alterando a numerao manualmente.

Você também pode gostar