Escolar Documentos
Profissional Documentos
Cultura Documentos
Como Escanear Um Livro
Como Escanear Um Livro
Não tenho certeza mas imagino que todos os OCR possuam as famosas caixas de
texto e imagens. Resumidamente essas caixinhas úteis marcam o que é texto e o que é
imagem em uma página, impedindo que o OCR tente ler uma imagem como um texto e
vice-versa. No Finereader existe a opção de caixas automáticas, ou seja, o próprio programa
automaticamente coloca as caixas onde considera necessário. Nem sempre funciona, mas
ajuda bastante. De qualquer forma, use as caixas e treine um pouco usando seu OCR para
não fazer feio na hora do show.
O texto que agora está em OCR não está mais inserido em uma imagem, mas
provavelmente contém alguns erros que antes não existiam. Isso acontece pois nem sempre
o OCR consegue identificar o que foi escaniado, ou por fontes pequenas, papel muito
escuro, etc. A melhor maneira de evitar esses erros é escanear o livro utilizando uma
resolução alta, como 600 dpi. E antes que alguém pergunte, escanear xerox funciona, mas o
número de erros aumenta um pouco devido a perda de qualidade da página e aqueles
pontinhos escuros que sempre aparecem. Mas ainda é possível.
O modo mais fácil de corrigir esses erros do texto recém criado é usando a
ferramenta que todo OCR deve (ou deveria) ter chamada correção ortográfica (spell
checking), que localiza os trechos onde o OCR teve dificuldades para identificar o que
estava escrito. É muito chato, mas é a maneira mais fácil. Se você gosta de aventura pode
tentar achar todos os erros no olho, sem usar nenhuma ferramenta. Isso sim deve ser
excitante hehehehe.
Na minha opinião é melhor fazer a correção de cada página imediatamente depois
desta ter sido escaniada e do texto ter sido criado pelo OCR. Digo isso pois acho menos
cansativo do que escanear o livro todo, passar o OCR em todas as páginas e depois revisar
tudo. Outro bom motivo é que dessa forma você com certeza estará com o livro original em
suas mãos, podendo assim consultá-lo caso exista alguma dúvida sobre um erro ou algo do
tipo.
Uma ferramenta indispensável para a revisão e outros ajustes menores é o Adobe
Acrobat (não é o reader). Esse programa é extremamente confuso, mas ainda é a melhor e
única maneira de se modificar PDFs que conhecemos. Tente colocar as mãos nele.
O processo é mais complexo do que parece e existem muito mais questões, sendo
que a maioria delas nós nem fazemos idéia das respostas. Tente várias vezes, não se prenda
as coisas escritas nesse pequeno manual, e entre em contato com outras pessoas (uma opção
é o fórum da RPGratuito) e boa sorte.
A seguir estão algumas dicas simples mas que podem vir a ser utéis:
- Alguns livros possuem um papel um pouco mais fino, que ao ser escaniado
(principalmente em resoluções maiores) acaba sendo lido pelo scanner nas duas faces da
folha ao mesmo tempo, o que impede o OCR de converter o texto corretamente. Uma
maneira simples de se impedir isso é colar com fita adesiva uma folha de papel preto no
interior da tampa do scanner e escanear cada folha separadamente.
- Muitos scanners possuem a opção de ajuste de brilho automático. Se seu scanner possui
esta opção use-a, mas caso você tenha que ajustar o brilho manualmente, faça alguns testes
em uma página que contenha muito texto. Repare bem as letras da página escaniada, e se
elas estiverem quebradas ou faltando partes tente novamente, desta vez diminuido o brilho.
Se as letras estiverem coladas umas nas outras, com muitos pontos escuros ao redor tente
aumentar o brilho. Um bom ajuste de brilho no início pode poupar muito tempo durante a
revisão final.
- Certos livros como os da terceira edição de D&D possuem bordas coloridas, que se
adicionadas ao livro do modo convendional o tornarão muito pesado. Mas usando o Adobe
Acrobat você pode substituir essas bordas e usar sempre as mesmas duas imagens (uma
para a borda esquerda, outra para a direita), tornando o livro mais bonito e infinitamente
mais leve. Para isso escaneie apenas uma página com a borda esquerda e uma com a direita,
e depois insira as mesmas imagens nas outras páginas, se lembrando de ir alterando a
numeração manualmente.