Você está na página 1de 3

Como escanear um livro

(um guia prtico de pirataria)

Vrias pessoas j nos perguntaram como se escaneia um livro, e o objetivo deste texto tentar responder isso de uma maneira simples, reunindo algumas dicas que recebemos de alguns amigos e comparsas ou que descobrimos quebrando as cabeas em frente ao computador. Esperamos que depois de ler esses pargrafos voc olhe de maneira totalmente nova e ameaadora para seus livros empoeirados e aquele scanner do seu vizinho. O processo de se escanear um livro pode ser dividido em trs partes : 1- Transformar a pgina em uma imagem (escanear) 2- Usar um programa de Reconhecimento ptico de Caractres (OCR) para converter a imagem em texto 3- Revisar o texto criado pelo OCR Transformando a pgina em uma imagem Essa parte a mais simples e repetitiva. Simplesmente escaneie o livro todo, tomando um cuidado especial para que as pginas no saiam tortas ou cortadas nas bordas. A resoluo recomendada para se escanear um livro de 600 dpi, que torna o trabalho do scanner mais lento, mas permite o reconhecimento de trechos em itlico e negrito, alm de facilitar e muito o processo de reviso no final. Para texto em geral use a opo preto e branco. Figuras merecem ateno especial. Imagens coloridas devem ser escaniadas em cores para que fiquem como as originais, mas antes voc deve pensar se realmente vale a pena acrescentar essas figuras que certamente iro tornar o arquivo final muito mais pesado. Normalmente o melhor a ser fazer escanear as imagens coloridas utilizando o modo preto e branco, perdendo parte da qualidade, mas tornando a imagem (e consequntemente o arquivo final) muito menor. Repare que existem ocasies onde uma figura colorida necessria, como no caso de alguns mapas e capas de livros (elas no precisam serem coloridas, mas ficam mais legais). Figuras que no so coloridas ficam muito boas se escaniadas no modo preto e branco, mas sempre tenha em mente que mesmo no sendo to grandes como suas equivalentes coloridas, as imagens em preto e branco iro aumentar consideravelmente o tamanho do arquivo final em PDF. O mais importante na hora de escanear fazer vrios testes utilizando pginas diferentes e fazendo pequenos ajustes, e s depois de ter certeza que o OCR est lendo as pginas testes sem dificuldade, escanear o restante do livro. Acredite, isso pode lhe poupar um bocado de trabalho. Convertendo a imagem em texto Antes vamos falar um pouco sobre o programa de Reconhecimento ptico de Caractres ou OCR. Essa pequena maravilha tecnolgica identifica o texto contido em uma imagem e o transforma em texto normal, que pode ser modificado usando qualquer editor de texto.

O OCR que ns utilizamos e recomendamos o ABBYY Finereader 5.0, que relativamente simples, eficiente, possui suporte para acentos. Uma maneira legal (sacaram o trocadilho? ;) de se conseguir este programa pegar sua verso trial (que funciona por X dias) em sites de software como o tucows ou download.com. Caso o Finereader conquiste seu corao como fez com os nossos voc pode fazer uma visita no astalavista e pegar o crack que faz a verso trial funcionar por tempo indeterminado. Se voc no quiser ou puder utilizar o Finereader ainda existem inmeras opes de OCR. Infelizmente no temos expriencia com nenhuma delas. Tente ir sites de software e procurar na seo de OCRs e com um pouco de sorte voc vai achar um OCR que funcione decentemente. Para converter as pginas escaniadas em texto simplesmente as abra em seu OCR, selecione as que voc deseja (na maioria dos casos todas), mande o OCR l-las e v limpar o mouse/ tomar banho/ dormir/ viajar, dependendo do nmero de pginas pois o processo bastante demorado. No tenho certeza mas imagino que todos os OCR possuam as famosas caixas de texto e imagens. Resumidamente essas caixinhas teis marcam o que texto e o que imagem em uma pgina, impedindo que o OCR tente ler uma imagem como um texto e vice-versa. No Finereader existe a opo de caixas automticas, ou seja, o prprio programa automaticamente coloca as caixas onde considera necessrio. Nem sempre funciona, mas ajuda bastante. De qualquer forma, use as caixas e treine um pouco usando seu OCR para no fazer feio na hora do show. Revisar o texto criado pelo OCR O texto que agora est em OCR no est mais inserido em uma imagem, mas provavelmente contm alguns erros que antes no existiam. Isso acontece pois nem sempre o OCR consegue identificar o que foi escaniado, ou por fontes pequenas, papel muito escuro, etc. A melhor maneira de evitar esses erros escanear o livro utilizando uma resoluo alta, como 600 dpi. E antes que algum pergunte, escanear xerox funciona, mas o nmero de erros aumenta um pouco devido a perda de qualidade da pgina e aqueles pontinhos escuros que sempre aparecem. Mas ainda possvel. O modo mais fcil de corrigir esses erros do texto recm criado usando a ferramenta que todo OCR deve (ou deveria) ter chamada correo ortogrfica (spell checking), que localiza os trechos onde o OCR teve dificuldades para identificar o que estava escrito. muito chato, mas a maneira mais fcil. Se voc gosta de aventura pode tentar achar todos os erros no olho, sem usar nenhuma ferramenta. Isso sim deve ser excitante hehehehe. Na minha opnio melhor fazer a correo de cada pgina imediatamente depois desta ter sido escaniada e do texto ter sido criado pelo OCR. Digo isso pois acho menos cansativo do que escanear o livro todo, passar o OCR em todas as pginas e depois revisar tudo. Outro bom motivo que dessa forma voc com certeza estar com o livro original em suas mos, podendo assim consultlo caso exista alguma dvida sobre um erro ou algo do tipo. Uma ferramenta indispensvel para a reviso e outros ajustes menores o Adobe Acrobat (no o reader). Esse programa extremamente confuso, mas ainda a melhor e nica maneira de se modificar PDFs que conhecemos. Tente colocar as mos nele. Depois da correo salve no formato PDF e coloque na internet.

O processo mais complexo do que parece e existem muito mais questes, sendo que a maioria delas ns nem fazemos idia das respostas. Tente vrias vezes, no se prenda as coisas escritas nesse pequeno manual, e entre em contato com outras pessoas (uma opo o frum da RPGratuito) e boa sorte.

A seguir esto algumas dicas simples mas que podem vir a ser utis: - Alguns livros possuem um papel um pouco mais fino, que ao ser escaniado (principalmente em resolues maiores) acaba sendo lido pelo scanner nas duas faces da folha ao mesmo tempo, o que impede o OCR de converter o texto corretamente. Uma maneira simples de se impedir isso colar com fita adesiva uma folha de papel preto no interior da tampa do scanner e escanear cada folha separadamente. - Em relao a numerao do livro, o OCR tem o pssimo hbito de identific-la como sendo parte do texto da pgina. Se isso ocorrer com voc melhor nem selecion-la na hora de usar as caixas de texto do OCR, e adicione a numerao a pgina quando o OCR acabar de criar o texto. - Muitos scanners possuem a opo de ajuste de brilho automtico. Se seu scanner possui esta opo use-a, mas caso voc tenha que ajustar o brilho manualmente, faa alguns testes em uma pgina que contenha muito texto. Repare bem as letras da pgina escaniada, e se elas estiverem quebradas ou faltando partes tente novamente, desta vez diminuido o brilho. Se as letras estiverem coladas umas nas outras, com muitos pontos escuros ao redor tente aumentar o brilho. Um bom ajuste de brilho no incio pode poupar muito tempo durante a reviso final. - Certos livros como os da terceira edio de D&D possuem bordas coloridas, que se adicionadas ao livro do modo convendional o tornaro muito pesado. Mas usando o Adobe Acrobat voc pode substituir essas bordas e usar sempre as mesmas duas imagens (uma para a borda esquerda, outra para a direita), tornando o livro mais bonito e infinitamente mais leve. Para isso escaneie apenas uma pgina com a borda esquerda e uma com a direita, e depois insira as mesmas imagens nas outras pginas, se lembrando de ir alterando a numerao manualmente.

Interesses relacionados