Escolar Documentos
Profissional Documentos
Cultura Documentos
O texto que agora está em OCR não está mais inserido em uma imagem, mas
provavelmente contém alguns erros que antes não existiam. Isso acontece
pois nem sempre o OCR consegue identificar o que foi escaniado, ou por fontes
pequenas, papel muito escuro, etc. A melhor maneira de evitar esses erros é
escanear o livro utilizando uma resolução alta, como 600 dpi. E antes que
alguém pergunte, escanear xerox funciona, mas o número de erros aumenta
um pouco devido a perda de qualidade da página e aqueles pontinhos escuros
que sempre aparecem. Mas ainda é possível.
O modo mais fácil de corrigir esses erros do texto recém criado é usando a
ferramenta que todo OCR deve (ou deveria) ter chamada correção ortográfica
(spell checking), que localiza os trechos onde o OCR teve dificuldades para
identificar o que estava escrito. É muito chato, mas é a maneira mais fácil. Se
você gosta de aventura pode tentar achar todos os erros no olho, sem usar
nenhuma ferramenta. Isso sim deve ser excitante hehehehe.
Na minha opnião é melhor fazer a correção de cada página imediatamente
depois desta ter sido escaniada e do texto ter sido criado pelo OCR. Digo isso
pois acho menos cansativo do que escanear o livro todo, passar o OCR em
todas as páginas e depois revisar tudo. Outro bom motivo é que dessa forma
você com certeza estará com o livro original em suas mãos, podendo assim
consultá-lo caso exista alguma dúvida sobre um erro ou algo do tipo.
Uma ferramenta indispensável para a revisão e outros ajustes menores é o
Adobe Acrobat (não é o reader). Esse programa é extremamente confuso, mas
ainda é a melhor e única maneira de se modificar PDFs que conhecemos. Tente
colocar as mãos nele.
Depois da correção salve no formato PDF e coloque na internet.
A seguir estão algumas dicas simples mas que podem vir a ser utéis:
- Alguns livros possuem um papel um pouco mais fino, que ao ser escaniado
(principalmente em resoluções maiores) acaba sendo lido pelo scanner nas
duas faces da folha ao mesmo tempo, o que impede o OCR de converter o
texto corretamente. Uma maneira simples de se impedir isso é colar com fita
adesiva uma folha de papel preto no interior da tampa do scanner e escanear
cada folha separadamente.