Você está na página 1de 8

Como escanear um livro com o FineReader 7.

J existe circulando pelo grupo um bom tutorial sobre como escanear um livro. Com apenas trs
pginas ele simples e direto. Este que agora eu apresento uma complementao daquele onde
basicamente apresento minha experincia, alm de uma pequena atualizao. O scaner que uso um
velho Genius ColorPage Vivid Pro II (tem mais de 6 anos de idade o coitado, j est todo amarelado)
1 - O equipamento
Para se escanear preciso um scaner. O meu possui Resoluo ptica: 1200 x 600 dpi (dpi =
pontos por polegada). Para reconhecimento de texto isso mais do que o necessrio (veja o item mais
abaixo sobre configuraes do programa). Hoje (domingo, 8 de agosto de 2004) um scaner de boa
qualidade custa entre R$ 300 e R$ 400, de marcas como HP, Epson, Genius, Canon. Existem
equipamentos mais baratos, na faixa dos R$ 200 (marcas como Bright, TCE, etc) que podem at
funcionar, mas eu no recomendaria a ningum (ou, quem sabe, para algum de quem no goste?)
Obs.: Muitos equipamentos vem indicando nas suas caixas e/ou propagandas resolues de 9200
dpi, 14400 dpi ou mais. Na realidade estas resolues so interpoladas, ou seja, o scaner escaneia a
imagem com a mxima resoluo ptica possvel (em geral 600, 1200 ou 2400 nos scaners mais
modernos [e mais caros] e os pontos faltantes so chutados pelo equipamento, com base nos pontos
efetivamente escaneados)
2- Os programas
Para transformar a imagem que o scaner capta em texto editvel utiliza-se de um programa OCR
(OCR = optical character recognition = Reconhecimento ptico de Caracteres). Todos scaners j vem
com um programa destes, porm em verses simplificadas. altamente recomendvel pegar as
verses completas. Existem vrios deles, tais como(em suas verses mais atuais): Cuneiform Pro 6.0,
Readiris Pro 9, FineReader 7.0 pro, OmniPage 14, etc. Todos podem ser baixados pela internet.
Desses eu ainda no testei o ReadIris. Os programas Omnipage e FineReader tem desempenho
similar, com o Omnipage um pouquinho (mas muito pouquinho mesmo) superior na rea do
reconhecimento. Eu prefiro usar o FineReader pois:
- No omnipage primeiro voc escaneia uma pgina, ou conjunto de duas pginas de um livro,
depois o programa faz o reconhecimento da pgina e ento permite a voc escanear outra pgina. J O
FineReader aproveita o tempo em que o scaner est funcionando para o reconhecimento. Com isso
todo o processo feito na metade do tempo (no meu equipamento, utilizando a resoluo de 300 dpi,
leva cerca de 1 minuto por conjunto de duas pgina de um livro)
- O tamanho do arquivo do Omnipage mais de 600 Mb, enquanto que o do FineReader 42 Mb, o
que muito mais fcil de baixar pela internet ( claro que voc pode recorrer a um distribuidor no
oficia e por deis real adquirir o CD do Omnipage) e ocupa, quando instalado, menor espao na HD do
seu micro e menos recursos do equipamento.
Ambos os programas possuem a capacidade de automaticamente reconhecer textos e figuras.
Quando existe uma figura na pgina escaneada ela mantida mais ou menos na mesma posio do
original.
A partir de agora este texto versar sobre o programa FineReader

3- Onde conseguir o FineReader


No
prprio
site
do
da
Abbyy:
(www.superdownloads.ubbi.com.br), etc...

http://www.abbyy.com,

no

Superdownloads

4- Configuraes do programa:
Da ajuda do programa:

Use resoluo de 300 dpi para textos normais (tamanho de fonte de 10 pts. ou maior) e resoluo de
400-600 dpi para textos definidos em tamanhos pequenos de fonte (9 pts. ou menor). O escaneamento no
modo de escala cinza o melhor para os propsitos de reconhecimento. Se escanear suas imagens na escala
cinza, o brilho ser ajustado automaticamente. Se desejar visualizar a caixa de dilogo Configuraes do
Scanner no modo Usar Interface do FineReader, selecione a caixa de dilogo Opes de Exibio antes
do item de escaneamento na guia Escanear/Abrir Imagem (Ferramentas>Opes).
Minha experincia: No meu scaner o tempo de escaneamento no modo escala de cinza e no modo
preto e branco exatamente o mesmo, para a resoluo de 300 dpi. E o resultado um pouco melhor
no modo tons de cinza. Recentemente testei com menor resoluo (200 dpi).O tempo de escaneamento
foi apenas um pouco menor (uns cinco segundos) O reconhecimento tambm foi um pouco pior. Minha
recomendao: Modo escala de cinza e 300 dpi como padro. Se o original for muito ruim, aumentar a
resoluo.
5-O escaneamento
O FineReader por padro usa o portugus de Portugal. Como o programa automaticamente faz
algumas correes no texto, se no original estiver, por exemplo, a palavra quilmetro o programa vai
transform-la em quilmetro.

preciso baixar pela internet o arquivo de idioma Portugus(Brasil)

Toda vez que for escanear preciso selecionar Portugus (Brasil) (A no ser que o livro esteja
escrito em portugus de Portugal, ora pois)

Com o scaner ligado, o livro posicionado, vamos indicar ao programa que iremos escanear mltiplas
pginas. Para isso clicamos sobre o pequeno tringulo preto no boto Scan & read.

e escolhemos a opo Scan&Read para Imagens Mltiplas.

Automaticamente o programa vai abrir a interface do scaner. Est interface varia de scaner para
scaner, mantendo certa similaridade. Voc poder ento ajustar as configuraes (no exemplo o
scaner est configurado para 300 dpi, tons de cinza) e rea a ser escaneada.(o retngulo tracejado)

Para determinar a rea a ser escaneada basta colocar o original no scaner e ler o valor das rguas
do scaner. A escolha da rea influencia diretamente o tempo de escaneamento, quanto menor a rea,

menor o tempo. Como existem margens nos livros eu procuro descontar essas margens na rea
escaneada, mas isso, dependendo das margens, permite uma reduo de no mximo 5 segundos. no
tempo de escaneamento. H uma outra funo para esta escolha de rea. Todo livro vem com as
pginas numeradas, e essa numerao fica a uma certa distncia do texto das pginas. Graas a essa
distncia possvel escolher a rea de forma a no ser escaneada a numerao da pgina.
Voc quem deve decidir se isso importante ou no. Se escanear a numerao fica mais fcil,
caso haja algum problema no texto escaneado (e, para um livro, sempre tem), localizar no original e
corrigir. Como a formatao do texto escaneado nunca a mesma do original a numerao escaneada
em geral aparece nos lugares errados, no meio da pgina e s vezes at duas vezes em uma mesma
pgina. Eu prefiro eliminar a numerao e, durante a pr-reviso, ir acompanhando com o livro. Mas
voc pode escanear a numerao das pginas e elimin-la durante a pr-reviso, o que d um pouco
mais de trabalho. (o que pr-reviso eu explico mais adiante).
Ah, sim, eu ia me esquecendo da posio do livro. Podemos identificar 2 posies bsicas do livro
no scaner, que identificaremos como de p e de lado. Qual que qual no muito importante pois o
programa vem configurado para automaticamente determinar isso. Resumindo: Bota o livro no scaner e
deixa o programa se virar! claro que se deve colocar o livro de tal forma que toda a rea do mesmo
seja exposta luz do scaner.
Estando tudo pronto basta clicar no boto que inicia o escaneamento (na figura o boto com o S
azul). As pginas diretamente sobre o scaner sero escaneadas. Ento s virar a pgina, colocar o
livro na mesma posio e apertar o boto de escaneamento de novo, e assim sucessivamente. Quando
tudo j tiver escaneado s fechar a interface do scaner (aperta o X do canto superior direito ou o
boto de sair, que no meu scaner indicado pelo quarto boto na figura anterior, aquele com o desenho
de uma porta azul aberta e uma seta vermelha). Neste momento o que estiver escaneado j foi tudo
reconhecido e basta agora salvar no formato desejado.
Importante: Enquanto estiver escaneando no possvel salvar. Considerando que meu scaner
leva 1 minuto por par de pginas, um livro de duzentas pginas levar 100 minutos ( uma hora e
quarenta minutos) para ser escaneados. recomendvel no escanear o livro de uma vez s e sim em
doses homeopticas para evitar a frustrao de, quando (de acordo com as leis de Murphy quando e
no se) quase no fim do servio faltar energia eltrica ou o computador travar e voc perder todo o
servio. A voc vai ficar com raiva, chutar o computador e quebrar a ambos (o computador e o p).
Portanto, por questes de sade e economia, escaneie um pouco por dia!
6- A salvao!
Carssimos irmos! chegado um dos momentos mais importantes. Vamos salvar o nosso
arquivo! No deixemos que seja ele defenestrado do nosso Windows.
Vamos ento diretamente ao ltimo dos grandes cinco botes de FineReader. O boto Salvar!

Ao clicarmos no boto surge imediatamente a janela Assistente de salvar.

Importante. Certifique-se de que o item Todas as pginas esteja selecionado, caso contrrio s a
ltima pgina, que automaticamente selecionada, ser salva. Voc pode tambm selecionar vrias
paginas para que apenas estas, caso o item Pginas selecionadas esteja selecionados, sejam salvas.
Mas na maioria das vezes sero salvas todas as pginas. O padro do FineReader Pgina
selecionadas mas basta alterar esta seleo que para as prximas vezes j venha o item Todas as
pginas selecionado.
Repare que na parte superior, em Selecione como salvar, h uma lista de itens. O primeiro
Salvar para Arquivo, que, quando selecionado e clicado no boto OK, abre a janela Salvar texto
como, que permite escolher entre diversos formatos, tais como doc, rtf, pdf, hml, ppt.

Voltando ao Selecione como salvar, o item seguinte Microsoft Word. Com esse item
selecionado, ao clicar no boto OK ser aberto o programa Word(mas s se ele estiver instalado no seu
micro!) e o texto escaneado transferido para ele. Note que isso feito sem haver salvamento do texto,
que dever ser feito diretamente no Word.
Os outros itens dessa lista (Excel, PowerPoint, etc) devem funcionar de maneira anloga (eu
nunca testei)
Tanto na janela Assistente de Salvar quanto na Salvar Texto Como existe o boto Configuraes
dos formatos, que abre a janela Configuraes dos Formatos.

Esta janela permite algumas alteraes nos formatos do texto e das imagens a serem salvas. Em
geral no h a necessidade de alterar nada aqui.
Uma parte importante do processo de salvamento est relacionada com a rea central da janela
Assistente de Salvar onde aparecem os itens listados sob o nome Manter Layout.
As trs opes determinam como o arquivo ser salvo em relao ao formato do original:
> Manter Layout da pgina inteira: isto faz a formatao do texto escaneado ficar o mais parecido
possvel com a formatao do original. Se voc escanear o livro aberto, o resultado vai ser uma pgina
de duas colunas, cada coluna representando uma das pginas do livro. A numerao do livro, se
escaneada, vai estar numerando agora as colunas (e nos lugares certos). Eu particulamente no gosto
deste formato pois ele dificulta um pouco a leitura do texto no micro. Mas para impresso um bom
formato.
> Manter fonte e tamanho da fonte: Esta opo mantm o formato do texto, eliminando o formato
da pgina, permitindo voc configurar a pgina do jeito desejado. Este o formato que prefiro

> Remover todas as formataes: O texto salvo desconsiderando tanto as formataes de pgina
quanto de texto. O resultado um arquivo onde todas as letras tem um mesmo tamanho e usado uma
nica fonte. formato dos arquivos txt.
Como um ltimo item existe, em geral j marcado, Manter figuras. Caso as figuras no
interessem s desmarcar este item.
7- Sobre figuras
Como eu escrevi em algum lugar do passado deste texto, o programa automaticamente identifica
as figuras, que so escaneadas como imagens e estas so adicionadas ao texto mais ou menos na
posio em que se encontram no original. Porm, mas porm, h dois pequenos inconvenientes:
1: Quando o imagem possuir texto, o programa pode reconhecer esse texto e tir-lo da figura;
2: No possvel fazer uma boa edio dessa imagens. O Word permite o ajuste apenas de brilho
e contrastes, no podendo mudar resoluo, editar cores, gama, etc.
Recomendao: Se houver muitas imagens mais prtico deixar o FineReader cuidar delas. Se
voc quiser uma maior qualidade, e para as imagens coloridas, escaneie separadamente. Foi o que eu
fiz no livro O veleiro de cristal, de Jos Mauro de Vasconcelos(que j est navegando pela rede!), que
contem imagens preto e branco e coloridas, as quais foram escaneadas separadamente uma a uma e
ajustadas de forma que o livro, quando compactado, tivesse uma tamanho passvel de ser enviado ao
grupo de uma s vez.
8- Pr-reviso
importante fazer uma pr-reviso do livro escaneado. Isto porque quem escaneia tem o livro em
mos (coisa que os outro leitores no vo ter), o que facilita a correo dos erros. O jeito mais prtico
de fazer esta correo usar o Word, pois ele marcar em vermelho os possveis erros ortogrficos e
em verde os possveis erros de gramtica (a minha experincia indica que mais de 90% dos erros
marcados em verde no so erros). tambm um processo tedioso (para um livro de 200 pginas levase cerca de 2 horas, ou melhor, eu levo, talvez gente mais capacitada possa ir mais rpido)
Nesta fase corrigem-se algumas falhas do programa tais como:
- palavras separadas por hfens: Nos livros, quando uma palavra no cabe na linha, esta separada
silabicamente por um hfem (ah! isso me lembra dos meus velhos tempos de escola! Ainda bem que
eles j passaram!!!). Na grande maioria dos casos o FineReader os elimina, porm, principalmente na
ltima linha de uma pgina o programa no o faz corretamente, provavelmente porque a palavra est
dividida em duas pginas (o inicio da palavra no final de uma pgina e o final da palavra no incio da
pgina seguinte)
- quebra de pargrafo: algumas vezes os pargrafos aparecem
quebrados (como no exemplo deste item, onde a palavra quebrados deveria seguir a palavra
aparecem. Isto ocorre porque as vezes(muito raramente) o FineReader confunde o final de uma linha
com o final do pargrafo. Isto pode ser evidenciado marcando todo o texto e escolher a opo
Justificar do Word, o que tambm dar uma melhor aparncia ao texto.
- palavras reconhecidas erroneamente: alguns textos no apresentam uma uniformidade na cor das
letras, umas letras podem estar mais claras que outras. Isto induz a o programa OCR a cometer erros
como trocar vote por voce, mim por niim, ja por ia, por exemplo. Este erros aparecem facilmente
sublinhados em vermelho no Word.
-nmero exagerado de espaos: comum no texto reconhecido aparecem mais espaos que o
necessrio entre as palavras. Mais isto simples de se resolver, basta usar o comando substituir do
Word para substituir dois espaos por um, repetindo o procedimento at o Word informar o valor de
0(zero) substituies efetuadas.

O meu procedimento normal quando escaneio :


1) Escanear o livro em partes e salvar, s mantendo fonte e tamanho da fonte e no formato doc;
2) Em um modelo vazio, formatado em 13 por 20 cm, 1 cm para todas as margens, importo as
partes do livro;
3) Seleciono todo o texto, escolho o item Formatar do menu do Word, a seguir o item Pargrafo,
usando o alinhamento justificado e em recuo, especial > primeira linha;
4) Elimino os espaos extras utilizando o substituir do Word;
5) Passo uma vista dolhos por todo texto, atentando para as marcaes em vermelho e em verde
(as cores de Portugal) do Word;
6) Boto o bicho na internet para quem quiser ler;
7) E no stimo item eu descanso pois eu tambm mereo.

9- Reviso
Ainda assim erros podero existir no texto escaneado. Por exemplo, pode ter havido a troca de se
por de e o Word no nos alertar. Pode ser que acidentalmente viremos mais de uma pagina na hora
de escanear (j aconteceu comigo, mas consegui perceber durante a pr-reviso), Podem faltar
palavras e at linhas. Para descobrir isso s lendo todo o texto escaneado (e mesmo assim muitos
erros passam. Pra se ter uma idia em alguns livros o Word apontou-me erros que (eu fui verificar)
existiam nos prprios originais. Os livros passam pelo autor, editor, revisor e sei l mais quem e ainda
sim so impressos com erros (h muito tempo atrs eu li um texto de Monteiro Lobato onde ele
comentava justamente esses erros)
Eu no costumo ler o texto escaneado por dois motivos:
Primeiro: Em geral, por ter em mos o livro impresso, eu aproveito e o leio, pois muito mais
agradvel (e econmico).
Segundo: Por pura preguia (alm do que no devemos ser egostas, vamos compartilhar o
trabalho com os outros!!)
Na realidade o trabalho de escanear um trabalho de equipe. Quem consegue o livro e tem scaner
escaneia faz o mesmo chegar a quem no tem o livro e gostaria de ler. Estes por sua vez lem o livro e,
neste processo, podem fazer a reviso do livro.
10- Extras
Aqui apresento alguns pontos extras sobre o processo de escanear um livro com o FineReader:
> possvel fazer a pr-reviso direto no FineReader, o que seria muito til caso for salvar o texto
no formato pdf. Porm eu acho mais pratico usar o Word e depois usar algum outro programa para
transformar em pdf. Acredito que na internet voc possa encontrar alguns programas que fazem isso,
inclusive o Adobe Acrobat (eu particularmente no gosto do formato pdf )
> O FineReader tem a capacidade de abrir arquivos pdf, fazer o reconhecimento do texto,
permitindo salvar normalmente, como o visto neste tutorial, em formato doc, rtf, etc. Porm um
procedimento muito demorado. mais prtico usar programas como o BCL Drake.
o fim!!!

Você também pode gostar