Você está na página 1de 8

Como escanear um livro com o FineReader 7.

J existe circulando pelo grupo um bom tutorial sobre como escanear um livro. Com apenas trs pginas ele simples e direto. Este que agora eu apresento uma complementao daquele onde basicamente apresento minha experincia, alm de uma pequena atualizao. O scaner que uso um velho Genius ColorPage Vivid Pro II (tem mais de 6 anos de idade o coitado, j est todo amarelado) 1 - O equipamento Para se escanear preciso um scaner. O meu possui Resoluo ptica: 1200 x 600 dpi (dpi = pontos por polegada). Para reconhecimento de texto isso mais do que o necessrio (veja o item mais abaixo sobre configuraes do programa). Hoje (domingo, 8 de agosto de 2004) um scaner de boa qualidade custa entre R$ 300 e R$ 400, de marcas como HP, Epson, Genius, Canon. Existem equipamentos mais baratos, na faixa dos R$ 200 (marcas como Bright, TCE, etc) que podem at funcionar, mas eu no recomendaria a ningum (ou, quem sabe, para algum de quem no goste?) Obs.: Muitos equipamentos vem indicando nas suas caixas e/ou propagandas resolues de 9200 dpi, 14400 dpi ou mais. Na realidade estas resolues so interpoladas, ou seja, o scaner escaneia a imagem com a mxima resoluo ptica possvel (em geral 600, 1200 ou 2400 nos scaners mais modernos [e mais caros] e os pontos faltantes so chutados pelo equipamento, com base nos pontos efetivamente escaneados) 2- Os programas Para transformar a imagem que o scaner capta em texto editvel utiliza-se de um programa OCR (OCR = optical character recognition = Reconhecimento ptico de Caracteres). Todos scaners j vem com um programa destes, porm em verses simplificadas. altamente recomendvel pegar as verses completas. Existem vrios deles, tais como(em suas verses mais atuais): Cuneiform Pro 6.0, Readiris Pro 9, FineReader 7.0 pro, OmniPage 14, etc. Todos podem ser baixados pela internet. Desses eu ainda no testei o ReadIris. Os programas Omnipage e FineReader tem desempenho similar, com o Omnipage um pouquinho (mas muito pouquinho mesmo) superior na rea do reconhecimento. Eu prefiro usar o FineReader pois: - No omnipage primeiro voc escaneia uma pgina, ou conjunto de duas pginas de um livro, depois o programa faz o reconhecimento da pgina e ento permite a voc escanear outra pgina. J O FineReader aproveita o tempo em que o scaner est funcionando para o reconhecimento. Com isso todo o processo feito na metade do tempo (no meu equipamento, utilizando a resoluo de 300 dpi, leva cerca de 1 minuto por conjunto de duas pgina de um livro) - O tamanho do arquivo do Omnipage mais de 600 Mb, enquanto que o do FineReader 42 Mb, o que muito mais fcil de baixar pela internet ( claro que voc pode recorrer a um distribuidor no oficia e por deis real adquirir o CD do Omnipage) e ocupa, quando instalado, menor espao na HD do seu micro e menos recursos do equipamento. Ambos os programas possuem a capacidade de automaticamente reconhecer textos e figuras. Quando existe uma figura na pgina escaneada ela mantida mais ou menos na mesma posio do original. A partir de agora este texto versar sobre o programa FineReader

3- Onde conseguir o FineReader No prprio site do da Abbyy: (www.superdownloads.ubbi.com.br), etc... 4- Configuraes do programa: Da ajuda do programa: Use resoluo de 300 dpi para textos normais (tamanho de fonte de 10 pts. ou maior) e resoluo de 400-600 dpi para textos definidos em tamanhos pequenos de fonte (9 pts. ou menor). O escaneamento no modo de escala cinza o melhor para os propsitos de reconhecimento. Se escanear suas imagens na escala cinza, o brilho ser ajustado automaticamente. Se desejar visualizar a caixa de dilogo Configuraes do Scanner no modo Usar Interface do FineReader, selecione a caixa de dilogo Opes de Exibio antes do item de escaneamento na guia Escanear/Abrir Imagem (Ferramentas>Opes). Minha experincia: No meu scaner o tempo de escaneamento no modo escala de cinza e no modo preto e branco exatamente o mesmo, para a resoluo de 300 dpi. E o resultado um pouco melhor no modo tons de cinza. Recentemente testei com menor resoluo (200 dpi).O tempo de escaneamento foi apenas um pouco menor (uns cinco segundos) O reconhecimento tambm foi um pouco pior. Minha recomendao: Modo escala de cinza e 300 dpi como padro. Se o original for muito ruim, aumentar a resoluo. 5-O escaneamento O FineReader por padro usa o portugus de Portugal. Como o programa automaticamente faz algumas correes no texto, se no original estiver, por exemplo, a palavra quilmetro o programa vai transform-la em quilmetro. http://www.abbyy.com, no Superdownloads

preciso baixar pela internet o arquivo de idioma Portugus(Brasil)

Toda vez que for escanear preciso selecionar Portugus (Brasil) (A no ser que o livro esteja escrito em portugus de Portugal, ora pois) Com o scaner ligado, o livro posicionado, vamos indicar ao programa que iremos escanear mltiplas pginas. Para isso clicamos sobre o pequeno tringulo preto no boto Scan & read.

e escolhemos a opo Scan&Read para Imagens Mltiplas.

Automaticamente o programa vai abrir a interface do scaner. Est interface varia de scaner para scaner, mantendo certa similaridade. Voc poder ento ajustar as configuraes (no exemplo o scaner est configurado para 300 dpi, tons de cinza) e rea a ser escaneada.(o retngulo tracejado)

Para determinar a rea a ser escaneada basta colocar o original no scaner e ler o valor das rguas do scaner. A escolha da rea influencia diretamente o tempo de escaneamento, quanto menor a rea, menor o tempo. Como existem margens nos livros eu procuro descontar essas margens na rea escaneada, mas isso, dependendo das margens, permite uma reduo de no mximo 5 segundos. no tempo de escaneamento. H uma outra funo para esta escolha de rea. Todo livro vem com as pginas numeradas, e essa numerao fica a uma certa distncia do texto das pginas. Graas a essa distncia possvel escolher a rea de forma a no ser escaneada a numerao da pgina. Voc quem deve decidir se isso importante ou no. Se escanear a numerao fica mais fcil, caso haja algum problema no texto escaneado (e, para um livro, sempre tem), localizar no original e corrigir. Como a formatao do texto escaneado nunca a mesma do original a numerao escaneada em geral aparece nos lugares errados, no meio da pgina e s vezes at duas vezes em uma mesma pgina. Eu prefiro eliminar a numerao e, durante a pr-reviso, ir acompanhando com o livro. Mas voc pode escanear a numerao das pginas e elimin-la durante a pr-reviso, o que d um pouco mais de trabalho. (o que pr-reviso eu explico mais adiante). Ah, sim, eu ia me esquecendo da posio do livro. Podemos identificar 2 posies bsicas do livro no scaner, que identificaremos como de p e de lado. Qual que qual no muito importante pois o programa vem configurado para automaticamente determinar isso. Resumindo: Bota o livro no scaner e deixa o programa se virar! claro que se deve colocar o livro de tal forma que toda a rea do mesmo seja exposta luz do scaner. Estando tudo pronto basta clicar no boto que inicia o escaneamento (na figura o boto com o S azul). As pginas diretamente sobre o scaner sero escaneadas. Ento s virar a pgina, colocar o livro na mesma posio e apertar o boto de escaneamento de novo, e assim sucessivamente. Quando tudo j tiver escaneado s fechar a interface do scaner (aperta o X do canto superior direito ou o boto de sair, que no meu scaner indicado pelo quarto boto na figura anterior, aquele com o desenho de uma porta azul aberta e uma seta vermelha). Neste momento o que estiver escaneado j foi tudo reconhecido e basta agora salvar no formato desejado. Importante: Enquanto estiver escaneando no possvel salvar. Considerando que meu scaner leva 1 minuto por par de pginas, um livro de duzentas pginas levar 100 minutos ( uma hora e quarenta minutos) para ser escaneados. recomendvel no escanear o livro de uma vez s e sim em doses homeopticas para evitar a frustrao de, quando (de acordo com as leis de Murphy quando e no se) quase no fim do servio faltar energia eltrica ou o computador travar e voc perder todo o servio. A voc vai ficar com raiva, chutar o computador e quebrar a ambos (o computador e o p). Portanto, por questes de sade e economia, escaneie um pouco por dia! 6- A salvao! Carssimos irmos! chegado um dos momentos mais importantes. Vamos salvar o nosso arquivo! No deixemos que seja ele defenestrado do nosso Windows. Vamos ento diretamente ao ltimo dos grandes cinco botes de FineReader. O boto Salvar!

Ao clicarmos no boto surge imediatamente a janela Assistente de salvar.

Importante. Certifique-se de que o item Todas as pginas esteja selecionado, caso contrrio s a ltima pgina, que automaticamente selecionada, ser salva. Voc pode tambm selecionar vrias paginas para que apenas estas, caso o item Pginas selecionadas esteja selecionados, sejam salvas. Mas na maioria das vezes sero salvas todas as pginas. O padro do FineReader Pgina selecionadas mas basta alterar esta seleo que para as prximas vezes j venha o item Todas as pginas selecionado. Repare que na parte superior, em Selecione como salvar, h uma lista de itens. O primeiro Salvar para Arquivo, que, quando selecionado e clicado no boto OK, abre a janela Salvar texto como, que permite escolher entre diversos formatos, tais como doc, rtf, pdf, hml, ppt.

Voltando ao Selecione como salvar, o item seguinte Microsoft Word. Com esse item selecionado, ao clicar no boto OK ser aberto o programa Word(mas s se ele estiver instalado no seu micro!) e o texto escaneado transferido para ele. Note que isso feito sem haver salvamento do texto, que dever ser feito diretamente no Word. Os outros itens dessa lista (Excel, PowerPoint, etc) devem funcionar de maneira anloga (eu nunca testei) Tanto na janela Assistente de Salvar quanto na Salvar Texto Como existe o boto Configuraes dos formatos, que abre a janela Configuraes dos Formatos.

Esta janela permite algumas alteraes nos formatos do texto e das imagens a serem salvas. Em geral no h a necessidade de alterar nada aqui. Uma parte importante do processo de salvamento est relacionada com a rea central da janela Assistente de Salvar onde aparecem os itens listados sob o nome Manter Layout. As trs opes determinam como o arquivo ser salvo em relao ao formato do original: > Manter Layout da pgina inteira: isto faz a formatao do texto escaneado ficar o mais parecido possvel com a formatao do original. Se voc escanear o livro aberto, o resultado vai ser uma pgina de duas colunas, cada coluna representando uma das pginas do livro. A numerao do livro, se escaneada, vai estar numerando agora as colunas (e nos lugares certos). Eu particulamente no gosto deste formato pois ele dificulta um pouco a leitura do texto no micro. Mas para impresso um bom formato. > Manter fonte e tamanho da fonte: Esta opo mantm o formato do texto, eliminando o formato da pgina, permitindo voc configurar a pgina do jeito desejado. Este o formato que prefiro

> Remover todas as formataes: O texto salvo desconsiderando tanto as formataes de pgina quanto de texto. O resultado um arquivo onde todas as letras tem um mesmo tamanho e usado uma nica fonte. formato dos arquivos txt. Como um ltimo item existe, em geral j marcado, Manter figuras. Caso as figuras no interessem s desmarcar este item. 7- Sobre figuras Como eu escrevi em algum lugar do passado deste texto, o programa automaticamente identifica as figuras, que so escaneadas como imagens e estas so adicionadas ao texto mais ou menos na posio em que se encontram no original. Porm, mas porm, h dois pequenos inconvenientes: 1: Quando o imagem possuir texto, o programa pode reconhecer esse texto e tir-lo da figura; 2: No possvel fazer uma boa edio dessa imagens. O Word permite o ajuste apenas de brilho e contrastes, no podendo mudar resoluo, editar cores, gama, etc. Recomendao: Se houver muitas imagens mais prtico deixar o FineReader cuidar delas. Se voc quiser uma maior qualidade, e para as imagens coloridas, escaneie separadamente. Foi o que eu fiz no livro O veleiro de cristal, de Jos Mauro de Vasconcelos(que j est navegando pela rede!), que contem imagens preto e branco e coloridas, as quais foram escaneadas separadamente uma a uma e ajustadas de forma que o livro, quando compactado, tivesse uma tamanho passvel de ser enviado ao grupo de uma s vez. 8- Pr-reviso importante fazer uma pr-reviso do livro escaneado. Isto porque quem escaneia tem o livro em mos (coisa que os outro leitores no vo ter), o que facilita a correo dos erros. O jeito mais prtico de fazer esta correo usar o Word, pois ele marcar em vermelho os possveis erros ortogrficos e em verde os possveis erros de gramtica (a minha experincia indica que mais de 90% dos erros marcados em verde no so erros). tambm um processo tedioso (para um livro de 200 pginas levase cerca de 2 horas, ou melhor, eu levo, talvez gente mais capacitada possa ir mais rpido) Nesta fase corrigem-se algumas falhas do programa tais como: - palavras separadas por hfens: Nos livros, quando uma palavra no cabe na linha, esta separada silabicamente por um hfem (ah! isso me lembra dos meus velhos tempos de escola! Ainda bem que eles j passaram!!!). Na grande maioria dos casos o FineReader os elimina, porm, principalmente na ltima linha de uma pgina o programa no o faz corretamente, provavelmente porque a palavra est dividida em duas pginas (o inicio da palavra no final de uma pgina e o final da palavra no incio da pgina seguinte) - quebra de pargrafo: algumas vezes os pargrafos aparecem quebrados (como no exemplo deste item, onde a palavra quebrados deveria seguir a palavra aparecem. Isto ocorre porque as vezes(muito raramente) o FineReader confunde o final de uma linha com o final do pargrafo. Isto pode ser evidenciado marcando todo o texto e escolher a opo Justificar do Word, o que tambm dar uma melhor aparncia ao texto. - palavras reconhecidas erroneamente: alguns textos no apresentam uma uniformidade na cor das letras, umas letras podem estar mais claras que outras. Isto induz a o programa OCR a cometer erros como trocar vote por voce, mim por niim, ja por ia, por exemplo. Este erros aparecem facilmente sublinhados em vermelho no Word. -nmero exagerado de espaos: comum no texto reconhecido aparecem mais espaos que o necessrio entre as palavras. Mais isto simples de se resolver, basta usar o comando substituir do Word para substituir dois espaos por um, repetindo o procedimento at o Word informar o valor de 0(zero) substituies efetuadas.

O meu procedimento normal quando escaneio : 1) Escanear o livro em partes e salvar, s mantendo fonte e tamanho da fonte e no formato doc; 2) Em um modelo vazio, formatado em 13 por 20 cm, 1 cm para todas as margens, importo as partes do livro; 3) Seleciono todo o texto, escolho o item Formatar do menu do Word, a seguir o item Pargrafo, usando o alinhamento justificado e em recuo, especial > primeira linha; 4) Elimino os espaos extras utilizando o substituir do Word; 5) Passo uma vista dolhos por todo texto, atentando para as marcaes em vermelho e em verde (as cores de Portugal) do Word; 6) Boto o bicho na internet para quem quiser ler; 7) E no stimo item eu descanso pois eu tambm mereo.

9- Reviso Ainda assim erros podero existir no texto escaneado. Por exemplo, pode ter havido a troca de se por de e o Word no nos alertar. Pode ser que acidentalmente viremos mais de uma pagina na hora de escanear (j aconteceu comigo, mas consegui perceber durante a pr-reviso), Podem faltar palavras e at linhas. Para descobrir isso s lendo todo o texto escaneado (e mesmo assim muitos erros passam. Pra se ter uma idia em alguns livros o Word apontou-me erros que (eu fui verificar) existiam nos prprios originais. Os livros passam pelo autor, editor, revisor e sei l mais quem e ainda sim so impressos com erros (h muito tempo atrs eu li um texto de Monteiro Lobato onde ele comentava justamente esses erros) Eu no costumo ler o texto escaneado por dois motivos: Primeiro: Em geral, por ter em mos o livro impresso, eu aproveito e o leio, pois muito mais agradvel (e econmico). Segundo: Por pura preguia (alm do que no devemos ser egostas, vamos compartilhar o trabalho com os outros!!) Na realidade o trabalho de escanear um trabalho de equipe. Quem consegue o livro e tem scaner escaneia faz o mesmo chegar a quem no tem o livro e gostaria de ler. Estes por sua vez lem o livro e, neste processo, podem fazer a reviso do livro. 10- Extras Aqui apresento alguns pontos extras sobre o processo de escanear um livro com o FineReader: > possvel fazer a pr-reviso direto no FineReader, o que seria muito til caso for salvar o texto no formato pdf. Porm eu acho mais pratico usar o Word e depois usar algum outro programa para transformar em pdf. Acredito que na internet voc possa encontrar alguns programas que fazem isso, inclusive o Adobe Acrobat (eu particularmente no gosto do formato pdf ) > O FineReader tem a capacidade de abrir arquivos pdf, fazer o reconhecimento do texto, permitindo salvar normalmente, como o visto neste tutorial, em formato doc, rtf, etc. Porm um procedimento muito demorado. mais prtico usar programas como o BCL Drake. o fim!!!

Você também pode gostar