OBJETVO: O objetivo deste tutorial e ensinar passo a passo como se digitaliza um documento que possui muitas paginas, como por exemplo uma apostila ou um livro, utilizando o software Cuneiform versao 6.0. Existem varios outros softwares para OCR, como o Fine Reader ou o Recognita, mas devido a facilidade de uso, alta eficiencia, e baixa exigencia de hardware (Este tutorial foi feito num +86DX+100 com 2+Nb de RAN utilizando um scanner Genius Colorpage SP2X SCS!) o Cuneiform foi o software escolhido. NO OUE CON88TE A OPERAAO DE OCR ? Basicamente a digitalizaao de um documento e feita em 3 etapas: A captura do documento original para uma imagem ( que e o processo de Scan propriamente dito) , o OCR (que consiste na traduao da imagem em texto, atraves do processo de reconhecimento tico de caracteres) e a correaofformataao do documento digitalizado. PA88O 1 :: ADOURNDO O CUNEFORM :: O Cuneiform 6 e um software para OCR (Reconhecimento tico de caracteres) bastante popular e facil de ser encontrado para download. No site http:ffwww.superdownloads.com.br voce pode encontrar uma versao trial totalmente funcional e registravel. Este tutorial foi feito utilizando-se desta versao trial adquirida no superdownloads. O arquivo tem menos de 10Nb. PA88O 2 :: N8TALANDO O CUNEFORM :: A instalaao e bastante simples. Execute o arquivo que baixou do superdownloads e siga as orientaoes que aparecerao na tela. Se voce ja possui o numero serial para registro do Software voce deve informar estes numeros no ato da instalaao, quando solicitado. Se voce nao digitar o numero serial na instalaao e desejar registrar o software posteriormente, voce devera reinstalar o software para digitar as informaoes necessarias para o registro durante a reinstalaao. PA88O 3 :: EXECUTANDO O CUNEFORM :: Como este tutorial se destina a ensinar a digitalizaao de documentos com varias paginas, vamos nos ater a ferramenta Batch Recognition Utility. Esta ferramenta possibilita a digitalizaao de um numero infinito paginas de forma seqencial, sem a necessidade de se reabrir o driver do scanner a cada pagina digitalizada, tornando o trabalho infinitamente menos trabalhoso. Alem disso, voce pode parar a digitalizaao a qualquer momento e posteriormente retomar de onde parou, pois os arquivos de imagem sao nomeados de forma seqencial. Depois de instalado o software, execute o Batch Recognition Utility, clicando no icone ilustrado na figura acima. A tela inicial da ferramenta de reconhecimento em lote devera aparecer: F|gure 2 - Te|e |n|c|e| do etch Recogn|t|on Ut|||ty F|gure 3 - Te|e Pr|nc|pe| do RU F|gure 4 - 8cen w|zerd F|gure 5 - 8cen w|zerd Pesso 1 Na tela inicial (Figura 2) e apresentado o New Task Wizard (Assistente para Novas Tarefas). Nao utilizaremos o New Task Wizard, pois geralmente ele e indicado para se digitalizar documentos de poucas paginas. Assim, para prosseguir com o Scan, clique no botao Close. A tela principal do Batch Recognition Utility aparecera. Naximize esta janela e sera apresentada a tela ilustrada na Figura 3. PA88O 4 :: 8CAN WZARD :: O meio mais inteligente de se fazer uma digitalizaao e capturar em imagens (scannear) todas as paginas do documento para s depois fazer o OCR. Dessa forma vamos utilizar o SCAN W!ZARD para fazer a captura das paginas. A vantagem de se utilizar o SCAN W!ZARD e que voce pode parar a captura quando desejar e reiniciar posteriormente de onde parou. Para iniciar o SCAN W!ZARD clique no item OCR da tela principal do BRU (veja a Figura 2) e depois clique em SCAN W!ZARD, ou se preferir pode apertar a tecla F8. A tela ao lado devera aparecer. Onde esta escrito TWA!N: Genius Scanner Nodule (32 bit) devera aparecer a marca e modelo do seu scanner. Caso nao apaream, clique o botao Scanner Options" e selecione o seu scanner na lista. Clique no botao Next para continuar. A tela apresentada na Figura 6 devera ser aparecer. Este e o segundo passo de preparaao dos cinco que compoe o SCAN W!ZARD, e nele vamos escolher o formato de imagem que utilizaremos para capturar as paginas, o tipo de arquivo que sera salvo e o local onde as imagens serao salvas. F|gure - 8cen w|zerd Peso 2 F|gure 7 - Pesso 3 do 8cen w|zerd Recomendo que as opoes desta tela sejam mantidas como aparecem na figura ao lado. A opao Create Single Page !mage File(s) deve estar selecionada para que a cada pagina scanneada seja criada uma nova imagem correspondente. Na caixa Folder: voce pode especificar o local onde estas imagens serao armazenadas, para serem analisadas posteriormente, no momento do OCR. Na lista !mage File Format: voce pode escolher o formato de imagem em que as capturas das paginas serao feitas. Utilize sempre o formato Aldus T!FF (*.tiff). Clique no Botao NEXT para prosseguir. Como vamos digitalizar todas as paginas para s depois fazer o OCR devemos escolher a opao No, Thank you quando esta tela for apresentada. Ao clicar em No, Thank you as demais opoes serao anuladas e passaremos direto para o passo 5. Feito isso Clique no botao NEXT para continuar. Figura 9 - Configurao do Scanner Esta e a tela do ultimo passo do SCAN W!ZARD. Para seguir para a fase de captura das imagens clique no botao Finish. PA88O 5 :: CAPTURANDO A8 PAGNA8 DO DOCUMENTO :: Ao clicar o botao Finish (Figura 8) o driver do seu scanner sera aberto para que voce possa dar inicio a captura de imagens. A tela do driver e diferente para cada marca de scanner, portanto as Figuras 9 e 10 sao apenas ilustrativas, mas as funoes que nela estao demonstradas existem em todos os scanners, podendo diferir apenas na nomenclatura dos botoes. Antes de comear a scannear as paginas, devemos ajustar o scanner para a operaao de OCR. Para capturarmos uma pagina de forma a conseguir bons resultados devemos selecionar as seguintes opoes: Tipo f Type: Line Art ou Branco e Preto ResolutionfResoluao: 300 dpi Feito isso, podemos partir para a cpia das paginas. O processo e exatamente o mesmo de se copiar uma imagem, como por exemplo uma foto. voce deve posicionar o documento no scanner e clicar no botao PreviewfPreScan (ou o equivalente deste botao no seu scanner). F|gure 8 - Pesso 5 do 8cen w|zerd F|gure 10 - Te|e pr|nc|pe| do 0r|ver do 8cenner Quando for terminado o previewfprescan voce deve selecionar a area a ser scanneada ajustando a linha tracejada para que ela contenha todo o conteudo de uma pagina. Agora podemos dar inicio ao trabalho repetitivo de scannear todas as paginas do documento. Com a primeira pagina do documento devidamente posicionada no scanner, clique no botao Scan (ou equivalente do seu scanner). A pagina sera scanneada em poucos segundos e automaticamente armazenada no local escolhido. Terminado o Scan desta pagina, simplesmente levante a tampa do seu Scanner e posicione a prxima pagina a ser copiada. Desa a tampa e clique novamente no botao Scan. Este passo devera ser repetido ate que voce tenha scanneado todas as paginas do documento. Caso voce queira parar a captura das paginas antes do final, nao ha problemas, basta fechar a tela do driver do scanner. Quando for recomear o trabalho basta repetir todos os passos anteriormente descritos e continuar a cpia da pagina em que foi interrompida a digitalizaao. importante nao trocar a pasta onde se armazenam as imagens copiadas, pois o Cuneiform vai continuar a seqencia de armazenamento sem sobrescrever as imagens que ja foram copiadas. Terminada a Captura de todas as paginas do documento, feche o driver do Scanner (clicando no x do lado direito superior da tela do driver). Agora vamos dar inicio ao processo de OCR, ou reconhecimento tico de caracteres. PA88O 6 :: TRAN8FORMANDO MAGEM EM TEXTO :: Ao terminar a cpia das paginas, a tela ilustrada na Figura 11: Note que do lado esquerdo da tela sao mostradas as paginas scanneadas. O numero de imagens e igual ao numero de paginas que voce scanneou. Para iniciar o reconhecimento ptico dos caracteres tecle F7 ou Clique na barra de menu no item OCR e depois em Recognition Wizard. Ao se clicar em OCR\Recognition wizard ou pressionar F7 a tela ilustrada na Figura 12 sera apresentada. Na caixa de texto, digite um nome qualquer para a tarefa de OCR, por exemplo ocr", como esta na figura. Em seguida marque a caixa de seleao abaixo. Clique no botao NEXT. F|gure 11- Preperendo o 06R Figura 12 Ao se clicar o botao NEXT a seguinte tela sera apresentada: F|gure 13 - Pesso 2 do 06R w|zerd F|gure 14 - 8e|eo des |megens pere o 06R Nesta tela voce deve selecionar a pasta onde foram salvas as imagens scanneadas. Feito isto, clique no botao NEXT para prosseguir. A seguinte tela sera apresentada: Selecione todas as imagens da pasta. Lembre-se que cada imagem deve corresponder a uma pagina do documento. Nao armazene outras imagens junto com estas ou o OCR nao sera feito corretamente. Depois de selecionadas todas as !magens, clique no botao NEXT para prosseguir. A tela ilustrada na Figura 15 sera apresentada: Selecione a primeira opao como esta na figura, assim as paginas serao adicionadas ao mesmo documento texto na ordem correta, reproduzindo a ordem em que fi feita a captura das paginas. Na caixa de texto Document Name digite o nome do documento que sera salvo. F|gure 1 - F|ne||zendo o 06R w|zerd Usando o Botao Browse voce podera escolher uma pasta diferente para salvar o documento, alem de escolher o formato do mesmo. O cuneiform oferece os formatos RTF, HTNL e TXT. O formato mais indicado e o RTF, pois pode ser aberto posteriormente em qualquer editor de texto (wordpad, word, wordperfect, openoffice, staroffice, etc). extremamente recomendavel que todas as imagens estejam num mesmo diretrio (pasta). Assim, clique na opao No, Thank you, como esta na figura acima. Para prosseguir clique em NEXT. A seguinte tela sera apresentada: Narque a caixa Start Recognition Now Se voce ainda nao selecionou a lingua em que o cuneiform vai fazer o OCR, agora e a hora para fazer isso. Esta alteraao s precisa ser feita uma unica vez, para tal clique no botao Recognition Options... A tela ilustrada na figura 17 sera apresentada. Clique na Guia Recognition e na caixa Language Selecione Portuguese. Narque as opoes Auto Spell Checker e se o documento que esta digitalizando tiver apenas uma coluna de texto, marque a opao One Column. Feito isso, clique no botao OK. voce retornara para a tela da figura 16. Clique em Finish para iniciar o OCR. Daqui ate o termino da digitalizaao tudo sera feito pelo Cuneiform. Ele vai interpretar as imagens e traduzi-las em texto, ou seja, vai realizar o processo de OCR automaticamente em todas as paginas e vai adicionar o texto traduzido no arquivo indicado anteriormente, na ordem em que as paginas foram capturadas no processo do Scan Wizard. Uma caixa de dialogo mostrara o progresso da operaao e ao terminar o OCR de todas as paginas a seguinte tela sera apresentada: O OCR esta pronto, todas as paginas scanneadas foram transformadas em texto. Clique em Close e Feche o Cuneiform. PA88O 7 :: FNALZANDO O TRABALHO :: Abra o Arquivo Criado em um editor de textos, como por exemplo o word. normal que a formataao nao seja a mesma do livro, tambem e normal que alguns paragrafos estejam em tamanhos e com fontes diferentes dos outros, por isso e recomendavel a formataao do arquivo. voce pode criar macros que automatizam a formataao de qualquer arquivo, facilitando assim este trabalho. O Cuneiform e um software que garante 95 de acertos na digitalizaao, portanto, tambem e necessario que voce corrija os 5 de erros. Para este trabalho voce pode contar com um corretor ortografico, que pode ser o prprio corretor do word. Sem duvida o trabalho de formataao e principalmente correao sao os mais trabalhosos na digitalizaao de um documento muito extenso, mas sao imprescindiveis para que se tenha um resultado final satisfatrio. Nao libere os textos sem antes corrigi-los. Algumas dicas para se obter menos erros numa digitalizaao: Nantenha toda a superficie a ser scanneada em contado com o scanner, nao deixe bordas ou orelhas do documento levantadas, pois assim ocorrerao muitos erros. Utilize sempre o formato de imagem T!FF. Faa os Scans com 300 dpi Line ArtfBlack White (1 bit) Pode ocorrer a criaao de tabelas contendo o texto digitalizado, nesse caso o word pode nao abrir o documento criado pelo Cuneiform. Para resolver o problema, abra o documento no wordpad e faa uma pre-fomataao: Deixe todo o texto com a mesma fonte e o mesmo tamanho de fonte, remova as tabelas contendo texto que foram criadas, salve o documento como DOC e abra-o no word para terminar a formataao e fazer a correao. Comece com textos pequenos para se acostumar com o processo. http:ffpalanthas.boom.ru Lista de discussao AdoramosLer @ Yahoogroups.com