Você está na página 1de 83

Como escanear livros com qualidade

e produzir textos por OCR


Prof. Jos Antonio Meira da Rocha
Edio do Autor

Como escanear livros com qualidade e produzir textos com OCR


MEIRA, Jos Antonio. Como escanear livros com qualidade. Frederico Westphalen: Edio do Autor, 2012. Editorado com LibreOffice 3.5.2. Fontes tipogrficas Liberation Serif, Liberation Sans e Liberation Mono. Tamanho A5 para ser impresso em: livreto, ampliado para o tamanho da pgina, frente e verso, pginas mpares em ordem normal e pginas pares em ordem reversa. Ilustraes capturadas e tratadas com IrfanView. Foto de capa: divulgao HP. 4 edio. Frederico Westphalen, Outono de 2012. http://meiradarocha.jor.br joseantoniorocha@gmail.com

Esta obra foi liberada sob uma Licena Creative Commons - Atribuio - Uso No-Comercial - Partilha nos Mesmos Termos 3.0 No Adaptada.

Como escanear livros com qualidade

Sumrio
1 Introduo...............................................................................5 2 Escaneie com a interface Windows.......................................9
2.1 Escolha a interface do escaner.........................................................9 2.2 Inicie o escaneamento em lote........................................................10 2.3 Ajuste a numerao das imagens...................................................11 2.4 Vantagens.......................................................................................16 2.5 Desvantagens.................................................................................16 2.6 Finalizao......................................................................................16

3 Escaneie com o software original da HP.............................17


3.1 Usando o software HP 2.1..............................................................17 3.1.1Grave com nmeros de pgina................................................26 3.2 Usando o software HP verso 9......................................................28 3.2.1Renumere imagens de pginas...............................................42 3.3 Vantagens.......................................................................................44 3.4 Desvantagens.................................................................................44 3.5 Finalizao......................................................................................44

4 Limpe as imagens................................................................45 5 Crie, por OCR, PDF copivel...............................................57 6 Crie, por OCR, texto editvel ..............................................67 7 Revise o texto.......................................................................71 8 Calcule o tempo de produo..............................................73 9 Faa OCR com software livre..............................................75
9.1 Instale os programas ......................................................................75 9.2 Use o gImageReader......................................................................77

10 Faa OCR com Google Docs.............................................81 11 Faa OCR em obras do Google Books..............................83

Como escanear livros com qualidade

1 Introduo
Este manual ensina a escanear livros com qualidade e com reconhecimento ptico de caracteres (OCR), gerando arquivos nos formatos Comic Book, PDF com texto pesquisvel e copivel, RTF e TXT. O formato de imagem que recomendo para se produzir livros escaneados PNG ou TIFF preto e branco (profundidade de cor de um bit), 300 pontos por polegada (dpi). Esta escolha deve-se s seguintes caractersticas: PNG um formato de imagens aberto e verstil, com boa compresso sem perdas. TIFF um formato pioneiro da computao grfica, bem documentado e um dos mais usados para artes grficas digitais. A resoluo de 300 dpi mais adequada para o OCR e pode ser impressa em qualidade razovel (era a resoluo das primeiras impressoras laser). Imagens em preto & branco (profundidade de cor de um bit) geram arquivos menores, tm melhor contraste para leitura e tornam mais fcil a limpeza de sombras nas margens das pginas. Se a pgina a ser escaneada tiver imagens em tons de cinza, como fotografias, o espao de cor deve ser Imagem em escala de cinza, (profundidade de cor de 256 tons de cinza). Se a pgina tiver imagens coloridas, o formato deve ser Imagem colorida (profundidade de cor de 24 bits ou milhes de cores). Alm de escolher o formato de imagem, voc deve definir o grau ou o tipo de compresso. O formato PNG (Portable Network Graphic) tem nove graus de compresso. De 1 (processamento rpido mas pouco comprimido) a 9 (processamento lento mas bem comprimido).

Como escanear livros com qualidade

J o TIFF (Tagged Image File Format) permite diferentes algoritmos de compresso. A tabela abaixo mostra uma mesma pgina de livro 26 x 20 cm, com profundidade de cor de um bit (preto e branco) gravada em diferentes formatos e tipos de compresso.
Arquivo
paginanone.tif pagina.tif paginalzw.tif paginapack.tif paginazip.tif pagina1.png pagina6.png pagina9.png paginahuf.tif paginaccitt3.tif paginaccitt4.tif pagina.jpg Arquivos de texto pagina.pdf pagina-bodytext.rtf pagina.odt paginaretained.rtf PDF TIFF CCITT4 RTF formatado ZIP RTF no formatado 163.025 4.666 25.805 5.135 19,70 0,56 3,12 0,62 Gerado pelo DPE OCR Gerado pelo DPE OCR Gerado pelo LibreOffice Gerado pelo DPE OCR

Tipo de Compresso
Nenhuma LZW LZW Pack Bits ZIP PNG 1 PNG 6 (default) PNG 9 Huffman RLE CCITT3 CCITT4 JPEG 80

Tamanho em bytes
827.596 176.867 168.248 270.440 142.458 158.274 137.651 130.902 153.900 155.362 78.424 1.205.704

% de compresso
100 21,37 20,33 32,68 17,21 19,12 16,63 15,82 18,60 18,77 9,48 145,69

Comentrio
Gerado pelo programa de escaner Gerado pelo programa de escaner Gerado pelo IrfanView Gerado pelo IrfanView Gerado pelo IrfanView Gerado pelo IrfanView Gerado pelo IrfanView Gerado pelo IrfanView Gerado pelo IrfanView Gerado pelo IrfanView Gerado pelo IrfanView Gerado pelo IrfanView

Conforme pode ser visto pelos tamanhos de arquivos resultantes, o melhor formato em relao compresso, para arquivos em preto e branco, TIFF comprimido pelo padro CCITT Group4 fax

Como escanear livros com qualidade

encoding, criado para fax. O arquivo comprimido fica com menos de 10% do tamanho de arquivo TIFF sem compresso. O segundo formato mais eficiente PNG com compresso mxima, que fica com 16% do tamanho do arquivo sem compresso. de se notar a ineficincia do formato JPEG para imagens em preto e branco: o arquivo fica 45% maior que o arquivo TIFF sem compresso. Ou seja: o JPEG timo para arquivos de meio-tons (tons de cinza ou coloridos), mas completamente inadequado para arquivos p&b. Os detalhes de compresso dos arquivos so definidos no IrfanView marcando-se a opo Show options dialog no dilogo de gravao de arquivos.

Como escanear livros com qualidade

2 Escaneie com a interface Windows


Este mtodo pode ser usado com qualquer marca de escaner. Neste caso, use o programa gratuito IrfanView1, o visualizador de arquivos mais usado no mundo para ambiente Windows.

2.1 Escolha a interface do escaner


V a File > Select Twain source e escolha WIA-<nome de seu escaner>. Clique em Selecionar.

Baixe em http://www.irfanview.com/

10

Como escanear livros com qualidade

2.2 Inicie o escaneamento em lote


V ao menu File > Acquire/batch scanning, ou tecle CTRL+SHIFT+A

Como escanear livros com qualidade

11

2.3 Ajuste a numerao das imagens


No dilogo seguinte, importante numerar corretamente as imagens obtidas para que elas correspondam aos nmeros das pginas dos livros. Isto evita erros de pular pginas durante o escaneamento.

1. Marque Multiple images 2. Em Output file name, d um nome para as imagens do livro ou do captulo do livro. Use letras se estiver escaneando livros com vrios captulos com numeraes de pginas diferentes. Por exemplo, alguns prefcios tm numerao em algarismos romanos. Nomeie tipo MidiasDigitais-A-, MidiasDigitais-B-, etc. Deixe um hfen no final.

12

Como escanear livros com qualidade

3. EmStarting counter, coloque o nmero da primeira pgina par (da esquerda) do livro ou do captulo que voc vai escanear. Se for o livro todo, este nmero ser 2, em geral. Conte de trs para a frente, a partir da primeira pgina numerada, para descobrir o nmero das pginas iniciais sem numerao. Se o prefcio tiver numerao diferente do miolo, d outro Output file name para o miolo e coloque a numerao apropriada. Este nmero vai sempre dizer a voc qual pgina deve ser colocada no escaner. 4. Em Increment, coloque 2 se o livro for escaneado de duas em duas pginas, ou 1 se for de uma em uma pgina. 5. Em Number of digits, coloque 3. 6. Deixe sempre ligados Skip existing files (pule arquivos j existentes) e Remember last scan counter (relembre o ltimo contador de scan). 7. Em Destination directory: coloque Minhas imagens do Windows, em geral. 8. Save as: PNG 9. Options: Compression: 9

Como escanear livros com qualidade

13

No dilogo seguinte, escolha Texto ou imagem em preto e branco

A seguir, certifique-se de que a resoluo de 300 dpi.

14

Como escanear livros com qualidade

Em geral, j est definido 300 dpi. Faa isto s para conferir.

Depois, clique em Visualizar e, a seguir, em Digitalizar.

Como escanear livros com qualidade

15

A imagem ser digitalizada, cortada automaticamente e gravada com nova numerao. Se o formato da imagem for em tons de cinza ou cores, o corte tende a ser feito automaticamente na rea errada e ter de ser ajustado mo para a rea da pgina do livro. Repita as operaes para todas as pginas do livro. A numerao das imagens ser incrementada automaticamente.

Assim, voc obter uma coleo de imagens na pasta Minhas Imagens do Windows. Dependendo da velocidade do escaner, o trabalho pode demorar de 30 a 90 segundo por pgina.

16

Como escanear livros com qualidade

2.4 Vantagens
Voc no precisa do software da HP, que muito ruim nas novas verses. Voc pode usar com qualquer marca de escaner.

2.5 Desvantagens
As imagens no ficam do mesmo tamanho. Em imagens em tons de cinza ou coloridas, o corte automtico funciona erradamente. As margens ficam com sombras que sujam as pginas e precisam ser limpas. Demora um pouco, pois necessria uma prvia de cada pgina.

2.6 Finalizao
Depois de terminada esta parte do trabalho, faa um backup de todas as imagens, comprimindo-as num ZIP. No captulo 4, Limpe as imagens, pgina 45, aprenda a limpar as sombras que podem ter ficado nas imagens.

Como escanear livros com qualidade

17

3 Escaneie com o software original da HP


A Hewlett-Packard distribua seus escaneres, nos anos 2000, com uma boa interface que permitia a criao de perfis de digitalizao. Nos anos 2010, mudou para uma terrvel verso de software de escaneamento e os perfis sumiram (2012, verso 13). Se voc tem ainda os discos originais das verses 2.1 at 9, pode usar os perfis para acelerar os trabalhos de digitalizao de livros.

3.1 Usando o software HP 2.1


Primeiro, defina os parmetros de escaneamento. Comece escaneando uma imagem. Na verdade, voc no vai escanear, s vai gravar os parmetros. Abra o HP Director e clique em Digitalizar Imagem..

Aparecer o splash por uns instantes, depois a interface do escaner. A lmpada ficar esquentando durante uns 30 segundos, e o software escanear a imagem de prvia.

18

Como escanear livros com qualidade

A partir da imagem de prvia, ajuste alguns parmetros.

Ajuste a rea de escaneamento cortando um pouco as margens do livro, para no ficarem sombras pretas. Escolha alguma medida inteira para se lembrar, mais tarde. No exemplo, a rea foi de 19 x 25 cm. Clique em Nova digitalizao para testar com pginas de

Como escanear livros com qualidade

19

diferentes posies do livro, para verificar se todas as pginas ficaro bem digitalizadas.

A seguir, mude tipo de sada para Preto e branco (1 bit).

Depois, certifique-se de que a resoluo de 300 dpi.

20

Como escanear livros com qualidade

Clareie um pouco a imagem, diminuindo o limiar de branco, para que o OCR trabalhe melhor. Em imagens p&b, o valor automtico fica prximo de 150. Experimente um valor de 100.

Agora, grave estes ajustes com um nome. Isto chama-se perfil. Mude os modos para tons de cinza e grave outro perfil, mude para milhes de cores e grave um terceiro perfil, se o livro tiver fotos em tons de cinza ou coloridas.

Como escanear livros com qualidade

21

Chamei este perfil de Livro 25x19 p&b.

22

Como escanear livros com qualidade

Se o livro tiver fotos em tons de cinza ou coloridas, tambm crie um perfil para as pginas de fotos. Mude o tipo de sada para 256 tons de cinza.

Certifique-se de que a resoluo esteja em 300 dpi. A seguir, grave um novo perfil com o nome como Livro 19x26 cinza.

Como escanear livros com qualidade

23

Se alguma pgina do livro tiver ilustraes coloridas, mude o tipo de sada para Milhes de cores, certifique-se de que a resoluo esteja em 200 dpi e crie um perfil como Livro 19x26 cor. Agora, vamos configurar o boto do escaner para usar estes perfis sem fazer a prvia da pgina.

Abra as preferncias de digitalizao.

24

Como escanear livros com qualidade

Desligue a opo indicada para certificar-se de que o boto do escaner no vai pedir uma prvia.

Depois, abra as configuraes de boto.

Como escanear livros com qualidade

25

Escolha Imagem, Salvar em arquivo e modifique as configuraes.

26

Como escanear livros com qualidade

Marque Aplicar perfil de digitalizao e escolha o perfil gerado.

3.1.1 Grave com nmeros de pgina


Pronto. Agora, quando voc apertar o boto do escaner, ele vai escanear a rea indicada, em preto e branco, sem abrir a interface de prvia. Se o livro tiver alguma pgina com fotos em tons de cinza ou coloridas, em vez do boto do escaner use o boto Digitalizar imagem do HP Director, e carregue os perfis cinza ou cor.

Como escanear livros com qualidade

27

Grave em formato TIFF nomeando o arquivo com o nmero da pgina escaneada. Assim, voc logo ficar sabendo se esqueceu de digitalizar alguma pgina. Se o livro for escaneado de duas em duas pginas, coloque o nmero da pgina par.

28

Como escanear livros com qualidade

3.2 Usando o software HP verso 9


Verses mais recentes (2007) do software HP mudaram a interface. Os procedimentos de escaneamento mudam levemente. Os ajustes comeam criando-se os perfis.

Clique em Digitalizar Imagem. Na verdade, voc no vai digitalizar nada, s gravar os perfis. O splash abrir rapidamente e a imagem ser escaneada.

Como escanear livros com qualidade

29

Marque a rea a ser escaneada, cortando um pouco as margens que, de outra forma, apresentariam sombras.

30

Como escanear livros com qualidade

Defina a resoluo para 300 dpi.

Como escanear livros com qualidade

31

Mude o modo da imagem para preto & branco (um bit de cor).

32

Como escanear livros com qualidade

Ajuste o limiar de branco. Coloque o valor 100 para imagens p&b.

Como escanear livros com qualidade

33

Grave o perfil.

34

Como escanear livros com qualidade

Se o livro tiver fotos em tons de cinza, tambm crie um perfil para as pginas de fotos. Mude o tipo de sada para 256 tons de cinza.

Ajuste as altasluzes para eliminar o verso da pgina

Ajuste a rea de alta-luz. Clique no pequeno tringulo para salientar em preto a rea de alta-luz a rea que dever ficar totalmente branca. Se voc no fizer isto, o verso das pginas aparecer nas imagens, pois o escaner muito sensvel.

Como escanear livros com qualidade

35

Mova o slider Realces (highlites altas-luzes) at que a rea branca fique marcada totalmente em preto. Tambm mova o slider Sombras para -100, deixando o preto totalmente preto. Assim, o verso das pginas no aparecer e o contraste ficar melhor. Mas teste estes ajustes em pginas com fotos, para verificar se elas no ficaro prejudicadas.

36

Como escanear livros com qualidade

Grave o perfil com o nome cinza. Se o livro tiver fotos coloridas, mude o tipo de sada para Milhes de cores, coloque a resoluo em 200 dpi e deixe os ajustes de cor no automtico. Grave um perfil para cor.

Como escanear livros com qualidade

37

Agora, configure a ao para o boto do escaner (ou para o boto Digitalizar Imagem da Central de solues HP, se voc quiser us-lo em vez do boto do escaner). Clique em Configuraes e Configurao de botes.

38

Como escanear livros com qualidade

Escolha a aba Boto Digitalizar ou Boto Digitalizar foto (Centro de Solues). Escolha Imagem, Salvar em arquivo, Desligue Exibir visualizao ao digitalizar a partir do boto Digitalizar e Solicitar essas configuraes no momento da digitalizao.

Como escanear livros com qualidade

39

Clique em Configuraes para digitalizar fotos

Escolha o perfil criado anteriormente por voc.

40

Como escanear livros com qualidade

Agora, cada vez que voc pressionar o boto de escaner ou clicar em Digitalizar Imagem na Central de Solues HP, aparecer o dilogo de Opes de gravao. Escolha Imagem em Tiff (compactada) (*.tif). No nome do arquivo, coloque o nmero da pgina inicial que voc digitalizar, seguido do sinal +. Escolha o local da gravao, em geral, pasta Minhas Digitalizaes. Clique em OK.

Como escanear livros com qualidade

41

Depois de digitalizada a pgina, o software vai perguntar se voc quer digitalizar mais fotos.

Clique em Digitalizar ou use a tecla de espao ou Enter para aceitar a opo. Digitalize de dez em dez pginas para minimizar as chances de ter de renomear muitos arquivos, caso tenha pulado o escaneamento de uma pgina. Depois de escanear dez pginas, clique em Concludo e pressione novamente o boto de escanear, dando um novo nmero de pgina ao nome de imagem. Neste modo de escanear, as imagens ficaro com nomes como 198+0001.tif, 198+0002.tif... 208+0001.tif etc. Dessa forma, voc ir conferir se a imagem corresponde pgina correta somando o primeiro nmero com o segundo nmero do nome do arquivo.

42

Como escanear livros com qualidade

3.2.1 Renumere imagens de pginas


Depois de conferir se no faltou nenhuma pgina, voc poder renumerar os arquivos de imagem atravs do IrfanView, menu File > Batch conversion renaming B. Com isto, os documentos CBZ ficaro mais consistentes e os trabalhos de reviso dos textos gerados pelo OCR ficaro mais fceis. Em geral, os livros tm duas numeraes: uma para o prefcio, em numerais romanos (hbito desinteligente. Numerais romanos esto obsoletos h 900 anos), e outra para o miolo, em numerais arbicos. Nomeie os arquivos para A e B. Por exemplo, MidiasA-001.tif e MidiasB-001.tif, para ficarem em ordem no formato Comic Book: o prefcio antes do miolo. No use acentos ou cedilha nos nomes.

Como escanear livros com qualidade

43

Escolha Batch rename. Procure a pasta de imagens. Clique em Add all para adicionar todas ou selecione a primeira que interessa, segure a tecla SHIFT, clique na ltima que interessa, e escolha Add. Se necessrio, ordene os arquivos em Move up ou Move down. Clique em Use current directory para copiar as imagens renomeadas para a mesma pasta dos arquivos originais. Pelo boto Options, escolha como sero renumerados os arquivos de imagens. Em Name pattern, coloque o novo nome dos arquivos e ### para usar trs dgitos. Em Start counter, coloque o nmero da primeira pgina. Em Increment, coloque 1 para trabalhos com pgina nica por imagem, ou 2 para livros pequenos, escaneados de duas em duas pginas. O exemplo da ilustrao acima para a renumerao do miolo de um livro de duas pginas por imagem, com o primeiro captulo comeando na pgina 11.

44

Como escanear livros com qualidade

3.3 Vantagens
a forma mais rpida de escanear. As imagens ficaro todas do mesmo tamanho. H necessidade de pouca limpeza das pginas digitalizadas, porque se corta as bordas onde ficariam sombras.

3.4 Desvantagens
Voc deve cuidar pessoalmente da numerao das imagens. Voc deve cuidar do bom posicionamento do livro sobre o vidro, pois estar digitalizando no escuro. Exige software antigo da HP, que pode ser incompatvel com novas verses do Windows ou pode ser difcil de obter, se voc perdeu o CD original.

3.5 Finalizao
Depois de terminada esta parte do trabalho, faa um backup de todas as imagens ainda sujas, comprimindo-as num ZIP. No captulo 4, Limpe as imagens, pgina 45, aprenda a limpar as sombras que podem ter ficado nas imagens.

Como escanear livros com qualidade

45

4 Limpe as imagens
As imagens de livros escaneados apresentam sombras e margens pretas que devem ser limpas. Elas deixam o documento feio e gastam muita tinta se o trabalho for impresso.

Para apagar estas sombras, use o IrfanView. Configure o programa teclando P (para ver as Propriedades) e escolha Browsing/editing > Cut, Choose, cor branca para o fundo dos cortes. Isto deve ser feito apenas uma vez. A configurao fica gravada.

46

Como escanear livros com qualidade

Carregue o primeiro arquivo e confira se o nmero da imagem corresponde ao nmero da pgina. Se no conferir, apague o arquivo de imagem e reescaneie a pgina correta.

Como escanear livros com qualidade

47

Use a tecla R para girar a imagem 90 para a direita (Right). Verifique se o texto da imagem est sem defeitos. Qualquer escorregada durante o escaneamento vai prejudicar o posterior processamento por OCR. Se houver defeitos, apague-a e escaneie novamente a pgina com o nmero correto.

48

Como escanear livros com qualidade

Marque a mancha preta entre as pginas abrindo um retngulo de alto a baixo, no sentido da seta vermelha. Depois, use CTRL+X para limpar a rea.

Pode deixar pequena rea com sujeira no incio da marcao.

Utrapasse os limites da imagem.

Como escanear livros com qualidade

49

Repita a operao na margem de baixo, conforme o sentido da seta. Use CTRL+X para limpar a rea marcada.

Pode deixar pequena rea com sujeira no incio da marcao.

Utrapasse os limites da imagem.

50

Como escanear livros com qualidade

Faa o mesmo na margem da esquerda, de alto a baixo, no sentido da seta.

Pode deixar pequena rea com sujeira no incio da marcao.

Utrapasse os limites da imagem.

Como escanear livros com qualidade

51

Repita a operao na margem superior: marque a rea observe o incio da marcao e o sentido da seta e limpe com CTRL+X.

Utrapasse os limites da imagem. Pode deixar pequena rea com sujeira no incio da marcao.

52

Como escanear livros com qualidade

E finalize com a margem direita. Selecione a rea observe o incio da marcao e o sentido da seta e limpe com CTRL+X.

Utrapasse os limites da imagem.

Como escanear livros com qualidade

53

Depois, apague eventuais sujeiras na imagem.

Grave com CTRL+S. Se esquecer de gravar, voc vai perder o trabalho da pgina. O IrfanView vai usar as ltimas configuraes de gravao (escolha TIFF CCITT 4) e perguntar se voc quer gravar por cima da imagem existente.

54

Como escanear livros com qualidade

Tecle S para dizer que sim, porque voc j fez backup das imagens originais.

Esta operao de limpeza leva, em mdia, 30 segundos por pgina.

Clique na seta Next file in directory ou tecle a barra de espao para ir prxima imagem na pasta de imagens escaneadas. Repita as operaes de limpeza at terminar as imagens do livro. Voc pode gravar rapidamente e ir para a prxima imagem com a sequncia: CTRL+S, ENTER, S, ESPAO. Se todas as imagens estiverem com boa qualidade e numeradas na sequncia correta, crie uma pasta comprimida com o boto da direita na janela de arquivos, menu Novo > pasta compactada (zipada). Depois, copie todas as imagens para esta pasta e renomeie-a trocando a terminao ZIP por CBZ.

Como escanear livros com qualidade

55

Com isto, voc cria um Comic Book, um formato simples desenvolvido por piratas de gibis. apenas um arquivo ZIP ou RAR com as imagens guardadas em sequncia numerada. O formato CBR (comprimido com RAR) ou CBZ (comprimido com ZIP) pode ser lido com leitores de CBR, como o Comical (http://comical.sourceforge.net/ ). Conhea mais comic book readers em Five Best Desktop Comic Book Readers <http://lifehacker.com/5858906/five-best-desktopcomic-book-readers> O formato CBZ bem til e simples de ser criado, mas no permite a cpia de texto. Para isto, precisamos passar as imagens por um reconhecedor ptico de caracteres (OCR). Veja como se faz isto no captulo 5, Crie, por OCR, PDF copivel, pgina 57.

Como escanear livros com qualidade

57

5 Crie, por OCR, PDF copivel


Para usar o OCR, voc precisa do software de escaner HP mais recente. Baixe pelo site da Hewlett-Packard o driver correspondente ao seu escaner. Os softwares de escaner da HP esto cada vez piores, mais feios e mais cheios de recursos inteis e amadores, o que se chama de bloatware. Enchem nossos computadores de programas e dados desnecessrios, tipo Central de Solues. Recentemente, (2009), a empresa liberou a verso 13 de seu software que no grava a rea de escaneamento nos perfis e sequer faz preview: ele escaneia demoradamente a imagem colorida na resoluo mxima do escaner, mesmo que se necessite apenas de uma parte da imagem que est no vidro do escaner, em preto e branco. No entanto, o software da HP traz escondida uma verso limitada do programa de OCR da I.R.I.S., um dos melhores OCRs do mercado. Este programa permite produzir um PDF com texto copivel a partir de imagens j escaneadas. O OCR da I.R.I.S. Est na pasta: c:\Arquivos de
programas\HP\Digital Imaging\DocProc\dpe_ocr.exe ou c:\Arquivos de programas\Hewlett-Packard\Digital Imaging\DocProc\dpe_ocr.exe. Puxe um atalho deste arquivo

para o desktop. Este programa independente. Voc pode copiar toda esta pasta para outro computador.

58

Como escanear livros com qualidade

Ao rodar, o programa DPE avisa que apenas para fins de debug. Ignore e clique em OK.

Na primeira vez que roda, o DPE executa um assistente (wizard) que pode ser seguido por comodidade. Ele primeiro pergunta se para rodar o wizard no incio. Deixe ligado se voc quiser manter a comodidade, ou desligue se quiser fazer o OCR manualmente.

Como escanear livros com qualidade

59

A seguir, o DPE pergunta se voc quer imagens do escaner ou j escaneadas. Esta verso OEM do DPE no permite que se obtenha imagens diretamente do escaner, o que no nenhuma desvantagem, j que as imagens de escaner precisam sempre de uma limpeza. Escolha Image file.

O DPE tambm vai perguntar se voc quer que ele detecte a orientao das pginas (se esto viradas 90 graus ou normais). Como voc j virou as pginas, deixe desligada esta opo. A opo Page Deskewing, define se voc quer que ele alinhe perfeitamente, na horizontal, pginas ligeiramente giradas. O DPE faz um servio muito bom neste ajuste. Deixe ligado.

60

Como escanear livros com qualidade

Depois, o DPE pedir para voc escolher a lngua do texto a ser reconhecido. Ele deve usar o default do sistema operacional. Mude se tiver texto em outras lnguas.

Como escanear livros com qualidade

61

A seguir, o DPE pede o formato a ser gerado. No nosso caso, queremos PDF com a imagem e com o texto por baixo da imagem. um recurso do formato PDF que permite que se tenha uma imagem por cima de um texto pesquisvel e copivel. Clicando no boto Change, voc configura o formato de sada, conforme o dilogo abaixo. Existem dezenas de formatos de sada diferentes, como RTF para LibreOffice, mas queremos guardar em PDF pesquisvel (Adobe Acrobat/Reader - Image-text) por ser mais verstil e preservar a imagem original.

62

Como escanear livros com qualidade

Como escanear livros com qualidade

63

Finalmente, tudo configurado, vamos l! Go!

64

Como escanear livros com qualidade

O DPE pede para voc escolher os arquivos a serem oceerrizados. Clique no primeiro arquivo, segure a tecla SHIFT e clique no ltimo arquivo, para selecionar todos. Ao clicar em Abrir, o DPE importa e j faz o OCR em todas as pginas automaticamente.

Como escanear livros com qualidade

65

Depois de alguns segundos ou minutos (o trabalho relativamente rpido), o DPE apresenta o dilogo de salvar o PDF. Mude o nome do arquivo para algo bem descritivo, como autor e nome do livro. Mas, antes de salvar, defina algumas metainformaes necessrias para indexao do documento. Clique em Properties....

66

Como escanear livros com qualidade

Escreva: O ttulo O autor O assunto As palavras chave O programa criador A pessoa que produziu o PDF. A instituio Etc Clique OK e grave o documento. Pronto, voc tem um belo PDF com texto pesquisvel e copivel. PDF um formato muito usado, bem documentado, compatvel com todos os sistemas operacionais e dispositivos, e com futuro garantido. O fato de ter texto copivel permitir que pesquisadores copiem citaes, poupando tempo e aumentando a produtividade. No entanto, o texto copivel no se presta ainda para ser usado por cegos que usam leitores de texto. Para isto, vamos ver no prximo captulo como extrair e formatar texto plano com o DPE.

Como escanear livros com qualidade

67

6 Crie, por OCR, texto editvel


O PDF gerado pelo DPE tem boa qualidade de OCR. No entanto, se o texto for copiado, ter um carcter fim-de-pargrafo no final de cada linha. Para pequenos trechos de texto a serem usados em citaes, no problema reunir todas as linhas em um nico pargrafo. Mas, numa obra inteira, isto mais trabalhoso e envolveria muitas operaes de procura e troca. No entanto, o DPE tambm faz OCR com sada em RTF (Rich Text Format), um formato de intercmbio de documentos aceito pela grande maioria dos editores de texto. O processo de OCR o mesmo, mas, depois de gerar o PDF pesquisvel, clique em Format.

68

Como escanear livros com qualidade

Mude o formato para OpenOffice Writer 2.0

Marque Create body text e Merge lines into paragraph.

Como escanear livros com qualidade

69

A seguir, clique em Recognize and save para reconhecer e gravar o documento.

Se o LibreOffice estiver instalado, o texto reconhecido ser carregado e apresentado.

Como escanear livros com qualidade

71

7 Revise o texto
Depois de criado o texto em formato RTF, ele deve ser revisado e corrigido. O OCR no perfeito. Sempre existem palavras no reconhecidas ou reconhecidas erradamente. Se o livro tiver alguma diagramao especial, e o texto ficar muito embaralhado (empastelado), considere fazer o OCR mo, sem usar o wizard, indicando a sequncia correta dos blocos de texto. Abra o texto RTF pelo LibreOffice e grave como ODT, para preservar o arquivo bruto original. Primeiro, formate estilo de texto Padro (F11) conforme suas preferncias adicione espao abaixo dos pargrafos, por exemplo e aplique a todo o texto. Depois, utilize os recursos de correo ortogrfica do editor para corrigir todo o texto. Mas h erros que o corretor no pega. Entre os casos mais comuns que voc deve prestar ateno esto estes: Certas letras no so diferenciadas como maisculas e minsculas. S=s, C=c, O=o, por exemplo. O nmero 1 geralmente confundido com a letra l minscula, e vice-versa. A letra o confundida com o nmero zero, e vice-versa. Barras / so reconhecidas como l. Vrgulas so confundidas com pontos, e vice-versa.

72

Como escanear livros com qualidade

As notas de rodap devem ser reinseridas ou inseridas no ponto exato do texto de forma a ficarem adequadas a cegos, no caso de texto no formato TXT. Como os nmeros ndices de notas de rodap so muito pequenos, em geral no so reconhecidos. Voc deve olhar o texto original para achar o ponto exato de insero. Os nmeros de pgina e rodaps ou cabealhos, se forem capturados (o que bom para voc localizar o texto no original), devem ser eliminados na verso corrigida do documento. Depois de revisado, o documento ODT pode ser gravado como TXT, para uso de cegos.

Como escanear livros com qualidade

73

8 Calcule o tempo de produo


Use esta tabela para calcular o tempo de produo de seus livros escaneados.
Operao
Escanear Limpar Gerar OCR Revisar Tempo total

Tempo uma pgina em s


30 35 5 120 190

Total de pginas
200 200 200 200 200

Tempo total em horas


0,83 0,97 0,14 3,33 5,28

Observe que, no caso de livros, so digitalizadas duas pginas ao mesmo tempo, em geral. Pela tabela, verifica-se que um livro de 200 pginas pode ser completamente digitalizado em um escaner HP Scanjet 2400C em seis horas de trabalho. Este manual, em sua distribuio hbrida PDF/ODT, contem embutida a verso do documento em formato ODT do LibreOffice este recurso no existe no pacote MS Office. Abra o PDF com o LibreOffice e, nas clulas salientadas acima, mude o nmero de pginas e seu tempo de produo em cada etapa, para calcular tempo total de produo.

Como escanear livros com qualidade

75

9 Faa OCR com software livre


Se voc no tiver em mos o software da HP, pode fazer OCR com software livre. S que, neste caso, no possvel se fazer PDF com texto pesquisvel, apenas gerar arquivos TXT. E os textos gerados precisam de um processamento um pouco mais complicado.

9.1 Instale os programas


Baixe o Tesseract (http://code.google.com/p/tesseract-ocr/), um OCR desenvolvido pela HP e posteriormente distribudo sob licena de software livre e adotado pelo Google. Baixe o gImageReader (http://sourceforge.net/projects/ gimagereader/files/0.9/) um front end (interface grfica) para o Tesseract. Estes dois softwares tm verses para Windows e para GNU/Linux.

76

Como escanear livros com qualidade

Instale primeiro o executvel Tesseract (tesseract-ocr-setup-3.011.exe). Durante a instalao, escolha as lnguas que sero reconhecidas. Em geral, no Brasil, para uso acadmico, recomendvel se instalar alemo, francs, italiano, espanhol e portugus, alm do default ingls.

Depois, instale o gImageReader (gimagereader_0.9-1_win32.exe). Opcionalmente, instale corretores ortogrficos no gImageReader. Copie os arquivos *.AFF e *.DIC de correo do LibreOffice, que esto na pasta c:\Arquivos de programas\LibreOffice 3.5\share\extensions\dict-br\ (e pastas \dict-fr, \dict-it, \dict-de, \dict-es etc.), para a pasta c:\Arquivos de programas\gimagereader\share\myspell\dicts\.

Como escanear livros com qualidade

77

Mas estes arquivos apenas ajudam a correo ortogrfica dentro do prprio gImageReader. Se voc fizer a correo dentro do LibreOffice, no so necessrios.

9.2 Use o gImageReader


Abra o gImageReader e clique no boto Acquire para escanear uma imagem ou Open para abrir imagens j existentes. Se abrir um painel lateral onde, na aba Acquire, voc escolhe o escaner (neste caso, escolha a interface WIA) e a resoluo (escolha 300 dpi). Clique no boto Scan para escanear a pgina.

O escaneamento demorado: o gImageReader escaneia todo o vidro em cores. Ser mais produtivo escanear todo o material em tons de

78

Como escanear livros com qualidade

cinza ou preto & branco no IrfanView e carregar as imagens pelo boto Open. Um bug do gImageReader no permite que se abram imagens cujos nomes de arquivos ou nome de qualquer pasta no caminho tipo \Minhas digitalizaes tenham acentos ou cedilhas. Escolhida a imagem, gire a pgina clicando no boto com a seta verde, se necessrio. Depois, escolha a linguagem, marque a rea a ser oceerrizada e clique no boto Recognize all (reconhea tudo).

Depois de alguns segundos, aparecer um terceiro painel com o texto reconhecido.

Como escanear livros com qualidade

79

O reconhecimento feito em uma rea por vez. Em pginas duplas de livros ou se o texto estiver em colunas, cada coluna deve ser reconhecida separadamente. Nos botes acima do terceiro painel, voc tem opo de: adicionar novo texto ao final de todo o texto j reconhecido; adicionar novo texto no ponto do cursor; ou substituir o trecho selecionado.

Neste painel, voc far a correo de texto. H algumas facilidades para isto: Se os corretores ortogrficos estiverem instalados, as palavras erradas aparecero marcadas. H um boto muito til para eliminao de quebras de pargrafos ao final de cada linha, para se reconstruir os pargrafos originais do texto. Uma opo deste boto permite que se mantenha a quebra de pargrafo depois de pontuaes (., !, ? e aspas).

80

Como escanear livros com qualidade

Voc pode fazer procura e troca em todo o texto reconhecido. bom para trocar hfen+espao por nada depois de se reconstruir os pargrafos, em caso de texto hifenizado. Prossiga escaneando e reconhecendo at o final do livro. Terminado o trabalho, conserte o texto e salve como TXT. Em geral, melhor fazer este trabalho num editor de texto com mais recursos, como o LibreOffice. Se o reconhecimento for muito defeituoso, voc pode tentar modificar o brilho, o contraste, aumentar resoluo da imagem e refazer o reconhecimento. Ligue a barra de ajustes no cone indicado abaixo:

Alm de imagens escaneadas, com o gImageReader tambm possvel se fazer OCR em arquivos PDF.

Como escanear livros com qualidade

81

10Faa OCR com Google Docs


Um timo OCR ad hoc2 o Google Docs. Ao enviar imagens ou PDFs para o Gdocs, voc pode escolher Converter texto de arquivos de imagem e PDF em documentos do Google Docs. Escolha a lngua do documento antes de enviar.

Ad hoc uma expresso latina cuja traduo literal "para isto" ou "para esta finalidade" <http://pt.wikipedia.org/wiki/Ad_hoc >. No contexto deste manual, sinnimo de quebra-galho momentneo.

82

Como escanear livros com qualidade

O Google Docs far o reconhecimento ptico de carcteres e criar um documento com a imagem e com o texto reconhecido abaixo. O resultado excelente! No exemplo abaixo, foi reconhecido o texto em colunas duas pginas de livro lado a lado e houve apenas dois ou trs erros: D0 em vez de Do, veZ em vez de vez... At a nota de rodap ficou perfeita.

A desvantagem que ele no faz OCR de documentos PDF muito grandes.

Como escanear livros com qualidade

83

11 Faa OCR em obras do Google Books


Eventualmente, voc pode ter encontrado uma publicao totalmente aberta no Google Books. Ou uma publicao que tenha liberado justamente o captulo que voc precisa. Para fazer OCR nestas pginas, voc deve salvar a imagem. Mas o Google Books normalmente no deixa salv-la. Para contornar esta limitao, instale no navegador Firefox ou Chrome a extenso Web Developer. Agora, com as teclas CTRL+SHIFT+S, possvel desligar-se a folha de estilos (CSS) e desformatar a pgina do Google Books, que ficar crua, permitindo a gravao de imagens. Na vista normal do Google Books, esconda o painel da esquerda e amplie a pgina ao mximo, nos botes correspondentes. Desligue a CSS com CTRL+SHIFT+S, role a tela at achar a pgina que voc quer e grave da maneira usual (boto da direita em cima da imagem Salvar imagem como...). Grave com o nmero da pgina para orientar-se mais tarde. O Google Books mostra, desta maneira, duas pginas por vez. Para capturar vrias pginas, na vista normal role a tela at o limite entre duas pginas. Capture-as conforme descrito, religue a CSS e role at as prximas duas pgina, e assim por diante. Algumas vezes a pgina est em formato PNG, outras vezes, em JPG. Isto no tem importncia. Em outros sites, voc pode capturar a tela em arquivos com o IrfanView (tecla C), e passar o OCR.