1 POLICENTRO TECNOLOGIA DA INFORMATICA S/A. CORPSERVICE COOPERATIVA DE SERVIOS S/A. SUMRIO Bem Vindo ao Guia de Converso de Documentos para o Formato PDF 1. Introduo 2. Sistemtica PDF Justificativa 3. Consideraes sobre o formato PDF 4. O Adobe Acrobat Reader 5. Realizao do OCR 6. Manipulao de arquivos PDF 6.1 Insero de Links de Navegao 6.2 Insero de Bookmarks 6.3 Incluso, excluso e movimentao das pginas da obra 6.4 Alterao do tamanho das pginas 6.5 Configurao da forma de visualizao do texto 7. Converso, uma alternativa captura de documentos. 8. Criao de Arquivos PDF usando o Acrobat PDF Writer 9. Consideraes finais 10. Referncias Bibliogrficas BEM VINDO AO GUIA DE CONVERSO DE DOCUMENTOS PARA O FORMATO PDF Este guia apresenta uma seqncia de passos e orientao direcionadas a converso de documentos atravs da criao de arquivos PDF (Portable Document Format), Formato de Documento Porttil. So demonstradas todas as etapas de converso para o formato digital PDF. O formato PDF pode ser visualizado atravs do software Adobe Acrobat Reader que encontra-se disponvel para download sem custo no site da empresa Adobe. O Adobe Acrobat Reader compatvel com qualquer navegador de Internet permitindo que as obras digitalizadas sejam visualizadas atravs da Internet. Para maiores informaes entre no site: http://www.cglobal.pucrs.br/bibdigital/bib/ Este Documento foi elaborado por: CLUDIO DA SILVA PEREIRA. Supervisor de Informtica. POLICENTRO TECNOLOGIA DA INFORMAO S/A CORPSERVICE COOPERATIVA DE SERVIOS S/A 2 1. INTRODUO Devido a necessidade de satisfazer as necessidades do cliente, nos da POLICENTRO TECNOLOGIA DA INFORMAO S/A, nos sentimos na obrigao de estarmos treinando os nossos colaboradores e assim estar promovendo um melhor aproveitamento desse profissional e assim contribuir para que capacite-se melhor na tecnologia de converso e criao de documentos em PDF. 2. SISTEMTICA PDF JUSTIFICATIVA Segundo a taxa de reconhecimento de um OCR para converso de documentos deve ser superior a 98%, caso contrrio mais eficiente realizar a redigitao do documento. Esta taxa de reconhecimento medida considerando o nmero de edies necessrias (insero, delees, substituies) frente ao nmero total de caracteres. No entanto, este dado no deve ser utilizado como referncia para trabalhos de digitalizao em larga escala, pois desconsidera todo o trabalho de localizao de erros no texto, que na maioria das vezes demanda em uma leitura completa da obra. Alm disso, quando o vocabulrio utilizado eminentemente tcnico, pode ser necessria a confrontao com a obra original em papel, par identificao da grafia de uma palavra. O que deve ser considerado efetivamente o volume de tempo despendido por um usurio, ao realizar a correo/conferncia de um texto reconhecido pelo OCR. Enquanto os softwares de OCR no atingirem uma taxa de reconhecimento de 100% ser necessria uma reviso meticulosa da obra para localizao e correo dos erros, atividade essa que torna a realizao de trabalhos de digitalizao em larga escala altamente custosos, sendo necessria a utilizao de grandes equipes com numerosos recursos para que o trabalho no se torne excessivamente demorado. A integrao de dicionrios ortogrficos ao processo de reconhecimento dos caracteres, como o procede o OmniPage 5.0, auxilia a identificao das palavras consideradas suspeitas. No entanto dado a impossibilidade de se construir um dicionrio eletrnico que abranja todos os termos tcnicos especficos de cada rea, nos diversos idiomas contemplados pelo acervo da Biblioteca do Ministrio da Sade, persiste a necessidade de realizao de uma leitura cuidadosa pois uma palavra assinalada como suspeita pode estar correta ou no. Como um agravante, muitas das obras do acervo da Biblioteca do Ministrio da Sade(aproximadamente 23.000 pginas), no apresentam um estado de conservao adequado a realizao da digitalizao por meio de software de OCR, tais como: Obras com pginas riscadas e com anotaes a lpis e a caneta; Obras com papis com gramatura muito fina (50 gr/m2) fazendo com que o texto de um lado seja visvel do outro lado; Obras com pginas amassadas, manchadas, sujas, deterioradas por mofo, traas ou mesmo pela prpria utilizao. Aliados a estes fatores pode-se mencionar tambm o fato de que a grande maioria das obras composta no somente de textos, contendo figuras, frmulas e esquemas grficos cujos softwares de OCR atuais no oferecem um tratamento adequado, sendo necessria a utilizao de um outro software par captura das imagens e posterior integrao. Tal procedimento exige muita interao do usurio e torna o tempo de digitalizao de uma obra muito alto considerando a amplitude em larga escala. Desta forma iniciou-se o trabalho de definio de uma nova sistemtica de digitalizao utilizando o software da empresa Adobe denominado Adobe Acrobat. Este software ir facilitar na realizao do trabalho de digitalizao dos livros do Ministrio da Sade e confeco de documentos o mais prximo possvel do documento original fsico, e possui caractersticas tais como: Facilidade de criao e publicao de documentos on-line; Mantm o layout original das obras digitalizadas; Utiliza o formato de arquivo PDF (Portable Document Format), que permite a criao de documentos multiplataforma que podem ser visualizados inclusive em browsers (softwares de navegao na Internet); POLICENTRO TECNOLOGIA DA INFORMAO S/A CORPSERVICE COOPERATIVA DE SERVIOS S/A 3 Possibilidade de captura e converso de grandes volumes de documentos com um baixo nvel de interao do usurio. Estas caractersticas se mostraram bastante adequadas ao tipo de trabalho que se tem para realizar. 3. CONSIDERAES SOBRE O FORMATO PDF PDF significa Portable Document Format, ou seja, documento de formato portvel, foi criado pela Adobe com a inteno de torn-lo um padro para distribuio eletrnica de documentos. Para visualizar um documento no formato PDF necessrio que se possua o software Adobe Acrobat Reader que um shareware (software que pode ser obtido se custos) e pode ser conseguido diretamente no site da Adobe, http://www.adobe.com. A maior vantagem do formato PDF relativa a digitalizao de documentos est no fato de que o layout original (look and fell) da obra mantido, ou seja, o texto destas distribudo exatamente como no original: paginao, ttulos, fotografias, grficos, figuras, notas de rodap etc. como se fotografssemos cada pgina de um livro e agrupssemos estas fotografias em um s arquivo digital, com facilidades para navegao. A criao dos arquivos no formato PDF pode ser realizada atravs de captura tica mediante a utilizao de um scanner, ou atravs dos softwares mais comuns do mercado, uma vez que atravs do Acrobat PDF Writer os dados enviados pela aplicao para a impressora so capturados e transformados em um arquivo PDF. No captulo 7 - Criao de arquivos PDF usando o Acrobat PDF Writer sero apresentados os procedimentos necessrios para a criao de arquivos PDF a partir de qualquer software que possua recursos de impresso e seja compatvel com o Windows 95 ou superior. Hoje, aproximadamente 250.000 sites (pginas na Internet) esto distribuindo informaes utilizando o formato PDF, e mais de 20 milhes de pessoas j realizaram o download do software Adobe Acrobat Reader que necessrio para a leitura de arquivos PDF, fato este que comprova a popularizao e aceitao do mesmo. Em relao ao espao requerido para armazenamento, o formato PDF armazena textos e figuras sem gerar arquivos muito grandes. Na tabela abaixo veremos a diferena entre vrios formatos de arquivos e o PDF com texto e com imagens: Formato do Arquivo Espao Ocupado BMP 280 Kb PDF (como imagem) 74 Kb GIF 74 Kb JPG 34 Kb DOC (word 7.0) 39 Kb PDF (com o texto reconhecido)* 21 Kb HTML + JPG 11 Kb Tabela 01 Comparativo entre os tamanhos de arquivos * O texto desta pgina foi reconhecido atravs de um software de OCR e corrigido utilizando o MS-Word 97. Aps foi gerado o documento PDF atravs da converso digital promovida pelo Adobe Writer. Maiores detalhes sobre esta converso sero apresentados no item 7. A partir dos dados da tabela percebe-se que o formato PDF ocupa praticamente o mesmo espao que o formato GIF, quando trata a pgina como imagem, ou seja, sem proceder o reconhecimento tico dos caracteres (OCR). Uma vantagem a ser considerada do formato PDF est no fato de que ele voltado par criao e publicao de documento eletrnicos, permitindo dessa forma a incluso de recursos que facilitam a navegao entre pginas como POLICENTRO TECNOLOGIA DA INFORMAO S/A CORPSERVICE COOPERATIVA DE SERVIOS S/A 4 hiperlinks, bookmarks, recursos de zoom e assim por diante. No item 4 O Adobe Acrobat Reader maiores detalhes sero apresentados. Pode-se perceber tambm a possibilidade de se trabalhar com as obras somente como imagem, ou como texto possuindo imagens. desejvel, sempre que possvel, trabalhar as obras como texto possuindo imagens, pois uma srie de vantagens esto relacionadas como: Ocupa aproximadamente 28 % do espao ocupado somente pela imagem Permite a realizao de pesquisas full-text Permite a seleo do texto podendo este ser transportado par um editor comum com os comandos de copiar e colar. No entanto, os dois ltimos itens citados (pesquisa full-text e seleo de texto) esto condicionados a existncia do arquivo PDF localmente, no podendo ser realizada atravs de um browser via Internet, o que obriga a realizao do download do arquivo PDF (quando disponvel) par viabilizao destes recursos. Para transformao da imagem em texto necessria a realizao de OCR, ou a converso de documento j existente no formato digital. Maiores detalhes podem ser encontrados no item 5 Realizao do OCR e no item 7 Criao de arquivos PDF usando o Acrobat PDF Writer. 4. O ADOBE ACROBAT READER O Software Acrobat Reader permite a navegao por arquivos do formato PDF. Uma das caractersticas mais positiva do software em sua verso 5.0, o fato de que este trabalha integrado a um browser, de forma que se um site qualquer em um browser possui uma referncia para um arquivo do formato PDF, automaticamente (se o software estiver instalado) o Acrobat Reader iniciado e o texto visualizado dentro do browser. um software que executado dentro de uma janela de browser. Uma obra digital, no formato PDF permite a criao de links e bookmarks, que aprimoram significativamente a navegabilidade do texto, facilitando sua leitura. Para incluso destes recursos necessrio o software Adobe Acrobat Exchange. Os hiperlinks tornam possvel que, atravs de um clique sobre a referncia de um captulo no ndice, se acesse diretamente o contedo deste capitulo, ou ainda clicando sobre uma referncia bibliogrfica pode-se diretamente ler a obra referenciada na integra (se esta existir no formato digital). A utilizao de bookmarks cria facilidades de navegao como acesso direto ao prximo captulo, captulo anterior e ndice, ou ainda fazer referncia a sites que contm informaes relacionada com o assunto. Aliado a estas facilidades de navegao, o Adobe Acrobat Reader possui ferramentas para auxiliar o usurio na visualizao do contedo da obra. So ferramentas de zoom, movimentao e layout das pginas. Tambm possvel imprimir um arquivo em partes ou na integra. Uma caracterstica no formato texto, no possvel a realizao de pesquisas full-text, bem como a seleo de trechos de texto dentro da janela do browser. Para tanto necessrio realizar o download do arquivo PDF para posteriormente abri-lo localmente com o Adobe Acrobat Reader. 5. REALIZAO DE OCR Um dos objetivos previstos era a possibilidade de realizao de pesquisas full-text na obra. Para tanto seria necessrio que as imagens digitalizadas passassem por um processo de reconhecimento tico de caracteres (OCR), ou seja, a transformao da imagem em texto. A realizao de OCR em arquivos no formato PDF tambm feita pelo software Adobe Acrobat Exchange, o qual possui interface adequada para a tarefa, sendo possvel a realizao do processo sobre todas as pginas de uma vez s. POLICENTRO TECNOLOGIA DA INFORMAO S/A CORPSERVICE COOPERATIVA DE SERVIOS S/A 5 No entanto foi frustrante descobrir que o software em sua verso 3.01 no possui dicionrio para reconhecimento das palavras e caracteres da lngua portuguesa, o que inviabilizou a realizao do OCR e por conseqncia a transformao da imagem capturada via scanner em um texto. Cumpre aqui ressaltar duas caractersticas interessantes relacionadas ao OCR aplicado pelo Acrobat Exchange. Quando da aplicao do OCR nas pginas de uma obra no formato digital, alm possibilidade de realizao de pesquisas, manipulao e edio do texto, estes arquivos ocupam um espao aproximadamente 4 vezes menor que os arquivos que contm somente imagens. As palavras que contenham caracteres que ele no reconhece so mantidas como imagens, de forma que a leitura do texto continue possvel. Dado a inviabilidade de realizao do OCR, alguns dos objetivos traados no inicio tiveram que ser abandonados. Em especial a possibilidade de realizao de pesquisas no texto da obra. Como a possibilidade de realizao deste tipo de pesquisa desejvel no mbito da Biblioteca Digital do Ministrio da Sade, surgiu a necessidade de pesquisar outros softwares de OCR que possuam tratamento para os caracteres do idioma portugus. Esta pesquisa estava em andamento e j foi concludo com a incluso de dois softwares de OCR, o Cuneiform 99 e o OmniPage 14. 6. MANIPULAO DE ARQUIVOS PDF Para a manipulao de arquivos PDF, necessrio o software Adobe Acrobat Exchange. Este software no shareware, logo necessrio adquirir uma licena para utiliza-lo. O software permite a manipulao dos arquivos PDF, dentre elas as principais so: 6.1 Insero de links de navegao. 6.2 Insero de bookmarks. 6.3 Incluso, excluso e movimentao das pginas da obra. 6.4 Alterao do tamanho das pginas 6.5 Configurao da forma de visualizao do texto. A seguir sero demonstradas as operaes acima descritas. 6.5 INSERO DE LINKS DE NAVEGAO A insero de links de navegao foi realizada com o intuito de facilitar a navegao entre o ndice e os captulos da obra, de forma que ao clicar sobre o boto Link Tool salientado na figura 01 e definir a posio do link desenhando um retngulo com o mouse no local desejado. Figura 01 - Definindo Links de Navegao. POLICENTRO TECNOLOGIA DA INFORMAO S/A CORPSERVICE COOPERATIVA DE SERVIOS S/A 6 Aps desenhar um link, surge a caixa de dilogo Create Link solicitando as configuraes de aparncia e funcionamento do mesmo, e ainda permitindo que o usurio navegue at o destino desejado para o link e pressione o boto Set Link, Salientado na figura 02 . Figura 02 - Configuraes do Link 6.5 INSERO DE BOOKMARKS Da mesma forma, a insero de bookmarks tambm promove facilidades de navegao . As bookmarks so palavras que aparecem do lado esquerdo da tela quando o Reader est na forma de visualizao Bookmarks and Page, conforme ilustra a figura 03 . Figura 03 - Visualizando as Bookmarks O funcionamento o mesmo do link, basta clicar sobre a palavra que a aplicao alternar imediatamente para o destino especificado na bookmark. Para realizar a insero da bookmark deve-se clicar no menu Document, na opo New Bookmark, como ilustra a figura 04 . Figura 04 - Criando uma Bookmark POLICENTRO TECNOLOGIA DA INFORMAO S/A CORPSERVICE COOPERATIVA DE SERVIOS S/A 7 A seguir ser solicitado o texto que representar a bookmark na parte da janela. Para definir o destino correspondente a bookmark recm criada, deve-se clicar sobre a mesma e no menu edit selecionar a opo properties (Ctrl + l) surgindo ento a janela ilustrada na figura 05. Figura 05 - Configurando a Bookmark No campo type salientado na figura 05, define-se o tipo de destino correspondente a bookmark. As bookmarks permitem que o destino seja um arquivo, uma URL, um som, uma forma de visualizao etc. Aps selecionar o tipo a parte inferior desta mesma janela solicitar os dados complementares do destino, como por exemplo a localizao de um arquivo, ou uma URL. 6.5 INCLUSO, EXCLUSO E MOVIMENTAO DAS PGINAS DA OBRA No trabalho de digitalizao do Ministrio da Sade, foi necessria a separao dos arquivos contendo as pginas digitalizadas, em capitulo, conforme os originais. Tal diviso se deu pelo seguinte motivos: desejvel que um usurio em um site, ao clicar sobre o link que d acesso ao texto da obra digitalizada, no espere muito pela carga do texto, de forma que a diviso em captulos permite que o texto na integra seja carregado em partes pequenas de no mximo 3 Mb o faz com que a acelerao seja mais rpida facilitando a leitura da obra. Logo, como desejava-se realizar a digitalizao de forma mais rpida possvel, foram inseridos grupos de 10 imagens , cada um para ser gerado um arquivo PDF. Ao final da digitalizao houve a necessidade de reorganizao dos arquivos PDF, separando a cada 3mb em um arquivo diferente, mantendo o texto de um capitulo separado do outro em cada arquivo. Algumas partes que contem captulos longos esto gerando arquivos com tamanho inadequado para a transmisso, via rede. Estes captulos foram divididos em dois ou trs arquivos. Para proceder a separao em captulos, foi necessrio realizar a incluso, excluso e movimentao de pginas nos arquivos. Por exemplo, o primeiro arquivo contendo as sessenta primeiras pginas digitalizadas continham quatro captulos e uma parte do quinto capitulo. As pginas correspondentes ao primeiro capitulo foram extradas do arquivo e inseridas em um novo arquivo que foi salvo com o nome de cap1.pdf. A seguir o mesmo procedimento foi realizado para os captulos restantes. As quatro operaes necessrias para tal so: Insero de pginas (Insert Pages) Extrao de pginas (Extract Pages) Sobreposio de pginas (Replace Pages) Excluso de pginas (Delete Pages) POLICENTRO TECNOLOGIA DA INFORMAO S/A CORPSERVICE COOPERATIVA DE SERVIOS S/A 8 A figura 06 mostra como acessar este comandos. Figura 06. Comando para manipulao de pginas nos arquivos 6.5 ALTERAO DO TAMANHO DAS PGINAS A obra Ministrio da Sade composta de pginas de tamanhos variados, como 29.7 x 21, ou ainda 15 x 22. No momento da insero das pginas no scanner, detectou que algumas paginas foram escaneadas com tamanhos diferentes e inseridas no arquivo PDF e posteriormente foram redimensionadas conforme o espao necessrio para o texto. Para alterar o tamanho das pginas utiliza-se a opo Crop Pages do menu document (cortar pginas ) conforme ilustra a figura 07. Figura 07. A opo Crop Pages POLICENTRO TECNOLOGIA DA INFORMAO S/A CORPSERVICE COOPERATIVA DE SERVIOS S/A 9 A seguir deve-se especificar o tamanho das margens esquerda (left), direita (right), superior (top), inferior (bottom), que sero retiradas da pgina, e tambm o intervalo de pginas na qual os cortes sero aplicados, conforme ilustra a figura 08. Figura 08. Definindo os cortes na pgina Aps pressionado o boto OK esta tarefa est terminada. 6.5 CONFIGURAO DA FORMA DE VISUALIZAO DO TEXTO No Adobe Acrobat Reader, existe diversas configuraes relativas a forma de visualizao do texto. Estas opes podem ser encontradas no menu View conforme ilustra a figura 09 a seguir. Figura 09. As opes de visualizao POLICENTRO TECNOLOGIA DA INFORMAO S/A CORPSERVICE COOPERATIVA DE SERVIOS S/A 10 A tabela 3 mostra uma breve descrio dos itens relativos a forma de apresentao das pginas salientados na figura 09. Actual Size Exibe a pgina em seu tamanho original (100%). Fit Page Encaixa a pgina inteira na tela. Fit Width Encaixa a Largura da pgina na tela. Fit Visible Encaixa o texto da pgina na tela. Zoom to Permite que o usurio escolha o valor de zoom da pgina. Full Screen Exibe em tela cheia. Sigle Page A transio entre as pginas descontinua. Ao ultrapassar o final de uma pgina, a prxima exibida usando toda a tela. Continuous Permite a transio contnua entre as pginas atravs da barra de rolagem, sendo possvel visualizar simultaneamente o final de uma. Continuous Facing Pages Transio continua com as pginas lado a lado (duas pginas na tela). Page Only Exibe somente a pgina na tela. Bookmark and Page Exibe a pgina e as bookmarks na parte esquerda da tela. Thumbnails and Page Exibe a pgina e thumbnails (miniaturas das pgina) na parte esquerda da tela. Tabela 2 Configurao de Visualizao. Tambm importante proceder a configurao da forma de visualizao inicial do arquivo quando este for ser aberto por um usurio em um browser. Para tanto necessrio acessar as configuraes relativas a abertura do arquivo no menu file/Open, conforme ilustra a figura 10. Figura 10. Acessando as configuraes da viso inicial do texto POLICENTRO TECNOLOGIA DA INFORMAO S/A CORPSERVICE COOPERATIVA DE SERVIOS S/A 11 As opes disponveis para visualizao inicial das pginas no Acrobat Reader devem ser selecionadas considerando a legibilidade das pginas da obra, ou seja, deve ser possvel realizar a leitura do texto da obra a partir da visualizao selecionada. Portanto deve-se escolher o conjunto de opes mais adequado para tornar a leitura e navegao do texto agradveis, para tanto basta testar anteriormente uma configurao adequada, valendo-se das informaes da tabela 1, e posteriormente seleciona-la na janela Open Info ilustrada na figura 11. Figura 11 - A janela Open Info A figura 11 representa tambm as opes escolhidas neste trabalho para visualizao inicial dos captulos do Ministrio da Sade, sendo estas opes recomendadas quando o documento possuir bookmarks. Nos captulos de ndice e fichas catalogrficas foram escolhidas configuraes diferentes (Magnification: Fit Page), uma vez que, nesses casos, era interessante que se disponibilizasse a visualizao das pginas por inteiro. Com isso a obra digitalizada est preparada para ser acessada, proporcionando ao usurio facilidades para leitura do texto e navegao entre as pginas e captulos da obra. 7. CONVERSO, UMA ALTERNATIVA CAPTURA DE DOCUMENTOS Tendo em vista a inadequao do OCR, decidiu-se pesquisar alternativas que tornassem, possvel a realizao de pesquisas full-text. Uma possibilidade encontrada foi a converso de documentos j existentes no formato digital para o formato PDF, evitando dessa forma a necessidade de reconhecimento ptico dos caracteres, uma vez que o documento original no ferado atravs da captura de imagens com uso de um scanner. Decidiu-se ento, realizar um trabalho de converso de documentos como complemento do processo de digitalizao e disponibilizao de obras no formato digital PDF. O trabalho de converso consistiu na carga destes arquivos, atravs da utilizao de verses mais recentes do Word, e posteriormente a impresso dos mesmos utilizando o driver de impresso denominado Adobe PDF Writer. Este driver se encarrega de capturar a impresso e converte-la para o arquivo PDF. Maiores detalhes da utilizao do Adobe PDF Writer so explicado no capitulo a seguir. Os arquivos foram convertidos separadamente, isto , ao final do processo de converso haviam diversos arquivos PDF, cada qual correspondendo ao contedo de um arquivo original do Word. Foi necessrio agrupar estes arquivos no formato impresso na biblioteca do MS. POLICENTRO TECNOLOGIA DA INFORMAO S/A CORPSERVICE COOPERATIVA DE SERVIOS S/A 12 A converso produziu um resultado considerado excelente, Sem maiores dificuldades foi possvel agrupar todas as partes que formavam a dissertao (arquivo do Word) em um mesmo arquivo no formato digital, sem a preocupao maiores com as verses dos softwares utilizados. Os procedimentos utilizados para agrupamento e manipulao dos arquivos PDF so os mesmos explicados no capitulo 06 - Manipulao de Arquivos PDF. 8. CRIAO DE ARQUIVOS PDF USANDO O ACROBAT PDF WRITER Para criao de arquivos PDF a partir de qualquer software que seja compatvel com o Windows 95, 98, nt, me, 2000 e xp, necessrio a utilizao do Acrobat PDF Writer. O Acrobat PDF Writer funciona como um driver de impressora ( impressora Virtual). Uma vez instalado no Windows ele cria uma nova impressora com o nome de Acrobat PDF Writer. Este driver de impressora torna-se disponvel par qualquer software do Windows comportando-se como um driver de uma impressora qualquer. A figura 12 ilustra o driver. Figura 12 - O driver do Acrobat PDF Writer Para que seja criado um arquivo PDF a partir de um software qualquer deve-se ativar o comando de impresso correspondente e, necessariamente, deve ser escolhida a impressora Acrobat PDF Writer. Ao confirmar o pedido de impresso o driver captura a impresso e solicita um nome para o arquivo PDF que ser criado conforme ilustra a figura 13. Figura 13 - Nomeando o arquivo PDF. Terminada a impresso, o arquivo PDF est pronto para ser visualizado atravs do Acrobat Reader e reproduz fielmente o layout de texto e imagem do documento original. 9. CONSIDERAES FINAIS POLICENTRO TECNOLOGIA DA INFORMAO S/A CORPSERVICE COOPERATIVA DE SERVIOS S/A 13 A sistemtica de digitalizao definida neste documento utiliza o formato de arquivo PDF proprietrio da empresa Adobe Corporations. Este documento no objetivou esgotar todos os recursos oferecidos por este formato de publicao digital. As tarefas relativas a pesquisa de texto e proteo das publicaes atravs da utilizao de senhas no foram exploradas. Ao final deste trabalho, os colaboradores da empresa POLICENTRO TI, consideraram positivos os resultados obtidos com esta sistemtica. O principal ponto a favor da sistemtica PDF o tempo total demandado para transformao de uma obra em papel para o formato digital. Este ponto merece especial importncia, pois torna vivel a realizao do processo em larga escala, caracterstica desejada pela amplitude do projeto da biblioteca do Ministrio da Sade. Os pontos contra sistemtica PDF so menos crticos, tais como o espao de armazenagem, tempo de transmisso em rede, impossibilidade de realizao de pesquisas full-text (para o caso da captura) e manipulao do texto. No entanto, com a possibilidade de realizao de converses dos documentos j existentes no formato digital para o formato PDF indicam uma maior facilidade de formao de uma acervo contendo documentos mais recentes (que teoricamente j existem em meio digital) alm de favorecer a padronizao das publicaes digitais e, por conseqncia, o seu posterior armazenamento, busca e manipulao. Deve-se registrar que os problemas relativos a conservao do acervo mencionado no item 2 deste documento, continuam a criar dificuldades para a realizao do trabalho, mesmo na sistemtica PDF. No entanto, a no obrigatoriedade do reconhecimento ptico de caracteres nos arquivos PDF minimiza muitos destes problemas. de suma importncia que se desenvolvam ferramentas para realizao de tratamento pticos nos arquivos de imagens, que filtrem automaticamente as caractersticas indesejveis trais como adulteraes, manchas, amassados entre outros. Pelos motivos descritos, a sistemtica PDF a atual escolha desta empresa para a realizao da captura e converso de documentos. 10. REFERENCIAS BIBLIOGFICAS (ADO 98a) ADOBE ACROBAT 3.0 PRODUCT INFORMATION (ADO 98b) ADOBE PDF (HAI 96) HAIGH, SUSAN; OPTICAL CHARACTER RECOGNITION (OCR) AS A DIGITIZATION TECHONOLOGY.