316 - Outras Linguagens de Programação

Você também pode gostar

Você está na página 1de 13

POLICENTRO TECNOLOGIA DA INFORMAO S/A

CORPSERVICE COOPERATIVA DE SERVIOS S/A


1
POLICENTRO TECNOLOGIA DA INFORMATICA S/A.
CORPSERVICE COOPERATIVA DE SERVIOS S/A.
SUMRIO
Bem Vindo ao Guia de Converso de Documentos para o Formato PDF
1. Introduo
2. Sistemtica PDF Justificativa
3. Consideraes sobre o formato PDF
4. O Adobe Acrobat Reader
5. Realizao do OCR
6. Manipulao de arquivos PDF
6.1 Insero de Links de Navegao
6.2 Insero de Bookmarks
6.3 Incluso, excluso e movimentao das pginas da obra
6.4 Alterao do tamanho das pginas
6.5 Configurao da forma de visualizao do texto
7. Converso, uma alternativa captura de documentos.
8. Criao de Arquivos PDF usando o Acrobat PDF Writer
9. Consideraes finais
10. Referncias Bibliogrficas
BEM VINDO AO GUIA DE CONVERSO DE DOCUMENTOS PARA O FORMATO PDF
Este guia apresenta uma seqncia de passos e orientao direcionadas a converso de documentos atravs da
criao de arquivos PDF (Portable Document Format), Formato de Documento Porttil. So demonstradas todas as
etapas de converso para o formato digital PDF. O formato PDF pode ser visualizado atravs do software Adobe
Acrobat Reader que encontra-se disponvel para download sem custo no site da empresa Adobe. O Adobe Acrobat
Reader compatvel com qualquer navegador de Internet permitindo que as obras digitalizadas sejam visualizadas
atravs da Internet.
Para maiores informaes entre no site:
http://www.cglobal.pucrs.br/bibdigital/bib/
Este Documento foi elaborado por:
CLUDIO DA SILVA PEREIRA.
Supervisor de Informtica.
POLICENTRO TECNOLOGIA DA INFORMAO S/A
CORPSERVICE COOPERATIVA DE SERVIOS S/A
2
1. INTRODUO
Devido a necessidade de satisfazer as necessidades do cliente, nos da POLICENTRO TECNOLOGIA DA
INFORMAO S/A, nos sentimos na obrigao de estarmos treinando os nossos colaboradores e assim estar
promovendo um melhor aproveitamento desse profissional e assim contribuir para que capacite-se melhor na tecnologia
de converso e criao de documentos em PDF.
2. SISTEMTICA PDF JUSTIFICATIVA
Segundo a taxa de reconhecimento de um OCR para converso de documentos deve ser superior a 98%, caso
contrrio mais eficiente realizar a redigitao do documento.
Esta taxa de reconhecimento medida considerando o nmero de edies necessrias (insero, delees,
substituies) frente ao nmero total de caracteres. No entanto, este dado no deve ser utilizado como referncia para
trabalhos de digitalizao em larga escala, pois desconsidera todo o trabalho de localizao de erros no texto, que na
maioria das vezes demanda em uma leitura completa da obra. Alm disso, quando o vocabulrio utilizado
eminentemente tcnico, pode ser necessria a confrontao com a obra original em papel, par identificao da grafia de
uma palavra.
O que deve ser considerado efetivamente o volume de tempo despendido por um usurio, ao realizar a
correo/conferncia de um texto reconhecido pelo OCR.
Enquanto os softwares de OCR no atingirem uma taxa de reconhecimento de 100% ser necessria uma reviso
meticulosa da obra para localizao e correo dos erros, atividade essa que torna a realizao de trabalhos de
digitalizao em larga escala altamente custosos, sendo necessria a utilizao de grandes equipes com numerosos
recursos para que o trabalho no se torne excessivamente demorado.
A integrao de dicionrios ortogrficos ao processo de reconhecimento dos caracteres, como o procede o
OmniPage 5.0, auxilia a identificao das palavras consideradas suspeitas. No entanto dado a impossibilidade de se
construir um dicionrio eletrnico que abranja todos os termos tcnicos especficos de cada rea, nos diversos idiomas
contemplados pelo acervo da Biblioteca do Ministrio da Sade, persiste a necessidade de realizao de uma leitura
cuidadosa pois uma palavra assinalada como suspeita pode estar correta ou no.
Como um agravante, muitas das obras do acervo da Biblioteca do Ministrio da Sade(aproximadamente 23.000
pginas), no apresentam um estado de conservao adequado a realizao da digitalizao por meio de software de
OCR, tais como:
Obras com pginas riscadas e com anotaes a lpis e a caneta;
Obras com papis com gramatura muito fina (50 gr/m2) fazendo com que o texto de um lado seja visvel do
outro lado;
Obras com pginas amassadas, manchadas, sujas, deterioradas por mofo, traas ou mesmo pela prpria
utilizao.
Aliados a estes fatores pode-se mencionar tambm o fato de que a grande maioria das obras composta no
somente de textos, contendo figuras, frmulas e esquemas grficos cujos softwares de OCR atuais no oferecem um
tratamento adequado, sendo necessria a utilizao de um outro software par captura das imagens e posterior
integrao. Tal procedimento exige muita interao do usurio e torna o tempo de digitalizao de uma obra muito alto
considerando a amplitude em larga escala.
Desta forma iniciou-se o trabalho de definio de uma nova sistemtica de digitalizao utilizando o software da
empresa Adobe denominado Adobe Acrobat. Este software ir facilitar na realizao do trabalho de digitalizao dos
livros do Ministrio da Sade e confeco de documentos o mais prximo possvel do documento original fsico, e
possui caractersticas tais como:
Facilidade de criao e publicao de documentos on-line;
Mantm o layout original das obras digitalizadas;
Utiliza o formato de arquivo PDF (Portable Document Format), que permite a criao de documentos
multiplataforma que podem ser visualizados inclusive em browsers (softwares de navegao na Internet);
POLICENTRO TECNOLOGIA DA INFORMAO S/A
CORPSERVICE COOPERATIVA DE SERVIOS S/A
3
Possibilidade de captura e converso de grandes volumes de documentos com um baixo nvel de interao do
usurio.
Estas caractersticas se mostraram bastante adequadas ao tipo de trabalho que se tem para realizar.
3. CONSIDERAES SOBRE O FORMATO PDF
PDF significa Portable Document Format, ou seja, documento de formato portvel, foi criado pela Adobe com a
inteno de torn-lo um padro para distribuio eletrnica de documentos.
Para visualizar um documento no formato PDF necessrio que se possua o software Adobe Acrobat Reader que
um shareware (software que pode ser obtido se custos) e pode ser conseguido diretamente no site da Adobe,
http://www.adobe.com.
A maior vantagem do formato PDF relativa a digitalizao de documentos est no fato de que o layout original
(look and fell) da obra mantido, ou seja, o texto destas distribudo exatamente como no original: paginao, ttulos,
fotografias, grficos, figuras, notas de rodap etc. como se fotografssemos cada pgina de um livro e agrupssemos
estas fotografias em um s arquivo digital, com facilidades para navegao.
A criao dos arquivos no formato PDF pode ser realizada atravs de captura tica mediante a utilizao de um
scanner, ou atravs dos softwares mais comuns do mercado, uma vez que atravs do Acrobat PDF Writer os dados
enviados pela aplicao para a impressora so capturados e transformados em um arquivo PDF. No captulo 7 - Criao
de arquivos PDF usando o Acrobat PDF Writer sero apresentados os procedimentos necessrios para a criao de
arquivos PDF a partir de qualquer software que possua recursos de impresso e seja compatvel com o Windows 95 ou
superior.
Hoje, aproximadamente 250.000 sites (pginas na Internet) esto distribuindo informaes utilizando o formato
PDF, e mais de 20 milhes de pessoas j realizaram o download do software Adobe Acrobat Reader que necessrio
para a leitura de arquivos PDF, fato este que comprova a popularizao e aceitao do mesmo.
Em relao ao espao requerido para armazenamento, o formato PDF armazena textos e figuras sem gerar
arquivos muito grandes.
Na tabela abaixo veremos a diferena entre vrios formatos de arquivos e o PDF com texto e com imagens:
Formato do Arquivo Espao Ocupado
BMP 280 Kb
PDF (como imagem) 74 Kb
GIF 74 Kb
JPG 34 Kb
DOC (word 7.0) 39 Kb
PDF (com o texto reconhecido)* 21 Kb
HTML + JPG 11 Kb
Tabela 01 Comparativo entre os tamanhos de arquivos
* O texto desta pgina foi reconhecido atravs de um software de OCR e corrigido utilizando o MS-Word 97. Aps foi
gerado o documento PDF atravs da converso digital promovida pelo Adobe Writer. Maiores detalhes sobre esta
converso sero apresentados no item 7.
A partir dos dados da tabela percebe-se que o formato PDF ocupa praticamente o mesmo espao que o formato
GIF, quando trata a pgina como imagem, ou seja, sem proceder o reconhecimento tico dos caracteres (OCR).
Uma vantagem a ser considerada do formato PDF est no fato de que ele voltado par criao e publicao de
documento eletrnicos, permitindo dessa forma a incluso de recursos que facilitam a navegao entre pginas como
POLICENTRO TECNOLOGIA DA INFORMAO S/A
CORPSERVICE COOPERATIVA DE SERVIOS S/A
4
hiperlinks, bookmarks, recursos de zoom e assim por diante. No item 4 O Adobe Acrobat Reader maiores detalhes
sero apresentados.
Pode-se perceber tambm a possibilidade de se trabalhar com as obras somente como imagem, ou como texto
possuindo imagens.
desejvel, sempre que possvel, trabalhar as obras como texto possuindo imagens, pois uma srie de vantagens
esto relacionadas como:
Ocupa aproximadamente 28 % do espao ocupado somente pela imagem
Permite a realizao de pesquisas full-text
Permite a seleo do texto podendo este ser transportado par um editor comum com os comandos de copiar e
colar.
No entanto, os dois ltimos itens citados (pesquisa full-text e seleo de texto) esto condicionados a existncia
do arquivo PDF localmente, no podendo ser realizada atravs de um browser via Internet, o que obriga a realizao do
download do arquivo PDF (quando disponvel) par viabilizao destes recursos.
Para transformao da imagem em texto necessria a realizao de OCR, ou a converso de documento j
existente no formato digital. Maiores detalhes podem ser encontrados no item 5 Realizao do OCR e no item 7
Criao de arquivos PDF usando o Acrobat PDF Writer.
4. O ADOBE ACROBAT READER
O Software Acrobat Reader permite a navegao por arquivos do formato PDF.
Uma das caractersticas mais positiva do software em sua verso 5.0, o fato de que este trabalha integrado a um
browser, de forma que se um site qualquer em um browser possui uma referncia para um arquivo do formato PDF,
automaticamente (se o software estiver instalado) o Acrobat Reader iniciado e o texto visualizado dentro do
browser. um software que executado dentro de uma janela de browser.
Uma obra digital, no formato PDF permite a criao de links e bookmarks, que aprimoram significativamente a
navegabilidade do texto, facilitando sua leitura. Para incluso destes recursos necessrio o software Adobe Acrobat
Exchange.
Os hiperlinks tornam possvel que, atravs de um clique sobre a referncia de um captulo no ndice, se acesse
diretamente o contedo deste capitulo, ou ainda clicando sobre uma referncia bibliogrfica pode-se diretamente ler a
obra referenciada na integra (se esta existir no formato digital).
A utilizao de bookmarks cria facilidades de navegao como acesso direto ao prximo captulo, captulo
anterior e ndice, ou ainda fazer referncia a sites que contm informaes relacionada com o assunto.
Aliado a estas facilidades de navegao, o Adobe Acrobat Reader possui ferramentas para auxiliar o usurio na
visualizao do contedo da obra. So ferramentas de zoom, movimentao e layout das pginas. Tambm possvel
imprimir um arquivo em partes ou na integra.
Uma caracterstica no formato texto, no possvel a realizao de pesquisas full-text, bem como a seleo de
trechos de texto dentro da janela do browser. Para tanto necessrio realizar o download do arquivo PDF para
posteriormente abri-lo localmente com o Adobe Acrobat Reader.
5. REALIZAO DE OCR
Um dos objetivos previstos era a possibilidade de realizao de pesquisas full-text na obra. Para tanto seria
necessrio que as imagens digitalizadas passassem por um processo de reconhecimento tico de caracteres (OCR), ou
seja, a transformao da imagem em texto.
A realizao de OCR em arquivos no formato PDF tambm feita pelo software Adobe Acrobat Exchange, o
qual possui interface adequada para a tarefa, sendo possvel a realizao do processo sobre todas as pginas de uma vez
s.
POLICENTRO TECNOLOGIA DA INFORMAO S/A
CORPSERVICE COOPERATIVA DE SERVIOS S/A
5
No entanto foi frustrante descobrir que o software em sua verso 3.01 no possui dicionrio para reconhecimento
das palavras e caracteres da lngua portuguesa, o que inviabilizou a realizao do OCR e por conseqncia a
transformao da imagem capturada via scanner em um texto.
Cumpre aqui ressaltar duas caractersticas interessantes relacionadas ao OCR aplicado pelo Acrobat Exchange.
Quando da aplicao do OCR nas pginas de uma obra no formato digital, alm possibilidade de realizao de
pesquisas, manipulao e edio do texto, estes arquivos ocupam um espao aproximadamente 4 vezes menor que os
arquivos que contm somente imagens.
As palavras que contenham caracteres que ele no reconhece so mantidas como imagens, de forma que a leitura
do texto continue possvel.
Dado a inviabilidade de realizao do OCR, alguns dos objetivos traados no inicio tiveram que ser
abandonados. Em especial a possibilidade de realizao de pesquisas no texto da obra.
Como a possibilidade de realizao deste tipo de pesquisa desejvel no mbito da Biblioteca Digital do
Ministrio da Sade, surgiu a necessidade de pesquisar outros softwares de OCR que possuam tratamento para os
caracteres do idioma portugus. Esta pesquisa estava em andamento e j foi concludo com a incluso de dois softwares
de OCR, o Cuneiform 99 e o OmniPage 14.
6. MANIPULAO DE ARQUIVOS PDF
Para a manipulao de arquivos PDF, necessrio o software Adobe Acrobat Exchange. Este software no
shareware, logo necessrio adquirir uma licena para utiliza-lo.
O software permite a manipulao dos arquivos PDF, dentre elas as principais so:
6.1 Insero de links de navegao.
6.2 Insero de bookmarks.
6.3 Incluso, excluso e movimentao das pginas da obra.
6.4 Alterao do tamanho das pginas
6.5 Configurao da forma de visualizao do texto.
A seguir sero demonstradas as operaes acima descritas.
6.5 INSERO DE LINKS DE NAVEGAO
A insero de links de navegao foi realizada com o intuito de facilitar a navegao entre o ndice e os captulos
da obra, de forma que ao clicar sobre o boto Link Tool salientado na figura 01 e definir a posio do link
desenhando um retngulo com o mouse no local desejado.
Figura 01 - Definindo Links de Navegao.
POLICENTRO TECNOLOGIA DA INFORMAO S/A
CORPSERVICE COOPERATIVA DE SERVIOS S/A
6
Aps desenhar um link, surge a caixa de dilogo Create Link solicitando as configuraes de aparncia e
funcionamento do mesmo, e ainda permitindo que o usurio navegue at o destino desejado para o link e pressione o
boto Set Link, Salientado na figura 02 .
Figura 02 - Configuraes do Link
6.5 INSERO DE BOOKMARKS
Da mesma forma, a insero de bookmarks tambm promove facilidades de navegao . As bookmarks so
palavras que aparecem do lado esquerdo da tela quando o Reader est na forma de visualizao Bookmarks and Page,
conforme ilustra a figura 03 .
Figura 03 - Visualizando as Bookmarks
O funcionamento o mesmo do link, basta clicar sobre a palavra que a aplicao alternar imediatamente para o
destino especificado na bookmark.
Para realizar a insero da bookmark deve-se clicar no menu Document, na opo New Bookmark, como ilustra
a figura 04 .
Figura 04 - Criando uma Bookmark
POLICENTRO TECNOLOGIA DA INFORMAO S/A
CORPSERVICE COOPERATIVA DE SERVIOS S/A
7
A seguir ser solicitado o texto que representar a bookmark na parte da janela.
Para definir o destino correspondente a bookmark recm criada, deve-se clicar sobre a mesma e no menu edit
selecionar a opo properties (Ctrl + l) surgindo ento a janela ilustrada na figura 05.
Figura 05 - Configurando a Bookmark
No campo type salientado na figura 05, define-se o tipo de destino correspondente a bookmark.
As bookmarks permitem que o destino seja um arquivo, uma URL, um som, uma forma de visualizao etc.
Aps selecionar o tipo a parte inferior desta mesma janela solicitar os dados complementares do destino, como
por exemplo a localizao de um arquivo, ou uma URL.
6.5 INCLUSO, EXCLUSO E MOVIMENTAO DAS PGINAS DA OBRA
No trabalho de digitalizao do Ministrio da Sade, foi necessria a separao dos arquivos contendo as pginas
digitalizadas, em capitulo, conforme os originais.
Tal diviso se deu pelo seguinte motivos:
desejvel que um usurio em um site, ao clicar sobre o link que d acesso ao texto da obra digitalizada, no
espere muito pela carga do texto, de forma que a diviso em captulos permite que o texto na integra seja
carregado em partes pequenas de no mximo 3 Mb o faz com que a acelerao seja mais rpida facilitando a
leitura da obra.
Logo, como desejava-se realizar a digitalizao de forma mais rpida possvel, foram inseridos grupos de 10
imagens , cada um para ser gerado um arquivo PDF.
Ao final da digitalizao houve a necessidade de reorganizao dos arquivos PDF, separando a cada 3mb em um
arquivo diferente, mantendo o texto de um capitulo separado do outro em cada arquivo.
Algumas partes que contem captulos longos esto gerando arquivos com tamanho inadequado para a
transmisso, via rede. Estes captulos foram divididos em dois ou trs arquivos.
Para proceder a separao em captulos, foi necessrio realizar a incluso, excluso e movimentao de pginas
nos arquivos.
Por exemplo, o primeiro arquivo contendo as sessenta primeiras pginas digitalizadas continham quatro
captulos e uma parte do quinto capitulo. As pginas correspondentes ao primeiro capitulo foram extradas do arquivo e
inseridas em um novo arquivo que foi salvo com o nome de cap1.pdf. A seguir o mesmo procedimento foi realizado
para os captulos restantes.
As quatro operaes necessrias para tal so:
Insero de pginas (Insert Pages)
Extrao de pginas (Extract Pages)
Sobreposio de pginas (Replace Pages)
Excluso de pginas (Delete Pages)
POLICENTRO TECNOLOGIA DA INFORMAO S/A
CORPSERVICE COOPERATIVA DE SERVIOS S/A
8
A figura 06 mostra como acessar este comandos.
Figura 06. Comando para manipulao de pginas nos arquivos
6.5 ALTERAO DO TAMANHO DAS PGINAS
A obra Ministrio da Sade composta de pginas de tamanhos variados, como 29.7 x 21, ou ainda 15 x 22.
No momento da insero das pginas no scanner, detectou que algumas paginas foram escaneadas com tamanhos
diferentes e inseridas no arquivo PDF e posteriormente foram redimensionadas conforme o espao necessrio para o
texto.
Para alterar o tamanho das pginas utiliza-se a opo Crop Pages do menu document (cortar pginas ) conforme
ilustra a figura 07.
Figura 07. A opo Crop Pages
POLICENTRO TECNOLOGIA DA INFORMAO S/A
CORPSERVICE COOPERATIVA DE SERVIOS S/A
9
A seguir deve-se especificar o tamanho das margens esquerda (left), direita (right), superior (top), inferior
(bottom), que sero retiradas da pgina, e tambm o intervalo de pginas na qual os cortes sero aplicados, conforme
ilustra a figura 08.
Figura 08. Definindo os cortes na pgina
Aps pressionado o boto OK esta tarefa est terminada.
6.5 CONFIGURAO DA FORMA DE VISUALIZAO DO TEXTO
No Adobe Acrobat Reader, existe diversas configuraes relativas a forma de visualizao do texto. Estas
opes podem ser encontradas no menu View conforme ilustra a figura 09 a seguir.
Figura 09. As opes de visualizao
POLICENTRO TECNOLOGIA DA INFORMAO S/A
CORPSERVICE COOPERATIVA DE SERVIOS S/A
10
A tabela 3 mostra uma breve descrio dos itens relativos a forma de apresentao das pginas salientados na
figura 09.
Actual Size Exibe a pgina em seu tamanho original (100%).
Fit Page Encaixa a pgina inteira na tela.
Fit Width Encaixa a Largura da pgina na tela.
Fit Visible Encaixa o texto da pgina na tela.
Zoom to Permite que o usurio escolha o valor de zoom da pgina.
Full Screen Exibe em tela cheia.
Sigle Page A transio entre as pginas descontinua. Ao ultrapassar
o final de uma pgina, a prxima exibida usando toda a
tela.
Continuous Permite a transio contnua entre as pginas atravs da
barra de rolagem, sendo possvel visualizar
simultaneamente o final de uma.
Continuous Facing Pages Transio continua com as pginas lado a lado (duas
pginas na tela).
Page Only Exibe somente a pgina na tela.
Bookmark and Page Exibe a pgina e as bookmarks na parte esquerda da tela.
Thumbnails and Page Exibe a pgina e thumbnails (miniaturas das pgina) na
parte esquerda da tela.
Tabela 2 Configurao de Visualizao.
Tambm importante proceder a configurao da forma de visualizao inicial do arquivo quando este for ser
aberto por um usurio em um browser.
Para tanto necessrio acessar as configuraes relativas a abertura do arquivo no menu file/Open, conforme
ilustra a figura 10.
Figura 10. Acessando as configuraes da viso inicial do texto
POLICENTRO TECNOLOGIA DA INFORMAO S/A
CORPSERVICE COOPERATIVA DE SERVIOS S/A
11
As opes disponveis para visualizao inicial das pginas no Acrobat Reader devem ser selecionadas
considerando a legibilidade das pginas da obra, ou seja, deve ser possvel realizar a leitura do texto da obra a partir da
visualizao selecionada.
Portanto deve-se escolher o conjunto de opes mais adequado para tornar a leitura e navegao do texto
agradveis, para tanto basta testar anteriormente uma configurao adequada, valendo-se das informaes da tabela 1, e
posteriormente seleciona-la na janela Open Info ilustrada na figura 11.
Figura 11 - A janela Open Info
A figura 11 representa tambm as opes escolhidas neste trabalho para visualizao inicial dos captulos do
Ministrio da Sade, sendo estas opes recomendadas quando o documento possuir bookmarks. Nos captulos de
ndice e fichas catalogrficas foram escolhidas configuraes diferentes (Magnification: Fit Page), uma vez que, nesses
casos, era interessante que se disponibilizasse a visualizao das pginas por inteiro.
Com isso a obra digitalizada est preparada para ser acessada, proporcionando ao usurio facilidades para leitura
do texto e navegao entre as pginas e captulos da obra.
7. CONVERSO, UMA ALTERNATIVA CAPTURA DE DOCUMENTOS
Tendo em vista a inadequao do OCR, decidiu-se pesquisar alternativas que tornassem, possvel a realizao de
pesquisas full-text.
Uma possibilidade encontrada foi a converso de documentos j existentes no formato digital para o formato
PDF, evitando dessa forma a necessidade de reconhecimento ptico dos caracteres, uma vez que o documento original
no ferado atravs da captura de imagens com uso de um scanner.
Decidiu-se ento, realizar um trabalho de converso de documentos como complemento do processo de
digitalizao e disponibilizao de obras no formato digital PDF.
O trabalho de converso consistiu na carga destes arquivos, atravs da utilizao de verses mais recentes do
Word, e posteriormente a impresso dos mesmos utilizando o driver de impresso denominado Adobe PDF Writer. Este
driver se encarrega de capturar a impresso e converte-la para o arquivo PDF. Maiores detalhes da utilizao do Adobe
PDF Writer so explicado no capitulo a seguir.
Os arquivos foram convertidos separadamente, isto , ao final do processo de converso haviam diversos
arquivos PDF, cada qual correspondendo ao contedo de um arquivo original do Word.
Foi necessrio agrupar estes arquivos no formato impresso na biblioteca do MS.
POLICENTRO TECNOLOGIA DA INFORMAO S/A
CORPSERVICE COOPERATIVA DE SERVIOS S/A
12
A converso produziu um resultado considerado excelente, Sem maiores dificuldades foi possvel agrupar todas
as partes que formavam a dissertao (arquivo do Word) em um mesmo arquivo no formato digital, sem a preocupao
maiores com as verses dos softwares utilizados.
Os procedimentos utilizados para agrupamento e manipulao dos arquivos PDF so os mesmos explicados no
capitulo 06 - Manipulao de Arquivos PDF.
8. CRIAO DE ARQUIVOS PDF USANDO O ACROBAT PDF WRITER
Para criao de arquivos PDF a partir de qualquer software que seja compatvel com o Windows 95, 98, nt, me,
2000 e xp, necessrio a utilizao do Acrobat PDF Writer.
O Acrobat PDF Writer funciona como um driver de impressora ( impressora Virtual). Uma vez instalado no
Windows ele cria uma nova impressora com o nome de Acrobat PDF Writer. Este driver de impressora torna-se
disponvel par qualquer software do Windows comportando-se como um driver de uma impressora qualquer. A figura
12 ilustra o driver.
Figura 12 - O driver do Acrobat PDF Writer
Para que seja criado um arquivo PDF a partir de um software qualquer deve-se ativar o comando de impresso
correspondente e, necessariamente, deve ser escolhida a impressora Acrobat PDF Writer.
Ao confirmar o pedido de impresso o driver captura a impresso e solicita um nome para o arquivo PDF que
ser criado conforme ilustra a figura 13.
Figura 13 - Nomeando o arquivo PDF.
Terminada a impresso, o arquivo PDF est pronto para ser visualizado atravs do Acrobat Reader e reproduz
fielmente o layout de texto e imagem do documento original.
9. CONSIDERAES FINAIS
POLICENTRO TECNOLOGIA DA INFORMAO S/A
CORPSERVICE COOPERATIVA DE SERVIOS S/A
13
A sistemtica de digitalizao definida neste documento utiliza o formato de arquivo PDF proprietrio da
empresa Adobe Corporations.
Este documento no objetivou esgotar todos os recursos oferecidos por este formato de publicao digital. As
tarefas relativas a pesquisa de texto e proteo das publicaes atravs da utilizao de senhas no foram exploradas.
Ao final deste trabalho, os colaboradores da empresa POLICENTRO TI, consideraram positivos os resultados
obtidos com esta sistemtica.
O principal ponto a favor da sistemtica PDF o tempo total demandado para transformao de uma obra em
papel para o formato digital. Este ponto merece especial importncia, pois torna vivel a realizao do processo em
larga escala, caracterstica desejada pela amplitude do projeto da biblioteca do Ministrio da Sade.
Os pontos contra sistemtica PDF so menos crticos, tais como o espao de armazenagem, tempo de
transmisso em rede, impossibilidade de realizao de pesquisas full-text (para o caso da captura) e manipulao do
texto. No entanto, com a possibilidade de realizao de converses dos documentos j existentes no formato digital para
o formato PDF indicam uma maior facilidade de formao de uma acervo contendo documentos mais recentes (que
teoricamente j existem em meio digital) alm de favorecer a padronizao das publicaes digitais e, por
conseqncia, o seu posterior armazenamento, busca e manipulao.
Deve-se registrar que os problemas relativos a conservao do acervo mencionado no item 2 deste documento,
continuam a criar dificuldades para a realizao do trabalho, mesmo na sistemtica PDF. No entanto, a no
obrigatoriedade do reconhecimento ptico de caracteres nos arquivos PDF minimiza muitos destes problemas.
de suma importncia que se desenvolvam ferramentas para realizao de tratamento pticos nos arquivos de
imagens, que filtrem automaticamente as caractersticas indesejveis trais como adulteraes, manchas, amassados entre
outros.
Pelos motivos descritos, a sistemtica PDF a atual escolha desta empresa para a realizao da captura e
converso de documentos.
10. REFERENCIAS BIBLIOGFICAS
(ADO 98a)
ADOBE ACROBAT 3.0 PRODUCT INFORMATION
(ADO 98b)
ADOBE PDF
(HAI 96)
HAIGH, SUSAN; OPTICAL CHARACTER RECOGNITION (OCR) AS A DIGITIZATION TECHONOLOGY.

Você também pode gostar