Você está na página 1de 11

1 - Guia de Conversão de Documentos para o Formato PDF

2. SISTEMÁTICA PDF – JUSTIFICATIVA

Segundo a taxa de reconhecimento de um OCR para conversão de documentos deve ser superior a 98%, caso
contrário é mais eficiente realizar a redigitação do documento.
Esta taxa de reconhecimento é medida considerando o número de edições necessárias (inserção, deleções,
substituições) frente ao número total de caracteres. No entanto, este dado não deve ser utilizado como referência para
trabalhos de digitalização em larga escala, pois desconsidera todo o trabalho de localização de erros no texto, que na
maioria das vezes demanda em uma leitura completa da obra. Além disso, quando o vocabulário utilizado é
eminentemente técnico, pode ser necessária a confrontação com a obra original em papel, par identificação da grafia de
uma palavra.
O que deve ser considerado efetivamente é o volume de tempo despendido por um usuário, ao realizar a
correção/conferência de um texto reconhecido pelo OCR.
Enquanto os softwares de OCR não atingirem uma taxa de reconhecimento de 100% será necessária uma revisão
meticulosa da obra para localização e correção dos erros, atividade essa que torna a realização de trabalhos de
digitalização em larga escala altamente custosos, sendo necessária a utilização de grandes equipes com numerosos
recursos para que o trabalho não se torne excessivamente demorado.
A integração de dicionários ortográficos ao processo de reconhecimento dos caracteres, como o procede o
OmniPage 5.0, auxilia a identificação das palavras consideradas suspeitas. No entanto dado a impossibilidade de se
construir um dicionário eletrônico que abranja todos os termos técnicos específicos de cada área, nos diversos idiomas
contemplados pelo acervo da Biblioteca do Ministério da Saúde, persiste a necessidade de realização de uma leitura
cuidadosa pois uma palavra assinalada como suspeita pode estar correta ou não.
Como um agravante, muitas das obras do acervo da Biblioteca do Ministério da Saúde(aproximadamente 23.000
páginas), não apresentam um estado de conservação adequado a realização da digitalização por meio de software de
OCR, tais como:
 Obras com páginas riscadas e com anotações a lápis e a caneta;
 Obras com papéis com gramatura muito fina (50 gr/m2) fazendo com que o texto de um lado seja visível do
outro lado;
 Obras com páginas amassadas, manchadas, sujas, deterioradas por mofo, traças ou mesmo pela própria
utilização.
Aliados a estes fatores pode-se mencionar também o fato de que a grande maioria das obras é composta não
somente de textos, contendo figuras, fórmulas e esquemas gráficos cujos softwares de OCR atuais não oferecem um
tratamento adequado, sendo necessária a utilização de um outro software par captura das imagens e posterior
integração. Tal procedimento exige muita interação do usuário e torna o tempo de digitalização de uma obra muito alto
considerando a amplitude em larga escala.
Desta forma iniciou-se o trabalho de definição de uma nova sistemática de digitalização utilizando o software da
empresa Adobe denominado Adobe Acrobat. Este software irá facilitar na realização do trabalho de digitalização dos
livros do Ministério da Saúde e confecção de documentos o mais próximo possível do documento original físico, e
possui características tais como:
 Facilidade de criação e publicação de documentos on-line;
 Mantém o layout original das obras digitalizadas;
 Utiliza o formato de arquivo PDF (Portable Document Format), que permite a criação de documentos
multiplataforma que podem ser visualizados inclusive em browsers (softwares de navegação na Internet);

1
 Possibilidade de captura e conversão de grandes volumes de documentos com um baixo nível de interação do
usuário.
Estas características se mostraram bastante adequadas ao tipo de trabalho que se tem para realizar.

3. CONSIDERAÇÕES SOBRE O FORMATO PDF

PDF significa Portable Document Format, ou seja, documento de formato portável, foi criado pela Adobe com a
intenção de torná-lo um padrão para distribuição eletrônica de documentos.
Para visualizar um documento no formato PDF é necessário que se possua o software Adobe Acrobat Reader que
é um shareware (software que pode ser obtido se custos) e pode ser conseguido diretamente no site da Adobe,
http://www.adobe.com.
A maior vantagem do formato PDF relativa a digitalização de documentos está no fato de que o layout original
(look and fell) da obra é mantido, ou seja, o texto destas é distribuído exatamente como no original: paginação, títulos,
fotografias, gráficos, figuras, notas de rodapé etc. É como se fotografássemos cada página de um livro e agrupássemos
estas fotografias em um só arquivo digital, com facilidades para navegação.
A criação dos arquivos no formato PDF pode ser realizada através de captura ótica mediante a utilização de um
scanner, ou através dos softwares mais comuns do mercado, uma vez que através do Acrobat PDF Writer os dados
enviados pela aplicação para a impressora são capturados e transformados em um arquivo PDF. No capítulo 7 - Criação
de arquivos PDF usando o Acrobat PDF Writer serão apresentados os procedimentos necessários para a criação de
arquivos PDF a partir de qualquer software que possua recursos de impressão e seja compatível com o Windows 95 ou
superior.
Hoje, aproximadamente 250.000 sites (páginas na Internet) estão distribuindo informações utilizando o formato
PDF, e mais de 20 milhões de pessoas já realizaram o download do software Adobe Acrobat Reader que é necessário
para a leitura de arquivos PDF, fato este que comprova a popularização e aceitação do mesmo.
Em relação ao espaço requerido para armazenamento, o formato PDF armazena textos e figuras sem gerar
arquivos muito grandes.
Na tabela abaixo veremos a diferença entre vários formatos de arquivos e o PDF com texto e com imagens:

Formato do Arquivo Espaço Ocupado


BMP 280 Kb

PDF (como imagem) 74 Kb


GIF 74 Kb

JPG 34 Kb

DOC (word 7.0) 39 Kb

PDF (com o texto reconhecido)* 21 Kb


HTML + JPG 11 Kb

Tabela 01 – Comparativo entre os tamanhos de arquivos

* O texto desta página foi reconhecido através de um software de OCR e corrigido utilizando o MS-Word 97. Após foi
gerado o documento PDF através da conversão digital promovida pelo Adobe Writer. Maiores detalhes sobre esta
conversão serão apresentados no item 7.
A partir dos dados da tabela percebe-se que o formato PDF ocupa praticamente o mesmo espaço que o formato
GIF, quando trata a página como imagem, ou seja, sem proceder o reconhecimento ótico dos caracteres (OCR).
Uma vantagem a ser considerada do formato PDF está no fato de que ele é voltado par criação e publicação de
documento eletrônicos, permitindo dessa forma a inclusão de recursos que facilitam a navegação entre páginas como

2
hiperlinks, bookmarks, recursos de zoom e assim por diante. No item 4 – O Adobe Acrobat Reader maiores detalhes
serão apresentados.
Pode-se perceber também a possibilidade de se trabalhar com as obras somente como imagem, ou como texto
possuindo imagens.
É desejável, sempre que possível, trabalhar as obras como texto possuindo imagens, pois uma série de vantagens
estão relacionadas como:
 Ocupa aproximadamente 28 % do espaço ocupado somente pela imagem
 Permite a realização de pesquisas full-text
 Permite a seleção do texto podendo este ser transportado par um editor comum com os comandos de copiar e
colar.
No entanto, os dois últimos itens citados (pesquisa full-text e seleção de texto) estão condicionados a existência
do arquivo PDF localmente, não podendo ser realizada através de um browser via Internet, o que obriga a realização do
download do arquivo PDF (quando disponível) par viabilização destes recursos.
Para transformação da imagem em texto é necessária a realização de OCR, ou a conversão de documento já
existente no formato digital. Maiores detalhes podem ser encontrados no item 5 – Realização do OCR e no item 7 –
Criação de arquivos PDF usando o Acrobat PDF Writer.

4. O ADOBE ACROBAT READER

O Software Acrobat Reader permite a navegação por arquivos do formato PDF.


Uma das características mais positiva do software em sua versão 5.0, é o fato de que este trabalha integrado a um
browser, de forma que se um site qualquer em um browser possui uma referência para um arquivo do formato PDF,
automaticamente (se o software estiver instalado) o Acrobat Reader é iniciado e o texto é visualizado dentro do
browser. É um software que é executado dentro de uma janela de browser.
Uma obra digital, no formato PDF permite a criação de links e bookmarks, que aprimoram significativamente a
navegabilidade do texto, facilitando sua leitura. Para inclusão destes recursos é necessário o software Adobe Acrobat
Exchange.
Os hiperlinks tornam possível que, através de um clique sobre a referência de um capítulo no índice, se acesse
diretamente o conteúdo deste capitulo, ou ainda clicando sobre uma referência bibliográfica pode-se diretamente ler a
obra referenciada na integra (se esta existir no formato digital).
A utilização de bookmarks cria facilidades de navegação como acesso direto ao próximo capítulo, capítulo
anterior e índice, ou ainda fazer referência a sites que contém informações relacionada com o assunto.
Aliado a estas facilidades de navegação, o Adobe Acrobat Reader possui ferramentas para auxiliar o usuário na
visualização do conteúdo da obra. São ferramentas de zoom, movimentação e layout das páginas. Também é possível
imprimir um arquivo em partes ou na integra.
Uma característica no formato texto, não é possível a realização de pesquisas full-text, bem como a seleção de
trechos de texto dentro da janela do browser. Para tanto é necessário realizar o download do arquivo PDF para
posteriormente abri-lo localmente com o Adobe Acrobat Reader.

5. REALIZAÇÃO DE OCR

Um dos objetivos previstos era a possibilidade de realização de pesquisas full-text na obra. Para tanto seria
necessário que as imagens digitalizadas passassem por um processo de reconhecimento ótico de caracteres (OCR), ou
seja, a transformação da imagem em texto.
A realização de OCR em arquivos no formato PDF também é feita pelo software Adobe Acrobat Exchange, o
qual possui interface adequada para a tarefa, sendo possível a realização do processo sobre todas as páginas de uma vez
só.

3
No entanto foi frustrante descobrir que o software em sua versão 3.01 não possui dicionário para reconhecimento
das palavras e caracteres da língua portuguesa, o que inviabilizou a realização do OCR e por conseqüência a
transformação da imagem capturada via scanner em um texto.
Cumpre aqui ressaltar duas características interessantes relacionadas ao OCR aplicado pelo Acrobat Exchange.
Quando da aplicação do OCR nas páginas de uma obra no formato digital, além possibilidade de realização de
pesquisas, manipulação e edição do texto, estes arquivos ocupam um espaço aproximadamente 4 vezes menor que os
arquivos que contém somente imagens.
As palavras que contenham caracteres que ele não reconhece são mantidas como imagens, de forma que a leitura
do texto continue possível.
Dado a inviabilidade de realização do OCR, alguns dos objetivos traçados no inicio tiveram que ser
abandonados. Em especial a possibilidade de realização de pesquisas no texto da obra.
Como a possibilidade de realização deste tipo de pesquisa é desejável no âmbito da Biblioteca Digital do
Ministério da Saúde, surgiu a necessidade de pesquisar outros softwares de OCR que possuam tratamento para os
caracteres do idioma português. Esta pesquisa estava em andamento e já foi concluído com a inclusão de dois softwares
de OCR, o Cuneiform 99 e o OmniPage 14.

6. MANIPULAÇÃO DE ARQUIVOS PDF

Para a manipulação de arquivos PDF, é necessário o software Adobe Acrobat Exchange. Este software não é
shareware, logo é necessário adquirir uma licença para utiliza-lo.
O software permite a manipulação dos arquivos PDF, dentre elas as principais são:

6.1 Inserção de links de navegação.


6.2 Inserção de bookmarks.
6.3 Inclusão, exclusão e movimentação das páginas da obra.
6.4 Alteração do tamanho das páginas
6.5 Configuração da forma de visualização do texto.

A seguir serão demonstradas as operações acima descritas.

6.5 INSERÇÃO DE LINKS DE NAVEGAÇÃO

A inserção de links de navegação foi realizada com o intuito de facilitar a navegação entre o índice e os capítulos
da obra, de forma que ao clicar sobre o botão “Link Tool” salientado na figura 01 e definir a posição do link
desenhando um retângulo com o mouse no local desejado.

Figura 01 - Definindo Links de Navegação.

4
Após desenhar um link, surge a caixa de diálogo Create Link solicitando as configurações de aparência e
funcionamento do mesmo, e ainda permitindo que o usuário navegue até o destino desejado para o link e pressione o
botão Set Link, Salientado na figura 02 .

Figura 02 - Configurações do Link

6.5 INSERÇÃO DE BOOKMARKS

Da mesma forma, a inserção de bookmarks também promove facilidades de navegação . As bookmarks são
palavras que aparecem do lado esquerdo da tela quando o Reader está na forma de visualização Bookmarks and Page,
conforme ilustra a figura 03 .

Figura 03 - Visualizando as Bookmarks


O funcionamento é o mesmo do link, basta clicar sobre a palavra que a aplicação alternará imediatamente para o
destino especificado na bookmark.
Para realizar a inserção da bookmark deve-se clicar no menu Document, na opção New Bookmark, como ilustra
a figura 04 .

Figura 04 - Criando uma Bookmark

5
A seguir será solicitado o texto que representará a bookmark na parte da janela.
Para definir o destino correspondente a bookmark recém criada, deve-se clicar sobre a mesma e no menu edit
selecionar a opção properties (Ctrl + l) surgindo então a janela ilustrada na figura 05.

Figura 05 - Configurando a Bookmark

No campo type salientado na figura 05, define-se o tipo de destino correspondente a bookmark.
As bookmarks permitem que o destino seja um arquivo, uma URL, um som, uma forma de visualização etc.
Após selecionar o tipo a parte inferior desta mesma janela solicitará os dados complementares do destino, como
por exemplo a localização de um arquivo, ou uma URL.

6.5 INCLUSÃO, EXCLUSÃO E MOVIMENTAÇÃO DAS PÁGINAS DA OBRA

No trabalho de digitalização do Ministério da Saúde, foi necessária a separação dos arquivos contendo as páginas
digitalizadas, em capitulo, conforme os originais.
Tal divisão se deu pelo seguinte motivos:
 É desejável que um usuário em um site, ao clicar sobre o link que dá acesso ao texto da obra digitalizada, não
espere muito pela carga do texto, de forma que a divisão em capítulos permite que o texto na integra seja
carregado em partes pequenas de no máximo 3 Mb o faz com que a aceleração seja mais rápida facilitando a
leitura da obra.
Logo, como desejava-se realizar a digitalização de forma mais rápida possível, foram inseridos grupos de 10
imagens , cada um para ser gerado um arquivo PDF.
Ao final da digitalização houve a necessidade de reorganização dos arquivos PDF, separando a cada 3mb em um
arquivo diferente, mantendo o texto de um capitulo separado do outro em cada arquivo.
Algumas partes que contem capítulos longos estão gerando arquivos com tamanho inadequado para a
transmissão, via rede. Estes capítulos foram divididos em dois ou três arquivos.
Para proceder a separação em capítulos, foi necessário realizar a inclusão, exclusão e movimentação de páginas
nos arquivos.
Por exemplo, o primeiro arquivo contendo as sessenta primeiras páginas digitalizadas continham quatro
capítulos e uma parte do quinto capitulo. As páginas correspondentes ao primeiro capitulo foram extraídas do arquivo e
inseridas em um novo arquivo que foi salvo com o nome de cap1.pdf. A seguir o mesmo procedimento foi realizado
para os capítulos restantes.
As quatro operações necessárias para tal são:
 Inserção de páginas (Insert Pages)
 Extração de páginas (Extract Pages)
 Sobreposição de páginas (Replace Pages)
 Exclusão de páginas (Delete Pages)

6
A figura 06 mostra como acessar este comandos.

Figura 06. Comando para manipulação de páginas nos arquivos

6.5 ALTERAÇÃO DO TAMANHO DAS PÁGINAS

A obra Ministério da Saúde é composta de páginas de tamanhos variados, como 29.7 x 21, ou ainda 15 x 22.
No momento da inserção das páginas no scanner, detectou que algumas paginas foram escaneadas com tamanhos
diferentes e inseridas no arquivo PDF e posteriormente foram redimensionadas conforme o espaço necessário para o
texto.
Para alterar o tamanho das páginas utiliza-se a opção Crop Pages do menu document (cortar páginas ) conforme
ilustra a figura 07.

Figura 07. A opção Crop Pages

7
A seguir deve-se especificar o tamanho das margens esquerda (left), direita (right), superior (top), inferior
(bottom), que serão retiradas da página, e também o intervalo de páginas na qual os cortes serão aplicados, conforme
ilustra a figura 08.

Figura 08. Definindo os cortes na página

Após pressionado o botão OK esta tarefa está terminada.

6.5 CONFIGURAÇÃO DA FORMA DE VISUALIZAÇÃO DO TEXTO

No Adobe Acrobat Reader, existe diversas configurações relativas a forma de visualização do texto. Estas
opções podem ser encontradas no menu View conforme ilustra a figura 09 a seguir.

Figura 09. As opções de visualização

8
A tabela 3 mostra uma breve descrição dos itens relativos a forma de apresentação das páginas salientados na
figura 09.

Actual Size Exibe a página em seu tamanho original (100%).


Fit Page Encaixa a página inteira na tela.
Fit Width Encaixa a Largura da página na tela.
Fit Visible Encaixa o texto da página na tela.
Zoom to Permite que o usuário escolha o valor de zoom da página.
Full Screen Exibe em tela cheia.
Sigle Page A transição entre as páginas é descontinua. Ao ultrapassar
o final de uma página, a próxima é exibida usando toda a
tela.
Continuous Permite a transição contínua entre as páginas através da
barra de rolagem, sendo possível visualizar
simultaneamente o final de uma.
Continuous – Facing Pages Transição continua com as páginas lado a lado (duas
páginas na tela).
Page Only Exibe somente a página na tela.
Bookmark and Page Exibe a página e as bookmarks na parte esquerda da tela.
Thumbnails and Page Exibe a página e thumbnails (miniaturas das página) na
parte esquerda da tela.

Tabela 2 – Configuração de Visualização.

Também é importante proceder a configuração da forma de visualização inicial do arquivo quando este for ser
aberto por um usuário em um browser.
Para tanto é necessário acessar as configurações relativas a abertura do arquivo no menu file/Open, conforme
ilustra a figura 10.

Figura 10. Acessando as configurações da visão inicial do texto

9
As opções disponíveis para visualização inicial das páginas no Acrobat Reader devem ser selecionadas
considerando a legibilidade das páginas da obra, ou seja, deve ser possível realizar a leitura do texto da obra a partir da
visualização selecionada.
Portanto deve-se escolher o conjunto de opções mais adequado para tornar a leitura e navegação do texto
agradáveis, para tanto basta testar anteriormente uma configuração adequada, valendo-se das informações da tabela 1, e
posteriormente seleciona-la na janela Open Info ilustrada na figura 11.

Figura 11 - A janela Open Info

A figura 11 representa também as opções escolhidas neste trabalho para visualização inicial dos capítulos do
Ministério da Saúde, sendo estas opções recomendadas quando o documento possuir bookmarks. Nos capítulos de
índice e fichas catalográficas foram escolhidas configurações diferentes (Magnification: Fit Page), uma vez que, nesses
casos, era interessante que se disponibilizasse a visualização das páginas por inteiro.
Com isso a obra digitalizada está preparada para ser acessada, proporcionando ao usuário facilidades para leitura
do texto e navegação entre as páginas e capítulos da obra.

7. CONVERSÃO, UMA ALTERNATIVA À CAPTURA DE DOCUMENTOS

Tendo em vista a inadequação do OCR, decidiu-se pesquisar alternativas que tornassem, possível a realização de
pesquisas full-text.
Uma possibilidade encontrada foi a conversão de documentos já existentes no formato digital para o formato
PDF, evitando dessa forma a necessidade de reconhecimento óptico dos caracteres, uma vez que o documento original
não é ferado através da captura de imagens com uso de um scanner.
Decidiu-se então, realizar um trabalho de conversão de documentos como complemento do processo de
digitalização e disponibilização de obras no formato digital PDF.
O trabalho de conversão consistiu na carga destes arquivos, através da utilização de versões mais recentes do
Word, e posteriormente a impressão dos mesmos utilizando o driver de impressão denominado Adobe PDF Writer. Este
driver se encarrega de capturar a impressão e converte-la para o arquivo PDF. Maiores detalhes da utilização do Adobe
PDF Writer são explicado no capitulo a seguir.
Os arquivos foram convertidos separadamente, isto é, ao final do processo de conversão haviam diversos
arquivos PDF, cada qual correspondendo ao conteúdo de um arquivo original do Word.
Foi necessário agrupar estes arquivos no formato impresso na biblioteca do MS.

10
A conversão produziu um resultado considerado excelente, Sem maiores dificuldades foi possível agrupar todas
as partes que formavam a dissertação (arquivo do Word) em um mesmo arquivo no formato digital, sem a preocupação
maiores com as versões dos softwares utilizados.
Os procedimentos utilizados para agrupamento e manipulação dos arquivos PDF são os mesmos explicados no
capitulo 06 - Manipulação de Arquivos PDF.

8. CRIAÇÃO DE ARQUIVOS PDF USANDO O ACROBAT PDF WRITER

Para criação de arquivos PDF a partir de qualquer software que seja compatível com o Windows 95, 98, nt, me,
2000 e xp, é necessário a utilização do Acrobat PDF Writer.
O Acrobat PDF Writer funciona como um driver de impressora ( impressora Virtual). Uma vez instalado no
Windows ele cria uma nova impressora com o nome de Acrobat PDF Writer. Este driver de impressora torna-se
disponível par qualquer software do Windows comportando-se como um driver de uma impressora qualquer. A figura
12 ilustra o driver.

Figura 12 - O driver do Acrobat PDF Writer

Para que seja criado um arquivo PDF a partir de um software qualquer deve-se ativar o comando de impressão
correspondente e, necessariamente, deve ser escolhida a impressora Acrobat PDF Writer.
Ao confirmar o pedido de impressão o driver captura a impressão e solicita um nome para o arquivo PDF que
será criado conforme ilustra a figura 13.

Figura 13 - Nomeando o arquivo PDF.


Terminada a impressão, o arquivo PDF está pronto para ser visualizado através do Acrobat Reader e reproduz
fielmente o layout de texto e imagem do documento original.

11