Você está na página 1de 26

Automação de Arquivos

Gerenciamento Eletrônico de
imagens de documentos

Prof. Carlos H. Marcondes


marcon@vm.uff.br
Arquivos em formato “mapa de
bits”:
ARQUIVOS “MAPA-DE-BITS – “BIT MAP”

•     
Arquivos em formato “mapa de
bits”: como reconhecer um
caracter?

A a Aa A a a

a A ?????
Processo de digitalização
• Os sistemas de gerenciamento de
imagens eletrônicas de documentos
associam a cada arquivo de imagem,
um registro de uma base de dados com
conteúdos textuais codificados, para
fins de busca/recuperação de
informações

Tipo | Num. | Setor | Data | Assunto |


Processo de digitalização
A digitalização é o processo de transformar
documentos em papel em arquivos digitais de
imagem tipo ¨mapa-de-bits¨

Nos arquivos de imagem tipo “mapa-de-bits”


cada ponto de um documento, cada ponto de
cada caracter de um documento é desenhado
e não representado por um código como no
conjunto de caracteres ASCII
Vantagens do Gerenciamento
Eletrônico de Imagens de Documentos

Maior “densidade” de informações por unidade de


armazenamento: um CD-ROM pode conter cerca de
40.000 folhas de papel A4 digitalizadas a 300 dpi

As imagens de documentos podem ser acessadas


através de redes, dispensando o acesso ao
documento original

Isso ajuda a preservar os documentos originais


Processo de digitalização
Imagens são formadas por pontos
Pontos são representados por um número X de “bits”

Bitonal ou preto-e-branco:
1 bit por ponto:
pontos pretos: “1”
pontos brancos: “0”
Monocromático: preto-e-branco com diversas intensidades – 4 bits, 6
bits, 8 bits, por ponto)
Colorido
8 bits por ponto: 256 cores
12 bits por ponto : 4096 cores
24 bits por ponto : 16.800.000 cores (“true color”)
Processo de digitalização -
RESOLUÇÃO

• Relação entre número de


pontos de uma imagem /
Área
• Unidade: “dpi” (“dots per
inch”) pontos por
polegada quadrada
• A resolução é uma medida
da LEGIBILIDADE de
uma imagem
Processo de digitalização -
RESOLUÇÃO

• Corresponde à
capacidade de
detalhamento de uma
imagem, quanto maior a
resolução da imagem,
maior será a sua
capacidade de exibir
detalhes.
Processo de digitalização
RESOLUÇÃO - aplicação da digitalização em
DOCUMENTOS

Arquivos de imagens ( de documentos) com baixa


resolução são POUCO LEGÍVEIS (abaixo de
50 dpi)
Acima de 800 dpi a vista humana NÃO
DISTINGUE MAIS MELHORAS DE
LEGIBILIDADE
Quanto maior a resolução de uma imagem, maior
o tamanho do arquivo que vai armazena-la

Resolução razoável para documentos: 300 dpi


Processo de digitalização
• Como não existe um código único para
cada caracter,

A a A a A aa A a
a ,
• nos arquivos “mapa-de-bits” não é
possível fazer busca por conteúdo
Processo de digitalização -
Etapas

• Preparação - desarquivamento, retirada


de grampos e “clips” restauração,
agrupamento em lotes para a
digitalização.
– Fatores críticos de sucesso
• o estado dos documentos
• uniformidade dos documentos
• critério de grupamento em lotes
Processo de digitalização -
Etapas
- Digitalização - alimentação e digitalização dos
lotes no escaner
– Os fatores críticos de sucesso desta etapa são
• velocidade do escaner
• cores da imagem: preto-e-branco, colorido, tons-de-cinza,
• uniformidade dos lotes, evitando interrupção e re-ajustamento
do escaner
• resolução utilizada
- Conferência - exame das imagens geradas para
controle de qualidade, agrupamento de imagens
formando documentos, eventualmente re-
escaneamento
Processo de digitalização -
Etapas
• Indexação - associação a cada arquivo de
imagem ou a cada grupo de imagens que
formam um documento, um conjunto de
termos de indexação visando a recuperação
da(s) imagem(ns) do documento digitalizado
– Fatores críticos de sucesso desta etapa são
• facilidade/velocidade de extração dos termos de
indexação a partir da imagem do documento
• padronização do “lay-out” do documento
Processo de digitalização -
“hardware” e “software” envolvidos

• Hardware
– escaner: de mesa, com bandeja
– gravador de CD-ROM
– “Jukebox”: dispositivo leitor com capacidade
de 8 a 48 CD-ROMs, geralmente com 4 a 8
cabeçotes de leitura
Digitalização – componentes de
“hardware”
Gravador CD

“Software” de
escaner GED
“Jukebox”

Estações p.
Impressora
consulta

Sistema COM
O escaner – características
técnicas
Fonte de luz

Documento

Sensor – matriz de
fotocélulas (resolução
de “hardware”)
O escaner – características
técnicas
• Alimentador de folhas – capacidade (no. Folhas, peso
• Tipo de interface
• Resolução máxima por hardware: resolução real do sensor do
escaner em dpi
• Resolução interpolada: resolução obtida através de software
• Modo de digitalização: simplex (uma face) ou duplex (ambas
as faces)
• Velocidade: em páginas (ppm) por minuto, num determinado
modo e numa determinada resolução
• Tamanho dos documentos: capacidade de receber folhas de
papel em formatos An
O escaner
“JUKEBOX” – características técnicas

“Vitrola” robótica capaz de disponibilizar um


grande número de CDs gravados com
imagens de documentos

• Características:
– Capacidade de armazenamento em GB
– Número de discos
– Número de leitores de discos
– Tempo de troca de discos
SISTEMAS COM– características
técnicas

“Computer Output on MicroFiche –


permite a saída de relatórios
diretamente em microfichas
Processo de digitalização -
“hardware” e “software” envolvidos
• “Software”
– FUNÇÕES
• entrada:
• saída:
– Escaneamento - recuperação pelos
pontos de acesso
estabelecidos na
– Conferência indexação

– Indexação

– Gravação
Sistemas de Gestão Documentos

• Baseados em SGBDs

– usam “representações” de documentos; permitem armazenar e recuperar


“representações” de documentos.

• Sistemas de Gerenciamento de Imagens de Documentos – GED

– permitem associar a “representações” de documentos imagens


digitais desses documentos

• Sistemas de gerenciamento de fluxo de trabalho – “workflow”

– Permitem controlar o ciclo de vida de documentos – sua tramitação


Processo de digitalização - OCR
• “Optical Character Recognition” -
Reconhecimento ótico de caracteres: processo
de submeter uma arquivo de imagens .bitmap a
um software especial, que reconhece as
imagens dos caracteres e transforma a
imagem de cada caracter no seu equivalente
codificado (p.ex. em ASCII)
• Vantagem : um arquivo textual codificado
pode ser objeto de busca por conteúdo

Arquivo “bitmap Arquivo codificado

Você também pode gostar