Você está na página 1de 18

Publicado em 2005, O Buraco Negro Digital, de Jonas Palm, pode ser

considerado hoje um artigo de referência, contendo uma análise pioneira


sobre os riscos envolvendo projetos de digitalização e de armazenamento de
informações digitais que não se pautam por um planejamento bem
estruturado. Escrito há quase dez anos, o artigo de Palm que a Via 78 acaba
de traduzir para o português apresenta uma sofisticada análise econômica
referente à digitalização e ao armazenamento no contexto do Arquivo
Nacional da Suécia (Riksarkivet), se mantendo ainda como uma importante
ferramenta de auxílio para outras instituições que pretendam fazer um
planejamento de custos visando a uma preservação de longo prazo.

Jonas Palm é Diretor, Chefe do Departamento de Preservação do


Riksarkivet/Arquivo Nacional, Estocolmo, Suécia.

*Originalmente publicado no website do projeto TAPE (Training for


Audiovisual Preservation in Europe): http://www.tape-online.net

O artigo original em inglês pode ser acessado aqui: http://www.tape-


online.net/docs/Palm_Black_Hole.pdf

**Tradução de Pedro Elias e Marco Dreer, autorizada pelo autor.

____________________________________________________________

O Buraco Negro Digital

Jonas Palm

Projetos digitais podem parecer fáceis de planejar e divertidos de conceber.


O céu é o limite: as possibilidades são aparentemente infinitas e, uma vez
que o material é digitalizado, seu potencial de uso parece ser igualmente
empolgante e barato. Isso não pode ficar melhor, não mesmo!

Em uma história em quadrinhos da década de 1960, o Professor Pardal,


personagem de Walt Disney, inventa uma máquina capaz de responder a
qualquer pergunta. Ao final Pardal desiste da máquina por não conseguir
trazer respostas suficientes para todas as perguntas. Essa história pode ser
utilizada como uma analogia para o entusiasmo atual com projetos de
digitalização. Em meio à empolgação causada pelas soluções que a
digitalização oferece, muitas vezes não são formuladas as perguntas certas
sobre custos, especialmente sobre os custos de manutenção de arquivos
digitais em um longo prazo. Essa atitude entusiástica é arriscada, pois o
processo de conversão para gerar arquivos digitais pode ser bastante
oneroso, para começo de conversa, e esses investimentos podem ser em
vão se o planejamento para o futuro for ignorado e se um financiamento
estruturado para a manutenção desse material não for assegurado.
Sem um planejamento de longo prazo, projetos de digitalização podem vir a
se comportar como buracos negros no espaço. A informação digitalizada, que
no mundo analógico poderia ser acessada simplesmente com o uso dos
nossos olhos, é subitamente armazenada em um ambiente onde só pode ser
recuperada através do uso da tecnologia, o que constitui um fator de custo
constante. Quanto mais informação é convertida, mais se elevam os custos
para acessá-la. O buraco negro digital toma conta do projeto. Ele prosseguirá
tragando tanto dinheiro quanto informação: o recurso tem que prosseguir
senão todo ou o insumo terá sido em vão. Se o financiamento começar a
minguar, a informação ainda poderá ser acessada, mas logo ela se tornará
inacessível em função de arquivos corrompidos ou de formatos de arquivo e
tecnologia obsoletos. Nesse momento a informação digital estará perdida
para sempre no buraco negro.

O trajeto de um típico projeto de digitalização pode ser comparado ao ciclo de


vida de uma estrela. Estrelas nascem e finalmente morrem. A Fig. 1
apresenta esse ciclo de vida. A analogia se torna clara quando as fases de
vida de uma estrela são substituídas pelos estágios de vida de um processo
de digitalização padrão (Fig. 2).

Fig. 1. O Ciclo de Vida de Estrelas Massivas (publicado em www.star.ucl.ac.uk)


Fig. 2. O Ciclo da Vida de Projetos de Digitalização (modificado a partir da Fig. 1
pelo autor).

Boas ideias estão sempre por aí, como um meio interestelar. Nos estágios
iniciais muita energia é acumulada e transferida para a próxima fase – de
planejamento e de garantir recursos para o projeto. Com o projeto
encaminhado, as coisas começam a tomar forma, a digitalização se inicia.
Quando toda essa informação é digitalizada e organizada em um website, ela
se amplia na forma de uma Supergigante, luminosa, forte e visível para todo
o mundo. Mas em seguida novos projetos começam a ser desenvolvidos,
outros interesses surgem no caminho, nosso projeto começa a ser
negligenciado e a entrar em colapso. Os organizadores finalmente decidem
encerrá-lo – e esse é o fim de mais um bom projeto. Nem tudo
necessariamente morre com o projeto: as informações mais importantes
podem muito bem sobreviver, seguindo um processo darwiniano de
sobrevivência do mais forte, e algumas das antigas boas ideias podem
encontrar novas ideias para formar novos projetos.

Enquanto um ciclo com uma expectativa de vida relativamente curta pode ser
perfeitamente aceitável para projetos menores que sejam de interesse por
apenas um período de tempo limitado, para projetos maiores é custoso
demais não planejar uma Vida para os Arquivos além do horizonte. Nesses
casos, a escolha entre começar ou não um projeto de fato depende da
disposição de planejar o futuro: um projeto pode ser lançado ou não, mas,
caso seja, a decisão implica um comprometimento financeiro de longo prazo.
Este artigo apresenta uma análise de custos de digitalização e
armazenamento de longo prazo no Riksarkivet (Arquivo Nacional, RA) em
Estocolmo, Suécia. É apresentado como um exemplo, uma vez que os custos
reais podem obviamente diferir entre instituições e países devido às
diferenças nos custos de instalações, salários etc. Ainda assim, o modelo
para a estimativa de custos tem uma relevância mais ampla e pode ser
utilizado para fazer cálculos similares em outras situações.

Custos de armazenamento de longo prazo

O Arquivo Nacional (Riksarkivet, RA) em Estocolmo tem recebido de maneira


gradativa registros em formato digital desde a década de 1970; em 2005,
recebeu em torno de 25 TB (terabytes). A fim de ser capaz de assegurar
esses dados para pesquisas e uso futuro, o Riksarkivet investiu em um
grande sistema de armazenamento de dados: o HSM (Hierarchical Storage
Management System, Sistema de Gerenciamento de Armazenamento
Hierárquico), há dois anos. O sistema gira em torno de um robô de
armazenamento – nesse caso, um sistema de fitas cassetes – conectado a
servidores e computadores. O sistema foi construído para (a) detectar e
corrigir erros de dados em informações digitais armazenadas e (b) ser capaz
de migrar os dados para a próxima geração do sistema de armazenamento
em massa, e assim por diante. Os dados que virão a ser utilizados são
primeiramente copiados da fita para um servidor, de modo que a informação
no robô de armazenamento nunca é utilizada de fato. Os custos desse
sistema não residem na mídia de armazenamento (que representam cerca de
5%-10% dos custos totais), mas no resto do sistema – hardware, software,
suporte, manutenção e administração/operação.

O RA recebe basicamente dois tipos de informação digital: informação nativa


digital e cópias digitais de documentos e registros tradicionais. A informação
nativa digital consiste em registros de agência estaduais; as cópias digitais
desses registros pertencem ao acervo do RA e são um esforço para abrir e
aprimorar o acesso a qualquer pessoa interessada. Os arquivos nativos
digitais são relativamente pequenos em seu tamanho, uma vez que a maior
parte deles consiste em banco de dados. Os arquivos de registros
digitalizados são, entretanto, quase exclusivamente arquivos de imagem,
consequentemente representando muito mais informações e sendo, ao fim e
ao cabo, mais caros de se lidar. Essa atividade de digitalização é o resultado
de um esforço nacional em tornar as agências governamentais disponíveis 24
horas por dia, em certa medida.

Há três anos começaram alguns debates em Riksarkivet a respeito dos


custos e dos problemas de armazenamento de longo prazo de informações
digitais. A questão era saber se, uma vez que os materiais fossem
digitalizados, seria mais barato manter os arquivos digitais ao longo do
tempo, ou, em vez disso, confiar o armazenamento de longo prazo em
imagens em microfilme produzidas a partir de arquivos digitais, com o uso do
COM (Computer Output Microfilm, Microfilme de Saída em Computador). Em
ambos os casos os originais também seriam mantidos. O ponto de partida
para esse debate foram os inúmeros arquivos que foram produzidos em
projetos de digitalização que serviram a diferentes objetivos, mas não era
claro se depois esses arquivos também devessem ser mantidos ativos por
um longo período de tempo.

Dois artigos desencadearam esse debate. O primeiro foi o de Steven Puglia


(National Archives and Records Administration) sobre os custos de projetos
de digitalização de imagens. E o segundo foi um artigo de Stephen Chapman
(Weissman Preservation Center, Harvard University Library) sobre os custos
de armazenamento de repositórios. Esses artigos mostraram claramente que
as coisas não eram tão simples quanto muitos pensavam. Era caro preservar
arquivos digitais.

No Riksarkivet fizemos cálculos com base nos custos do sistema de


gerenciamento de armazenamento hierárquico que utilizamos para o
armazenamento de informações digitais. Quando os resultados dos nossos
cálculos foram comparados com os resultados de Chapman, eles coincidiram
bem, como pode ser visto na Fig. 3. Em ambos os casos os custos de
armazenamento da mesma quantidade de informações foram comparados:
um livro comum de 332 páginas (1) em seu formato original armazenado em
um ambiente com ar condicionado, (2) como um microfilme armazenado em
um cofre com controle climatológico, (3) digitalizado em imagens 600 dpi em
preto-e-branco, e (4) digitalizado em imagens 300 dpi em escala de cinza (8
bits). As imagens em escala de cinza ocupam mais espaço e logo são mais
caras de serem armazenadas, ainda que o espaço de armazenamento em si
seja atualmente muito barato e não o fator central de custo. Os custos de
armazenamento incluem o sistema necessário para gerenciar e preservar os
dados, que abrange verificações de integridade de dados, procedimentos de
backup, verificações para recuperação de informações, transferência
automática para novas fitas etc.
Fig. 3. Comparação de custos de armazenamento feitos pela RA e pela Biblioteca da
Universidade de Harvard de informações idênticas em formato de microfilme, texto
original em papel e dois diferentes formatos de arquivo digital.

Os custos de armazenamento digital são muito maiores do que geralmente se


crê porque há muitos fatores envolvidos que as pessoas desconhecem. Nos
debates sobre essas questões foi sugerido, a partir de dentro da indústria,
que conforme a necessidade de armazenamento aumenta, a carga
econômica aumenta mais rapidamente. O fato de a capacidade de
armazenamento de mídia dobrar a cada ano resulta no equívoco em pensar
que os custos de armazenamento estão diminuindo rapidamente. Em curto
prazo – geralmente em menos de cinco anos – isso é verdade uma vez que
não há muito a ser feito para manter os arquivos acessíveis, mas em longo
prazo os custos de gerenciamento continuarão crescendo. Jim Gray, chefe do
Bay Area Research Center, da Microsoft, coloca desta forma:

...Mas o verdadeiro custo de armazenamento é o gerenciamento.


Pessoas de Wall Street me dizem que gastam $300.000 por terabyte
por ano administrando seu armazenamento. Elas têm mais de um
administrador de dados por terabyte. Outros grupos relatam ter um
administrador por 10 TB, e a Google e o Internet Archive
aparentemente operam em um para cada 100 TB. Os custos de
backup/recuperação, arquivamento, reorganização, crescimento e
capacidade de gerenciamento tornam insignificantes os custos do
ferro. Isso permanece como um verdadeiro desafio para o pessoal de
software. Se os negócios seguirem nessa escala, então um petabyte
armazenado necessitaria de 1.000 administradores de
armazenamento.
Em geral os custos de hardware ainda estão diminuindo, e as mídias de
armazenamento agora estão tão baratas que podem ser de muito pouca
importância no debate como um todo. Porém, existe uma diferença entre os
custos de armazenamento de mídia e os custos de computador (Fig. 4 e 5).
Enquanto o preço de computadores, em termos de capacidade, tem caído
consideravelmente, por outro lado a quantidade de dados que os
computadores têm que dar conta e, consequentemente, a capacidade
necessária para processar os arquivos têm aumentado bastante. Isso não é
necessariamente uma questão de se ter que lidar com mais informações –
em muitos casos significa apenas ter que lidar com mais opções. Isso se
torna evidente se compararmos o custo de uma única unidade de disco rígido
de 2 TB – 450 euros – com o custo de um típico sistema de hardware de
backup de 2 TB, que pode vir a custar 10 vezes mais – 4500 euros para
cima. Assim como no sistema HSM, o maior custo não é com a mídia de
armazenamento, mas com o hardware e o software a envolvem.

Fig. 4. Redução nos custos de armazenamento para 1 MB de informação em mídia


de armazenamento magnético.
Fig. 5. Redução nos preços de computador, processando o mesmo tipo de
informação.

Sistemas de grande escala para armazenamento de longo prazo


provavelmente estão sujeitos a outro padrão de progressão de preços.
Geralmente considera-se que esses sistemas têm uma vida útil de
aproximadamente cinco anos. Quando um sistema é novo, o preço está em
seu nível mais alto. Isso vai se reduzindo à medida que a próxima geração é
introduzida. Então um novo pico de preços irá ocorrer: os preços irão subir
novamente, porém não atingirão o mesmo nível do começo do ciclo. Em
nossos cálculos assumimos que haverá uma leve redução de preço entre
cada geração de aproximadamente 25% (Fig. 6). Esta é apenas uma
suposição, assim como qualquer tentativa de prever o futuro do
armazenamento digital com mais de 5-10 anos de antecedência. Ainda
assim, suposições como essa foram feitas a fim de se ter uma ideia das
condições econômicas em uma situação futura.
Fig. 6. Redução esperada no preço ao longo de um período mais extenso para
sistemas de armazenamento de grande escala.

O sistema HSM, no RA, com um robô de fita cassete voltado para o


armazenamento de longo prazo de registros digitais, tem uma capacidade
máxima de 200 TB, e está programado para ser capaz de se expandir em 40
TB/ano. (Como mencionado acima, o crescimento até agora acabou sendo
de apenas 25 TB por ano.) Foi instalado em 2003 e vem funcionando por
cerca de 18 meses. Os custos para o sistema em si e para sua operação são
apresentados na Fig. 7.
Fig. 7. Custos do sistema de armazenamento HSM no RA, Estocolmo,
Suécia. Os custos estão cotados em € (Euros).

As Figuras 8 e 9 mostram como os custos de equipamentos irão diminuir,


enquanto os custos de salários e instalações irão subir. Normalmente, custos
de suporte e atualizações também deveriam apresentar uma curva
ascendente, mas de acordo com o contrato entre o RA e o fornecedor, os
custos se nivelaram no contrato em cinco anos.

Fig. 8. Custos de hardware para o sistema de armazenamento HSM, do RA.

Fig. 9. Custos operacionais para o sistema de armazenamento HSM, do RA.

Quando os custos são divididos entre tecnologia, equipe e instalações (Fig.


10), se verifica que os custos de trabalho representam 39% do total. Isso irá
aumentar nos próximos anos, uma vez que os salários irão subir e que mais
funcionários serão necessários para gerenciar o sistema à medida que ele
cresce. Nem todos os membros da equipe têm que ser altamente
qualificados, mas uma vez que os salários na Suécia não são tão
diferenciados como em alguns outros países, isso não fará muita diferença
para os cálculos.

Fig. 10. Divisão dos custos do sistema de armazenamento HSM, do RA.

Se alguém tentar o impossível, ou até mesmo o ridículo, de fazer previsões


para além de um período de 10 anos, a única coisa certa é que os salários
irão aumentar, assim como o índice de custos em geral. Os cálculos feitos
para o Riksarkivet se baseiam no pressuposto de que a grande maioria da
informação digital armazenada será passiva. Os custos de pessoal estão
relacionados com a atividade de acesso, e a situação no RA requer apenas
uma equipe enxuta para manter o sistema funcionando, ao contrário de
companhias, bancos e a Google (os exemplos mencionados acima por Jim
Gray, da Microsoft). Ainda assim, custos de pessoal e instalações no RA
continuarão a subir, e a Fig. 11 mostra que os custos totais de equipe,
suporte e instalações vão ultrapassar os custos de equipamento por mais de
12 vezes em um período de 30 anos. Os custos de mídia de armazenamento
são pouco visíveis neste gráfico, e apenas na primeira década.
Fig. 11. Progressão esperada de custos no RA.

Os custos de armazenamento de longo prazo dependem da taxa de


atividade: quanto mais as informações armazenadas forem utilizadas,
maiores serão os custos administrativos. Quando o uso de informações
aumenta, há também mais necessidade de servidores externos, a partir dos
quais as informações são acessadas. Se incluirmos nos cálculos feitos até
agora um fator de custos associado a uma taxa futura de atividade tal como
ocorre no RA, em Estocolmo, a seguinte imagem se funde.

Quando a economia negativa de escala é levada em conta assim como o


aumento de atividade das informações armazenadas, os custos de equipe
para operação e gerenciamento do sistema vão muito provavelmente
aumentar no RA para serem em muitas vezes o custo de equipamento. Com
uma equipe em crescimento, os custos de alojamento e, consequentemente,
de instalações também vão aumentar. Assim como é difícil prever a evolução
de custos de suporte, uma vez que se mantiveram constantes, mas muito
provavelmente irão aumentar com o tamanho do sistema. (Fig. 12)
Fig. 12. Prováveis efeitos da economia negativa de escala no RA em um longo
prazo.

Digitalização
As conjunturas de custos para armazenamento podem fornecer algumas
pistas para reflexão. Conforme indicam o nível de comprometimento
financeiro de longo prazo necessário para armazenar arquivos digitais – sem
mencionar o fato de ter de mantê-los em funcionamento por meio de um
processo constante de atualização e migração – as conjunturas sublinham a
necessidade de uma análise cautelosa dos investimentos iniciais em
digitalização. O risco dos materiais acabarem sob o domínio do buraco negro
digital é muito alto porque os custos da própria digitalização também são
altos. Digitalização envolve várias atividades, como seleção, geração de
descrições e metadados, gerenciamento de projeto e conversão
(escaneamento ou captura com uma câmera digital). Por ora, os custos de
escaneamento são razoavelmente bem conhecidos.

A qualidade do escaneamento depende do equipamento, das especificidades


do processo, do conhecimento acerca do material a ser escaneado e do
manuseio. A escolha do equipamento está relacionada ao material a ser
escaneado, as especificidades estão relacionadas às propriedades e à
qualidade da informação original, e o conhecimento acerca do material a ser
digitalizado é essencial para o controle de qualidade, o manuseio e a
definição de um fluxo de trabalho confiável. Na digitalização de imagens e
sons, a expertise em conteúdos e suportes é de extrema importância para
assegurar a captura correta das informações contidas nos originais.

Em 2005, alguns cálculos de custo foram feitos no Riksarkivet para a


digitalização de materiais em papel. O Riksarkivet tem sua área própria
voltada para escaneamento, o MKV (Medie konverterings centrum, Centro de
Conversão de Mídia), com cerca de 80 empregados em 2005. Os objetos
escaneados são registros, encadernações, além de mapas e desenhos de
grandes dimensões. Todas as figuras abaixo se baseiam nas informações do
MKV.

No MKC, cinco milhões de imagens são escaneadas por ano em arquivos de


1 bit, 600 dpi, em formato A4. Os custos para cada arquivo escaneado são de
aproximadamente 0,10 euro. Os registros são escaneados em um scanner de
alimentação automática. A distribuição de custos para a geração de um
arquivo digital de imagem pode ser conferida na Fig. 13. Um terço dos custos
vai para o escaneamento, enquanto que a preparação, o controle de
qualidade, os extras e a administração são responsáveis pela mesma e mais
significativa parte do custo.

Fig 13. Distribuição de custos da MKC, área de escaneamento do RA, Fränsta,


Suécia.

O escaneamento de desenhos e mapas de grandes dimensões é feito em 8


bits, escala de cinza, 297 dpi, em scanners alimentados manualmente. O
custo de gerar cada arquivo é de aproximadamente 0,61 euro, com 1.321.000
arquivos de imagem gerados a cada ano. Os custos para esse tipo de
arquivo escaneado são distribuídos conforme apresentado na Fig. 14. Aqui, o
custo do escaneamento em si é responsável por quase o dobro do tamanho
de uma parcela do total (65%). A administração é o segundo maior fator de
custo, enquanto que o resto é mais ou menos distribuído igualmente.
Fig. 14. Distribuição de custos da MKC, área de escaneamento do RA, Fränsta,
Suécia.

Quando se trata da digitalização de informação audiovisual, a história é um


pouco diferente. Esse é um processo que, além de demorado, gera enormes
quantidades de informação digital. É também o único caso no qual não há
outra possibilidade de preservar materiais para o futuro senão por meio da
digitalização. Em outras palavras, enquanto se tiver que digitalizar materiais
audiovisuais a fim de preservá-los, o resultado será enormes quantidades de
dados digitais que têm de ser armazenados e preservados para um longo
prazo.

Em 2004, o Ministério da Cultura da Suécia publicou o relatório Preservando


sons e imagens, no qual discute estratégias para a preservação dos acervos
dos Arquivos Audiovisuais do Estado (Statens Ljud och Bild Arkiv, SLBA). Os
acervos consistem em 4,5 milhões de horas de áudio e vídeo, 30% de fitas
de áudio e 70% de fitas de vídeo. Se esse montante fosse digitalizado em
formatos levemente “comprimidos” ou restritos – considerados por muitos
como tendo uma espécie de qualidade mínima – como CD (16 bits e 44.100
kHz de taxa de amostragem) e DVD (MPEG-2), no total isso equivaleria a 8
Petabytes (isto é, 8.000.000 GB). Caso um alto padrão de qualidade, o
estado da arte em um dado momento, fosse ser alcançado, a quantidade de
dados seria ainda maior. E uma vez que a tecnologia avança rapidamente
nessas questões, a definição de alta qualidade é fluida, para dizer o mínimo.
Uma vez que os acervos incluem muitos diferentes formatos e tipos de
registro, diferentes processos de digitalização poderiam ser utilizados.
Sugere-se, por exemplo, que fitas de ¼ de polegada com conteúdo de voz
poderiam ser digitalizadas com o dobro da velocidade original de gravação.
Para materiais desse tipo, tal procedimento garantiria uma qualidade
suficiente; uma vez que diz respeito a uma grande quantidade dessas fitas, a
economia de tempo seria considerável. No entanto, mesmo em sua forma
mais eficiente a toda a operação deve durar 10 anos, a um custo de 90
milhões de euros.
O relatório afirma que “devido a condições e circunstâncias técnicas,
transferências devem ser realizadas dentro dos próximos dez anos”. Esse
tipo de material deve ser digitalizado em um futuro próximo a fim de ser
preservado, uma vez que as mídias originais estão se deteriorando
continuamente e, assim como os equipamentos, se tornando obsoletas e
difíceis de manter em pleno funcionamento.

A distribuição de custos não é descrita em detalhes no relatório. A maior


parte dos custos vai para a própria conversão, uma vez que muitas máquinas
poderiam ser configuradas para funcionar simultaneamente, operadas
apenas por uma pequena equipe. A preparação e os extras provavelmente
seriam o segundo maior fator de custo. No que diz respeito a materiais
audiovisuais, deve-se levar em conta os custos de manutenção dos
equipamentos analógicos, bem como seu ajuste para a melhor extração de
sinal possível. Trata-se de um trabalho especializado que pode demandar
tempo. Uma comparação de custos de produção por GB entre materiais
audiovisuais e outros materiais é apresentada na Fig. 15.

Fig. 15. Custos de produção para diferentes formatos de arquivo: arquivos de


imagem de 1 bit e de 8 bits, e arquivos de audiovisual

A conversão de todo esse material provavelmente resultaria numa produção


anual de cerca de 800 mil GB de informação digital. A Fig. 16 compara a
quantidade de arquivos de imagem produzida por ano pelo MKC com a
produção anual estimada de arquivos audiovisuais. Esse enorme
investimento em digitalização tem que ser casado com medidas adequadas
para a preservação do trabalho feito para um longo prazo.
Fig. 16. Comparação da quantidade de arquivos de imagem e de audiovisual a ser
gerada por ano em alguns projetos suecos de digitalização no RA/MKC e para o
SBLA nos próximos anos

No entanto, quando se considera os custos de armazenamento


isoladamente, fica evidente que isso requer investimentos estruturais a um
nível que, no presente momento, dificilmente alguém poderia considerar
como sendo algo iminente.

Para os materiais audiovisuais, isso gera um dilema: como não há outra


opção senão converter para o formato digital e preservar os arquivos digitais,
investimentos em conversão e armazenamento de longo prazo terão de ser
feitos de algum modo, embora seja duvidoso que o financiamento e a
manutenção constante possam estar assegurados para projetos tão grandes.
Em relação aos materiais em papel, ainda há a possibilidade de digitalizar
para fins de acesso e contar com a preservação dos originais ou dos
microfilmes. A decisão de gerar imagens digitais, utilizá-las para produzir
COM (que então se torna o formato de preservação), mas não estabelecer o
compromisso de manter os arquivos digitais para o futuro pode ser sensata
em termos financeiros. Acervos digitais podem cumprir um determinado papel
apenas por um período limitado, além de que nem sempre há a necessidade
de mantê-los eternamente, especialmente por poderem ser re-escaneados de
maneira relativamente barata a partir do COM, em caso de necessidade.

O RA está atualmente estudando se é viável utilizar o COM como um esforço


para aprimorar a estratégia de microfilmagem, que tem um longo histórico na
proteção de informações em materiais em mau estado. Ao invés de somente
microfilmar, o RA está considerando a possibilidade de transferir os arquivos
de imagens para COM juntamente com metadados para pesquisa. (Se
alguém se mover na direção contrária e produzir primeiro o microfilme a partir
do qual os arquivos de imagem são gerados, os microfilmes ficarão sem
esses dados para pesquisa). As imagens digitais podem ser usadas
diretamente, mas com o COM não há a mesma necessidade de preservá-las
– o que de outro modo seria o caso. No futuro os filmes poderiam ser
(re)escaneados muito rapidamente e estar disponíveis no âmbito digital,
assim como serem passíveis de serem pesquisados.
Seja qual for a estratégia a ser seguida, o ponto fundamental a se considerar
antes de empreender uma digitalização em grande escala é o nível de
comprometimento financeiro de longo prazo que pode ser assegurado de
maneira realista e, a partir disso, desenvolver uma estratégia de preservação
adequada. Estimativas de custos que cobrem todos os aspectos devem fazer
parte do processo de planejamento, de modo a reduzir o risco de um projeto
acabar se tornando mais um buraco negro digital, assim como aconteceu
com tantos outros.