Você está na página 1de 16

Garantir a longevidade da Informao Digital

por Jeff Rothenberg

RAND 1700 Main Street Santa Monica, CA 90407 310/393-0411 e-mail (Internet): jeff@rand.org

Reviso: 22 de fevereiro de 1999

Documentos digitais esto substituindo o papel na revoluo mais dramtica de manuteno de registros desde oinveno da imprensa. a gerao atual desses documentos condenada a ser perdida para sempre?

Nota: este artigo uma verso ampliada do artigo "Garantir a longevidade de Documentos Digitais"que apareceu em 1995 a edio de janeiro da revista Scientific American (Vol. 272, N 1, p. 42-7). Na data acima, esta reviso pode ser encontrada em http://www.clir.org/programs/otheractiv/ensuring.pdf

rev: 980327

Assegurar a longevidade da Pgina de Informao Digital Jeff Rothenberg-1 de 18

Garantir a longevidade da Informao Digital


por Jeff Rothenberg Reviso: 22 de fevereiro de 1999
Nota: este artigo uma verso ampliada do artigo "Garantir a longevidade de Documentos Digitais" que apareceu em 1995 a edio de janeiro da revista Scientific American (Vol. 272, N 1, p. 42-7).

O ano 2045, e os meus netos (que ainda no nasceram) esto a explorar o sto da minha casa (como Ainda Unbought). Eles encontram uma carta datada de 1995 e um CD-ROM (disco compacto). A carta de reivindicaes que o disco contm um documento que fornece a chave para obter a minha fortuna (ainda no adquiridos). Meus netos esto compreensivelmente animado, mas eles nunca viram um CD antes, exceto em filmes antigos, e at mesmo se eles podem de alguma forma encontrar uma unidade de disco adequado, como eles iro executar o software necessrio para interpretar as informaes no disco? Como podem ler o meu obsoleto documento digital? Esse cenrio de dvidas o futuro do nosso computador baseado em documentos digitais, que so rapidamente substituindo seus equivalentes em papel. amplamente aceito que a tecnologia da informao revolucionar os nossos conceitos de documentos e registros em uma reviravolta, pelo menos, to grande como o introduo de impresso, se no da prpria escrita. A atual gerao de documentos digitais, portanto, tem uma importncia histrica nica, mas os nossos documentos digitais so muito mais frgeis do que o papel. Em fato, o registro de todo o perodo atual da histria est em perigo. O contedo histrico e valor de muitos registros governamentais, organizacionais, jurdicos, financeiros e tcnicos, cientficos bancos de dados e documentos pessoais podem ser irremediavelmente perdidas para as geraes futuras se no tomar medidas para preserv-los. O que temos j perdeu? Embora existam alguns bem documentado, casos indiscutveis de importantes documentos digitais ou dados que foram irremediavelmente perdidas, a evidncia anedtica abunda. Um dos melhores da publicidade casos preocupaes U. S. informaes do Censo de 1960. Esta foi originalmente armazenados em fitas digitais que tornaram-se obsoletas mais rpido do que o esperado. Apesar de algumas informaes sobre estas fitas foi aparentemente ilegvel, a maior parte foi copiado com sucesso em mdias mais recentes, e parece que nada insubstituvel foi perdido (j que os retornos censo-primas eram guardados em microfilme). No entanto, este caso representa um triz e citada com destaque na Cmara dos Representantes 1990 Relatrio Tirar um byte da histria: a preservao do arquivo de registros de computador federal (novembro 6, de 1990, Relatrio da Casa 101-978). outros casos de perda possvel observar no relatrio incluem centenas de rolos de fita do Departamento de Sade e Servios Humanos, os arquivos da Comisso Nacional sobre o Abuso de maconha e drogas, as terras pblicas da Comisso de Reviso da Lei, Comisso do presidente na Fazenda Escola, ea Comisso Nacional de Defesa do Consumidor Finanas; Combate rea arquivo contendo Casualty POW MIA e informaes para o Vietn guerra; informaes herbicida necessria para analisar o impacto do Agente Laranja, e muitos outros. Outras fontes sugerem que os dados cientficos que est em risco semelhante, como a NASA e fitas antigas registros insubstituvel de numerosos experimentos idade ungracefully na ausncia de financiamento para copi-los para novas mdias. Esses casos exemplificam todos os modos de perda discutidos neste artigo: deteriorao fsica dos meios de comunicao, perda de informaes sobre o formato, codificao ou compresso de arquivos, obsolescncia de hardware, e na indisponibilidade de software. At data, parece haver poucos casos documentados de perda de equvocos, mas isso pode simplesmente refletir o fato de que os documentos ou dados que so reconhecidos como importantes, enquanto eles ainda so recuperveis so os mais provveis a serem preservados. A importncia histrica de muitos de nossos digital documentos, que no pode considerar suficientemente importante para justificar poupana pode tornar-se aparentes somente muito tempo depois que eles se tornaram ilegveis.

Pouco velha crregos nunca morrem, eles apenas se tornar ilegvel Meus netos dilema revela alguns problemas fundamentais em matria de armazenagem digital. Em primeiro lugar, sem a carta explicativa, no teriam nenhuma razo para pensar que o disco no meu sto foi pena decifrar. Apesar da to propalada imortalidade da informao digital (decorrentes de sua capacidade de ser copiado perfeitamente), a carta que ser de cinquenta imediatamente inteligvel anos a partir de agora, no o disco digital. A carta possui a qualidade invejvel de ser legvel sem mquinas, ferramentas especiais ou conhecimento que no o Ingls, o que parece seguro para assumir permanecer compreensvel por centenas de anos [ver Figura 1]. Ironicamente, apesar de sua reprodutibilidade tornar a informao digital teoricamente invulnervel a estragos do tempo, a mdia fsica no qual ele est armazenado esto longe de ser eterna. Se o CD ptica meu sto, em vez disso um disco magntico, a tentativa de l-lo provavelmente seria um desperdcio de tempo. O contedo de mdia digital mais evaporar muito antes de palavras escritas em papel de alta qualidade, e muitas vezes eles se tornam obsoletos unusably muito mais cedo, pois eles so substitudos por novos meios de comunicao ou formatos incompatveis [veja a Figura 2 e Fotos 1]. As ltimas dcadas tm testemunhado a desaparecimento de inmeras formas de armazenamento digital. Isso levou a minha observao que o digital Informaes dura para sempre ou cinco anos, o que ocorrer primeiro. No entanto, nem a fragilidade fsica dos suportes digitais, nem a sua tendncia lemming-como direo obsolescncia compreendem o pior dos problemas dos meus netos. Eles devem no apenas extrair o contedo do disco que deve tambm interpret-la corretamente. Para entender o que isso acarreta, devemos examinar a natureza de armazenamento digital. A informao digital pode ser armazenado em qualquer meio fsico que pode gravar dgitos (como os 0s e 1s que chamamos de "bits"). Diferentes meios de comunicao podem armazenar uma dada seqncia de bits de maneira diferente, de acordo com as propriedades fsicas dos meios de comunicao e de vrios convenes. Ns vamos usar o "fluxo de bits" para significar uma seqncia, destina-se significativo de bits (Que pode no ser a mesma que a seqncia em que eles aparecem em alguma mdia de armazenamento). A fluxo de bits simplesmente um fluxo de dgitos binrios, encadeadas em seqncia [veja a Figura 3]. Um fluxo de bits podem ser armazenados de diferentes maneiras em diferentes suportes. Recuperando um fluxo de bits de sua representao fsica em alguma mdia requer um dispositivo de hardware, como um disco unidade, em que a "montar" esse meio, bem como especial "controller" um circuito que pode recuperar as informaes armazenadas no meio-se magntico, ptico, ou outros. Um programa especial (Chamado de "driver de dispositivo") tambm necessrio para fazer este dispositivo acessvel por um determinado computador do sistema. No entanto, mesmo admitindo que os meus netos ainda reconhecer a informao digital que codificados na forma binria e que o fluxo de bits destinados podem ser recuperados do meio, que Como Shakespeare de forma to eloquente notas no dstico do famoso soneto 18, a palavra impressa tem um tipo deimortalidade que poucas outras coisas podem reivindicar. A palavra "presente" na ltima linha referese ao soneto de si mesmo, assimprovando o seu prprio ponto. Devo te comparar a um dia de vero? Tu s mais linda e mais temperado: Windes Rough fazer tremer os brotos de Maie, E Sommers locao tem muito curto uma data:Algum tempo muito quente o olho do cu brilha, E muitas vezes a sua tez de ouro dimm'd, E cada faire faire do declnio h algum tempo, Por acaso, ou mudar de rumo untrim'd naturezas:Mas, eterna a tua Sommer no deve desaparecer,Nem a posse solta que tu ow'st faire, Nem a morte brag wandr'st tu na sua sombra, Quando em linhas, eterna para grow'st tu tempo, Enquanto os homens podem respirar ou os olhos podem ver,Ento, vida longa e isso, e isso d vida a ti. 3

A verso moderna e digital do dstico teria que ser algo como o seguinte: Enquanto o fluxo magntico sobre este disco no tenha sido perturbada, e enquanto os seres humanos conservam o tamanho apropriado e unidades de disco, velocidade e enquanto eles tm controladores de hardware e drivers de dispositivo de software capaz de ler os bits a partir deste disco, e contanto que eles tenham acesso ao software que codificam a estrutura do arquivo e cdigos de caracteres utilizados no fluxo de bits do documento, e enquanto eles ainda podem encontrar ou recriar o ambiente de computao necessrias para executar o software, e enquanto eles ainda podem respirar ou ver, Ento, vida longa e isso, ...

Figura 1: soneto imortal de Shakespeare, 18 e seu equivalente digital


H uma controvrsia considervel sobre o tempo de vida fsica dos meios de comunicao: por exemplo, alguns afirmam que a fita ter a durao de 200 anos, enquanto outros relatam que muitas vezes falha em um ou dois anos. No entanto, vida fsica raramente incluem como fator limitante, uma vez que em qualquer dado momento, um formato particular de um dado meio pode ser Espera-se que se tornam obsoletos no prazo mximo de cinco anos. Mdio vida fsica prtica 5-59 anos 20-30 anos 5-10 anos AVG. tempo at obsoletos 5 anos 5 anos 5 anos

ptico (CD) fita digital magntica do disco

Figura 2: O meio a mensagem de curta durao

A pea central dessa foto uma rplica em escala 1 / 3 do Rosetta Stone. Descoberta no Egito em 1799 por um Esquadro de demolio militar francs, que contm interpretaes equivalente a um texto nico em trs scripts. O primeiro Destes, hieroglfica, no tinha sido utilizado desde o quarto sculo dC, enquanto a segunda, demtica, tinha sido a ltima utilizado no sculo 5 dC, fazendo do antigo Egito indecifrvel por mais de 13 sculos. Desde o terceiro entrega em grego, a Pedra de Roseta desde que a chave para interpretar os scripts do antigo Egito. A original, que pode ser visto no Museu Britnico, data de 196 aC e consiste de um decreto real emitido no primeiro aniversrio da coroao de Ptolomeu V (Os governantes do Egito durante o Perodo Ptolomaico foram Macednia grega, descendente de Ptolomeu, o filho de um dos generais de Alexandre, que representa a uso de grego neste documento oficial.) Alm de ser perfeitamente legveis depois de quase 22 sculos, o Rosetta Preservao de Stone directamente imputvel ao facto de a sua importao (ou seja, que consistia em trs verses o mesmo texto, uma das quais, sendo grego, pode fornecer a chave para decifrar os scripts perdido egpcia) foi visualmente aparentes com o tenente francs (Pierre Franois Xavier Bouchard), que estava no comando do time que descobriu a pedra. A mdia de armazenamento digital mostrado ao redor da rplica j nopermaneam legveis para 1/100th enquanto a Pedra de Roseta.

Cor Foto por Jeff Rothenberg deve ser interpretada. Isso no simples, porque um fluxo de bits dado pode representar quase tudo, de um inteiro para uma matriz de pontos em uma imagem de estilo pontilhista [veja a Figura 4]. Como podem as geraes futuras interpretar corretamente a nossa parte crregos? Imagine que todos os nmeros em um extrato mensal de conta corrente foram amarradas juntas sem pontuao ou espaamento para distinguir entre os nmeros dos cheques, datas ou os valores em dlares de cheques, depsitos ou saldos. O resultado seria um "fluxo dgito" decimal contendo todas as informaes importantes na declarao, ainda que de forma decididamente ilegvel. Para compreender este fluxo, voc precisaria para saber o seu formato, por exemplo, que uma seqncia de entradas, cada uma composta por uma srie de peas, tais como data, seguido de uma verificao no nmero com zero indicando um depsito, seguido por uma quantidade de transaes, seguido por um balano intermedirio. Voc tambm precisa saber onde cada pea comea e termina, ou seja, quantos dgitos compreendem uma data, um nmero do cheque, e uma quantidade. Um fluxo de bits simplesmente um fluxo de dgitos em que cada dgito binrios (ou seja, 0 ou 1). Note que a mudana do comprimento do fluxo ou reorganizar de forma alguma atrapalha com o seu significado.

Data 4/5/94 4/26/94 4/27/94 11/3/94

chk/dep depsito

Montante

chk# 314
depsito

chk# 315

$500.00 $100.00 $ 50.00 $100.00

Balano $500.00 $400.00 $450.00 $350.00

Removendo todos os espaos e pontuao e as datas de traduzir em 6 dgitos (DDMMAA); seleo nmeros em 4 dgitos; depsitos em 0000, e em quantidades de 11 dgitos, as entradas acima tornar-se:

04059400000000005000000000050000 04269403140000001000000000040000 04279400000000000500000000045000 11039403150000001000000000035000


5

Concatenando essas entradas produz o fluxo de dgitos decimais seguintes:

04059400000000005000000000050000042694031400000 01000000000040000042794000000000005000000000450 0011039403150000001000000000035000


Um fluxo de bits simplesmente um fluxo de dgitos em que cada dgito 0 ou 1. Figura 3: O que um fluxo de bits? Compondo este problema, um fluxo de bits tem a estrutura implcita de que no pode ser representado explicitamente no fluxo de bits em si. Por exemplo, se um fluxo de bits representa uma seqncia de caracteres alfabticos caracteres, que podem consistir de comprimento fixo de pedaos de informao (chamados de "bytes"), cada qual representa um cdigo para um nico caractere [veja a Figura 5]. Nos esquemas atuais, os bytes so normalmente 7 ou 8 bits de comprimento. Mas um fluxo de bits no pode incluir informao suficiente para descrever como deve ser interpretado. Para extrair comprimento fixo de bytes de um fluxo de bits (assim, "analisar" que em sua partes constituintes) preciso saber o comprimento de um byte. Poderamos, em princpio, codificar uma "chave" inteiro no incio do fluxo de bits, o que representa o comprimento de cada byte [veja a Figura 6]. Os 8 bits destaque no fluxo de bits mostrado abaixo pode ser interpretada de muitas maneiras, por exemplo, como um inteiro, um cdigo de caracteres simples, um som, um nmero de ponto flutuante, uma imagem, um bitmap lgica, etc
Caracter U Integer

som

..21

bit stream

010111000000001010100000000100000111101110

nmero real
1.3125 imagem

bitmap lgica
no, no, no, sim no, sim, no, sim

Figura 4: um fluxo de bits pode representar qualquer coisa Bytes de comprimento diferentes permitem que diferentes faixas de cdigos, que por sua vez pode representar nmeros diferentes de caracteres. Por exemplo, os bytes de 6 bits fornecer cdigos apenas o suficiente para representar sem adornos, letras maisculas, Considerando que a 8-bit bytes proporcionar mais liberdade. 6

Comprim. de byte

byte da amostra

Intervalo de cdigos

caracteres representveis

6 bits 8 bits

000101 00000101

0-63 0-255

{letras maisculas + alguns dgitos pontuao} {letras minsculas superior + dgitos pontuao + "controle" caracteres +elementos grficos}

Os 4 bits no incio deste fluxo de bits so destinados a ser lido como o inteiro "chave" 7, significando que o bytes restantes no fluxo de bits so cada 7 bits. No entanto, no h nenhuma maneira de contar a partir do fluxo de bits se o tempo inteiro chave , se estivssemos a ler erroneamente os primeiros 5 bits do fluxo de bits como a chave (em vez dos 4 primeiros), gostaramos de concluir erroneamente que os bytes restantes a cada 15 bits de comprimento. Destinado chave de 4 bits ( valor de 0111 = 7)
Fluxo bit :

Destina-se 7-bit data bytes

011111000000001010100000000100000111101110

No intencional chave 5 bits (valor de 01111 = 15)

No intencional 15 bit data byte

Figura 6: Fluxos de bit no podem ser auto-explicativas No entanto, este valor inteiro chave deve-se ser representado por um byte de algum tempo. Como pode um leitor interpretar a chave sem saber quanto tempo ? Precisamos de uma outra chave para explicar como interpretar a primeira tecla! Os cientistas da computao descrever tais problemas recursivos como exigindo uma "bootstrap" (isto , uma maneira de fazer algo sem ajuda de qualquer fonte externa, como em puxar-se por um prprio esforo). A fim de proporcionar um tal de bootstrap, devemos anotar nosso armazenamento digital mdio, com informaes facilmente legvel que explica como ler. Em nosso cenrio, a carta que acompanha o disco deve cumprir esse papel. Alm disso, esquemas de compresso (que reduzem o comprimento de bit crregos, para reduzir o custo de armazenar e transmitir-los) e esquemas de criptografia (que codific-los para a privacidade) faz pouco fluxos bastante difcil analisar [veja a Figura 7]. E mesmo depois de um fluxo de bits analisado corretamente, ns enfrentar um outro problema: se o fluxo resultante de bytes representa uma seqncia de nmeros ou caracteres alfabticos, decodificao parece simples: ns simplesmente interpretar cada byte de acordo para o cdigo apropriado. No entanto, isso leva a um problema semelhante ao de uma chave de codificao para especificar o comprimento de cada byte em um fluxo de bits. Para interpretar cada byte, preciso saber o esquema de codificao ele usa, mas se tentarmos identificar o esquema de codificao de codificao de um "cdigo identificador" no bit fluxo em si, precisamos de outro cdigo identificador para nos dizer como ler o primeiro cdigo identificador! Mais uma vez devemos bootstrap este processo, fornecendo anotaes facilmente legvel. 7

Como um exemplo simples de compresso de um fluxo de bits sem perda ", codificao runlength" substitui cada seqncia de 0s (000 ... 0) por uma contagem, indicando quantos bits 0 estiveram presentes no dado "run" ( semelhana de 1s). Este pode reduzir o tamanho de um fluxo de bits sem perder nenhuma informao. Por exemplo, cada executado no pouco original fluxo mostrado pode ser representado por um byte de 5 bits cujo primeiro bit especifica se o prazo de 0s ou 1s e cujos restantes 4 bits especifica a durao de uma corrida (de at 15 bits). Este esquema mais apropriada para dados que contm longas seqncias de 0s e 1s, tais como imagens digitais. fluxo de bits original: 000000111111111111110000000000000111111111 (14 bits)

uma srie de 6 0 bits

uma serie de 14 bits 1

Representando cada execuo do fluxo de bits original como um par de b: n (onde b 0 ou 1 para indicar ocontedo da execuo, e n o comprimento da pista) produz: seqncia de sries: 0:6, 1:14, 0:13, 1:9

resultando bytes de 5 bits:

00110, 11110, 01101, 11001

comprimido fluxo de bits: 00110111100110111001 (20 bits)


Figura 7: Compactando um fluxo de bits

tudo no programa
No entanto, o problema mais profundo que isso. Os documentos digitais so normalmente guardados como "arquivos" de informaes: as colees de bits correspondente ao bit que representam fluxos de documentos especficos. (Vrios documentos so armazenados em arquivos separados em um nico meio digital, por simplicidade, pode assumir uma correspondncia de um-para-um entre os arquivos e documentos.) O fluxo de bits em um documento arquivo pode representar estruturas muito mais complexas do que seqncias de bytes de comprimento fixo. Em particular, arquivos em geral contm elementos relacionados logicamente, mas fisicamente separados que esto ligados a umas das outras por referncias cruzadas internas, composto de ponteiros para outros lugares dentro do fluxo de bits ou padres a ser correspondido. (estrutura de exibio de documentos impressos similares e de referncia cruzada, em quais os nmeros de pgina so usados como ponteiros, enquanto nomes de seo ou referncias outros contedos requerem o leitor a busca de texto especificado.) [Figura 8]. Alm de ter estrutura complexa, muitos documentos, inserir informaes especiais que significativa apenas para o software que os criou. Programas de processamento de texto embed especiais informaes sobre o formato de seus documentos para descrever a tipografia, layout e estrutura (identificao ttulos, sees, captulos, etc.) Programas de planilha eletrnica inserir frmulas especificando relaes entre as clulas em seus documentos. "Hipermdia" programas de uso embutido Os documentos digitais podem codificar estrutura, bem como de texto. Por exemplo, um documento pode consistir de mltiplassubsees em sees: Seo 1 Subseo 1.1 Subseo 1.2 8

Isso pode ser representado por um fluxo de bits que contm ponteiros (ptr1 e ptr2) que do a contagem de bytes em que cada subseo comea: Da subseo
Nome da seo ptr1 ptr2 misc subsec 1.1 misc subsec 1.2

Bytes no arquivo: Contagem de bytes:

sec1 002 018 1 5 8

031 11

---14

textofl.1 18

---27

textofl.2 31

"Hipertexto" documentos pode consistir de elementos que esto ligados entre si para formar mltiplas alternativas seqncias, nenhuma das quais necessariamente mais "correta" do que qualquer outro. Em um documento deste tipo, uma determinado elemento pode aparecer como uma subseo de vrias sees diferentes (fazendo os ponteiros no seu fluxo de bits ainda mais essencial para a compreenso de sua estrutura): Seo 1 Seo 2

Subseo 1.1

Subseo X

Subseo 2.1

Figura 8: Estrutura do Documento

informaes para identificar e links de texto, grficos, imagens, sons e informaes temporais em arbitrariamente formas complexas. Por convenincia, vamos nos referir a toda a informao embutida deste espcie, incluindo todos os aspectos da representao de um fluxo de bits, tal como o seu comprimento byte, caractere cdigos, multi-mdia, informao e estrutura, como "codificao" (embora este termo usado frequentemente mais estrita). Como os documentos se tornam mais complexos do que simples fluxos de caracteres alfabticos, torna-se cada vez mais sentido pensar neles como existente em todas, exceto quando eles so interpretados pelo o software que os criou. Os bits em cada arquivo de documento so significativas apenas para o programa que criou esse arquivo. Com efeito, arquivos de documentos so os programas, consistindo de instrues e dados que s pode ser interpretada pelo software apropriado. Isto , um arquivo de documento no um documento em si mesmo: ele apenas descreve um documento que passa a existir somente quando o arquivo "correr" pelo programa que o criou. Sem isso o autor do programa ou algum equivalente em software de visualizao do documento mantido refm crtico para sua prpria codificao. medida que descobrem as vantagens de documentos digitais, estamos chegando a confiar mais e mais pesadamente sobre os recursos do meio digital, que transcendem as limitaes do impresso pgina. Isso pode ser parcialmente resultado de nossa paixo com a novidade da tecnologia da informao, mas, no entanto, implica que os no-linear, documentos multimdia sero cada vez mais predominante, pelo menos enquanto o nosso paixo dura. Na medida em que ns criamos de documentos digitais deste tipo, que ser impossvel o acesso sem software apropriado. 9

Suponha que os meus netos conseguem ler o fluxo de bits destinados a partir do CD-ROM. S em seguida, eles iro enfrentar o problema real: sem a ajuda de mais longe da minha carta de acompanhamento, como eles podem interpretar a codificao do arquivo de documento no disco? Se o documento um simples seqncia de bytes de comprimento fixo que representa os caracteres alfabticos, depois de tentativa e erro experimentao pode decodificar o documento como um fluxo de texto. Mas, se o documento mais complexo do que isso, uma abordagem de fora bruta, tentando "decifrar" a estrutura eo significado de um arquivo de documento arbitrria, dificilmente ter sucesso. O significado de um arquivo, no inerente ao arquivo em si, mais do que o significado desta frase inerente sua caracteres ou palavras. A fim compreender um arquivo, devemos saber o que significa o seu contedo, ou seja, o significado que isto tem no lngua do seu leitor-alvo. Infelizmente, o leitor-alvo de um arquivo digital um computador programa, no um ser humano. Documentos digitais, portanto, tm a caracterstica de ser desencorajador dependentes do software. Eles no podem ser "realizou-se a luz", mas deve ser visto por meio do software apropriado. necessrias para executar o software especfico que criou um documento, ou suficiente para executar algumas semelhantes programa que possa, pelo menos parcialmente interpretar a codificao do arquivo de documento? Em alguns casos esta pode ser suficiente, mas ingnuo acreditar que qualquer codificao de documento no entanto natural que Parece-nos hoje, continuar a ser lido pelo software futuro por muito tempo. A revoluo da tecnologia da informao cria continuamente novos paradigmas, que muitas vezes abandonam seus antecessores, em vez de subsumir-los. Colaborador autores e editoras j esto confundidos por uma coleo confusa e em constante mudana de formatos de arquivos incompatveis documento que deve ser traduzido para trs e para frente, muitas vezes com perdas irritante de formato, estrutura, e at mesmo contedo. Se "ler" um documento significa simplesmente ser capaz de extrair o seu contedo, ou no est em sua forma original, ento poderemos ser capazes de evitar a execuo do software original que criou o documento. Mas o contedo pode ser sutil: traduo de um formato de processamento de texto para outro, por exemplo, muitas vezes desloca ttulos ou legendas ou elimina-los completamente. Isso apenas uma perda de estrutura, ou no interferir no contedo, bem? Se podemos transformar uma planilha em uma tabela, suprimindo assim as frmulas que relacionam as clulas da tabela para o outro, temos mantido a sua contedo? Como um exemplo extremo, suponha que o documento em meu sto explica que minha sorte pode ser encontrados a partir de um mapa do tesouro representado por padres visuais da palavra-inter e espaamento entre linhas inter-nos a verso digital deste papel, armazenadas no CD. Uma vez que esses padres so artefatos do algoritmo de formatao do meu software de processamento de texto, eles no aparecem em um impresso ou publicado verso deste trabalho: eles s sero visveis quando a verso digital original visto usando o software que o criou. Finalmente, se a pessoa precisa ler um documento complexo como o seu autor visto que, pode-se ter pouca escolha mas para executar o software que o criou. Para ler o arquivo de documentos armazenados no CD-ROM no meu sto, meus netos tm portanto, saber qual o programa criou o arquivo, mas quais so as suas chances de encontrar esse programa daqui a cinqenta anos? Se eu incluir uma cpia do programa no prprio CD-ROM, eles ainda devem encontrar o software do sistema operacional que permite que o programa seja executado em um computador adequado. Incluindo uma cpia do sistema operacional no CD-ROM pode ajudar, mas o hardware do computador requeridas por esse sistema operacional j h muito se tornaram obsoletas. Um documento digital depende no apenas o programa especfico que o criou, mas em todo o conjunto de hardware e software que permitiu que o programa seja executado. Quanto disto posso guardar no CD-ROM, para torn-lo to auto-suficiente quanto possvel? Que tipo de digital Rosetta Stone posso deixar de fornecer a chave para compreender o contedo do meu disco? O que podemos fazer para garantir que o digital documentos que estamos a criar no ser perdido para o futuro?

O que um autor que fazer?


Como primeiro passo, temos de preservar o pouco fluxos de documentos digitais. Isso requer a cpia da bits em uma mdia nova para preservar a sua existncia fsica e copi-los para novas formas de meios para garantir a sua acessibilidade. A necessidade de atualizar as informaes digitais, copiando-o para novas meios de 10

comunicao (e, possivelmente, traduzindo-a em novos formatos, s vezes chamado de "migrao") tem sido reconhecida no campo das cincias e da literatura biblioteca de arquivos, assim como em um nmero de conhecimentos cientficos e lavouras comerciais. Isso requer um esforo contnuo: o acesso futuro depende de uma cadeia ininterrupta das migraes, com um tempo de ciclo curto o suficiente para evitar que materiais de tornar-se fisicamente ilegveis ou obsoletos antes de serem copiados. A nica ruptura nessa cadeia pode tornar digital informaes inacessveis curto do esforo herico. Dada a actual falta de robustez e velocidade de evoluo dos meios de comunicao, os ciclos de migrao pode precisar de ser to frequentes como a cada poucos anos, exigindo uma compromisso significativo. Alm disso, copiar o bit fluxos de documentos digitais, desta forma necessria mas no suficiente. Como um monge analfabeto obedientemente copiar o texto em uma lngua perdida, migrao pode salvar os bits, mas perdem o seu significado. Preservao de documentos digitais anloga preservao antigos textos escritos. Assim como com o sistema digital documentos, s vezes necessrio para atualizar um texto antigo, ao transcrev-lo, j que o meio no qual est escrito tem uma vida til limitada, embora pergaminho ou comprimidos ltima pedra visivelmente mais longo do que os discos magnticos. Um texto antigo pode ser preservada em uma de duas maneiras: ou copiando-o na sua lngua original ou traduzi-la em qualquer linguagem atual no momento da transcrio. A traduo atraente porque evita a necessidade de reter o conhecimento do texto original da linguagem, mas poucos estudiosos que louvar seus antepassados para esta abordagem. No s cada traduo perder informaes, mas a traduo faz com que seja impossvel determinar se informao foi perdida, porque o original descartada. (Em casos extremos, a traduo pode destruir completamente o contedo, ao traduzir um dicionrio. Imagine alguns equivocada arquelogo ter cegamente traduziu todos os trs cpias do texto sobre a Pedra de Roseta em Ingls no momento em que foi descoberto e descartando a original: uma correspondncia de valor inestimvel entre as lnguas seria, assim, foram traduzidos em uma repetio trivial do mesmo texto.) Copiar o texto na sua lngua original, por outro lado, garante que nada ser perdido, assumindo que o conhecimento da lngua original mantida junto com o texto. Isso equivale a salvar o "fluxo de bits"do texto original. Da mesma forma, existem duas estratgias para lidar com documentos digitais, os quais receberam ateno por arquivistas, cientistas, biblioteca e outros preocupados com a preservao dos registros. As primeiras tentativas de traduzir documentos em formulrios padro, independente de sistema, enquanto o segundas tentativas para estender a longevidade dos sistemas para que os documentos permanecem legveis com seu software original. Infelizmente, nem abordagem promete uma soluo completa, sem esforo adicional considervel.

A iluso de que as normas de dar uma resposta


Na superfcie, pode parecer prefervel a traduo de documentos digitais em formulrios que pode ser garantido para ser lido no futuro. Isso contornar a necessidade de manter o capacidade para executar o software original que criou um documento. Os defensores desta abordagem citar o modelo de banco de dados relacional (desenvolvido pela EF Codd em 1970) como um exemplo paradigmtico. Como todos os sistemas de gerenciamento de banco de dados relacional (RDBMS) implementar esse mesmo subjacente modelo, qualquer banco de dados relacional produzido por qualquer RDBMS pode, em princpio, ser traduzida sem perda em uma forma aceitvel para qualquer outro RDBMS. Um formulrio padro relacional poderia ser estabelecida, e todos os bancos de dados relacionais pode ser traduzido em forma. Arquivos representada usando Esse padro pode ser copiado para as novas mdias como necessrio, e com a norma proporcionaria legibilidade de todos os tempos. Isso parece tentador, mas falho em dois aspectos fundamentais. Em primeiro lugar, embora a definio matemtica formal do modelo de banco de dados relacional leva todos RDBMSs para fornecer recursos de linha de base equivalente, RDBMSs mais comercial distinguir se uns dos 11

outros justamente por oferecer recursos que estendem o padro relacional modelo de formas no-padro. Portanto, bancos de dados relacionais so menos passveis de padronizao do que parecem. Se um formulrio de banco de dados relacional padro de Procusto foram institudos em vigor bancos de dados relacionais, muitos deles perdem muito de sua riqueza .. Alm disso, o modelo relacional est rapidamente dando lugar a um modelo de banco de dados orientado a objetos (que representa entidades como estruturado, composto objetos), com as limitaes da abordagem relacional tornam-se aparentes. Esta evoluo no nem acidental nem indesejvel: a marca da tecnologia da informao que se desenvolve a um ritmo acelerado. Os dados salvos em formato relacional pode muito bem tornar-se inacessvel como sistemas de banco de dados relacional dar lugar a sistemas orientados a objetos. Alm disso, o modelo de banco de dados relacional, no constitui um exemplo paradigmtico, porque praticamente nico. Nenhum outro tipo de documento digital chega perto de ter como uma base formal em que a erigir um padro. Os processadores de texto, programas grficos, planilhas e hipermdia programas de cada um criar documentos com variao muito maior na capacidade expressiva e formato de bancos de dados relacionais. A incompatibilidade de formatos de arquivo de processamento de palavra um notrio exemplo, nem apenas um artefato de diferenciao no mercado ou de concorrncia entre produtos proprietrios. Pelo contrrio, uma conseqncia direta da evoluo natural da informao tecnologia, uma vez que se adapta s necessidades emergentes dos utilizadores. Nenhum aplicativo comum, excepo gerenciamento de banco de dados relacional ainda um candidato apropriado para a normalizao de longo prazo.

A falsa promessa de "migrao"


Na ausncia de normas de longo prazo para cada tipo de documento digital, ele ainda pode ser possvel para traduzir um documento para as normas sucessivas, cada uma com um relativamente curto perodo de vida (no ordem de um ou dois ciclos de migrao). s vezes, sugerido que uma variao dessa abordagem ocorre naturalmente, pois os documentos que esto em uso contnuo dentro das organizaes so traduzidas em novos formatos, conforme necessrio. No entanto, esta quebra quando um documento deixa de ser utilizado na negcios em andamento da organizao que a possui, pois poucas organizaes podem justificar o custo de Traduo de documentos que no usa mais. A abordagem de traduo sucessivas evita a necessidade de normas final, mas os compostos problema de perda de informaes, uma vez que cada traduo pode introduzir novas perdas. Em teoria, traduzir um documento em um padro (ou seqncia de normas) mantm um caminho de volta para o original. Ao manter a descrio de cada padro usado na seqncia de tradues (onde essas descries se teriam de ser traduzidos em padres sucessivos, a fim de permaneam legveis), os estudiosos futuro poder reconstruir o documento original. Infelizmente, este exige que cada traduo ser reversvel, sem perdas, o que raramente acontece. Se todos os primeiros verses do Homer foi descartada aps traduzi-los, haveria pouca esperana de reconstru-las, traduzindo para trs novamente. Finalmente, a abordagem de traduo sofre de uma falha fatal. Ao contrrio da antiga Grcia e Ingls, que tm mais ou menos equivalente fora expressiva e semntica, os documentos digitais so ainda evoluindo to rapidamente que as mudanas de paradigma peridicos so inevitveis. E novos paradigmas no sempre subsumir os seus antecessores: eles representam mudanas revolucionrias no que entendemos por documentos. Por definio, mudanas de paradigma no necessariamente fornecer compatibilidade ascendente. Antigo documentos nem sempre pode ser traduzida em novos paradigmas de forma significativa, e traduzindo para trs freqentemente impossvel. O modelo de banco de dados relacional fornece um bom exemplo. Muitos anteriormente, "hierrquico" bancos de dados tiveram que ser completamente redesenhado para se adaptar ao modelo relacional, apenas como bancos de dados relacionais esto agora a ser drasticamente reestruturada para fazer uso de novas orientado ao objeto modelos. As mudanas de paradigma deste tipo podem tornar extremamente difcil, se no insignificante, a traduo de documentos antigos para novos tipos de formulrios. 12

Embora a definio de normas final para documentos digitais pode ser uma meta admirvel, prematura. Tecnologia da informao ainda est na inclinao mais acentuada da sua curva de aprendizado. O campo muito novo para ter desenvolvido uma compreenso, aceitao formal das formas que os seres humanos manipular a informao. Seria presunoso imaginar que ns estamos prontos para enumerar os tipos mais importantes de aplicaes digitais, e muito menos a propor que ns estamos prontos para circunscrever as suas capacidades atravs da padronizao deles. Qualquer tentativa de forar os usurios a resolver para limitaes artificiais impostas por essas normas seria intil, pois o momento da revoluo da tecnologia da informao deriva diretamente da atrao de novas capacidades. Pode tornar vivel a definio de normas de longo prazo de documentos digitais em algum momento no futuro, quando cincia da informao repousa sobre uma base mais segura, formal, mas as normas ainda no oferecem uma soluo para nosso problema.

Byting a bala
A alternativa para traduzir um documento digital para v-lo usando o software que o criou. Em teoria, isso pode no exigir que realmente executar o software. Suponha que poderamos descrever a sua comportamento de alguma forma independente de sistema e salvar essa descrio ao invs do prprio software. As geraes futuras poderiam interpretar a descrio salva do software para recriar seu comportamento, assim, a leitura do documento. Embora isso parea promissora, cincia da informao ainda no mtodos produzidos para descrever o comportamento do software na profundidade necessria para esta abordagem. Formalismos de alto nvel comportamental desta espcie, que descrevem os programas em termos de interaes com os humanos na realizao de tarefas de processamento de informao podem, eventualmente, surgir, mas eles ainda no esto no horizonte. Na sua ausncia, a descrio s faz sentido do comportamento detalhado de um programa (na maioria dos casos) o prprio programa. A fim de recriar acomportamento de um programa arbitrrio, no h actualmente pouca escolha mas para execut-lo. Isso requer salvar arquivos digitais de documentos e programas que os criaram, bem como todos os software necessrio para executar esses programas. Embora esta seja uma tarefa difcil, teoricamente vivel. No incomum para salvar e distribuir documentos digitais, juntamente com as devidas software de visualizao e s vezes at mesmo uma cpia da verso apropriada do sistema operacional necessrias para executar o software. Isso muitas vezes a nica forma de garantir que um destinatrio ser capaz de ler um documento (assumindo que o hardware necessrio est disponvel). Alm disso, em muitos casos, necessria apenas para se referir aplicao apropriada e software do sistema, j que esses programas so onipresentes. Arquivos de software (domnio pblico) livres j esto proliferando no Internet, e com sorte de direitos autorais, royalties e restries para programas proprietrios podem expirar quando esses programas se tornam obsoletos, tornando-os disponveis para o acesso futuro histrico documentos. Se os documentos digitais e seus programas esto a ser salvas, a migrao deve ser realizada com extremo cuidado para garantir que os seus fluxos de bits no so modificados de qualquer forma que afeta seu interpretao, pois os programas e seus arquivos de dados podem ser corrompidos pela mnima alterao. Esta um ressurgimento do problema de traduo discutido acima. Copiando bit streams no deve inadvertidamente alterar o tamanho do byte, introduzir bits adicionais, inverter a ordem dos bits, comprimir ou criptografar dados, ou de qualquer forma modificar a codificao do fluxo de bits. Se essas mudanas so inevitvel, no suficiente para gravar informaes suficientes para interpretar a codificao final: um deve tambm gravar informaes suficientes sobre cada transformao como para permitir a reconstruo da codificao original do fluxo de bits, em que a sua semntica pode ter invocado. Por exemplo, se ponteiros internos em um documento composto de contagem de bits, que seria invalidado por qualquer transformao que mudou o nmero de bits no fluxo. (Encontrar todos estes ponteiros em uma documento e adapt-las para dar conta da contagem de bits alterado anloga , mas muito mais difcil do que, o "Ano de 2000 " problema de encontrar todos os nmeros de dois dgitos em um programa que representam anos.) Embora seja possvel projetar fluxos de bits cuja semntica imune a qualquer transformaes esperadas deste tipo, os ciclos de migrao futura pode introduzir inesperado transformaes, que o designer do fluxo de bits no poderia ter previsto.

13

dealmente, os fluxos de bits devem ser consideradas entidades inviolvel, selado no virtual "envelopes", cuja contedo preservado na ntegra. Se a transformao inevitvel, deve ser reversvel, sem perda; informao facilmente legvel associados a cada envelope dever descrever o seu contedo e sua histria de transformao, se houver. Ser um desafio srio para encapsular pouco crregos desta forma e garantir que eles mantm as informaes necessrias contextual de uma forma que continua a ser facilmente legvel no futuro.

Como podemos correr hardware obsoleto?


Devemos ainda mostrar como podemos preservar o hardware necessrio para executar o software para visualizar uma digital documento. O processo de migrao elimina a necessidade de preservar dispositivos de armazenamento como disco unidades, mas de sistemas e software de aplicao ainda depende de hardware, tanto para o clculo e para entrada e sada. Uma abordagem bvia tentar manter os computadores na condio de trabalho muito tempo depois eles se tornam obsoletos. Na verdade uma srie de museus especializados e "Retrocomputing" informal clubes esto tentando fazer isso. No entanto, apesar de um certo charme inegvel atribuvel sua estratgia tecnolgica bravata-presente intil a longo prazo: mecnico componentes falham, e at a idade de circuitos eletrnicos como "dopantes"que fazem de silcio em um til semi-condutores e vestgios de metal que conecta os componentes em cada chip e difusa "migrar" dentro de sua carcaa. Como componentes de desgaste, o custo da reparao ou substitu-las (e de reter os conhecimentos necessrios para faz-lo) rapidamente superam a demanda para a manuteno de qualquer determinado computador. Quanto tempo que podemos esperar para manter os sistemas em condies operacionais atuais? Vinte anos? Cinquenta? Alm disso, desde que os registros no podem ser esperados para sobreviver com sua mdia original, mas s ser legvel se elas migraram para a nova mdia, utilizando computadores antigos para ler os registros antigos que exigir a criao de interfaces de hardware de propsito especial entre cada computador antigo e cada novo gerao de mdia de armazenamento, por exemplo, para permitir que um computador de 1960 do vintage para ler dados de um CD-ROM. O esforo de projetar, construir e manter essas interfaces, rapidamente tornar-se proibitivo. Felizmente, no necessrio para preservar hardware fsico para poder rodar softwares obsoletos.Emuladores, programas que imitam o comportamento do hardware pode ser criado para tomar o lugar de hardware obsoleto, conforme necessrio. Assumindo que os computadores futuros sero ordens de grandeza mais poderosa que a nossa, os futuros usurios devem ser capazes de perguntar a seus computadores para gerar emuladores para sistemas obsoletos na demanda. Isso pode exigir acesso especificaes guardado para o desejado hardware, mas este hardware no poderia ter existido, em primeiro lugar, se as especificaes detalhadas para sua concepo e construo no tinha tambm existia. Estas especificaes devem ser guardados em formato digital formulrio que ser lido pelos futuros geradores de emulador (seja humano ou mquina). Alternativamente, as especificaes para emuladores poderiam ser salvos diretamente, uma vez que a maioria dos computadores novos emulado antes de serem produzidas (como parte do processo de concepo e avaliao) machineindependent especificaes para emuladores podem ser derivadas dessas existentes especfica da mquina emuladores. Nos seis anos desde que me sugeriu esta abordagem, que comeou a ocorrer espontaneamente em um contexto improvvel. Grupos de rede especial interesse est a criar e emuladores de compartilhamento de processadores de vdeo obsoletos jogo e no incio de computadores pessoais. Obsoletos programas para esses processadores esto sendo copiados para a mdia atual por mtodos engenhosos, como um digitalizao de sinais de udio gerados por dispositivos improvisados que lem meio obsoleto, e estes programas so executados em emulao em computadores modernos.

Juntando tudo
Como vimos, a interpretao de um fluxo de bits depende de saber como ele foi codificado, e um fluxo de bits no podem ser totalmente auto-descrio, uma vez que qualquer descrio que se representa no fluxo de bits deve tambm ser interpretada. A nica maneira para iniciar este processo incluir facilmente legvel 14

anotao com todos os documentos digitais, explicando como interpretar os seus bits. A carta que acompanha o disco no meu sto serve esse propsito, mas se o disco tinha sido copiado para novas mdia, como que as informaes contidas na carta foram preservados? Uma unidade de armazenamento no ano 2045 pode ser a bit streams de milhares de CDs. Mesmo que cada disco tinha uma letra associada fornecendo o contexto necessrio, como isso poderia ser realizado junto com o fluxo de bits de cada disco? Claramente, qualquer anotao deve-se ser armazenados digitalmente, juntamente com o seu fluxo de bits associados, mas deve ser codificado em um formato digital que mais legvel do que o fluxo de bits em si, a fim de servir como um iniciador. Este um papel ideal para os padres: um padro simples de texto deve ser capaz de informaes suficientes para permitir que codificam motivos interpretar um fluxo de bits encapsulados. Sempre bit streams migrar para novas mdias, suas anotaes devem ser traduzidas de sua forma anterior a qualquer norma atual no momento da migrao. Leitura atual documentos digitais em um futuro no ser fcil. Eventualmente, a cincia da informao podem desenvolver modelos de processamento de informao humana e computacional que permita digital os documentos sejam armazenados de forma independente de sistema, mas isso no pode acontecer no tempo para salvar o gerao atual desses documentos. Da mesma forma, meios de armazenamento de longa durao pode vir a fazer migrao menos urgentes (o custo da migrao pode motivar a aceitao de tais meios, substituindo o nosso apetite para um melhor desempenho), mas no h nenhum sinal de que isso acontea ainda. Em Entretanto, temos de agir rapidamente e decisivamente, se quisermos ajudar a nossos descendentes leia nossa documentos. Temos de desenvolver padres de conduta para as anotaes de codificao de motivos para o arranque do interpretao de documentos digitais que so salvos em formulrios no padronizados. preciso desenvolver tcnicas para salvar o pouco fluxos de documentos software-dependentes e seus associados sistemas e softwares aplicativos. Temos de garantir que os ambientes de hardware necessrio para executar este software so descritos em detalhe suficiente para permitir a sua futura emulao. Devemos salvar essas especificaes como documentos digitais, codificados com os padres desenvolvidos para bootstrap salvar anotaes, para que possam ser lidos sem software especial (para que no sejamos forados recursivamente para emular um sistema a fim de aprender a imitar o outro). Devemos associar contextual informaes com os nossos documentos digitais para fornecer provenincia, bem como anotaes xplicativas em um formulrio que pode ser traduzido em sucessivas normas de modo a permanecer legvel. Finalmente, temos de assegurar a migrao sistemtica e contnua dos documentos digitais em novas mdias, documento de preservar e pouco fluxos de programa na ntegra, ao traduzir a sua contextuais informaes necessrias. Se todos esses fatores vm juntos, eles devem permitir obsoletos digital documentos a serem lidos, como ilustrado na Figura 9. HW Descrio Intrprete orig. HW descrio Corrente HW OS executado Orig. HW emulao Orig. OS orig. HW "corridas" em emulao drivers de mdia Orig. SW
orig. SW runs orig. OS runs

Corrente OS`

(Migrao) mdias intactas

Drives+ lgicos para a mdia

mdia fsica acessvel

mdia, logicamente acessvel documento legvel!

Figura 9: Uso de emulao para ler um documento digital obsoleto 15

Concluso
Alm de ter valor pragmtico bvio, que os documentos digitais estamos criando atualmente so os primeira gerao de uma forma radicalmente nova de manuteno de registros. Como tal, eles tendem a ser vistos pelos nossos descendentes como artefatos valiosos do alvorecer da era da informao. Ainda estamos em perigo iminente de perd-las assim como ns cri-los. Temos de investir pensamento cuidadoso e esforo significativo, se quisermos preservar esses documentos para o futuro. Se no estamos dispostos a fazer este investimento, corremos o risco de perda substancial prtica, bem como a condenao da nossa prognie para impensadamente Deixando para trs um legado histrico nico. Onde ficam os meus netos? Por hiptese, a informao sobre os seus cinqenta anos de idadeCD no migrou para a mdia mais recente, mas se tiver sorte, ela ainda pode ser lido por alguns unidade de disco existente, ou podem ser criativo o suficiente para construir um, com base em instrues minha carta de acompanhamento. Se eu incluir todos os sistemas necessrios e aplicao de software no disco, juntamente com uma especificao completa e facilmente descodificado do ambiente de hardware necessrios para execut-lo, eles devem ser capazes de gerar um emulador que ir exibir o documento, executando o software original. Desejo-lhes sorte

Pequena bibliografia
Archival Management of Electronic Records, Archives and Museum Informatics Technical Report no. 13, David Bearman, ed., Archives and Museum Informatics, Pittsburgh, 1991 (ISSN 1042-1459). Text and Technology: Reading and Writing in the Electronic Age, Jay David Bolter, Library Resources and Technical Services, 31 (January/March 1987), pp. 12-23. Understanding Electronic Incunabula: A Framework for Research on Electronic Records, Margaret Hedstrom, The American Archivist, 54:3 (Summer 1991), pp. 334-54. Scholarly Communication and Information Technology: Exploring the Impact of Changes in the Research Process on Archives, Avra Michelson and Jeff Rothenberg, The American Archivist, 55:2 (Spring 1992), pp. 236-315 (ISSN 0360-9081). Research Issues in Electronic Records, published for the National Historical Publications and Records Commission, Washington, D.C., by the Minnesota Historical Society, St. Paul, Minn. 1991. Ensuring the Longevity of Digital Documents, Jeff Rothenberg, Scientific American, January 1995 (Vol. 272, Number 1), pp. 24-29. Metadata to Support Data Quality and Longevity, The First IEEE Metadata Conference, April 16-18, 1996, NOAA Auditorium, NOAA Complex, Silver Spring, MD, available only online at http://www.computer.org/conferen/meta96/rothenberg_paper/ieee.data-quality.html Taking a byte out of history: the archival preservation of federal computer records, Report of the U.S. House of Representatives Committee on Government Operations, Nov. 6. 1990 (House Report 101-978).

16