Você está na página 1de 31

Tecnologas de digitalizacin en las

instituciones de la memoria

Curso Archivos Musicales

Museo Etnogrfico Juan B. Ambrosetti


FFyL - UBA

Primer mdulo

Lic. Fernando Boro


FFyL UBA/CONICET
Octubre de 2007
Primer mdulo - Sumario

La naturaleza del mundo digital. Diferencias


fundamentales con el mundo analgico

Emergencia del concepto de preservacin digital

Debates en torno a la aplicacin de tecnologas de


digitalizacin en las instituciones de la memoria

El enfoque hbrido

Los proyectos pioneros: primeras recomendaciones y


buenas prcticas en el uso de la tecnologa

Curso Tecnologas... 2 1era reunin


Objetos analgicos

Propiedades fsico-qumicas de los soportes (papel, microfilms,


etc.) ---> preservacin = extender vida til de los soportes

La preservacin fsica del soporte suele preservar el contenido


informativo/intelectual

El acceso puede desligarse de la preservacin: se podra guardar


un original en una bveda y negar toda consulta por mucho
tiempo (ej.: documentos fundacin ciudad de La Plata, Bs. As.).
El original no perdera su calidad de accesible por esa oclusin.

Curso Tecnologas... 3 1era reunin


Objetos analgicos

Contenidos accesibles directamente a los humanos, slo se


requiere luz y a lo sumo una lupa (microfilm)

Se puede esperar muchos aos entre la creacin o adquisicin


del objeto y las acciones de preservacin: negligencia
benigna

Normas de preservacin bien conocidas y estables


(estabilizacin, deacidificacin, condiciones de
almacenamiento)

Curso Tecnologas... 4 1era reunin


Objetos digitales

Soportes fsicos de informacin (disquetes, WORM, CD,


DVD, discos rgidos, etc.): No son el problema principal

Informacin codificada en forma binaria, en secuencias


o cadenas de bits (combinaciones de ceros y unos)

Se necesita software que decodifique la informacin para


presentarla en forma comprensible para los humanos.
Software = aplicaciones + SO

Curso Tecnologas... 5 1era reunin


Objetos digitales

Contenidos accesibles slo mediante hardware


y software = Dependencia tecnolgica

Tecnologa cambia muy rpidamente (obsolescencia)


Puede perderse el acceso a la informacin digital

Sin acceso, no vale de nada tener preservada la secuencia


de bits del archivo en un soporte en buenas condiciones

Curso Tecnologas... 6 1era reunin


Objetos digitales

Ejemplo: archivo de WordStar en un disquete de 5 = no


reconocible por procesadores de texto actuales (software);
desaparicin de esas disqueteras (hardware)

Obsolescencia tecnolgica = Alto riesgo de prdida --->


obliga a realizar acciones de preservacin ahora, con la
creacin o ingreso de la coleccin digital

Preservacin digital = Preservacin del acceso

Curso Tecnologas... 7 1era reunin


Preservacin del acceso

Cambio de paradigma respecto de la preservacin tradicional

Preservacin digital tiene en cuenta:


Soportes

Cadenas de bits

Formatos de archivo electrnico

Software de acceso y visualizacin

Sistemas operacionales (hardware + sistemas operativos)

Ciclo de cambio tecnolgico de hardware + software

Curso Tecnologas... 8 1era reunin


Sntesis (preservacin)

Analgico Digital

Informacin accesible Informacin inaccesible


directamente por humanos directamente por humanos

Preservacin centrada en los No alcanza con preservar los


soportes soportes

Soluciones conocidas y Soluciones todava inciertas,


estables, estndares campo en desarrollo

Se puede esperar mucho Sin embargo, se debe actuar


tiempo ahora

Curso Tecnologas... 9 1era reunin


Estrategias de preservacin digital

De corto plazo
Preservar los soportes (chequeos, refresco)
Preservar integridad de la cadena de bits (chequeos)
Usar formatos de archivo universales, no propietarios (TIFF, XML, etc.)
Redundancia de copias de los objetos digitales (LOCKSS)
Si todo falla ----> Arqueologa digital = muy caro, no siempre funciona

De largo plazo
Registrar, documentar y controlar las distintas instancias de la informacin
en formato digital, a lo largo del entero ciclo de vida (metadatos, diversas
clases) = paranoia digital
Migracin (formatos, software, sistemas completos)
Emulacin: R. Lorie, UVM (Universal Virtual Machine)

Curso Tecnologas... 10 1era reunin


Un poco de historia... pero digital

Principios dcada 1990: divisin entre optimistas (asumir el


liderazgo digital) y pesimistas (sentarse a esperar el fracaso
de los otros), entre profesionales de la informacin

1992: se inaugura el acceso electrnico local a millones de


documentos histricos digitalizados en el Archivo de Indias en
Sevilla (por la Web recin hacia el 2004); Vaticano y otras inst.

Se discute si las imgenes digitales pueden reemplazar a los


microfilms para preservar libros o peridicos antiguos y frgiles
(reformateo como modo de preservacin)
Digitalizacin: preservacin o acceso?

Curso Tecnologas... 11 1era reunin


Un poco de historia... pero digital

1992: Don Willis propone el hybrid approach,


approach combinando
microfilm (mster de archivo) e imagen digital (copia de
acceso), slo apto para impresos en blanco y negro

1994-96: testeo del hybrid approach sobre libros, Cornell y


Yale. Regla de los 600 dpi --------> JSTOR

1994-97: La Biblioteca del Congreso (EEUU) finaliza su


Manuscript Digitization Demonstration Project (digitalizacin de
archivos del Federal Theater Project), evaluando en
profundidad la captura en tonos de grises para originales
manuscritos

Curso Tecnologas... 12 1era reunin


Un poco de historia... pero digital

En esos aos se investigaban normas de calidad de imagen digital


para impresos, manuscritos, fotos, mapas, y cuestiones de
preservacin de las colecciones de imgenes digitales: cmo
crear colecciones digitalizadas de alto valor, que justificaran el
esfuerzo de mantenerlas activas por plazos muy largos?

Se empezaba a reconocer que la digitalizacin poda tener futuros


costos ocultos, derivados de la gestin continua y el
mantenimiento necesarios para evitar la prdida del acceso

Todava no se haba producido el impacto de la WEB, no estaba


muy claro qu hacer para preservar los archivos nacidos
digitales, y los esquemas de metadatos no estaban definidos

Curso Tecnologas... 13 1era reunin


La situacin actual
Iniciativas nacionales e internacionales desarrollaron un conjunto de
buenas prcticas para la digitalizacin de originales, y para la preservacin
de largo plazo de objetos nacidos digitales o digitalizados

Definicin de estndares ISO para generar una infraestructura de


preservacin digital (OAIS y esquemas de metadatos normalizados)

Aparicin de herramientas de software (libre y comercial) para apoyar la


gestin de la preservacin digital

Emergencia de buenas prcticas y estndares: resultado del consenso


internacional entre especialistas de distintas disciplinas y pertenecientes a
diversas instituciones

Todava es un campo muy joven, muchas lneas de investigacin abiertas.


No hay recetas sencillas vlidas universalmente

Curso Tecnologas... 14 1era reunin


Bibliografa
Los textos electrnicos, o bien sus hipervnculos de acceso, estn disponibles en el
grupo de Yahoo:
http://espanol.groups.yahoo.com/group/PRESERVACION-DIGITAL-BIBLIOTECA-
LELOIR-FCEYN-UBA/

Importancia de la preservacin en el mundo digital y lecturas seleccionadas, Paul Conway,


1996. Versin PDF en castellano en nuestro grupo de Yahoo, seccin Archivos

A Hybrid Systems Approach to Preservation of Printed Materials, Don Willis, 1992; accesible
en:
http://palimpsest.stanford.edu/byauth/willis/hybrid/

Digital to Microfilm Conversion: A Demonstration Project, 1994-1996 (Cornell University);


accesible en:
http://www.library.cornell.edu/preservation/publications/comfin.html

Proyecto Open Book (Yale University, 1996); accesible en:


http://www.dlib.org/dlib/february96/yale/02conway.html

Manuscript Digitization Demonstration Project - Library of Congress - Final Report, 1998;


accesible en:
http://memory.loc.gov/ammem/pictel/

Curso Tecnologas... 15 1era reunin


Tecnologas de digitalizacin en las
instituciones de la memoria

Fundamentos para proyectos de digitalizacin

Segundo mdulo

Lic. Fernando Boro


FFyL UBA/CONICET
Octubre de 2007
Fundamentos para proyectos de digitalizacin
Cadena de decisiones

Originales Tecnologa
Seleccin originales, criterios Dispositivos de captura = original manda

Evaluacin de estado y formato Tipos y formatos de imgenes digitales

Instrumentos descriptivos Masters y copias de acceso

Derechos de autor Resolucin (ppi), criterios

Profundidad de bits, criterios


Proyecto
Objetivos y pblico de referencia Esquemas de nombramiento de archivos

Productos: imagen, texto, ambos Textos, OCR

Escala del proyecto Sistema de acceso (web; otros medios)

En casa o por terceros Hardware y software

Ciclo de vida esperado Requerimientos preservacin digital

Curso Tecnologas... 17 2da reunin


Fundamentos para proyectos de digitalizacin
Seleccin de originales

Criterios definidos institucionalmente. Ejemplos:


Biblioteca >>> ciclo vida informacin (colecciones especiales o tesis,
originales fuera de consulta, frente a materiales efmeros)

Archivo histrico >>> estado conservacin y frecuencia de acceso al


material (ya hubo seleccin previa del valor histrico, permanente)

Museo >>> difundir colecciones valiosas (debera definirse un


criterio que sustente las decisiones y garantice el apoyo continuado de la
institucin)
Empresa >>> guardar informacin por plazos legalmente estipulados

Reconocer (o atribuir) un valor especfico en la informacin que se digitaliza =


cientfico, de evidencia legal, histrico, cultural, institucional, etc. La
digitalizacin y el acceso ampliado agregan valor, pero requieren un
compromiso institucional sostenido en el tiempo para enfrentar los costos de
la preservacin digital de largo plazo.

Curso Tecnologas... 18 2da reunin


Fundamentos para proyectos de digitalizacin
Derechos de autor

Tenemos los derechos legales para reproducir digitalmente


(copiar + cambiar de formato) el original y luego diseminarlo?

Se cumpli el plazo legal previsto para los derechos (autor,


herederos y otros derechohabientes, editoriales, etc.)?

Si hay derechos de autor en vigencia, se puede intentar un


acuerdo con los derechohabientes para digitalizar con fines de
copia de preservacin, aunque esto limite la diseminacin.

Este ltimo escenario refleja una situacin probable en una


biblioteca o centro de informacin, no as en los archivos y
museos histricos, por lo general.

Curso Tecnologas... 19 2da reunin


Fundamentos para proyectos de digitalizacin
Evaluacin de estado y formato

Evaluar el estado de conservacin de los originales


Se puede digitalizar directamente? Requiere tratamiento previo? Qu tipo
de escaner o cmara digital necesito para preservar los originales? Requiere
escanear desde una imagen fotogrfica intermedia?
Establecer normas de manejo seguro (traslado, escaneo, mxima exposicin a
la luz y el calor, etc.). Disponer de un lugar adecuado
Consultar con especialistas en conservacin, curadores, etc.

Evaluar tamao y formato


Pueden ser hojas sueltas manuscritas, peridicos, material encuadernado
impreso o manuscrito, fotografas, negativos, mapas, etc. Si revisten valor
histrico o integran colecciones especiales:

Encuadernados:
Encuadernados Procesar con cmara digital o escaner planetario
Evitar escaner de cama plana (arriesga la integridad del original)

Sueltos: se pueden capturar con escneres comunes de cama plana, hasta


formato DIN A3 (lmite de los escneres de cama plana). Si son de gran
formato, se usan cmaras de alta resolucin o escaneres especiales

Curso Tecnologas... 20 2da reunin


Fundamentos para proyectos de digitalizacin
Instrumentos descriptivos

Existen instrumentos descriptivos para la nueva coleccin digital?


Si existen, revisar su adecuacin a estndares en uso en una comunidad
determinada (bibliotecas, archivos, museos, o bien por grandes reas del
conocimiento). La preservacin digital de largo plazo se ver facilitada con la
adhesin a estndares reconocidos de descripcin. De lo contrario, habr que
crearlos al efecto.

Determinar el alcance de los instrumentos de descripcin: a diferencia del


acceso analgico (fsico), el acceso electrnico plantea exigencias mayores
para el descubrimiento y uso de los recursos de informacin.

Ejemplo

Un usuario por Internet esperar encontrar no slo el texto o las imgenes


de un libro digitalizado, sino acceso directo (hipervnculos) a sus partes
componentes (ndice, tabla de contenidos, captulos, ndice de ilustraciones,
etc.), as como la posibilidad de navegar las pginas en forma secuencial

Curso Tecnologas... 21 2da reunin


Fundamentos para proyectos de digitalizacin
Definicin del proyecto

Objetivos: para qu (y para quin) se digitaliza


Distintos objetivos ------> distintas exigencias tcnicas

Imagen de referencia para la WEB (catlogo museo, etc.)


Apoyo a actividades educativas
Generar imgenes masters para impresin
Mejorar acceso a colecciones especiales
Preservacin (ej.: libros antiguos muy usados, pero no
tesoros). La copia digital podra reemplazar al original
Acceso a texto completo, buscable

Importante

Analizar quines sern los principales usuarios de la coleccin


digital: pblico general, cientficos, chicos de escuela ----> impacto
en los sistemas de descripcin y presentacin por la Web

Curso Preservacin... 22 2da reunin


Fundamentos para proyectos de digitalizacin
Definicin del proyecto

Objetivos + pblico de referencia + formato y condicin de originales

IMAGEN
definen productos de digitalizacin >>>
TEXTO (OCR)
OCR = Optical Character Recognition, software que lee una imagen escaneada de
texto impreso y la traduce a texto ASCII, Word, etc.

Imagen digital
No tiene funcionalidad de bsqueda textual interna. Opcin ms sencilla y
econmica para impresos simples (texto b/n sin ilustraciones).

En impresos simples >>> permite diferir el OCR para el futuro.


Ejemplo JSTOR

En manuscritos, fotografas color, formatos grandes (mapas,


peridicos) >>> ms exigente, requiere alguna experiencia tcnica

Curso Tecnologas... 23 2da reunin


Fundamentos para proyectos de digitalizacin
Definicin del proyecto

Texto (OCR)
Ms trabajo humano, ms costos de produccin. OCR necesita
revisin, edicin... Se puede usar sucio para un index de bsqueda,
y acceso por imgenes. Textos electrnicos requieren esquemas de
metadatos de preservacin en XML = ms trabajo humano, ms
costos... (ver caso JSTOR)

Imagen y Texto
Texto para la bsqueda y acceso por imagen y/o texto, el usuario
puede elegir. La opcin ms costosa y completa

Nota:
Nota No hay OCR para reconocer imgenes escaneadas a partir de
manuscritos. Si se quiere obtener texto ASCII y la fuente es
manuscrita, alguien debe tipear el texto

OCR = slo impresos, tipografas modernas, siglo XX |--->


Tipografas S. XVIII y XIX = OCR especial, + caro

Curso Tecnologas... 24 2da reunin


Fundamentos para proyectos de digitalizacin
Definicin del proyecto

Determinacin de la escala del proyecto


Disponibilidad actual y futura de recursos humanos y financieros
Arquitectura de hardware y software necesaria
Familiaridad institucional con las nuevas tecnologas

Como regla general


Involucrar a los profesionales de la informtica, y alcanzar un
lenguaje en comn con ellos: FUNDAMENTAL

Empezar en pequea escala (realizar experiencia de aprendizaje


tecnolgico)
Se cometern errores: si escala pequea, recuperacin sencilla
Aprender de los errores
Documentar la experiencia

Analizar las etapas del workflow: qu se puede automatizar?


Fundamental para poder pasar del proyecto piloto a un rgimen de
produccin regular ----> compromiso institucional permanente

Curso Tecnologas... 25 2da reunin


Fundamentos para proyectos de digitalizacin
Definicin del proyecto


Digitaliza la propia institucin, o se contrata un servicio de
terceros?

En casa
Aprendizaje valioso, experiencia propia, motivacin, ntimo
conocimiento y control del material a procesar. Insume recursos
(tiempo de trabajo, personal dedicado, adquirir y actualizar
equipamiento). Probablemente proyectos en pequea escala, al
menos inicialmente.

Servicio de terceros
Menor inversin inicial en equipamiento. Podra definirse una escala
de proyecto ms ambiciosa. Pero la definicin tcnica de todo el
proceso, y sus resultados, deben ser acordados y supervisados por
personal idneo de la institucin contratante. La institucin debe
saber con precisin qu tipo de productos digitales espera obtener, y
definirlos tcnicamente en el contrato.

Curso Tecnologas... 26 2da reunin


Fundamentos para proyectos de digitalizacin
Definicin del proyecto

Servicio de terceros (cont.)

Por lo tanto, la institucin debe conocer la tecnologa tal como si fuera a


realizar el trabajo ella misma, y as poder evaluar y discutir las alternativas
tecnolgicas con la empresa de igual a igual.

El recurso a un servicio prestado por terceros puede funcionar muy bien,


siempre que las instituciones culturales se familiaricen con estas nuevas
tecnologas y sepan muy bien qu necesitan de un proveedor, qu les ofrece
ese proveedor, y qu aspectos o partes del proceso son indelegables.

Naturalmente, si se trata de material muy valioso o de carcter nico, la


empresa deber escanear los originales en la sede de la institucin, y
manipularlos bajo las normas y la supervisin del personal de la misma.

Curso Tecnologas... 27 2da reunin


Fundamentos para proyectos de digitalizacin
Tecnologa

Algunos dispositivos de captura


Dispositivo Originales / caractersticas
Escaner Flatbed A4 Sueltos, hasta tamao DIN A4. No apto encuadernados. Los ms
(de escritorio) baratos

Escaner Flatbed A3 Idem, hasta DIN A3. No apto encuadernados. Algo ms caros

Encuadernados y todo lo fotografiable. Requiere iluminacin


DSLR (cmara controlada. Resolucin depende tamao del sensor y del original.
digital 35mm) Preferible de 8 MP en adelante. Variedad de lentes. Ms caro

Idem anterior + obras arte museos + originales gran formato. Usan


Cmara fotogrfica respaldos digitales de alta resolucin (de 16 MP a 40 MP). Iluminacin
formato medio controlada. Excelente reprod. color. Sistema experto. Realmente caro
Encuadernados + cualquier material de 2 dimensiones que quepa en la
Escaner planetario platina (mat. sueltos, fotografas, etc.). Hasta formato A1. Los mejores
(overhead) para usan cunas compensadoras para proteger libros, iluminacin especial,
bibliotecas
autofoco y software de alta productividad. Esos, muy caros

Curso Tecnologas... 28 2da reunin


Fundamentos para proyectos de digitalizacin
Tecnologa

Algunos dispositivos de captura (cont.)

Escaner de Muy alta resolucin, industria grfica y publicidad. No apto para


tambor materiales frgiles: mecanismos de traccin fuerte ---> No suele
usarse en bibliotecas, archivos, etc.

Mecanismos de traccin, debera usarse slo despus de consultar


Escaner de con especialistas en conservacin y evaluar el riesgo. Se deberan
planos (plotter) utilizar los nuevos escneres planetarios para mapas, sin traccin de
ningn tipo (pero son ms caros)

Bibliotecas. Distintos modelos con distintas resoluciones, algunos


con funciones automticas. Fabricantes suelen expresar la
Escaner de
resolucin (dpi) calculada sobre tamao del original papel.
papel Analizar
microfilms
tasas de reduccin en distintas colecciones microfilmadas, para
conocer la resolucin real alcanzable en cada caso

Procesan film de 35mm y formato 120, con resoluciones entre 2500


Escaner de dpi y 4000 dpi. Buen rango dinmico, muy superiores a los
negativos y escneres de escritorio A4 y A3 con adaptadores para diapositivas y
diapositivas negativos de 35mm

Curso Tecnologas... 29 2da reunin


Fundamentos para proyectos de digitalizacin
Tecnologa

Algunos dispositivos de captura (cont.)

Escaner planetario
para mapas, sin
Escaner A3 traccin (A0)

Escaner de
microfilm

Cmara DSLR
digital 35mm Escaner de
mapas con
traccin

Escaner de
Cmaras de formato Escaner negativos
medio con respaldo planetario
digital para
libros (A1)

Curso Tecnologas... 30 2da reunin


Fundamentos para proyectos de digitalizacin
Tecnologa

Algunos dispositivos de captura (cont.)

Alimentadores automticos

Es comn que los escneres de escritorio (A4) y los de formato A3 presenten


una bandeja para la alimentacin automtica del papel. Slo se recomienda
usarla con materiales nuevos y en buen estado.

El alimentador tiene un mecanismo de traccin, con rodillos de goma o plstico,


que podra daar a un original delicado.

Es muy til para escanear rpidamente impresos no encuadernados, o que


podemos desencuadernar sin riesgo (porque tenemos muchos ejemplares y el
copyright es de nuestra institucin, por ejemplo).

No intentar con originales antiguos o valiosos (manuscritos histricos, etc.).

Curso Tecnologas... 31 2da reunin

Você também pode gostar