Você está na página 1de 16

ANALISIS DOCUMENTAL 3 Descripcin de los recursos de informacin en Internet: formato Dubln Core MsC.

Isabel Daudinot Founier RESUMEN Se muestran diferentes tendencias que caracterizan las herramientas de bsqueda de informacin existentes en Internet con respecto a la utilizacin de los metadatos. Se aborda tambin el tema del empleo de los formatos normalizados de metadatos para la descripcin de los recursos de informacin, con nfasis en los principios, las caractersticas y la codificacin del formato Dubln Core en HTML. Palabras clave: Herramientas de bsqueda, metadatos, Dublin Core, HTML. Copyright: ECIMED. Contribucin de acceso abierto, distribuida bajo los trminos de la Licencia Creative Commons Reconocimiento-No Comercial-Compartir Igual 2.0, que permite consultar, reproducir, distribuir, comunicar pblicamente y utilizar los resultados del trabajo en la prctica, as como todos sus derivados, sin propsitos comerciales y con licencia idntica, siempre que se cite adecuadamente el autor o los autores y su fuente original. Cita (Vancouver): Daudinot Founier I. Descripcin de los recursos de informacin en Internet: formato Dubln Core. Acimed 2006;14(4). Disponible en: http://bvs.sld.cu/revistas/aci/vol14_4_06/aci09406.htm Consultado: da/mes/ao. Los usuarios de Internet se encuentran inmersos en grandes volmenes de informacin cuya utilidad se ve cada vez ms reducida, tanto por las caractersticas propias de los recursos digitales -volatilidad, inestabilidad,-, como por carecer de la semntica necesaria como para que las herramientas diseadas para la bsqueda y recuperacin de la informacin en Internet puedan recobrarlos segn sus necesidades. Dichas herramientas se basan fundamentalmente en la automatizacin de las tareas de clasificacin e indizacin; la mayora emplean un robot que se ocupa de recorrer constantemente la Web para clasificar y organizar automticamente la informacin encontrada y confeccionar a partir de ella sus bases de datos. Este tipo de indizacin es, sin lugar a dudas, menos costosa que la indizacin humana, pero, a diferencia de esta ltima, la indizacin automtica es bastante imperfecta y no puede identificar las caractersticas de los documentos -materia, autor, fecha de publicacin-, o distinguir el tipo de documento, por ejemplo, si se trata de un artculo o de un libro. Todo esto se debe a que la mayora de estas herramientas no soportan metadatos y, en los casos en que estn preparadas para reconocerlos, la mayora de los autores de pginas Web no los emplean en los documentos que generan, bien sea por el desconocimiento de su importancia o de cmo hacerlo. Si los autores de pginas Web utilizaran modelos de metadatos estndares para agregar una descripcin a los documentos que ellos generan, se facilitara, tanto el trabajo de las herramientas para la recuperacin de informacin en el Web que reconocen metadatos, como de los usuarios que realizan sus consultas, quienes podran valorar el contenido de los documentos sin necesidad de acceder al original, y ahorrarse un tiempo valioso. En el contexto de Internet, existen diversos mecanismos o herramientas para la recuperacin de informacin, cada una de ellas con tendencias diferentes hacia la
1

utilizacin o no de los metadatos; entre las herramientas ms significativas, se distinguen: los directorios o ndices, los motores de bsquedas, los metabuscadores y los portales temticos. Los ndices o directorios son listas de recursos, organizados en categoras temticas por expertos. Las categoras temticas se organizan jerrquicamente en un rbol de materia que permite descender desde las ms generales a las ms especficas, las categoras presentan una lista de enlaces a las pginas Web referidas en el buscador. Los directorios son sistemas precoordinados de recuperacin de informacin, que ofrecen inventarios de materias. Los directorios han comenzado a evolucionar hacia los portales temticos. El ejemplo ms representativo de directorio hasta el momento es Yahoo (http://www.yahoo.com), que se ha convertido tambin en un portal, pero mantiene an su estructura segn categoras. No se puede hablar en sentido estricto de metadatos asociados a este tipo de sistemas de recuperacin de informacin en Internet, sin embargo las categoras clasificatorias que establecen estos sistemas podran entenderse como metainformacin que anticipa, en cierta manera, el contenido de los recursos clasificados dentro de cada tema, al agrupar la informacin en listas precoordinadas de encabezamiento de materia. La organizacin de los recursos que realizan estos directorios nos podra llevar a considerarlos sistemas de recuperacin de informacin con organizacin bibliotecaria; porque aun cuando no son bibliotecas digitales en sentido estricto, s se basan en criterios semnticos de organizacin del conocimiento. Se puede hablar de metadatos estrictos, vinculados a directorios generales en el caso del Open Directory Proyect (ODP) (http://dmoz.org), un directorio puro que sirve para la clasificacin cooperativa de informacin en RDF. 1 Los buscadores de informacin como sistema de recuperacin de informacin en Internet Altavista, Excite y otros son sistemas post-coordinados de recuperacin de informacin, consistentes en bases de datos muy voluminosas, generadas a partir de la indizacin automtica de los textos completos o partes significativas de los documentos encontrados en Internet por los robots, que emplean principalmente tcnicas de anlisis estadsticos y ponderacin.1 Con independencia de las tcnicas utilizadas por los buscadores, Gimeno Montoro y otros autores opinan que su principal inconveniente es la calidad de los registros recuperados. 2 Aunque en general, los mtodos de ordenamiento de los resultados se rigen por su relevancia, el usuario se enfrenta a listas de miles de documentos. Su presentacin consiste en una mezcla del texto extrado de determinadas etiquetas del cdigo fuente HTML del recurso, sin ningn tipo de coherencia, y de los metadatos, cuando, en el mejor de los casos, el autor los coloc debidamente, que no siempre es as. En opinin de Mndez, los metadatos que se consideran en la indizacin -y en su caso, en el clculo de relevancia-, son los que se denominan metaetiquetas o metatags, creadas como estructuras genricas de metainformacin (cabeceras HTML) por los autores o editores de los recursos Web. 1 Si estos sistemas utilizan metadatos HTML para indizar (Altavista, Hotbot, MetaCrawler, Inktomi, Infoseek, entre otros), lo hacen sobre valores bsicos (Description, Keywords) de las metaetiquetas HTML o a lo sumo las metaetiquetas author u otras partes del documento HTML que puedan entenderse en cierto sentido, como metainformacin. No existe un acuerdo sobre los motores de bsqueda que utilizan las etiquetas <META> para el clculo de relevancia de sus bsquedas, porque normalmente el funcionamiento interno de los buscadores es transparente para los usuarios y los propios creadores de este tipo de software tampoco realizan mucha publicidad sobre sus funcionalidades.

Rodrguez Gairn , en un artculo escrito sobre el buscador Altavista, plantea que muchos motores de bsqueda emplean la informacin almacenada en los metaelementos para crear sus ndices y permitir al usuario un acotamiento por campos, que posibilite que el ruido generado por la indizacin del texto completo pueda reducirse fcilmente. 3 En el caso de Altavista, por el momento, slo utiliza la metainformacin almacenada en KeyWords para generar sus ndices y la almacenada en Description para elaborar el breve resumen que presenta en la hoja de resultados. En opinin de Koch, los sistemas de recuperacin globales que se basaban, de alguna forma, en metaetiquetas HTML para la indizacin eran: Altavista, Infoseek, SwistSearch, Hotbot, Webcrawler, los motores de bsquedas de informacin en alemn, Aladin y Eule y los sistemas de recuperacin de informacin en Internet especiales para metainformacin, Fireball, Polish Academic Web Index, Hotmeta Search Engine (que indizaba metadatos DC) y Nordis Metadata Index -que indizaba los modelos IAFA, DC y Gil. 4 Para Rowland, los metadatos que soportan metaetiquetas son Altavista, Excite y Webcrawler.5 Medeiro (2000) sealaba que solo Altavista, Go, HotBot e Inktomi consideran las metaetiquetas. En un estudio en el que se evaluaron las fluctuaciones de acceso a los documentos por medio del anlisis de treces motores de bsqueda, Mettrop estableci que las etiquetas de ttulos las soportan los treces motores analizados; la metaetiqueta Keywords la utilizan Altavista, la consideran HotBot, Ilse, Infoseek, MSN, Snap y Windex; la etiqueta Description: Altavista, HotBot, Ilse, InfoSeek, MSN, Search.nl y Snap; la metaetiqueta relativa al autor: Robot, MSN y Snap.6 Como puede apreciarse, cada autor tiene una opinin diferente sobre cuales son los motores globales de bsqueda y recuperacin de informacin en Internet, que soportan metadatos y en que medida los soportan, no existe un consenso general en este problema. Y en este sentido, coincidimos con la opinin de la Dra. Eva Maria Mndez con relacin a que los creadores de estos motores apenas ofrecen informacin sobre su funcionamiento. Algunos motores como es el caso de Altavista y de Northern Light, que, en principio, indizan y estn preparados para indizar las etiquetas META, tienden a obviarlas para su clculo de relevancia, esto se debe a que muchos autores de pginas Web utilizan la metainformacin de manera abusiva para conseguir una mejor posicin en los clasificaciones de relevancia de los buscadores. Se ha detectado el uso por parte de algunos autores de aquellas palabras que ms utilizan los usuarios de robots en las bsquedas para describir sus documentos, aunque no tengan ninguna relacin con el contenido temtico, con el nico propsito de aumentar su visibilidad en la red y tratar de atraer la mayor cantidad posible de visitantes a sus pginas. Es necesaria una toma de conciencia entre los creadores de pginas Web en materia de una correcta asignacin de metadatos a cada pgina. El otro tipo de herramienta global para la recuperacin de informacin en Internet son los metabuscadores, que son motores que no tienen base de datos propias, sino que envan sus solicitudes a varios buscadores o directorios a la vez, actan como intermediarios de los propietarios de las bases de datos y organizan los resultados para su presentacin. Realizan las consultas con bastante rapidez debido a que asignan un tiempo de bsqueda limitado a cada buscador o directorio. Otra de sus caractersticas es la eliminacin de los duplicados, esto quiere decir, que cuando coinciden varios enlaces iguales en la

respuesta, se eliminan los repetidos. De esta manera, el nmero de pginas que se obtiene es menor. La relacin de estos sistemas con los metadatos es la que tenga cada uno de los motores de bsqueda o directorios con los que trabaja, es decir, la poltica de indizacin que tenga cada uno de ellos con relacin a la metaetiquetas. 1 La bsqueda y recuperacin de informacin basada en metadatos es objetivamente mejor que la automtica basada en texto completo (full-text) que utilizan muchas de las herramientas actualmente existentes en Internet para la recuperacin de informacin, por las siguientes razones:7

Los metadatos facilitan la descripcin de recursos no textuales e informacin binaria, como: audio, software, imgenes, videos, etc., esto supone una ventaja con respecto a la indizacin automtica dirigida slo a texto. Los metadatos deben proporcionar instrumentos para describir el contenido semntico de un recurso y estn mejor preparados para soportar la recuperacin de informacin que el propio documento. En muchos casos, los recursos de informacin no son capaces de facilitar por s mismos sus propias relaciones semnticas. Por ejemplo, un cdigo de un programa no puede facilitar cual es su utilidad si no dispone de una caracterizacin (metadatos) en la que se describa. La existencia de gran cantidad de recursos electrnicos no textuales en Internet, justifica la necesidad de que existan sistemas de recuperacin de informacin en la red basados en metadatos. Una categora especial de metadatos que hace que los sistemas que los utilizan presenten una ventaja comparativa en la recuperacin frente a los que buscan sobre el texto completo, son los metadatos sobre recursos que no son fcilmente accesibles porque estn ocultos (protegidos por contraseas), o que son accesibles slo por medio de protocolo especficos (Internet invisible). Estos metadatos deben publicarse de forma que los programas que indizan sobre ellos puedan acceder fcilmente a su metainformacin.

Son muchas las razones que avalan la bsqueda de informacin basadas en metadatos como cualitativamente superior con relacin a la bsqueda automtica basada en texto completo, los datos requieren contener informacin que auxilien a los usuarios en la toma de decisiones sobre su debida aplicacin. Los sistemas de recuperacin de informacin basados en metadatos, a diferencia de los automticos, pueden discernir la importancia relativa de los documentos, identificar el contexto de la informacin, facilitan la recuperacin de materiales no textuales, etctera. Adems de todas las desventajas que presentan los sistemas de recuperacin automtica en la recuperacin de informacin, se suma el hecho de que el nmero de estos robot que recorren la red en funcin de descubrir e indizar nuevos recursos es cada vez mayor, y ello genera un aumento del trfico y la saturacin de la red. Para darle mayor consistencia y flexibilidad a la bsqueda de informacin basada en metadatos, se han desarrollado en Internet diferentes modelos o formatos de metainformacin. FORMATOS PARA LA IMPLEMENTACIN DE METADATOS Actualmente, existe en Internet una gran proliferacin de formatos de metadatos para la descripcin y gestin de recursos en la red, muchos de los cuales se concibieron en sus inicios, en el mbito de comunidades especializadas y sectores del mercado, con el propsito de cubrir las necesidades especficas que requeran el tratamiento de la informacin en su mbito; esto origin una gran variedad de formatos especializados, 8 con independencia que la mayora de los formatos se concibieron para estructurar la

informacin de una comunidad determinada; muchos de estos formatos se han adaptado para describir informacin con fines distintos a los se crearon, pero todos deben reunir las siguientes caractersticas considerarse como verdaderos formatos de metadatos: 9

Independientemente del rea del conocimiento para la cual se utilicen, todos los formatos deben responder a las particularidades de los recursos de informacin de la red para facilitar su identificacin y ulterior recuperacin. Todos los esquemas tienen un nmero limitado de elementos, un nombre para cada elemento o etiqueta y un significado asociado a cada elemento. Todos contienen tambin, una semntica descriptiva con informacin relativa al contenido, ubicacin, atributos fsicos, tipo de documento, etctera.

Por su parte, Gimeno Montoso, indica los requerimientos mnimos que debe presentar un formato para su uso en la descripcin de objetos de informacin: 2

Que tenga algn grado de normalizacin: que emane de alguna institucin reconocida, como las tradicionales ISO, NISO o, en el mbito de Internet IETF. Que posea un software que permita su gestin y se apoyen en programas probados por otros proyectos similares, mucho mejor que lanzarnos a la costosa tarea, en tiempo y dinero, de desarrollar un software propio. Que se implemente por proyectos de caractersticas similares, para compartir experiencias y aprender de los errores. Que presente la posibilidad de conversin entre formatos presentes y futuros, debido al carcter cambiante de la descripcin de los recursos en Internet.

Cuando se habla de modelos de metadatos, se habla no slo de una semntica para la descripcin de los recursos, sino tambin de una estructura de codificacin o de una forma de almacenamiento. El lenguaje HTML permite que los atributos de la etiqueta <META> pueden soportan esquemas de metadatos concretos como es el caso del DC, mientras que el lenguaje XML, permite una descripcin abierta y personalizable mediante el RDF (Resource description Framework) y de otras tecnologas relacionadas. Los formatos en dependencia de su rea de aplicacin se dividen en:

Formatos de propsitos generales: modelos destinados a la descripcin de documentos electrnicos sin consideracin de la temtica y su finalidad. Formatos de propsitos especficos: formatos que consideran la temtica y finalidad de los recursos a describir, generalmente, se desarrollan por determinadas comunidades que requieren de diferentes tipos de elementos y complejidad en un formato, razn por la cual, los formatos de propsito general resultan inadecuados o insuficientes.

Entre los formatos mas utilizados en la red, pueden citarse al formato MARC, emblemtico por su historia de ms de cuarenta aos en el mundo de la recuperacin de informacin; TEI, Text Encoding Initiative, el proyecto para el etiquetado de texto; el RDF, el formato de metadatos en el nuevo contexto del XML y el Dublin Core, el formato ms importante en el contexto de esta contribucin y que se describir a continuacin. Formato Dublin Core Entre la gran variedad de formatos de metadatos existentes en Internet, el Dublin Core es el ms citado y aceptado, descrito por la mayora de los autores como uno de los ms prometedores hasta el momento; es un formato producto de un esfuerzo internacional e interdisciplinario con una vida muy intensa y el ms influyente en relacin con el desarrollo de la teora del uso de los metadatos para la recuperacin de informacin en la red.

Creado en 1995 por iniciativas de las asociaciones de bibliotecarios americanos, y patrocinado por la OCLC (On Line Computer Library Center), tiene su origen en un crculo intelectual de Dublin, en el estado de Ohio en Estados Unidos. La primera reunin para tratar aspectos relacionados con el Dublin Core la convoc la OCLC y el NCSA (National Center for Supercomputing Applications); en ella participaron 52 investigadores expertos en el campo de la bibliotecologa, ciencias de la computacin, codificadores de textos y reas afines, con el objetivo de impulsar el desarrollo de los registros descriptivos de recursos de informacin en lnea.10 Muchas son las personalidades e instituciones que se han interesado y han participado en el desarrollo de este formato. Su progreso ha ocurrido aparejado al desarrollo del XML y del RDF; en octubre del 2001, se logr convertir el conjunto de elementos del vocabulario de Dublin (DCMES, Dublin Core Metadata Element Set) en un estndar formal, ANSI/NISO Z39.852001.1 El Dublin Core tiene como objetivo, definir un conjunto bsico de atributos que sirvan para describir todos los recursos existentes en la red, se supone que este formato ayudara a los motores de bsqueda en la recuperacin global de informacin en la red, este fin lo convierte en un formato de propsito general. Para cumplir con su objetivo, el Dublin Core define un conjunto de quince elementos (tabla 1), que pueden modificarse y ampliarse debido a su flexibilidad, esto permite que los autores de las pginas Web puedan codificar sus documentos en el momento de generarlos. Tabla 1. Elementos del formato Dublin Core Elementos del DC DC-Title DC-Creator Descripcin y uso El nombre dado al material, generalmente por el Creador o Editor. La persona u organizacin principal que es responsable de la creacin del contenido intelectual del material. Por ejemplo, los autores en el caso de los documentos escritos, los artistas, fotgrafos, o ilustradores en el caso de los materiales visuales. El tema del material. Generalmente, las materias son expresadas a travs de las palabras clave o frases que describen el tema o contenido del material. Se recomienda el empleo de vocabularios controlados y de esquemas (schemes) de clasificacin formales. Una descripcin textual del contenido del material, incluyendo resmenes en el caso de documentos como objetos, o descripciones de contenido en el caso de materiales visuales.

DC-Subject

DCDescription

DC-PublischerLa entidad responsable de que el material est disponible en su formato actual, tales como una casa editorial, un departamento universitario, o una entidad corporativa. DCContributor DC-Date Persona u organizacin que haya tenido una contribucin intelectual significativa en la creacin del documento, (ejemplo, editor, traductor, ilustrador, etc.) Una fecha asociada con la creacin o disponibilidad del material. Tal fecha no debe confundirse con la correspondiente al elemento

Cobertura, el cual debe de estar asociado con el material solo en los casos que el contenido intelectual se refiera a esa fecha. Para determinar la fecha de publicacin o de disposicin al pblico se utiliza el formato del Consorcio Web, Data and Time Format (W3CDTF) <http://www.w3.org/TR/NOTE-datetime> basado en la norma ISO 8601 DC-Type La clase del material, tales como: homepage, novela, poema, documento de trabajo, reporte tcnico, ensayo, diccionario.

Elementos del Descripcin y uso DC DC-Identifier Una cadena de signos o nmeros empleados para identificar el material de manera unvoca. Los ejemplos para los materiales existentes en red incluyen los URLs y los URNs (cuando han sido incorporados). Otros identificadores universalmente unvocos como los nmeros ISBN u otros nombres formales que tambin son opciones para este elemento. DC- Sourse Informacin acerca de algn material secundario del cual se deriva el material principal. Puesto que generalmente slo son recomendados aquellos elementos que contienen informacin acerca del material principal, este elemento podr contener la fecha, creador, formato, identificador u otros metadatos del material secundario considerados importantes para la identificacin del material principal.

DC-Languaje El idioma del contenido intelectual del material. El contenido de este campo debera coincidir con la norma ISO 639 (RFC 1766) DC-Relation Un identificador de un material secundario y su relacin con el material principal. Este elemento permite vnculos entre materiales relacionados y las descripciones del material deben de ser indicadas. Los ejemplos incluyen la edicin de un trabajo (IsVersionOf), la traduccin de un trabajo (IsBasedOn), el captulo de un libro (IsPartOf) y una transformacin mecnica de una serie de datos en imagen (IsFormatOf). Formato de datos de un documento, usado para identificar el software y, posiblemente tambin el hardware que se necesita para mostrarlo

Dc-Format

Elementos del Descripcin y uso DC DC-Coverage Las caractersticas espaciales o temporales del contenido intelectual del material. La cobertura espacial se refiere a una regin fsica (por ejemplo, sector celeste); uso de coordenadas (por ejemplo, longitud y latitud), o nombres de lugares que provienen de una lista controlada o escritos en su forma completa. La cobertura temporal se refiere a lo que trata el material, a diferencia de cuando fue creado o puesto a disponibilidad (esto ltimo pertenece al

elemento Fecha). Aunque usa el mismo formato ISO 8601/W3CDTF. DC-Right Referencia sobre derecho de autor (por ej. URL), bien a un servicio de gestin de derecho o a un servicio que dar informacin sobre los trminos y condiciones de acceso a un recurso electrnico.

ELEMENTOS DEL FORMATO DUBLIN CORE El total de 15 elementos que conforma el formato DC pueden clasificarse en tres grupos que indican la clase o el mbito de la informacin que se guarda en ellos: ( Donos, 1998; Mndez, 2002; San Segundo, 1998) 1. Elementos relacionados principalmente con el contenido del recurso: titulo, tema, descripcin, fuente, lenguaje, relacin y cobertura. 2. Elementos relacionados principalmente con el recurso cuando es visto como una propiedad intelectual: autor, editor, otras colaboraciones y derechos. 3. Elementos relacionados principalmente con la temporalidad y formato del documento as como su identificacin: fecha, tipo de recurso, formato, identificador del recurso. El desarrollo y evolucin que ha alcanzado el formato Dublin Core se debe al arduo y constante trabajo desarrollado por los diferentes grupos de trabajos vinculados a este formato en los diferentes talleres, seminarios y otras reuniones realizadas en funcin de lograr un estndar cuyas caractersticas garanticen la interoperabilidad en la recuperacin e intercambio de informacin en la red. Caractersticas del Dublin Core Entre las principales caractersticas de este formato pueden citarse:

Alcance internacional: con i ndependencia de que el formato Dubln Core tiene un origen netamente anglosajn se ha traducido a ms de 20 idiomas, esto es posible como resultado de la participacin en el proyecto de representantes de prcticamente todos los continentes, que ha garantizado que el formato considere la naturaleza multilinge y multicultural del universo de la informacin que alberga hoy Internet. Se puede hablar de un consenso internacional en nmero y definicin de los elementos que integran el formato. Simplicidad y flexibilidad: el Dubln Core es un simple, pero eficaz conjunto de elementos descriptivos, pensado, desde su inicio, para su uso, tanto por profesionales como por cualquier autor que desee describir su recurso con el objetivo de hacerla ms visible. Todos los elementos del formato son opcionales y repetibles, lo que permite a cada autor poder escoger los elementos del formatos que considere necesarios en correspondencia con las necesidades descriptivas de sus recursos de informacin. La disposicin de los elementos puede tener cualquier orden.

La complejidad en la semntica y la estructura de los diferentes formatos de metadatos que se emplean actualmente en Internet dificultan la comprensin y el intercambio de informacin entre las diferentes comunidades. El Dubln Core propone un conjunto de elementos comn, cuya semntica es sencilla, universalmente entendida y soportada. La mayora de los quince elementos del formato tienen una semntica que puede describirse como equivalente a un registro de catalogo de una biblioteca tradicional.

Interoperabilidad semntica, diferentes comunidades -bibliotecas, museos, universidades, etc., que conviven en Internet, utilizan diferentes normas para la descripcin de los recursos, stas responden a diferentes necesidades y evolucionan de manera independiente. Sin embargo, la mayora de los recursos comparten elementos comunes, an con nombres diferentes, en dependencia de cada comunidad. El Dublin Core intenta promover un conjunto de descriptores comprensibles a todas las disciplinas y favorece de este modo, la bsqueda interdisciplinaria. Est orientado a la interoperabilidad semntica entre las diferentes comunidades que conviven en Internet. Uso de trminos de matizacin de los elementos y esquemas de codificacin: los trminos de refinamiento tienen como objetivo que el significado de un elemento sea ms especfico, ms estrecho, en ningn caso se utilizan para extender dicho significado y comparten el significado del elemento. Por ejemplo, el trmino de refinamiento abstract' esta asociado al elemento description' e indica que el valor del elemento es un resumen del recurso en cuestin.

Los esquemas de codificacin contextualizan los valores de los elementos, especifican un contexto para la interpretacin de un elemento especfico, su objetivo es referenciar a un esquema externo, definido como un estndar a incorporar y slo por medio del cual se puede entender el valor del elemento. Los cualificadores esquemas permiten a los autores proporcionar un contexto para la interpretacin correcta de los metadatos. Un ejemplo de esquema de codificacin, asociado al elemento date' es el W3C-DTF', que define las reglas de codificacin W3C para fechas y horas y se basa en el formato ISO 8601'. Este esquema de codificacin define que la fecha debe escribirse de acuerdo al siguiente formato: yyyy-mm-dd, o sea, ao (las 4 cifras), mes (dos cifras) y da (dos cifras), si no se especifica este esquema, una fecha como 2005-11-12, puede interpretarse lo mismo como 11 de diciembre del 2005 que como 12 de noviembre del 2005. El cualificador esquema W3C-DTF' elimina esta ambigedad.

Extensibilidad: los creadores del formato Dublin Core han creado mecanismos que permiten ampliar el conjunto de sus elementos, y esto permite que las diferentes comunidades que utilizan o desean utilizar el formato puedan formular y fundamentar propuestas de agregacin de modificaciones y nuevos elementos al formato, segn una necesidad descriptiva concreta.

Presenta gran importancia tambin, la creacin de perfiles de aplicacin, que consisten en tomar elementos de datos de uno o ms formatos de metadatos y adaptarlos a una aplicacin local determinada. Esto permite que diferentes comunidades puedan utilizar en sus perfiles de aplicacin elementos de sus formatos, mezclados con elementos del formato Dubln Core y viceversa. Principios del formato Dubln Core Entre los principios ms importantes para una correcta comprensin sobre cmo deben relacionarse los metadatos del Dubln Core con los recursos que describen, pueden establecerse los siguientes:11 Principio de simplificacin Este principio considera la posibilidad de convertir fcilmente el Dubln Core cualificado en simple y por tanto, cualquier cliente puede ignorar cualquier cualificador del formato Dubln Core que no entienda y utilizar el valor del elemento sin el cualificador, es decir, como si estuviese sin cualificar, esto aunque menos especfico puede servir para la localizacin y recuperacin de la informacin en Internet. Por tanto, los cualificadores se utilizan slo para matizar y nunca para extender el alcance semntico de un elemento.

Principio uno a uno (One-to-One Principle) El principio uno a uno define que a cada manifestacin o versin de un recurso corresponde una descripcin con metadatos, es decir, una manifestacin de un recurso no sustituye a la otra y, por tanto, cada una lleva su descripcin, por ejemplo: no se puede describir la traduccin de un documento determinado, como si fuese el original, porque, aun cuando tengan mucho en comn, son recursos diferentes, que involucran en su descripcin, diferentes tipos de elementos de metadatos, por ejemplo: el idioma, la traduccin tendra el traductor como colaborador o contribuidor e involucrara tambin otro tipo de metadato que la relacione con el original. Principio de valores apropiados La forma ms correcta o la mejor prctica para la codificacin de un elemento o cualificador en particular, puede variar con el contexto, pero normalmente quien implementa no puede siempre predecir quien va a interpretar los metadatos, si una mquina o una persona y, por tanto, los valores que se utilicen deben adecuarse para ambos; esto puede imponer ciertas limitaciones en la forma de construir los metadatos, pero ellos deben continuar siendo tiles y cumplir con su objetivo de localizacin y recuperacin de informacin. DUBLIN CORE Y HTML Aunque el estndar Dublin Core, al igual que otros formatos de metadatos en Internet, no prescribe ningn tipo de relacin particular entre los metadatos y el recurso que describe, y permite que sean los autores de los recursos los que establezcan como vincular las descripciones con los recursos, la forma ms comn de vincular los metadatos con el documento que describen es por medio de la etiqueta <META> en la cabecera de la pgina, es decir, los metadatos se insertan o incrustan en la cabecera (head) del documento, exactamente despus del ttulo, como se muestra a continuacin: <html> <head> <title>Untitled Document</title> < meta http-equiv="Content-Type" content="text/html; charset=iso-88591"> </head> <body bgcolor="#FFFFFF" text="#000000"> </body> </html> La sintaxis de Dublin Core para HTML se representa de la forma siguiente: <META NAME="DC.Title "CONTENT=" <META NAME="DC.Creatorr"CONTENT=" <META NAME="DC.Subject"CONTENT=" <META NAME="DC.Description"CONTENT=" <META NAME="DC.Publisher"CONTENT=" <META NAME="DC.Contributor"CONTENT=" <META NAME="DC.Date"CONTENT="

<META NAME="DC.Coverage"CONTENT=" <META NAME="DC.Format"CONTENT=" <META NAME="DC.Identifier"CONTENT=" <META NAME="DC.Fuente"CONTENT=" <META NAME="DC.Language"CONTENT=" <META NAME="DC. type"CONTENT=" <META NAME="DC.Relation"CONTENT=" <META NAME="DC.Rights"CONTENT= La sintaxis anterior muestra que cada uno de los elementos del ncleo de Dublin se codifican con la etiqueta META e incluyen dos atributos: NAME Y CONTENT <META NAME = "DC. NombreElemento " CONTENT = " VALOR "> donde, NombreElemento y Valor se sustituiran respectivamente por uno de los 15 elementos del formato Dublin Core y su valor. Por ejemplo: <META NAME = "DC. Creator " CONTENT = " Empresa de Tecnologas de la Informacin y Servicios Telemticos Avanzados "> La sigla DC , corresponde a la identificacin del formato que se utiliza para la descripcin: DC = Dublin Core El atributo CONTENT se usa para describir el valor del elemento. Cada uno de los elementos del formato puede ser repetible como se muestra a continuacin: <META NAME="DC.Creator" CONTENT=" Fernndez, Jos "> <META NAME="DC.Creator" CONTENT=" Pascual, Ricardo "> Independientemente, tambin es vlido utilizar un solo atributo NAME y dentro del atributo CONTENT, separar cada uno de los elementos con un punto y coma. Ejemplo <META NAME="DC.Creator" CONTENT=" Fernndez, Jos; Pascual, Ricardo "> DC SIMPLE Y DC CUALIFICADO El formato Dubln Core tiene dos niveles de codificacin: simple y cualificado, el Dubln Core simple emplea slo los 15 elementos originales que forman parte del formato y que se describieron anteriormente; el cualificado adems de los 15 elementos del Dubln Core simple, tiene un elemento adicional: audience, un conjunto limitado de trminos de refinamiento y esquemas de codificacin de los elementos (tablas 2 y 3). Para que un registro de metadatos Dubln Core se considere cualificado, debe incluir todos o, al menos, uno de los elementos anteriores. El conjunto completo de cualificadores y de trminos de matizacin de los elementos del DC (DCMI Metadata Terms) puede consultarse en la siguiente direccin: http://es.dublincore.org/documents/dcmi-terms/ Tabla 2. Algunos elementos del Dubln Core con sus trminos de refinamientos.

Elementos del Dubln Core DC.tiltle DC.description

Trminos de refinamiento alternative abstract tableOfContens available created spatial

Descripcin de los trminos de refinamiento Otra forma del ttulo utilizada como un subttulo o alternativa al ttulo formal del recurso. Un resumen del contenido del recurso. La tabla de contenido del recurso. Fecha (a menudo un rango) en la que el recurso comenzar o estar disponible. Fecha de creacin del recurso. La cobertura espacial se refiere a una regin fsica, uso de coordenadas o nombre de lugares proveniente de una lista controlada. La cobertura temporal se refiere a lo que trata el material (rango de tiempo abordado)

DC.date

DC.coverage temporal

Tabla 3. Algunos elementos del DC con sus esquemas de codificacin. Elementos del Dubln Core DC.date Esquemas de codificacin W3CDTF Descripcin del esquema de codificacin Este esquema define las reglas de codificacin del W3C para fechas y horas y se basa en el formato ISO 8601' Vocabulario definido y utilizado por la Iniciativa de Metadatos Dubln Core (DCMI) para codificar el elemento DC.type (naturaleza o gnero del contenido de un recurso). Clasificacin Decimal de Dewey (Dewey Decimal Classification)

DC.type

DCMIType

DC.subject LCC

DDC Clasificacin de la Biblioteca del Congreso (Library of Congress Classification) Encabezamientos de materias de la Biblioteca del Congreso (Library of Congress Subject Headings) IMT

LCSH

DC.format

Los tipos de medios en Internet del recurso. Un conjunto de trminos que describen los tipos de recursos en Internet.

Como se explic anteriormente al formato Dublin Core, se ha adicionado un nuevo elemento, es decir, un elemento que no formaba parte de los 15 originales: audience. Este elemento se codifica como los anteriores, slo que en lugar de utilizar el prefijo DC', se utiliza el prefijo DCTERMS', como se muestra a continuacin: 12 <meta name=DCTERMS.audience content=cadena de valor /> <meta name=DCTERMS.audience content=Cientficos y profesionales en general /> Los trminos de refinamiento o matizacin, se codifican siguiendo el mismo patrn que el elemento audience': <meta name="DCTERMS.elemento de refinamiento" content="cadena de valor" /> Por ejemplo: <meta name="DCTERMS.created" content=2005-01-15 /> El elemento de refinamiento created' se asocia al elemento date' e indica que el recurso de informacin se cre en la fecha indicada. Asociados al elemento date' estn, tambin los elementos de refinamientos: valid (valido), available (disponible), issued (editado) y modified (modificado). ESQUEMAS DE CODIFICACIN DEL FORMATO DC Los esquemas de codificacin se codifican con el atributo scheme' del elemento <meta> de HTML, como se muestra a continuacin: <meta name="DC.element" scheme="DCTERMS.Scheme" content="cadena de valor" /> Ejemplos: <meta name="DC.format" scheme="DCTERMS. IMT content="Text/html" /> < meta name="DCTERMS.created" scheme="DCTERMS.W3C-DTF" content="2006-0120" /> < meta name="DCTERMS.type" scheme="DCTERMS.DCMIType" content="Text Para codificar el elemento DC.type, la Iniciativa de Metadatos Dublin Core tiene su propio vocabulario que puede consultarse en: http://dublincore.org/documents/dcmi-type-vocabulary/ Para concluir, se expone a continuacin la codificacin en Dubln Core simple y Dubln Core cualificado del Portal Cuba.cu: DC SIMPLE <meta name=DC.title content=Portal Cuba.cu /> <meta name=DC.creator content=Empresa de Tecnologa de la Informacin y Servicios Telemticos Avanzados, CITMATEL />

< meta name="DC.date" content="2000-01-05" /> <meta name="DC.description" content= "El Portal Cuba.cu recoge informacin general sobre nuestro pas, organizada por categoras que agrupan las ms importantes temticas de inters para quienes lo visiten. Ofrece diversos y tiles servicios que abarcan una amplia gama de posibilidades de recuperacin de informacin sobre Cuba y los cubanos, con un alto valor agregado. /> <meta name="DC.subject" content= Cuba, Informacin de Cuba, Arte, Humanidades, Ciencia, Tecnologa, Deportes, Economa, Negocios, Educacin, Eventos, Medios de comunicacin, Poltica, Gobierno, Salud y Medicina, Turismo, Bazar Cuba, Cocina cubana, Consultas mdicas, Cuba-NIC, NIC, Cursos en lnea, Efemrides, Tiempo, Clima, Pronstico del tiempo, Libros cubanos, Autores cubanos, Pginas amarillas, Pginas blancas, Sitios cubanos, Cuba.cu, Portal Cuba, CITMATEL, Postales /> <meta name="DC.type" content="Pgina Web" /> <meta name="DC.language" content ="es" /> <meta name="DC.identifier" content ="http://www.cuba.cu" /> DC CUALIFICADO <meta name=DC.title content=Portal Cuba.cu /> <meta name=DC.creator content=Empresa de Tecnologa de la Informacin y Servicios Telemticos Avanzados, CITMATEL /> < meta name="DCTERMS.created" scheme="DCTERMS.W3C-DTF" content="2000-0105" /> <meta name="DC.description" content= "El Portal Cuba.cu recoge informacin general sobre nuestro pas, organizada por categoras que agrupan las ms importantes temticas de inters para quienes lo visiten. Ofrece diversos y tiles servicios que abarcan una amplia gama de posibilidades de recuperacin de informacin sobre Cuba y los cubanos, con un alto valor agregado. /> <meta name="DC.subject" content= Cuba, Informacin de Cuba, Arte, Humanidades, Ciencia, Tecnologa, Deportes, Economa, Negocios, Educacin, Eventos, Medios de comunicacin, Poltica, Gobierno, Salud y Medicina, Turismo, Bazar Cuba, Cocina cubana, Consultas mdicas, Cuba-NIC, NIC, Cursos en lnea, Efemrides, Tiempo, Clima, Pronstico del tiempo, Libros cubanos, Autores cubanos, Pginas amarillas, Pginas blancas, Sitios cubanos, Cuba.cu, Portal Cuba, CITMATEL Postales /> <meta name=DCTERMS.audience content=Cientficos, profesionales y tcnicos en general /> <meta name="DC.format" scheme="DCTERMS.IMT" content="Text/html" /> <meta name="DC.type" scheme="DCTERMS.DCMIType" content="Text" /> <meta name="DC.language" SCHEME= "ISO639-2" content ="Spa" /> <meta name="DC.identifier" scheme="DCTERMS.URI" content ="http://www.cuba.cu" /> REFERENCIAS BIBLIOGRFICAS

1. Mndez Rodrguez EM. Metadatos y recuperacin de informacin: estndares, problemas y aplicabilidad en bibliotecas digitales. Gijn: Trea; 2002. 2. Gimeno Montoro JM, Barrueco Cruz JM, Garca Testal C. 1998. Catalogacin de recursos electrnicos accesibles en Internet: revisin de propuestas para una normativa. 1998. Disponible en: http://fesabid98.floridauni.es/Comunicaciones/mj_gimeno.htm [Consultado: 10 de enero del 2006]. 3. Rodrguez Gairn J. M. Valoracin del impacto de la informacin en Internet. Altavista, el Science Citation Index de la red. Revista Espaola de Documentacin Cientfica 1997;20(2):175-181. Disponible en: http://bd.ub.es/pub/rzgairin/altavis.htm [Consultado: 8 de enero del 2006]. 4. Koch T. Documentation to: metadata Indexing and searching in large search. 1998. Disponible en: http://www.lub.lu.se/~traugott/Mdsearch-docu.html [Consultado: 15 de enero del 2006]. 5. Medeiros N. XML and the Resourse Description Framework: The Great Web Home. 2000. Disponible en: http://www.onlineinc.com/onlinemag/OL2000/medeiros9.html [Consultado: 16 de enero del 2006]. 6. Mettrop W. Internet Search Engines: Fluctuation in Document Accessibility, Journal of Documentation 2001;57(5):623-651. 7. Desai B. Supporting Discovery in Virtual Libraries. JASIS 1997;48(3):190-204. 8. Garca Martnez AM. Definicin y estilo de los objetos de informacin digitales y metadatos para la descripcin', Boletn de la Asociacin Andaluza de Bibliotecarios 2001;(63):23-47. Disponible en: http://www.aab.es/51n63a2.pdf [Consultado: 13 de enero del 2006]. 9. Taylor C. An Introduction to Metadata. 1999. Disponible en: http://www.library.uq.edu.au/iad/ctmeta4.html [Consultado: 19 de enero del 2006]. 10. San Segundo MR. 1998. Organizacin del conocimiento en Internet: metadatos bibliotecarios DUBLIN CORE'. Disponible en: http://fesabid98.floridauni.es/Comunicaciones/r_sansegundo.htm [Consultado: 14 de enero del 2006]. 11. Hillmann DI. Tutorial Semntica bsica. DC-2005. Madrid: s.e; 2005. 12. Powell A. Tutorial sobre sintaxis bsica Codificando DC en HTML, XML y RDF. DC-2005. Madrid: s.e; 2005. Recibido: 8 de octubre del 2006. Aprobado: 21 de octubre del 2006. MsC. Isabel Daudinot Founier. Empresa de Tecnologas de la Informacin y Servicios Telemticos Avanzados. Ave. 47 e/ 18 y 20, Miramar, Playa. Ciudad de La Habana. Cuba. Correo electrnico: isabel@citmatel.inf.cu ABSTRACT The different tendencies that characterize the information search tools existing on the Internet as regards the utilization of metadata are analyzed. The topic of the use of normalized metadata formats to describe the information resources is also approached, making emphasis on the principles, characteristics and codification of the Dublin Core format in HTML. Key words: Search tools, metadata, Dublin Core, HTML. Ficha de procesamiento Trminos sugeridos para la indizacin Segn DeCS1

INTERNET; ALMACENAMIENTO Y RECUPERACIN DE LA INFORMACIN. INTERNET; INFORMATION STORAGE AND RETRIEVAL. Segn DeCI2 INTERNET; WWW; RECUPERACIN DE LA INFORMACIN; METADATOS; TECNOLOGA DE LA INFORMACIN. INTERNET; WWW; INFORMATION RETRIEVAL; METADATA; INFORMATION TECHNOLOGY.
1

BIREME. Descriptores en Ciencias de la Salud (DeCS). Sao Paulo: BIREME, 2004.

Disponible en: http://decs.bvs.br/E/homepagee.htm


2

Daz del Campo S. Propuesta de trminos para la indizacin en Ciencias de la Informacin. Descriptores en Ciencias de la Informacin (DeCI). Disponible en: http://cis.sld.cu/E/tesauro.pdf

Você também pode gostar