Você está na página 1de 59

Anlisis de contenido: resumen e indizacin

Manela Junc Campdepadrs


PID_00143964

CC-BY-NC-ND PID_00143964

Anlisis de contenido: resumen e indizacin

Los textos e imgenes publicados en esta obra estn sujetos excepto que se indique lo contrario a una licencia de Reconocimiento-NoComercial-SinObraDerivada (BY-NC-ND) v.3.0 Espaa de Creative Commons. Podis copiarlos, distribuirlos y transmitirlos pblicamente siempre que citis el autor y la fuente (FUOC. Fundacin para la Universitat Oberta de Catalunya), no hagis de ellos un uso comercial y ni obra derivada. La licencia completa se puede consultar en http://creativecommons.org/licenses/by-nc-nd/3.0/es/legalcode.es

CC-BY-NC-ND PID_00143964

Anlisis de contenido: resumen e indizacin

ndice

Introduccin............................................................................................... Objetivos....................................................................................................... 1. 2. El anlisis de contenido................................................................... El resumen........................................................................................... 2.1. 2.2. 3. Tipos de resmenes ..................................................................... Resumen automtico ...................................................................

5 7 9 11 14 16 20 20 21 22 22 24 26 31 33 33 35 39 42 44 44 45 46 48 50 52 53 54 58

La indizacin....................................................................................... 3.1. Lenguaje natural y lenguaje documental ................................... 3.1.1. 3.1.2. 3.1.3. 3.1.4. 3.2. 3.3. Nmero de trminos ..................................................... Control de las formas .................................................... Control del significado .................................................. Relaciones de significado de los trminos .....................

Cmo se indiza? ........................................................................ Calidad y coherencia de la indizacin .......................................

4.

Los lenguajes documentales............................................................ 4.1. 4.2. 4.3. 4.4. Los trminos de indizacin ........................................................ Evolucin histrica de los lenguajes documentales ................... Cundo son necesarios los lenguajes documentales? ............... Complementariedad de los lenguajes documentales ..................

5.

Tipologa de los lenguajes documentales.................................... 5.1. 5.2. 5.3. 5.4. 5.5. 5.6. Naturaleza del trmino: codificado o natural ............................. Nivel de control: libre o controlado ........................................... Nivel de coordinacin: precoordinado o postcoordinado .......... Estructura: jerrquica o combinatoria ........................................ Nivel de anlisis: materias, conceptos, palabras clave ................ Conclusiones ...............................................................................

Actividades.................................................................................................. Glosario........................................................................................................ Bibliografa.................................................................................................

CC-BY-NC-ND PID_00143964

Anlisis de contenido: resumen e indizacin

Introduccin

Este mdulo os introduce en los procesos documentales de la segunda fase de la cadena documental, llamada anlisisdecontenido,formada por el resumen y la indizacin. Itinerariodeestudio El mdulo empieza con un captulo dedicado al anlisis de contenido, para situar al estudiante en las dos operaciones mencionadas, el resumen y la indizacin. El apartado dedicado al resumen est diseado para responder a las preguntas de qu es un resumen, quin lo redacta, qu utilidades tiene y cuntos tipos de resmenes hay. Finalmente, se presentan los resmenes automticos, explicando su evolucin y funcionamiento. La indizacin es el grueso de esta asignatura y en este mdulo tiene tres apartados. El primero de ellos trata de dar respuesta a las preguntas de qu es indizar, quin indiza, por qu hacen falta los lenguajes documentales y cmo se indiza. El apartado titulado Lenguajes documentales responde a las preguntas de qu son los lenguajes, cuntos hay, qu son los trminos de indizacin, cmo han evolucionado, cundo son necesarios y cul es su uso en solitario o combinados. El ltimo apartado, titulado Tipologa, trata de los diferentes criterios usados para clasificar los lenguajes. Este es un mdulo bsico para el aprendizaje de la terminologa que se usar en el resto de mdulos.
Conceptos ms importantes Concepto Resumen informativo Resumen indicativo Resumen selectivo Resumen automtico Ambigedad Lenguaje natural Exhaustividad Especificidad Traduccin Univocidad 1. El resumen Ved

2. La indizacin

CC-BY-NC-ND PID_00143964

Anlisis de contenido: resumen e indizacin

Concepto Lenguaje documental Sistemas de clasificacin Listados de encabezamientos de materia Listados de autoridades Tesauros Listados de descriptores libres Listados de palabras clave Notacin Encabezamiento Descriptor Identificador o autoridad Palabra clave Codificado Natural Libre Controlado Precoordinado Postcoordinado Jerrquico Combinatorio Materias Conceptos Palabras clave

Ved 4. Los lenguajes documentales

5. Tipologa de los lenguajes documentales

CC-BY-NC-ND PID_00143964

Anlisis de contenido: resumen e indizacin

Objetivos

Con el estudio de los materiales asociados a este mdulo alcanzaris los objetivos siguientes: En cuanto al resumen:

1. Aprender a hacer resmenes de manera intelectual: resmenes informativos, indicativos y selectivos. 2. Aprender a hacer resmenes con programas de resmenes automticos. En cuanto a la indizacin:

1. Analizar los factores necesarios para que haya una buena comunicacin documental: entender los problemas del lenguaje natural y la funcin de los lenguajes documentales dentro de esta comunicacin. 2. Conocer los procesos de indizacin: examen del documento, seleccin y traduccin. En cuanto a los lenguajesdocumentales:

1. Conocer las caractersticas principales de los lenguajes documentales. 2. Conocer la evolucin histrica de los lenguajes documentales. 3. Aprender a distinguir y saber utilizar la diferente tipologa de los lenguajes documentales: sintticos-analticos, precoordinados-postcoordinados, controlados-libres, jerrquicos-combinatorios, materias-conceptospalabras clave.

CC-BY-NC-ND PID_00143964

Anlisis de contenido: resumen e indizacin

1. El anlisis de contenido

Elanlisisdecontenido se sita en la segunda fase de la cadena documental y rene todo el conjunto de operaciones destinadas a representar la materia de los documentos para una posterior recuperacin. Son tareas de cariz intelectual en las que la formacin y la habilidad del analista juegan un papel importante.

Representar la materia o describir el contenido es responder a la pregunta: cul es el tema de un documento?.

Para representar el contenido de un documento el analista tiene que llevar a cabo dos operaciones: 1) El resumen, que condensa el contenido en un texto ms breve y manejable. 2) La indizacin, que identifica los conceptos o temas principales. Tambin se conoce como descripcin caracterstica. Estas dos operaciones admiten una elaboracin humana o automtica. Por lo tanto, habr resmenes elaborados por documentalistas y resmenes elaborados por programas, y tambin indizaciones hechas por analistas e indizaciones elaboradas por un software.
Operaciones humanas y automatizadas Humano Resumen Resumen informativo Resumen indicativo Resumen selectivo Sistemas de clasificacin Listas de encabezamientos de materia Listados de autoridades Tesauros Listados de descriptores libres Automatizado Resumen automtico

Indizacin

Listado de palabras clave

Los dos sistemas tienen ventajas e inconvenientes. La calidad y coherencia que aporta un documentalista supera en estos momentos la que ofrecen los programas informticos, pero en cambio los sistemas automticos son instantneos, baratos y capaces de asumir ingentes cantidades de documentos.

CC-BY-NC-ND PID_00143964

10

Anlisis de contenido: resumen e indizacin

La rama cientfica que estudia cmo emular el conocimiento humano, en cuanto a la identificacin de los conceptos y las frases con contenido relevante para el resumen y la indizacin, es el procesamiento en lenguaje natural.

Ved tambin Trataremos el procesamiento del lenguaje natural en el subapartado 2.4 y en el apartado 3.

El procesamiento en lenguaje natural (PLN1) es una rama de la inteligencia artificial y de la lingstica computacional que estudia los lenguajes que usan los humanos para interactuar con los ordenadores en contextos escritos y orales.
(1)

PLN es la sigla de procesamiento en lenguaje natural.

Lectura complementaria I.GilLeiva;J.V.Rodrguez Muoz (1996). El procesamiento del lenguaje natural aplicado al anlisis del contenido de los documentos. Revista general de informacin y documentacin (vol. 6, nm. 2, pg. 205-218).

A modo de conclusin Para representar o describir el contenido de un documento el analista tiene que llevar a cabo dos operaciones: El resumen, que condensa el contenido en un texto ms breve y manejable. La indizacin, que identifica los conceptos o temas principales. Tambin se conoce como descripcin caracterstica.

Las dos operaciones se pueden llevar a cabo de manera humana o automtica.

CC-BY-NC-ND PID_00143964

11

Anlisis de contenido: resumen e indizacin

2. El resumen

Segn la norma UNE 50-103-90 Preparacin de resmenes, un resumen es la presentacin abreviada y precisa de un documento, sin interpretacin ni crtica y sin mencin expresa del autor del resumen.

Ved tambin Encontraris la norma UNO 50-103-90 en el espacio Materiales y fuentes de las aulas.

Cuando decimos documento nos estamos refiriendo a todo tipo de documento, sea cual sea su soporte material. Podemos resumir un texto, la imagen de una fotografa, un vdeo, audios, informacin en lnea o hipertextos. Los resmenes, como la indizacin, pueden ser de elaboracin humana o automtica. En el primer caso hay cuatro tipos de personas que pueden redactar un resumen. En el caso de los resmenes automticos, se trata de un software. 1)Resumenhumano: a) Elautor del documento. Los resmenes elaborados por los propios autores son muy habituales en el mundo de las comunicaciones cientficas y tecnolgicas. b) Un especialista en la materia de la que trata el documento. c) Laeditorial. Son los resmenes que aparecen en la contraportada de los libros impresos y que tienen una funcin claramente publicitaria. d) Un profesionaldeladocumentacin. Aporta su conocimiento sobre la redaccin de buenos resmenes y los elabora pensando en las utilidades futuras. 2)Resumenautomtico: los programas se conocen como programas resumidores de textos o Automatic Text Summarizer. La norma internacional ISO 214:1976, traducida por AENOR como norma UNE 50-103-90 Preparacin de resmenes, establece las directrices que se tienen que seguir para presentar los resmenes en los documentos. Pone especial nfasis en la preparacin de resmenes por parte de los autores de los documentos primarios y en la misma publicacin.
Programas resumidores de textos Un ejemplo de programas resumidores de textos es Swesum, que hace un anlisis estadstico del texto y elabora el resumen con los fragmentos que contienen las palabras ms ponderadas (ms repetidas pero con significado). Resmenes para revistas Las revistas acostumbran a dar directrices a sus autores para la elaboracin de resmenes. Ved, por ejemplo, la revista EPI en su apartado Instrucciones para los autores.

CC-BY-NC-ND PID_00143964

12

Anlisis de contenido: resumen e indizacin

Redactar un resumen es fcil. Lo difcil es redactar un buen resumen. El punto de inflexin es la calidad del resumen, que lo har ms o menos til en un sistema documental. Un resumen propagandstico no aportar muchos conceptos principales para indizar, aunque haya sido un buen reclamo para las ventas.
Ejemplo de resumen elaborado por la editorial con finalidad publicitaria SAGAN, Carl. Cosmos. Traducci: Albert Santamaria i Martnez; prleg: Ricard Guerrero. Barcelona: Publicacions i Edicions de la Universitat de Barcelona: Omnis Cellula, cop. 2006. He aqu una de las obras ms destacadas de la literatura internacional de divulgacin cientfica, publicada por primera vez en cataln. Una obra imprescindible de uno de los grandes maestros de la divulgacin, que nos introduce en los grandes enigmas que la humanidad ha tratado de entender y explicar desde tiempos inmemoriales, y por los cuales ha nacido lo que llamamos ciencia. Desde la infinitud del Universo hasta el mundo invisible de los tomos, desde el nacimiento de las estrellas hasta la aparicin de la vida, Carl Sagan consigue transmitir los conocimientos de la ciencia actual de una manera clara y apasionante. Para un analista slo tendra utilidad el ltimo prrafo, en qu aparecen trminos como universo, tomos, estrellas, vida.

El resumen es til en dos fases de la cadena, en los procesos de seleccin y adquisicin que se da en la primera fase de la cadena y en la fase de salida, donde es un excelente instrumento de recuperacin, ya que el resumen ofrece ms datos que la simple referencia documental. La principal utilidad del resumen es la de difundir la informacin.

Difundir la informacin Cada vez ms bases de datos referenciales ofrecen el resumen de sus monografas y revistas, como por ejemplo Ebsco, Dialnet, Compludoc, CBUC, Eric database o ISI current contents connect. Tambin lo hacen las bases de datos de novedades editoriales, por ejemplo la editorial Trea (recomendamos el acceso desde la biblioteca de la UOC).

En todos los casos es indudable el valor informativo que aporta el resumen para difundir el contenido del documento de la coleccin. Pero adems, el resumen tiene otras utilidades, tal como dice la norma UNE 50-103-90: a) Determinar la pertenencia: un resumen bien elaborado capacita a los lectores para identificar de forma rpida y precisa el contenido de un documento y decidir si hay que leerlo en su totalidad. b) Evitar la lectura del texto completo en documentos de inters secundario. Un resumen bien elaborado proporciona suficiente informacin sobre temas que no sean de inters principal para el lector. Ahorra tiempo al usuario. c) Ayudar en la bsqueda automatizada. Los resmenes automatizados incorporados en los catlogos son muy tiles para: Extraer trminos de indizacin de su texto, es decir, indizar a partir del resumen. Hacer bsquedas de palabras clave que no se encuentran en el ttulo.

CC-BY-NC-ND PID_00143964

13

Anlisis de contenido: resumen e indizacin

Servir de control bibliomtrico, al comparar los trminos usados en una ecuacin de bsqueda con los trminos que aparecen en un resumen y as establecer la pertinencia de la recuperacin.

Ayudar a la difusin desde los servicios de alerta.


Lectura complementaria Podis ampliar la informacin sobre el resumen leyendo la obra siguiente: M.PintoBatanea (1992). El resumen documental: principios y mtodos. Madrid: Pirmide/ Fundacin Germn Snchez Ruiprez (Biblioteca del Libro, Y).

Segn Mara Pinto (1992), las caractersticasdeunresumen son las siguientes: Brevedad. Se tienen que omitir datos preliminares o temas del conocimiento comn. Pertinencia. El resumen se tiene que adecuar al mensaje principal del documento, sin obviar o interpretar los datos. Claridad y coherencia. Frases completas, dotadas de coherencia lineal y global. Profundidad. Vara en funcin del tipo de resumen o de los diferentes niveles de detalle que se persigan. Consistencia lingstica. Un resumen se tiene que adaptar a las pautas lingsticas en uso y tiene que tener en cuenta las reglas morfolgicas y sintcticas correspondientes. Proximidad cronolgica entre las ediciones del documento original y el resumen. Es importante que el tiempo transcurrido entre la publicacin del original y el resumen no sea excesivo, especialmente en mbitos cientficos y tcnicos.
A modo de conclusin El resumen es la presentacin abreviada y precisa de un documento, sin interpretacin ni crtica y sin mencin expresa del autor del resumen. El resumen puede ser redactado por el autor del documento, un especialista en la materia, la editorial, un documentalista o un programa informtico. El resumen es til en dos fases de la cadena: en los procesos de seleccin y adquisicin que se da en la primera fase de la cadena y en la fase de salida, donde es un excelente instrumento de recuperacin. La principal utilidad del resumen es la de difundir la informacin, pero adems, el resumen tiene otras utilidades, como determinar la pertinencia, evitar la lectura del texto completo en documentos marginales y ayudar a la bsqueda automatizada. Los resmenes automatizados incorporados en los catlogos son muy tiles para extraer trminos de indizacin del texto, para hacer bsquedas de palabras clave que no se encuentran en el ttulo, para servir de control bibliomtrico y ayudar a la difusin a travs de los servicios de alerta.

CC-BY-NC-ND PID_00143964

14

Anlisis de contenido: resumen e indizacin

2.1. Tipos de resmenes Hay diversos tipos de resmenes, segn el tamao, los usuarios y la profundizacin en el contenido. Los tipos ms habituales son los resmenes informativos, indicativos y selectivos. 1)Resumeninformativo Redactaremos el tema central, temas adicionales, naturaleza y objetivo del documento, metodologa, resultados, conclusiones y anexos. La idea de fondo es que un resumen informativo puede sustituir en ocasiones la lectura del documento original. La norma UNE 50-103-90 recomienda que el esquema a seguir sea el de: objetivo + metodologa + resultados (o conclusiones) Sin embargo, no hay que seguir forzosamente este orden, ya que hay entornos, como el tcnico cientfico, donde se prefieren los resmenes orientados a los resultados (para que la discriminacin sea ms rpida). En cuanto al tamao del resumen, la norma da pautas pero advirtiendo que el contenido del documento es ms significativo que las pautas para determinar la extensin del resumen. De todas maneras la norma nos sugiere: Monografas, informes, tesis: 500 palabras. Artculos de revista, captulos de monografas: 250 palabras. Comunicaciones breves: 100 palabras.
Ejemplo de resumen informativo CONSUEGRA FERNNDEZ, Jess: El Ajedrez: evolucin y claves de un juego milenario. En Mundo antiguo. Madrid: 2002. n 3-4, ao 1, p. 60-61. Artculo divulgativo sobre el juego del ajedrez, estructurado segn sus orgenes, antigedad, expansin, variantes y simbolismo. El origen del ajedrez es hind y el primer representante conocido es el Ghaturanga, aparecido entre el 3000 y el 2000 a.C. en Sri Lanka, aunque no aparece documentado hasta el siglo VII d.C. Del Ghaturanga proceden en cascada las diferentes variantes del ajedrez: de la India viaj a Persia en el siglo VI d.C., donde pas de los 4 jugadores originales a 2 en la versin persa Shatranj. Desde Persia se extendi hacia Occidente y hacia Oriente. Hacia Occidente: paralela a la expansin rabe, el juego llega a la Pennsula Ibrica durante la Alta Edad Media, y desde aqu se expande al resto de Europa y al resto del mundo en la poca de las colonizaciones. Hacia Oriente: en la China, en el s. VII d.C., el ajedrez toma la forma del ajedrez chino Xiang qi; en el Japn, el Shogi; en Indochina, el ajedrez birmano y tailands. Tanto en Oriente como en Occidente, el ajedrez presenta innumerables variaciones locales.

CC-BY-NC-ND PID_00143964

15

Anlisis de contenido: resumen e indizacin

El tablero y las fichas parecen poseer un significado simblico. El tablero, con la alternancia de casillas blancas y negras, forma un mandala. El simbolismo de las fichas es menos esotrico y ha ido cambiando segn los tiempos: obispos, elefantes, etc. El autor concluye que el ajedrez, adems de un juego, es una herramienta educativa de primer orden, casi una ciencia. Como podis comprobar, este resumen tiene 237 palabras.

2)Resumenindicativo Redactaremos slo las ideas centrales del documento. Su lectura no puede sustituir la lectura del original. Como su nombre sugiere, el resumen indicativo presenta de forma abreviada y muy sinttica el contenido o la tipologa del documento. Su extensin puede oscilar entre una frase o 4 lneas de texto.
Ejemplo de resumen indicativo CONSUEGRA FERNNDEZ, Jess: El Ajedrez: evolucin y claves de un juego milenario. En Mundo antiguo. Madrid: 2002. n 3-4, ao 1, p. 60-61. Artculo divulgativo sobre el juego del ajedrez, trata de su origen hind, antigedad, expansin histrica tanto en Oriente como en Occidente, variantes nacionales y simbolismo del tablero y las fichas.

3)Resumenselectivo Redactaremos slo una parte concreta del documento. El ms habitual es el resumen de conclusiones, pero tambin hay otros tipos, como la resea (review), que es un anlisis del documento con elementos crticos. Este tipo de resumen se adapta muy bien a las necesidades de los usuarios, por ejemplo investigadores o tcnicos que necesitan un dato muy concreto sobre el objetivo del documento o las conclusiones a las que llega.
Ejemplo de resumen selectivo CONSUEGRA FERNNDEZ, Jess: El Ajedrez: evolucin y claves de un juego milenario. En Mundo antiguo. Madrid: 2002. n 3-4, ao 1, p. 60-61. El ajedrez, adems de un juego, es una herramienta educativa de primer orden, casi una ciencia. A modo de conclusin Los resmenes ms habituales son el resumen informativo, el indicativo y el selectivo: El resumeninformativo consigna el tema central, temas adicionales, naturaleza y objetivo del documento, metodologa, resultados, conclusiones y anexos. La idea de fondo es que un resumen informativo puede sustituir en ocasiones a la lectura del documento original. El resumenindicativo consigna slo las ideas centrales del documento. Su lectura no puede sustituir a la lectura del original. El resumenselectivo consigna slo una parte concreta del documento. El ms habitual es el resumen de conclusiones, pero tambin hay otros tipos, como la resea (review).

CC-BY-NC-ND PID_00143964

16

Anlisis de contenido: resumen e indizacin

2.2. Resumen automtico

Una de las necesidades ms perentorias ante el aumento de informacin digital debido al crecimiento exponencial de Internet es manejar y filtrar el gran volumen de informacin. Una de las soluciones aportadas por el PLN han sido los programas de resumen automtico, que actan sobre textos, imgenes, webs y correo electrnico. Los primeros en trabajar en el campo de la automatizacin de los resmenes fueron Hans Peter Luhn en el ao 1958 y Edmundson en 1969, que aplicaron tcnicas como la frecuencia de las palabras, o la posicin de una frase dentro de un documento para redactar resmenes sin intervencin humana. A partir de estas primeras investigaciones se han perfeccionado muchas tcnicas diferentes basadas en conocimiento y recursos lingsticos (como las de Lin y Hovy, 2002; Gotti et al., 2007) o basadas en mtodos estadsticos y de aprendizaje automtico (Hirao et al., 2002; Svore, 2007) (autores citados en Lloret et al., 2008; y Mateo et al., 2003). ltimamente las investigaciones giran en torno al resumen multidocumento, es decir, resumir ms de un documento (Goldstein et al., 2000; Qiu, 2007; Huo y Chen, 2008) de contenidos afines o redundantes (autores citados en Lloret et al., 2008; y Mateo et al., 2003). Los resmenes automticos se conocen tambin como extracts. La terminologa anglosajona diferencia as los extracts y los abstracts. Los extracts son los resmenes formados a partir de la extraccin de algunas frases del texto previamente seleccionadas por un programa, mientras que los abstracts son los resmenes elaborados por una persona.
Lecturas complementarias Podis consultar los resultados de las investigaciones de estos autores en los artculos siguientes: E.Lloret;O.Ferrndez;R. Muoz;M.Palomar (2008). Integracin del reconocimiento de la impliacin textual en tareas automticas de resmenes de textos. Procesamiento del lenguaje natural, n. 41, pg. 183-190. P.L.Mateo;J.C.Gonzlez; J.Villena;J.L.Martnez (2003). Un sistema para resumen automtico de textos en castellano.
Hans Peter Luhn

La base de todas las tcnicas de funcionamiento de un programa de resmenes automtico es el cmputo de la frecuencia de las palabras.

Hay diversas herramientas para hacer estos clculos, por ejemplo WVTool. Se trata de contar cuntas veces sale una palabra no vaca en el texto.

Ved tambin Encontraris una explicacin detallada sobre las palabras vacas en el mdulo Indizacin automtica y descriptores libres.

CC-BY-NC-ND PID_00143964

17

Anlisis de contenido: resumen e indizacin

Ejemplo de funcionamiento de un programa de resmenes automtico (extrado de Lloret et al., 2008) Tropical storm Gilbert formed in the eastern Caribbean and strengthened into a hurricane Saturday night. There were no reports of casualties. Oracin 1: Tropical (2) storm (6) Gilbert (7) formed (1) in (0) the (0) eastern (1) Caribbean (1) and (0) strengthened (1) into (0) a (0) hurricane (7) Saturday (4) night (2). There (0) were (0) no (0) reports (1) of (0) casualties (1).

Oracin 2:

Lo primero que vemos es que las palabras vacas, es decir, las palabras que no tienen significado (preposiciones, artculos, verbos) no se computan. Al lado de cada palabra con significado vemos el nmero de veces que sale en todo el texto. Se suman los valores, de manera que la oracin 1 tiene 3,2 puntos y la oracin 2, 0,2. El programa seleccionar la frase 1 como ms representativa para el resumen automtico.

Este sistema de resumir a partir de las frases con las palabras ms significativas en el texto parece simplista pero tiene cierta justificacin. Segn Kupiec et al. (1995) aproximadamente el 80% de las frases en resmenes humanos estn copiadas literalmente o con pequeas modificaciones del texto original. A partir de esta base estadstica se incorporan otras tcnicas para dotar al programa de ms conocimiento y paliar la escasa coherencia del resultado, como puede ser, por ejemplo, la resolucin de la anfora o aplicar programas (por ejemplo, WordNet) que proporcionen relaciones como las de sinonimia o hiperonimia, o mecanismos para detectar y eliminar la redundancia. Definimos brevemente qu son las anforas y la hiperonimia: a) Las anforas son la relacin de referencia entre un elemento lingstico y otro anterior en el discurso. b) Decimos que una palabra es hipernima cuando tiene un campo significativo que incluye otro de menor extensin. Los expertos consideran que la tecnologa actual no tiene problemas para detectar las frases con ms significado, pero s para ordenarlas segn su importancia. Los programas funcionan a grandes rasgos de la siguiente manera: se copia el texto a resumir o bien se escribe la direccin del documento. Se escoge el tipo de documento (acadmico, periodstico, etc.) y el tanto por ciento de reduccin del texto. A continuacin tenis unos cuantos programas de los ms conocidos:
Hiperonimia Color es un hipernimo. Su contrario es hipnimo: amarillo, naranja, verde son hipnimos. Anfora El Saln del Hobby ha tenido ms de 60.000 visitantes este ao. Este saln se ha convertido en la feria de ocio familiar ms visitada. En este ejemplo, la anfora se da en este saln, que hace referencia al Saln del Hobby, expresado en la frase anterior. Como se puede comprobar, si en el resumen automtico aparece slo la segunda frase, el lector no sabr a qu saln hace referencia.

CC-BY-NC-ND PID_00143964

18
(2)

Anlisis de contenido: resumen e indizacin

Connexor Daedalus Extractor FociSum InTEXT (Dynamic Summarizing) Inxight Summarizer IslandInText K-Site de Daedalus Pertinence Summarizer Sinope Summarizer Summarizer SweSum2 System Q TextAnalyst Trestle
El programa K-Site de Daedalus De entre los programas de resumen automtico mencionados, veamos el funcionamiento del programa K-Site de Daedalus. Este programa tiene cinco mdulos: Mdulo1:Anlisismorfosintctico. En este mdulo se determina la categora lxica de cada palabra: sustantivo, verbo, adjetivo, artculo, preposicin, etc. Tambin se determina el lema. Estas operaciones permiten distinguir las palabras con significado (sustantivos, adjetivos, verbos) de las vacas (artculos, preposiciones, pronombres, etc.). El lema permite agrupar todas las palabras que son flexiones de otra (info/informar/informacin/informador/informacional/etc.). El producto final es un listado con las palabras puntuadas y un listado de frases candidatas. Mdulo2:Ponderacindefrases. Este mdulo recibe las palabras etiquetadas por el mdulo anterior, y su funcin es escoger entre todas las frases candidatas. Para hacerlo se ayuda de diversos submdulos que ponderan las frases segn los parmetros siguientes: la frecuencia, la presencia de palabras indicativas (buscan palabras como importante, esencial, conclusiones, etc.), buscan frases que contengan palabras que aparezcan en el ttulo, o que tengan nombres propios, o que la tipografa sea destacada (negritas, cursivas, tamao superior, etc.) y seleccionan frases que aparezcan en posiciones destacadas en el texto (al principio de cada prrafo, al final a modo de conclusin). Mdulo3:Deteccindeanforas. Una vez tiene las frases seleccionadas, puede ser que se d el caso de anforas mal resueltas (una frase contiene una anfora que se encontraba en la frase previa y que no ha sido seleccionada). El programa busca las anforas (especialmente los demostrativos pronominales o pronombres personales, por ejemplo este, aquel, lo que, eso) y su posicin en la frase: al principio, entre las seis primeras palabras, en otras posiciones. Mdulo4:Seleccindefrases. Este mdulo computa toda la informacin recogida en las fases anteriores: frases candidatas, puntuaciones, deteccin de anforas. Selecciona las frases candidatas de puntuacin ms alta hasta llegar al tanto por ciento pedido por el usuario. Si entre estas frases hay alguna que contenga una anfora, se selecciona la frase anterior (que contiene la palabra a la cual se est haciendo referencia) siempre y cuando forme parte de las frases candidatas y no sobrepase la longitud del resumen. Mdulo5:Postprocesadodelextracto. Su funcin es detectar expresiones que conectan partes del texto, ya sea para mostrar causalidad, contraposicin, etc. Son expresiones del tipo por lo tanto, en contra, etc. Como en el caso de las anforas, si forman parte de una frase seleccionada, se procura incluir en el resumen la frase con la cual estn relacionadas.

Podis practicar con el programa Swesum, que es gratuito y traduce al espaol.

CC-BY-NC-ND PID_00143964

19

Anlisis de contenido: resumen e indizacin

Por ltimo, debemos recordar que algunos procesadores de textos, como Microsoft Word, tambin ofrecen esta opcin (Autosummarize o Auto-resumen).
A modo de conclusin Los resmenes automticos (extracts) son una de las soluciones aportadas por el PLN para hacer frente al manejo de grandes volmenes de informacin en lnea. Los primeros en trabajar en el campo de la automatizacin de los resmenes fueron Hans Peter Luhn en el ao 1958 y Edmundson en 1969. Las tcnicas han evolucionado de los primeros cmputos sobre la frecuencia de las palabras, o la posicin de una frase dentro de un documento, a las tcnicas basadas en conocimiento y recursos lingsticos o en mtodos estadsticos y de aprendizaje automtico. La base de todas las tcnicas es el cmputo de la frecuencia de las palabras. A partir de esta base estadstica, se incorporan otras tcnicas para dotar al programa de ms conocimiento y paliar la escasa coherencia del resultado, por ejemplo la resolucin de la anfora o se aplican programas que proporcionen relaciones como las de sinonimia o hiperonimia o mecanismos para detectar y eliminar la redundancia. Los expertos consideran que la tecnologa actual no tiene problemas para detectar las frases con ms significado, pero s para ordenarlas segn su importancia.

CC-BY-NC-ND PID_00143964

20

Anlisis de contenido: resumen e indizacin

3. La indizacin

Indizar es la accin de describir o identificar un documento con relacin a su contenido. Norma UNE 50-121-91.

Indizar es el resultado de examinar el documento, seleccionar los conceptos y almacenarlos en una base de datos.

Esta definicin implica tres acciones, de las cuales la ms significativa es la seleccin de los conceptos y su traduccin al lenguaje documental. Al igual que se ha tratado en el resumen, la indizacin la puede realizar una persona o un programa. Si la indizacin es intelectual, es decir, la llevan a cabo personas, estas personas pueden ser: Profesionales (documentalistas), que llevan a cabo la tarea de indizacin de manera individual o en equipo. A su vez, los equipos pueden indizar de manera centralizada o coordinada. Amateurs (usuarios de Internet que indizan de manera social o tagging por ejemplo, en Delicious). El elemento humano permite un anlisis ms rico del documento, captando conceptos y matices que un programa no llegara a detectar, pero tiene el inconveniente del tiempo que se tiene que dedicar y la coherencia entre indizadores. La indizacin automtica se realiza a travs de un programa informtico. Su funcionamiento es muy sencillo: extrae del ttulo, resumen o texto completo las palabras ms significativas. Es un mtodo econmico y muy rpido. 3.1. Lenguaje natural y lenguaje documental Para indizar necesitamos los lenguajes documentales. Qu diferencia hay entre el lenguaje natural y el documental?
Ved tambin La indizacin automtica se estudia en el mdulo Listado de descriptores libres y listado de palabras clave. Ved tambin La forma de indizar de los equipos se trata en el apartado 5 del mdulo La cadena documental de esta asignatura. Ved tambin La indizacin se estudia en los mdulos Sistemas de clasificacin documentales, Listas de encabezamientos y listados de autoridades, Los tesauros y Listado de descriptores libres y listado de palabras clave.

CC-BY-NC-ND PID_00143964

21

Anlisis de contenido: resumen e indizacin

Por lenguajenatural entendemos el lenguaje que usamos de forma cotidiana: cataln, castellano, vasco, gallego, francs, etc. Por lenguajedocumental entendemos el listado o vocabulario de trminos que usamos para indizar y que puede estar en formato libre o controlado.

Y por qu hay que controlar los trminos del lenguaje natural? Porque el lenguaje natural es ambiguo, los conceptos se pueden representar de formas diversas, dando lugar a problemas de recuperacin. El lenguaje natural es rico en terminologa, en formas (plurales y singulares), tiempos verbales, acrnimos, sinnimos, polisemias, etc. La principal diferencia entre el lenguaje natural y el documental controlado es precisamente el control terminolgico, que permite representar los conceptos de forma unvoca, sin ambigedades. Para ser ms concretos, las diferencias se dan en el nmero de trminos del vocabulario, el control de las formas, el control del significado y las relaciones de significado entre trminos. 3.1.1. Nmero de trminos

La riqueza del lenguaje natural Ejemplos de sinnimos del mismo concepto: Cosmos / Universo / Infinito / Firmamento / Cielo. Ejemplo del mismo concepto en formas diferentes, siglas o frases, y en idiomas diferentes: OTAN / NATO / Organitzaci del Tractat de lAtlntic Nord / Organizacin del Tratado del Atlntico Norte / North Atlantic Treaty Organization. Ejemplo de polisemia: Banco / Planta / Carta / Sierra / Estrella / Lengua / Capital.

Univocidad La univocidad consiste en representar un concepto con un nico trmino.

Los lenguajes documentales son entrpicos (Blanca Gil, 2004, pg. 20), es decir, tienden a la seleccin, a la restriccin del vocabulario. Es el proceso contrario del lenguaje natural, que tiende a la abundancia, a la reiteracin de conceptos, a la sinonimia en beneficio de una expresin ms rica.

Los lenguajes documentales reducen considerablemente el nmero de trminos del lenguaje natural, ya que slo tienen en consideracin los sustantivos y algunos sintagmas nominales, pero no adjetivos, preposiciones, conjunciones, adverbios, verbos, etc. Adems, entre todos los sustantivos, escogen uno que representar al resto cuando el significado sea el mismo. Y entre diversas formas aceptadas por el mismo trmino, slo una ser la aceptada, como es el caso de las siglas. Los lenguajes documentales son en esencia sencillos, su eficacia aumenta a medida que las reiteraciones y la redundancia son controladas en una nica forma que rene conceptos afines.

CC-BY-NC-ND PID_00143964

22

Anlisis de contenido: resumen e indizacin

3.1.2. Control de las formas

Los lenguajes documentales controlan las formas plural/singular, el uso de acrnimos y siglas y la construccin de las frases, y de esta manera establecen unos modelos.

Ejemplo Modelo Sustantivo Sustantivo + adjetivo Sustantivo + preposicin + sustantivo Pintura Pintura medieval Pintores de vitrales Ejemplo

Estas reglas gramaticales y sintcticas unifican las palabras seleccionadas y las frases.
Ejemplos en las listas de encabezamientos de materia Se acostumbra a usar el singular para expresar conceptos abstractos. As, por ejemplo, es solidaridad y no solidaridades. No se permite el uso de siglas; se prefiere la expresin entera del concepto y en la lengua del servicio de informacin y documentacin (SID ). Por ejemplo, Organizacin del Tratado del Atlntico Norte. Es preferible la expresin natural del concepto compuesto, y no su forma inversa. Es correcto Objetos de arte, y no Arte, objetos de.
3

Ved tambin Los mejores ejemplos se ven en los mdulos Listas de encabezamientos y listados de autoridades y Los tesauros.

(3)

SID es la sigla de servicio de informacin y documentacin.

3.1.3. Control del significado Los problemas ms importantes en cuanto al significado son la sinonimia y la polisemia. a)Sinonimia: decimos que las palabras son sinnimas cuando tienen el mismo significado. En un sistema documental, si no se controlan y se usan indiscriminadamente, comportan silencio documental. En el caso de alimento, nutriente, comida, provisin, el usuario puede estar buscando por alimento y no recuperar documentos porque se encuentran indizados con otras formas, como nutriente. La solucin de los lenguajes controlados es recoger todos los trminos sinnimos y seleccionar uno para representar a todo el conjunto de trminos que tienen el mismo significado, porque dos sinnimos son sustituibles el uno por el otro en cualquier contexto.

CC-BY-NC-ND PID_00143964

23
(4)

Anlisis de contenido: resumen e indizacin

Ejemplo Una lista de encabezamientos de materia como la del Consejo Superior de Investigaciones Cientficas (CSIC) recoge todos estos sinnimos: Hispanoamericanos. Iberoamericanos. Latinoamericanos. Sudamericanos.

A partir de ahora denotamos servicios de informacin y documentacin con la sigla SID.

Pero slo da como trmino aceptado Latinoamericanos. Si al SID4 llegara un documento titulado Los sudamericanos del siglo XX, el analista lo indizara como Latinoamericanos, ya que es el trmino aceptado.

b)Polisemia: decimos que dos palabras son polismicas cuando el mismo signo lingstico, palabra o sonido tiene ms de un significado. Habitualmente el contexto de la conversacin o lectura donde est insertada la palabra deshace los problemas de ambigedad, pero una palabra polismica introducida en un sistema documental, sin el contexto, puede dar lugar a ruido documental.
Ejemplo Un usuario puede estar buscando sobre columnas en arquitectura y recuperar datos sobre columnas tipogrficas de diarios. Los lenguajes documentales controlan la polisemia diferenciando cada significado con parntesis, usando el plural o el singular, adjetivando, etc.

Un tipo de polisemia es la homonimia. La diferencia entre ellas radica en la etimologa de la palabra. Si la etimologa de las dos palabras es la misma, hablamos de polisemia; si la etimologa es diferente, hablamos de homonimia.
Ejemplos de polisemia y homonimia Mismaetimologa=polisemia La polisemia se da cuando una palabra tiene un nico origen etimolgico y acaba teniendo significados diferentes sin cambiar su categora gramatical: por ejemplo, no pasa de sustantivo a verbo, como pasa en castellano entre el vino (bebida) y el vino (verbo venir). Es una palabra que con el tiempo ha ido adquiriendo diferentes significados, pero aun as, todos guardan entre s una relacin de significado; por ejemplo, en cataln y castellano fulla/hoja, que viene del latn folia, tiene diversos significados, como hoja de una planta, hoja de metal de una herramienta, pgina de un libro, cada una de las partes de una puerta doble o ventana, etc. Y en todos los significados lleva implcita la idea de una lmina. Si queremos saber si una palabra es gramaticalmente polismico, basta con consultar un diccionario etimolgico y ver si proviene de un mismo origen. Encontraremos la palabra, un nico origen y una lista de diferentes significados. En castellano podemos consultar el Diccionario de la Real Academia. Ms ejemplos de polisemia: Servicio, del latn servitium, que ha dado lugar a oficios religiosos, lavabos, misiones militares, cubiertos para comer y, en deportes, poner la pelota en juego. Y en todos ellos permanece la idea de ser til. Crucero, del latn crux, significando cruz, interseccin entre las dos naves de una iglesia, encargado de llevar la cruz a la cabeza de una procesin, viaje de placer por el mar, etc. En estos significados la idea es la de la forma de cruz, el cruzar como ir de un extremo a otro. Columna, del latn columna, que usamos para referirnos a los pilares arquitectnicos, las partes verticales de una pgina impresa de un diario, en fsica la forma que adoptan

CC-BY-NC-ND PID_00143964

24

Anlisis de contenido: resumen e indizacin

algunos fluidos, como columnas de humo, en el mbito militar, la formacin de barcos o soldados. Y la idea que permanece es la de verticalidad. Diferenteetimologa=homonimia La homonimia se da cuando dos conceptos han llegado a tener el mismo nombre, la misma forma, pero vienen de orgenes diferentes y, por lo tanto, tienen etimologas diferentes. Por ejemplo, metro puede ser el transporte urbano, una unidad de medida o el utensilio para medir. Pero el origen etimolgico entre el transporte y los otros dos significados es evidente: el primero es una abreviacin de la palabra inglesa metropolitan, y en el segundo caso viene del griego y significa medida. Otro ejemplo: la palabra castellana botn puede venir del latn bota y significar calzado hasta el tobillo, o puede venir del alemn bytin y significar premio de una conquista. En castellano y cataln este fenmeno es menos frecuente que en otras lenguas, como el ingls o el francs, en las que abundan las palabras homnimas que dan mucho juego en los chistes. Dentro de la homonimia podemos diferenciar las palabras que escribindose igual tienen significados diferentes, llamadas homgrafas, como las anteriores metro o botn, de las palabras que sonando igual tambin tienen significados diferentes, conocidas como palabras homfonas: vell/bell en cataln, o tubo/tuvo en castellano.

En resumidas cuentas, la sinonimia provoca silencio documental y la polisemia y variantes provocan ruido documental. El control terminolgico del vocabulario garantiza el criterio de univocidad que tienen que tener los lenguajes documentales controlados, segn el cual un concepto se representa con un trmino y un trmino slo puede tener un significado.

3.1.4. Relaciones de significado de los trminos

Por relacionesdesignificado entendemos la relacin de genrico, especfico o relacionado que puede tener un trmino con respecto a otro.

En el lenguaje natural estas relaciones son implcitas. Por ejemplo, cuando hablamos de manzanas todos entendemos que se trata de una fruta fresca y que las Fuji y las Golden son variedades concretas. Es decir, situamos el trmino manzana dentro de una jerarqua de trminos conceptualmente ms genricos (fruta) y ms especficos (Golden, Fuji). Incluso podemos relacionar por asociacin de ideas la manzana con otras frutas, como la naranja o el pltano. Pero en un lenguaje documental hay que definir estas relaciones, agrupando y relacionando los trminos afines. La estructura que relaciona los trminos es implcita en el lenguaje natural, pero en los lenguajes documentales hay que hacerla explcita. Eso se puede hacer de dos maneras:

CC-BY-NC-ND PID_00143964

25

Anlisis de contenido: resumen e indizacin

a) En una secuencia jerrquica, donde la propia posicin del concepto ya define sus trminos genricos y especficos. Tambin deshace problemas de significado.
Ejemplo de la pesca Ved el ejemplo de la pesca extrado de la Clasificacin Decimal Universal (CDU). El concepto pesca puede ser la actividad econmica o la pesca como deporte. Si nos fijamos en la cadena jerrquica vemos que cada uno cuelga de una clase diferente: 6 Ciencias aplicadas. Medicina. Tecnologa 63 Agricultura y ciencias relacionadas 639 Caza. Pesca 7 Bellas artes. Juegos. Deportes 79 Diversiones. Espectculos. Juegos 799 Caza deportiva. Pesca deportiva.

b) En una presentacin alfabtica donde cada trmino se acompaa de todos sus trminos relacionados, ya sean equivalentes, genricos, especficos o relacionados.
El tesauro del CSIC En el tesauro de Psicologa del CSIC, consultamos Sueos y encontramos: Sueos TG Dinmica de la personalidad TE Contenido del sueo TE Pesadilla TR TR TR TR TR Dj vu Interpretacin de los sueos Sueo fisiolgico Sueo REM Trastornos de conciencia

Las siglas nos informan del tipo de relacin que establecen: TG significa trmino genrico (por encima de Sueos el tesauro tiene Dinmica de la personalidad), TE son los trminos especficos (son trminos especficos de Sueos: Contenido del sueo, Pesadilla) y los TR son los trminos relacionados (se relacionan con Sueo, Dja vu, la Interpretacin de los sueos, el Sueo REM, etc.).

Finalmente, las principales ventajas e inconvenientes del lenguaje natural y el documental controlado son:
Ventajas e inconvenientes de los lenguajes documentales Ventajas Lenguajenatural Amigable Actualizado Econmico Inconvenientes Dificulta la bsqueda Poco preciso

Lenguajedocumentalcontrolado

Unvoco Caro Facilita la bsqueda Poco actualizado

A modo de conclusin Indizar es la accin de describir o identificar un documento en relacin con su contenido.

CC-BY-NC-ND PID_00143964

26

Anlisis de contenido: resumen e indizacin

La indizacin la puede realizar una persona (de forma centralizada o de forma coordinada) o un programa. Por lenguaje natural entendemos el lenguaje que usamos de forma cotidiana (cataln, castellano, vasco), y por lenguaje documental entendemos el listado o vocabulario de trminos que usamos para indizar y que puede estar en formato libre o controlado. La principal diferencia entre el lenguaje natural y el documental controlado es el control terminolgico: El control del nmero de trminos del vocabulario: los lenguajes documentales son entrpicos, tienden a la seleccin, a la restriccin del vocabulario. El control de las formas: los lenguajes controlados, controlan las formas plural/singular, el uso de acrnimos y siglas y la construccin de las frases. El control del significado: los lenguajes controlados controlan la sinonimia y la polisemia. Decimos que las palabras son sinnimas cuando tienen el mismo significado. Decimos que dos palabras son polismicas cuando el mismo signo lingstico tiene ms de un significado. La sinonimia provoca silencio documental y la polisemia y variantes provocan ruido documental. El control terminolgico del vocabulario garantiza el criterio de univocidad que tienen que tener los lenguajes documentales controlados, segn el cual un concepto se representa con un trmino y un trmino slo puede tener un significado. Las relaciones de significado entre los trminos son las relaciones de genrico, especfico o relacionado que puede tener un trmino con respecto a otro. En el lenguaje natural estas relaciones son implcitas pero en los lenguajes documentales hay que hacerlas explcitas a travs de una secuencia jerrquica o una presentacin alfabtica.

3.2. Cmo se indiza? Ahora que ya hemos visto la necesidad de contar con lenguajes documentales para paliar la ambigedad del lenguaje natural, estamos en condiciones de preguntarnos por el proceso de indizacin que lleva a cabo un analista. A continuacin presentamos las fases que proponen diversos autores antes de llegar a la que nos servir como marco de referencia en este subapartado: Dos fases: anlisis del texto y traduccin (Chaumier, 1988; Fidel, 1994). Tres fases: anlisis del texto, identificacin de conceptos y traduccin (Amat, 1989; Norma UNE 50-121-91). Cuatro fases: anlisis del texto, identificacin de conceptos, traduccin y establecer enlaces sintcticos entre descriptores (Slype, 1991). Cinco fases: registro de datos, anlisis del texto, identificacin de conceptos, traduccin y examen de la indizacin. En este mdulo seguiremos la normaUNE50-121-91 y sus tres etapas: 1) Examinar el documento para identificar su contenido. 2) Seleccionar los conceptos principales del contenido. 3) Traducir a un lenguaje documental.
Norma UNE 50-121-91 UNE50-121-91. Mtodos para el anlisis de documentos, determinacin de su contenido y seleccin de trminos de indizacin.

CC-BY-NC-ND PID_00143964

27

Anlisis de contenido: resumen e indizacin

Ejemplo Examinamos un libro titulado Mitos de antiguas civilizaciones. Leemos el ttulo, el resumen, el sumario, etc. En una segunda etapa seleccionamos como conceptos principales: Mitos, Grecia, Roma, India, Japn, Indios norteamericanos. En la tercera etapa indizamos. Si indizamos con un lenguaje libre podemos escribir el trmino como deseamos o como salga en el texto. Por ejemplo: Mitologa india americana. En cambio, si indizamos con un lenguaje controlado tendremos que traducir estos conceptos a una forma controlada. Pongamos por ejemplo que pensbamos indizar Mitologa india americana. Veamos cmo quedara en tres lenguajes documentales diferentes: CDU LEMAC LEM del CSIC 259.2 Mitologia amerndia Indios de Amrica - Religin y mitologa

A continuacin se detalla cada parte del proceso. 1)Examendeldocumentoeidentificacindelosconceptos El analista tiene que examinar con precisin el documento. La lectura completa es, a menudo, impracticable, pero s que tiene que prestar atencin al ttulo, resumen, sumario, introduccin, ilustraciones y palabras o frases destacadas en una tipografa diferente. No se recomienda la indizacin slo a partir del ttulo, ya que hay ttulos que llevan a error, y tampoco confiar en que el resumen sea un sustituto del texto, ya que no todos los resmenes estn bien elaborados.
Ejemplo de ttulos y resmenes que no aportan datos significativos para la indizacin CHESNEAUX, Jean. Hacemos tabla rasa del pasado? Mxico: Siglo XXI Editores 1981. Su materia es Historia, historiadores, historiografa. En el catlogo de la Biblioteca Nacional de Espaa (BNE5) lo encontramos indizado como Historia. MALLOL, Tomas. Si la memria no em falla. Girona: CCG Ediciones 2005. Su materia es Memorias, cine, coleccionismo. En la Biblioteca de Catalunya (BC6) lo encontramos indizado como Cine amateur. Si recordamos el resumen del libro de Carl Sagan, Cosmos, nos daremos cuenta de que no era suficiente para indizar el contenido de la obra. Por estos motivos se recomienda una lectura gil del resto de partes significativas del documento.
(5)

BNE es la sigla de Biblioteca Nacional de Espaa.


(6)

BC es la sigla de Biblioteca de Catalunya.

Ved tambin Recordad que el ejemplo del resumen del libro de Carl Sagan, Cosmos, sala en el apartado 2 de este mdulo.

2)Seleccindelostrminosdeindizacin Tal como dice la norma UNE, el analista tiene que identificar las nociones que son elementos esenciales de la descripcin del contenido. Si la indizacin es compartida, la institucin que la patrocina tiene que establecer claramente los factores que considera importantes.

CC-BY-NC-ND PID_00143964

28

Anlisis de contenido: resumen e indizacin

Para seleccionar los conceptos del documento, el analista tiene que ser consciente del nmero de conceptos (criterio de exhaustividad) y de la exactitud de los mismos (criterio de especificidad). a)Exhaustividad A medida que el analista va leyendo, tiene que ir tomando nota de los conceptos interesantes del documento. Una buena praxis es la que identifica los conceptos relevantes sobre: El tema. Los nombres personales que puedan ser interesantes de indizar. Los nombres geogrficos. Las fechas cronolgicas. La forma en que se presenta el documento: artculo, estadstica, formulario o divulgacin, cientfico, etc. La exhaustividad es un criterio relacionado con el nmero de conceptos que se tienen en cuenta para caracterizar el contenido entero de un documento. El principal criterio de seleccin es el valor potencial del concepto para los usuarios de su SID. Podemos distinguir entre una exhaustividad baja, media y alta en funcin del nmero de descriptores. Es en este entorno donde la norma UNE 50-121-91 da sus recomendaciones en cuanto a la exhaustividad. Los criterios que el indizador tiene que tener en cuenta son: El tipo de SID y perfil de usuario. No es lo mismo indizar para una base de datos genrica que para una especfica. El tipo de documento. No se indiza con el mismo nmero de descriptores una monografa que un artculo de revista, una tesis, etc. Tal como recomienda la norma UNE, no es conveniente ser estrictos con el nmero de trminos, no se tiene que limitar el nmero de forma arbitraria, tipo para una monografa dos trminos de indizacin, ya que puede conducir a una prdida de objetividad y a una deformacin de la informacin. Es preferible sugerir un baremo, entre tantos y tantos trminos para cada tipo documental y SID y ser flexibles, ya que los criterios que tienen que regir son el propio contenido del documento y su posterior recuperacin.
Ejemplo Cuervo Herrero, C.; Fernndez Gonzlez, A.: Objetos celestes errneos. Tribuna de Astronoma y Universo. Revista de Astronoma, Astrofsica y Ciencias del espacio. 2000. II poca, n 16 octubre. p. 36-40. A partir del siguiente resumen informativo, elaboraremos tres tipos de indizaciones sugiriendo un baremo (para esta asignatura y sus prcticas) y una finalidad:

CC-BY-NC-ND PID_00143964

29

Anlisis de contenido: resumen e indizacin

Anlisis y descripcin de los errores ms frecuentes que cometen los profesionales y aficionados a la fotografa astronmica mientras intentan descubrir nuevos objetos celestes todava no identificados. Estos errores son debidos a cuatro causas: errores en el proceso de positivado de la copia como consecuencia de la presencia de partculas de polvo en los negativos o en las lentes del equipo de laboratorio; errores en el negativo debidos a defectos de lavado, deficiencias en la emulsin, rayas y rasguos o por el uso de pelculas de color destinadas a ser forzadas, y errores en las lentes de los objetivos, debidos a efectos de distorsin y a alteraciones en la refraccin. Finalmente se describen otras causas: reflejos de la luz del sol sobre las antenas de satlites artificiales Iridum, retoques digitales o de fotocopiadoras y duplicadoras, uso de objetivos sencillos y poco potentes para captar imgenes de cielo profundo y, en ltimo trmino, oscilaciones del condensador de luz del microscopio. Todos estos errores pueden dar lugar a imgenes falseadas: objetos inditos, dimetros errneos, efectos de redondeo, alineaciones planetarias errneas, etc. El artculo facilita imgenes de estos errores fotogrficos. Los autores concluyen que hace falta ser cauteloso y hacer las oportunas comprobaciones antes de dar a conocer el descubrimiento de un nuevo objeto celeste a las sociedades astronmicas. Ejemplo de los tres grados de exhaustividad Exhaustividad baja Baremo1-3 Ejemplo de uso: catlogo de una biblioteca pblica Errores fotogrficos Fotografa astronmica Exhaustividad media Baremo4-6 Exhaustividad alta Baremo7...

Ejemplo de uso: bases de datos de una bi- Ejemplo de uso: bases de datos de una biblioteca especializada en astronoma blioteca especializada en astrofotografa Astrofotografa Errores fotogrficos Descubrimientos Identificacin de objetos celestes Objetos errneos Alineaciones planetarias Defectos de lavado Deficiencias de la emulsin Dimetros errneos Efectos de redondeo Errores en el negativo Errores en el positivado Errores en las lentes Objetos inditos Objetivos Oscilaciones del microscopio Partculas de polvo Rayadas Reflejos del sol Retoques digitales

b)Especificidad La especificidad est relacionada con la exactitud en que un concepto particular que aparece en un documento est representado por un trmino de indizacin.

CC-BY-NC-ND PID_00143964

30

Anlisis de contenido: resumen e indizacin

Ejemplo Si en el texto que estamos indizando aparece el concepto Diplomacia, y este trmino aparece en el lenguaje documental controlado, tenemos que indizar Diplomacia. Si indizamos Relaciones internacionales o Embajadores no estaremos siendo especficos, como podis ver en la tabla siguiente: Ejemplo de especificidad Materia Correcto,yporlo tanto: Especfico Incorrectopor:

Genrico

Demasiado especfico Embajadores

Diplomacia

Diplomacia

Relaciones internacionales

Los conceptos se tienen que identificar de la manera ms especfica posible, pero en determinados casos se pueden preferir nociones ms genricas: Cuando el indizador considere que un exceso de especificidad puede ser negativa en la recuperacin; por ejemplo, puede decidir que un modelo muy especfico de una mquina se indice con el nombre ms genrico de este tipo de mquinas. Cuando la idea no est plenamente desarrollada en el documento, o slo se haga alusin a ella. Cuando se est a la espera de validar el trmino ms especfico.

3)Traduccinaunlenguajedocumentalcontrolado Para traducir el concepto inicial escrito en lenguaje natural a un lenguaje documental, el indizador tiene que consultar las listas del lenguaje buscando la forma correcta de introducir el concepto.
Ejemplos Conceptotalcomosaleeneltexto Tragicomdia Eoltic Traduccin Lenguajedocumentalutilizado

791.221.28

Classificacin Decimal Universal (CDU)

Edat de la pe- Lista de encabezamientos de materia en dra cataln tero Absolutismo Lista de encabezamientos del CSIC Tesauro de Historia contempornea del CSIC

Matriz Monarqua absoluta

Cuando el analista procede a traducir el concepto del texto se puede encontrar en las siguientes situaciones:

CC-BY-NC-ND PID_00143964

31

Anlisis de contenido: resumen e indizacin

a) Encuentra el concepto, solo o repartido por las tablas: Consulta el lenguaje y encuentra el concepto a la primera. Entonces indiza con este trmino de indizacin. Por ejemplo, buscaba Eoltic y encuentra que tiene que indizar Absolutismo. Consulta el lenguaje y encuentra el concepto o las partes del concepto repartidos por el lenguaje. Entonces tiene que conocer las reglas de combinacin de las partes integrantes del trmino de indizacin. Ejemplos: Una notacin con CDU como 391.91(961.3) Tatuajes de la isla de Samoa est formada por 2 elementos, tatuajes + Samoa. Estos elementos van colocados en un orden determinado por las reglas de precoordinacin de la CDU (primero la clase principal + auxiliar). Un encabezamiento construido con la LEM del CSIC como Agua-Aspectos econmicos est formado por dos partes: Agua + Aspectos econmicos, que es un encabezamiento y un subencabezamiento respectivamente y van en este orden.

Con los lenguajes tesauros y listado de autoridades no hay una sintaxis de combinacin. b) No encuentra el concepto: Consulta el lenguaje y no encuentra el concepto. Entonces el indizador tiene que conocer las obras de referencia que su SID considera como autoridades reconocidas en la materia. Estas obras de referencia son diccionarios, enciclopedias, otros lenguajes documentales (especialmente los tesauros construidos de acuerdo con las normas ISO y UNE 50-106 y UNE 50-125), atlas, etc. Hay lenguajes, como tesauros, donde el indizador tiene que proponer el trmino nuevo como descriptor candidato y esperar a que la direccin del tesauro lo valide como descriptor. Mientras tanto indiza con un trmino ms genrico.

3.3. Calidad y coherencia de la indizacin La calidad y la coherencia de la indizacin dependen de factores como la competencia del indizador y la calidad de los instrumentos o lenguajes documentales. La coherencia es un factor importante en el comportamiento de un sistema de indizacin, especialmente cuando forma parte de una red de centros y la informacin se tiene que intercambiar entre ellos. La coherencia se calcula de la siguiente manera: dos analistas indizan el mismo documento, con un lenguaje de descriptores como un tesauro. Se cuentan separadamente el nmero de descriptores idnticos entre los dos analistas sobre el total de descriptores.
Ejemplo Como ejemplifica van Slype: El documentalista 1 ha asignado los descriptores A, B, C, D, E, F. El documentalista 2 ha asignado los descriptores A, C, D, F, G, H. Hay 4 descriptores idnticos A, C, D, F y un total de 8 descriptores diferentes. Tasa de coherencia = 4/8 = 50% (van Slype, 1991, p. 123). Lectures complementaries Podis ampliar la informacin sobre la coherencia en la indizacin leyendo las obras siguientes: G.vanSlype (1991). Los lenguajes de indizacin: concepcin, construccin y utilizacin en los sistemas documentales. Madrid: Pirmide. Fundacin Germn Snchez Ruiprez. Biblioteca del Libro. I.GilLeiva (2001).

La consistencia en la indizacin suele oscilar entre el 20% de mnima y el 60% de mxima (Isidoro Gil, 2001). A modo de conclusin La norma UNE 50-121-91 Mtodos para el anlisis de documentos, determinacin de su contenido y seleccin de trminos de indizacin establece tres fases:

CC-BY-NC-ND PID_00143964

32

Anlisis de contenido: resumen e indizacin

Examinar el documento para identificar su contenido: el analista tiene que examinar con precisin el documento. La lectura completa es a menudo impracticable, pero s que tiene que prestar atencin al ttulo, resumen, sumario, introduccin, ilustraciones y palabras o frases destacadas en una tipografa diferente. Seleccionar los conceptos principales de los contenidos: el analista tiene que identificar las nociones que son elementos esenciales de la descripcin del contenido, tiene que ser consciente del nmero de conceptos (criterio de exhaustividad) y la exactitud de los mismos (criterio de especificidad). Traducir a un lenguaje documental: para traducir el concepto inicial escrito en lenguaje natural a un lenguaje documental hay que consultar el listado del lenguaje buscando la forma aceptada.

CC-BY-NC-ND PID_00143964

33

Anlisis de contenido: resumen e indizacin

4. Los lenguajes documentales

Un lenguajedocumental es un vocabulario de trminos en lenguaje natural o un sistema artificial de signos normalizados que facilitan la representacin del contenido de los documentos.

Sus funciones principales son indizar el contenido de los documentos y permitir la recuperacin a partir del campo materia. Hay seis lenguajes documentales: Los sistemas de clasificacin. Los listados de encabezamientos de materia. Los listados de autoridades. Los tesauros. Los listados de descriptores libres. Los listados de palabras clave.

En teora todos los documentos se pueden indizar con cualquiera de estos seis lenguajes, pero en la prctica la tipologa del SID (si es archivo, biblioteca o centro de documentacin) y el tipo de usuario (general o especializado) condicionan que un SID indice y recupere con uno u otro lenguaje. En lneas generales: las bibliotecas indizan con sistemas de clasificacin + listados de encabezamientos de materia + listados de autoridades; los centros de documentacin indizan con tesauros + listados de palabras clave; los archivos, con sistemas de clasificacin y/o tesauros.

Como podis observar, los SID pueden trabajar con un solo lenguaje o con una combinacin de lenguajes. 4.1. Los trminos de indizacin

Llamamos trminodeindizacin a la representacin de un concepto en lenguaje natural o un cdigo de clasificacin.

CC-BY-NC-ND PID_00143964

34

Anlisis de contenido: resumen e indizacin

Los trminos de indizacin pueden estar formados por una palabra o ms de una. La parte ms pequea con significado de un trmino de indizacin se conoce como unitrmino.
La norma UNE 50-113-92/1 define unitrmino como: El elemento significativo ms pequeo de un lenguaje documental utilizado para representar un concepto especfico en un sistema de indizacin coordinado; no se debe confundir con palabra clave o descriptor. UNE 50-113-92/1.

Ejemplo Ejemplos de trminos de indizacin: De una palabra: Bosques. De ms de una palabra: Fuente de informacin.

Ejemplo El descriptor Fuente de informacin est formado por dos unitrminos: Fuente e Informacin. La preposicin de no se indiza.

Cada lenguaje documental da un nombre diferente a su trmino de indizacin. Esta es la terminologa que usaremos en esta asignatura:
Trminos de indizacin Lenguajedocumental Sistemas de clasificacin Listados de encabezamientos de materia Listados de autoridades Tesauros Listados de descriptores libres Listados de palabras clave Sutrminodeindizacinseconocecomo Notacin o smbolo de clase Encabezamiento Autoridad, identificador o descriptor Descriptor Descriptor Palabra clave

La norma UNE 50-113-92/1 define estos conceptos de la siguiente manera: Notacin/Smbolo de clase: es la representacin de una clase mediante la notacin de un sistema de clasificacin. Identificador: nombre utilizado como descriptor. Descriptor: trminos de indizacin asignados por el analista fruto de alguna de las operaciones intelectuales que implica el proceso de indizacin. Palabra clave: una palabra o grupo de palabras seleccionadas de manera automtica del ttulo, resumen o texto de un documento del que representan su contenido y permiten la recuperacin.

Lectura recomendada Para cuestiones de terminologa recomendamos la consulta de la norma UNE 50-11392/1. Documentacin e informacin. Vocabulario. Parte 1. Conceptos fundamentales. En: Documentacin: Normas fundamentales. Madrid: AENOR, 1994.

Norma UNE 50-113-92/1. Documentacin e informacin. Vocabulario. Parte 1. Conceptos fundamentales. A modo de conclusin Un lenguaje documental es un vocabulario de trminos en lenguaje natural o un sistema artificial de signos normalizados que facilitan la representacin del contenido de los documentos. Sus funciones principales son indizar el contenido de los documentos y permitir la recuperacin a partir del campo materia. Hay seis lenguajes documentales: Los sistemas de clasificacin. Los listados de encabezamientos de materia. Los listados de autoridades. Los tesauros. Los listados de descriptores libres.

CC-BY-NC-ND PID_00143964

35

Anlisis de contenido: resumen e indizacin

Los listados de palabras clave.

Llamamos trmino de indizacin a la representacin de un concepto en lenguaje natural o un cdigo de clasificacin. Los trminos de indizacin pueden estar formados por una palabra o ms de una.

4.2. Evolucin histrica de los lenguajes documentales Los primeros analistas mesopotmicos, egipcios o romanos lean el documento, copiaban las primeras lneas del texto o seleccionaban los conceptos que mejor representaban el contenido y los escriban en la tablilla, pinake, cartela o ficha correspondiente. Poco a poco estas materias fueron conformando un listado de temas. En la Edad Media sabemos de la existencia de catlogos de algunas grandes bibliotecas, como la de Lorsh en Alemania, que tena 600 ttulos clasificados en 63 materias. Edadcontempornea Ahora bien, para muchos autores la historia de los lenguajes documentales empieza en las bibliotecas del siglo XIX con los sistemas de clasificacin, ya que fueron el primer intento serio de controlar las materias de los documentos. Los sistemas de clasificacin empezaron a ser considerados propiamente lenguajes en el siglo XIX con las clasificacionesbibliogrficas de Brunet, Harris, Dewey, Cutter o la de la Library of Congress. Eran cuadros de clasificacin jerrquicos, de cariz enciclopdico y sus clases se combinaban de una forma definida con anterioridad, es decir, precoordinada. Los conceptos se representaban con cdigos, no palabras. Por ejemplo, el concepto Fotografa era el cdigo 77 (ejemplo extrado de la CDU). El siguiente paso en la evolucin de los lenguajes lo formul Charles Ammi Cutter en 1876, creando un listado de materias escritas en lenguaje natural. Ya no se usaba un cdigo, sino que se expresaba el concepto (como Fotografa) con todas las letras. Estos listados, llamados listas de encabezamientos de materia, eran alfabticos y se basaban en los principios de especificidad (hay que indizar con el trmino especfico, no el genrico) y el de entrada directa (hay que respetar el orden natural de las expresiones y no optar por formas inversas del tipo Electrnico, comercio). Las colecciones bibliotecarias estaban cubiertas con estos dos lenguajes documentales: sistemas de clasificacin + listados de encabezamientos de materia. Los listados de autoridades controlaban el resto de autoridades. Adems, se combinaban en los registros bibliogrficos con el fin de minimizar el inconveniente de la codificacin, ya que no era de fcil comprensin para los usuarios. La indizacin era sinttica, sumaria, dos o tres entradas por el campo materia, ya que tenemos que ser conscientes de que nacieron en sistemas no automatizados.
Charles Ammi Cutter Library of Congress

CC-BY-NC-ND PID_00143964

36

Anlisis de contenido: resumen e indizacin

A medida que la produccin cientfica iba generando cada vez ms volumen de informacin, surgi la necesidad de indizar de una forma ms analtica, con ms conceptos. Se crean centrosdedocumentacin con una vocacin ms especializada que las bibliotecas. El uso de tecnologa informtica facilitaba el acceso a un documento a travs de diversos puntos de acceso. Nacen los lenguajes especializados por excelencia, los tesauros. Se aplican a los centros de documentacin y a algunos archivos histricos y administrativos. Los tesauros recogen todo lo mejor de sus antecesores: la estructura arborescente de los sistemas de clasificacin, que aplican a su presentacin jerrquica, y la estructura combinatoria de las listas de encabezamientos de materia, que aplican a su presentacin alfabtica. Adems incluyen nuevas estructuras de presentacin, como la grfica y la de ndices permutados. Los tesauros se automatizan y desde mediados de los aos setenta el crecimiento de la industria de las bases de datos posibilita la consulta en lnea de muchas publicaciones seriadas. Nace el ltimo lenguaje documental, el listadodepalabrasclaveoindizacinautomtica. Internet La ltima gran etapa la marca Internet. La globalizacin de la red a partir de la dcada de los aos 1990 impulsa el acceso a la informacin, ya no hace falta que los SID dispongan en propiedad del documento, ya que la red permite acceder a la informacin alojada en cualquier otro centro de informacin. La cooperacin impulsa a todos los lenguajes documentales a automatizarse y formar parte de proyectos colectivos (catlogos colectivos, consorcios, redes). En el mismo sentido se buscan pasarelas entre los diferentes lenguajes para solucionar problemas idiomticos entre pases. Surge la necesidad de indizar la abundante produccin de recursos electrnicos, como por ejemplo con el uso de metadatos para definir e intercambiar datos entre sistemas informticos (etiquetas del tipo <subject>,<keywords>) y explotar la indizacin automtica en los potentes robots de los buscadores. Tambin los usuarios pueden indizar los recursos gracias a iniciativas de indizacin social o tagging. Los expertos opinan que en la actualidad el problema principal no es tanto indizar o recuperar, sino presentar los resultados en algn orden significativo, lo que implica el uso de algoritmos que valoren los resultados. A continuacin reproducimos algunas de las fechas ms significativas, extradas de la cronologa de Isidoro Gil (2008) sobre las listas de encabezamiento de materia, los tesauros y la indizacin automtica.
Lectura complementaria Podis encontrar esta cronologa en la obra siguiente: I.GilLeiva(2008). Manual de indizacin. Teora y prctica. Gijn: Ediciones Trea (Biblioteconoma y Administracin cultural, 193), pg. 110-114.

CC-BY-NC-ND PID_00143964

37

Anlisis de contenido: resumen e indizacin

Cronologa de la evolucin de los lenguajes documentales Fechas 30.000 a.C. Etiquetasdebarro Concepto Breve explicacin Losantiguosescribasmesopotmicosguardabanlastablillasdebarro(documentos)encestasdemimbre.Por fuera,lacestallevabaotratablilladebarroconelcontenido. Los egipcios introducen el papiro como soporte documental. El papiro se enrollaba en torno a una varita de madera o metal. Para no desplegar completamente el rollo, ponan las primeras frases del documento en una etiqueta o cartela en un extremo.

Egipto

Las cartelas de Egipto

1876 1895 1909

CharlesA.CutterRulesforadictionarycatalog List of subject headings for use in dictionary catalogs LibraryofCongressSubjectHeadings Publicada por la American Library Association (ALA) para bibliotecas medias y pequeas, con fondos no especializados. NaceapartirdelalistadeALAylasreglasdeCutter.A partirdeaquestalistaseconvierteenelreferentedetodaslaslistasdeencabezamientosdemateriadelmundo. Minnie Earl Sears es la autora de esta lista conocida como SEARS. Es una versin reducida de la LCSH para bibliotecas pequeas. JuanManriqueLarapublicalaprimeralistadeencabezamientosencastellanoenMxico.Eraunatraduccinde laLibraryofCongressSubjectHeadings(LCSH),elALAy laSEARS. Primera lista de encabezamientos en francs (Universidad de Laval Canad). CalvinMooersacuaeltrmino. Mortimer Taube acua el trmino. HansMeterLuhnempiezaatrabajarenindizacinautomticaaplicandoelmtododelafrecuencia. En la dcada de los 60 se inician los primeros proyectos para hacer compatibles los diferentes lenguajes documentales mediante tablas de equivalencia. GeraldStatondesarrollaelsistemaSMARTdeanlisisautomticodetextos. Directrices para elaborar tesauros confeccionadas por el US Federal Council for Science and Technology de Washington ListacompiladaporCarmenRovirayJorgeAguayoenespaolparalaUninPanamericana. 1 edicin de la norma ISO para la confeccin de tesauros monolinges. PrimeralistadeencabezamientosdemateriadelaBibliotecaNacionaldeFrancia.SebasaronenlaRVMyla LCSH. Lista de encabezamientos bilinge en ingls y castellano. Es equivalente a la LCSH. En el ao 2007 se edit la 15 ed. NormaISOquenoseratraducidaanormaUNEhasta 1991conelnmeroUNE50-121-91.

1923

List of subject headings for small libraries

1934

Guaparalosencabezamientosdemateria

1946 1951 1952 1957 1960

Rpertoire de vedettes-matire RVM Descriptor Unitrmino Indizacinautomtica Compatibilidad

1961 1967 1967 1974

SistemaSMART Guidelines for the development of information retrieval thesauri Listadeencabezamientosdemateriaparabibliotecas Norma ISO 2788:1974 Guidelines for the establishment and development of monolingual thesauri Rpertoiredautorit-matireencyclopdiqueetalphabtiqueunifiRAMEAU Bilindex NormaISO5963:1985Methodsforexaminatingdocumentos

1980

1983 1985

CC-BY-NC-ND PID_00143964

38

Anlisis de contenido: resumen e indizacin

Fechas 1985

Concepto Norma ISO 5964:1985 Guidelines for the establishment and development of multilingual thesauri Abandonodelossmbolostradicionalesdelaslistasde encabezamientosporlospropiosdelosthesaurus Unified medical language system

Breve explicacin 1 edicin de la norma ISO para la confeccin de tesauros multilinges. LaLCSH,ensu10edicin,abandonalossmbolosdex, see,xx,v,aporlospropiosdelostesaurosUse,BT,NT, RT.Lasdemslistasmundialestambinlosadoptan. El sistema unificado de lenguajes en medicina es un proyecto para integrar los diferentes vocabularios de ciencias de la salud. Es un proyecto de la Biblioteca Nacional de Medicina de EE.UU. (actualmente coordina el MESH, Medical Subject Headings). Internethadifundidoypopularizadoconceptos,tcnicas yprcticaspropiasdedocumentalistas. Uso de metadatos para definir e intercambiar datos entre sistemas informticos. Los lenguajes de marcaje tienen etiquetas para el resultado de la indizacin del tipo <subject>, <keywords>. IniciativadelaConferenceofEuropeanNationalLibrariesCENLparahacercompatiblestreslistasdeencabezamientosdemateria,laalemanaSWD,laRAMEAUfrancesaylaLCSHusadaenGranBretaaySuiza.

1986

1986

1995 1995

UniversalizacindeInternet Metadatos

1997

ProyectoMACS

A modo de conclusin Para muchos autores la historia de los lenguajes documentales empieza en las bibliotecas del siglo XIX con los sistemas de clasificacin, ya que fueron el primer intento serio de controlar las materias de los documentos. El siguiente paso en la evolucin de los lenguajes lo formul Charles Ammi Cutter en 1876, creando una lista de materias escritas en lenguaje natural. A medida que la produccin cientfica iba generando cada vez ms volumen de informacin, surgi la necesidad de indizar de una forma ms analtica, con ms conceptos. Se crean centros de documentacin con una vocacin ms especializada que las bibliotecas. Nacen los lenguajes especializados por excelencia, los tesauros. Desde mediados de los aos setenta el crecimiento de la industria de las bases de datos posibilita la consulta en lnea de muchas publicaciones seriadas. Nace el ltimo lenguaje documental, el listado de palabras clave o indizacin automtica. La ltima gran etapa la marca Internet. La globalizacin de la red a partir de los aos 1990 impulsa el acceso a la informacin. La cooperacin impulsa a todos los lenguajes documentales a automatizarse y formar parte de proyectos colectivos (catlogos colectivos, consorcios, redes). En el mismo sentido se buscan pasarelas entre los diferentes lenguajes para solucionar problemas idiomticos entre pases. Surge la necesidad de indizar la abundante produccin de recursos electrnicos, como por ejemplo el uso de metadatos para definir e intercambiar datos entre sistemas informticos (etiquetas del tipo <subject>, <keywords>) y explotar la indizacin automtica en los potentes robots de los buscadores. Tambin los usuarios pueden indizar los recursos gracias a iniciativas de indizacin social o tagging.

CC-BY-NC-ND PID_00143964

39

Anlisis de contenido: resumen e indizacin

4.3. Cundo son necesarios los lenguajes documentales?

Los lenguajes documentales son necesarios en dos momentos de la cadena documental: La fase de anlisis y tratamiento > Anlisis documental > Anlisis de contenido > Indizacin. La fase de salida > Instrumentos de recuperacin.

Tanto en la fase de indizacin como en la fase recuperacin, el proceso de anlisis-seleccin-traduccin de conceptos es el mismo. En el momento de la indizacin el analista lee el documento, extrae conceptos y si hace falta los traduce a un lenguaje controlado para almacenarlos en el sistema. En el momento de la recuperacin, el analista tiene que trabajar con la consulta del usuario, extraer los conceptos y traducirlos. Si se trata de un lenguaje postcoordinado, adems tendr que saber cmo convertir los descriptores a una ecuacin de bsqueda.
Ejemplo de la fase de recuperacin Usuario: Necesito informacin sobre las instalaciones deportivas de hockey hierba que se construyeron en la ciudad de Terrassa con motivo de la celebracin de los Juegos Olmpicos de 1992. Analista: selecciona los conceptos ms relevantes para la bsqueda: instalaciones deportivas, hockey hierba, Terrassa, Juegos Olmpicos. El prximo paso es traducir los conceptos a un lenguaje documental, en el ejemplo, el Tesaurus dHistria local de Catalunya. Como se puede apreciar entre la expresin en lenguaje natural del usuario y los descriptores aceptados del tesauro hay ciertas diferencias: Traducidoaltesauro: Equipamientos deportivos (Equipaments esportius) Hockey (Hoquei) Terrassa Juegos Olmpicos 1992 (Jocs Olmpics 1992)

Enlaexpresindelusuario: Instalaciones deportivas Hockey hierba Terrassa Olimpiadas

Traducido a una ecuacin de bsqueda: Equipamientos deportivos AND Hockey AND Terrassa AND Juegos Olmpicos 1992.

CC-BY-NC-ND PID_00143964

40

Anlisis de contenido: resumen e indizacin

G. van Slype (1991, pg. 161) considera que los lenguajes documentales pueden intervenir, como mximo, hasta en seis momentos diferentes en la recuperacin: 1) Seleccin de los sistemas documentales que se interrogarn: qu catlogos, qu bases de datos, etc. 2) Seleccin de los conceptos expresados por el usuario en su enunciado. 3) Traduccin a un lenguaje documental controlado. 4) Formulacin de la ecuacin de bsqueda. 5) Extensin asistida por ordenador. 6) Evaluacin final de la pertinencia de los resultados obtenidos. Hay una tercera funcin dentro de la cadena documental, pero slo afecta a un lenguaje documental concreto, que son los sistemas de clasificacin: La fase de Anlisis y Tratamiento > Procesamiento tcnico > Ordenacin.

Lectura complementaria Podis ampliar la informacin sobre los lenguajes documentales en la obra siguiente: G.vanSlype(1991). Los lenguajes de indizacin: concepcin, construccin y utilizacin en los sistemas documentales. Madrid: Pirmide. Fundacin Germn Snchez Ruiprez. Biblioteca del Libro.

Los cdigos numricos de los sistemas de clasificacin jerrquicos, como la CDU, son la herramienta para ordenar los documentos en las estanteras de acuerdo a un orden secuencial de las materias (ordenacin altamente significativa). En teora todo documento se podra indizar con cualquiera de los seis lenguajes. En la prctica cada tipologa de SID tiende a utilizar un lenguaje o combinacin de lenguajes concreta.

CC-BY-NC-ND PID_00143964

41

Anlisis de contenido: resumen e indizacin

Ejemplo: un documento y seis indizacions Veamos cmo sera el resultado de indizar el mismo documento con cada uno de los seis lenguajes documentales: El mercado del tabaco en Espaa durante el siglo XVIII: fiscalidad y consumo / Santiago de Luxn Melndez, Sergio Solbes Ferri, Juan Jos Laforet (ed.). Las Palmas de Gran Canaria: Universidad de Las Palmas de Gran Canaria, Servicio de Publicaciones, 2000. Resumen: En este libro se ha querido poner el nfasis en un tema hasta ahora poco tratado como es el consumo de tabaco en Espaa durante el siglo XVIII. No obstante tambin se atienden otros aspectos como los fiscales. La obra se ha estructurado en tres partes: la primera se ocupa de la fiscalidad, la segunda atiende el rea del monopolio y la tercera analiza los mercados regionales de Canarias y Navarra. El libro se cierra con un apartado dedicado al cultivo del tabaco. Ejemplo de un nico documento y seis indizaciones Sistemadeclasificacin:CDU 336.226(460)17:663.97 Listasdeencabezamientosdemateria:LEMAC Listadodeautoridades: GranEnciclopdiaCatalana

Industria tabaquera- Espaa- Canarias Historia - s. XVIII Espaa Tabaco - impuestos - Espaa Navarra - Historia - s. XVIII Listadodedescriptoreslibres:Consultoresdelaasignatura Canarias Cultivo Consumo Espaa Fiscalidad Monopolio Navarra Siglo XVIII Tabaco Listadodepalabrasclave:programaSwesum

Tesauro:Tesaurus dHistrialocalde Catalunya(UAB) Tabaco Consumo Historia Impuesto de consumos Cultivos Monopolios Siglo XVIII

libro tabaco

Aunque en este momento el estudiante no conozca el funcionamiento de estos lenguajes, s que est en disposicin de observar algunos rasgos caractersticos de cada uno: El sistema de clasificacin ha indizado un cdigo, no son palabras. Es un cdigo construido a base de nmeros y smbolos, incomprensible a primera vista para un profano. La lista de encabezamientos de materia ha indizado dos trminos en lenguaje natural, que estn formados por diversas palabras separadas con guiones. La lista de autoridades ha indizado slo nombres geogrficos y ha prescindido del resto de conceptos. Tambin ha usado el lenguaje natural.

CC-BY-NC-ND PID_00143964

42

Anlisis de contenido: resumen e indizacin

El tesauro ha indizado unos cuantos descriptores en lenguaje natural, poniendo un trmino bajo el otro.

El listado de descriptores libres no se diferencia a simple vista de la indizacin con tesauro. En cambio, la diferencia es fundamental ya que el tesauro es controlado y los descriptores libres son libres.

En el listado de palabras clave, la indizacin la ha realizado un programa informtico, que ha seleccionado las palabras libro y tabaco porque salen dos veces en el texto, son las palabras ms repetidas.
A modo de conclusin Los lenguajes documentales son necesarios en dos momentos de la cadena documental: La fase de anlisis y tratamiento > Anlisis documental > Anlisis de contenido > Indizacin. La fase de salida > Instrumentos de recuperacin.

Ved tambin Todos estos temas sern desarrollados en los mdulos siguientes, dedicados a cada uno de los lenguajes documentales.

Los sistemas de clasificacin tambin son tiles en: La fase de anlisis y tratamiento > Procesamiento tcnico > Ordenacin.

4.4. Complementariedad de los lenguajes documentales Indizar con ms de un lenguaje documental al mismo tiempo es muy conveniente, porque as se suman las ventajas y minimizan los inconvenientes de los diferentes sistemas. Significa un esfuerzo aadido en el momento de la indizacin pero permite recuperar de manera ms precisa. Es decir, combinamos lenguajes para recuperar mejor. Algunas de las combinaciones posibles son las siguientes: Sistema de clasificacin + listas de encabezamientos + listados de autoridades. Sistema de clasificacin + listas de encabezamientos + listados de autoridades + palabras clave. Sistemas de clasificacin + tesauro. Tesauro + listados de autoridades + palabras clave.
Ejemplo de combinacin de lenguajes Ejemplo de una captura de un registro del catlogo de la Biblioteca Nacional de Espaa donde vemos un campo para la notacin con CDU y otro para un encabezamiento de materia.

CC-BY-NC-ND PID_00143964

43

Anlisis de contenido: resumen e indizacin

A modo de conclusin En teora todos los documento se podran indizar con cualquiera de los seis lenguajes. En la prctica cada tipologa de SID tiende a utilizar un lenguaje o combinacin de lenguajes concreta. Indizar con ms de un lenguaje documental al mismo tiempo es muy conveniente porque se suman las ventajas y minimizan los inconvenientes de los diferentes sistemas. Significa un esfuerzo aadido en el momento de la indizacin pero permite recuperar de manera ms precisa. Es decir, se combinan lenguajes para recuperar mejor.

CC-BY-NC-ND PID_00143964

44

Anlisis de contenido: resumen e indizacin

5. Tipologa de los lenguajes documentales

Podemos clasificar los seis lenguajes documentales a partir de unas caractersticas o tipologas que los describen. Concretamente los lenguajes se tipifican segn la naturaleza de sus trminos, el nivel de control, el nivel de coordinacin, la estructura y el nivel de anlisis:
Tipologa de los lenguajes documentales

Tesauro Un lenguaje es la suma de diversas caractersticas. As, por ejemplo, un tesauro es natural, controlado, postcoordinado, jerrquico y combinatorio e indiza por conceptos.

Listado de descriptores libres

Segn la naturaleza de los trminos

Codificado Natural

X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X

Segn el nivel de control sobre los trminos

Libre Controlado

Segn el nivel de coordinacin de los trminos Precoordinado Postcoordinado Segn la forma de agrupar los trminos o estructura JerrquicooSistemtico Combinatorio Segn el nivel de anlisis Pormaterias Por conceptos Porpalabrasclave

A continuacin, vamos a ver estas caractersticas. 5.1. Naturaleza del trmino: codificado o natural Los trminos pueden expresarse en lenguajes codificados o naturales:

Listado de palabras clave

Sistemas de clasificacin

Listados de autoridades

Listados de encabezamientos de materia

Tesauro

CC-BY-NC-ND PID_00143964

45

Anlisis de contenido: resumen e indizacin

a)Lenguajescodificados. Entendemos por codificado el uso de un cdigo artificial compuesto de nmeros, letras y smbolos que traducen un concepto. Por ejemplo, el Sol, en un lenguaje como la CDU, sera 523.9. Los lenguajes codificados son lenguajes sintticos, muy usados en bibliotecas, ya que, adems de clasificar el contenido del fondo documental, son operativos en cualquier idioma y permiten la ordenacin de los fondos. Por otra parte, tienen el inconveniente de ser poco comprensibles por parte de los usuarios. Slo hay un tipo de lenguaje codificado: son los sistemasdeclasificacin. b)Lenguajesnaturales. Entendemos por natural el uso de palabras del lenguaje usual, habitual, no cdigos. Es mucho ms prximo al usuario, ms amigable. Hay cinco lenguajes documentales naturales: Las listas de encabezamientos de materia. Los listados de autoridades. Los tesauros. Los listados de descriptores libres. Los listados de palabras clave.
Ved tambin Los sistemas de clasificacin se estudian con ms profundidad en el mdulo Sistemas de clasificacin documentales de esta asignatura. Algunos lenguajes codificados Son ejemplos de lenguajes codificados la Clasificacin Decimal Universal (CDU), la Clasificacin Dewey (DDC), la Clasificacin de la Library of Congress (LCC) o la Clasificacin Colon (CC).

5.2. Nivel de control: libre o controlado Hace referencia al control del vocabulario, es decir, si las palabras seleccionadas para indizar corresponden al lenguaje natural o a un lenguaje artificial construido para garantizar la indizacin y recuperacin: a)Lenguajeslibres. Son listas de trminos extrados del lenguaje natural sin sufrir ningn tipo de control. Normalmente los lenguajes libres se utilizan en sistemas automatizados donde hay un fichero inverso o diccionario de la base de datos. Tienen muchas ventajas en la indizacin, como el gasto mnimo de construccin, la actualizacin inmediata, coherencia mxima y la riqueza terminolgica. Pero presentan inconvenientes en la recuperacin, ya que al trabajar con lenguaje natural, arrastran todos los problemas derivados de la ambigedad (sinonimia, polisemia, homonimia). Los lenguajes libres son dos: Los listados de descriptores libres. El listado de palabras clave.

b)Lenguajescontrolados. Consideramos lenguajes controlados aquellos que estn redactados previamente en forma de listas o listados de trminos que se consideran aceptados y unvocos para la indizacin. Slo los trminos de la lista se pueden usar para indizar.

CC-BY-NC-ND PID_00143964

46

Anlisis de contenido: resumen e indizacin

Son trminos seleccionados tanto en su forma (plural, singular, sintagma nominal, adjetivado, siglas, etc.), como en su contenido (de todos los sinnimos se escoge uno, los homnimos se diferencian entre ellos, etc.) y como en sus relaciones de jerarqua y asociacin (trminos conceptualmente ms genricos o especficos y trminos que se evocan mutuamente). Requieren unos gastos de construccin elevados, tanto en personal cualificado como en tiempo. Para muchos autores son los verdaderos lenguajes documentales. Tambin se conocen por el nombre de lenguajesartificiales. Su funcin documental es la de representar un concepto con un nico trmino y que slo haya un trmino por concepto, lo que se conoce como univocidad. Los lenguajes controlados son cuatro: Los sistemas de clasificacin. Las listas de encabezamientos. Los listados de autoridades. Los tesauros.

5.3. Nivel de coordinacin: precoordinado o postcoordinado a)Precoordinacin. La precoordinacin consiste en determinar a priori cmo se combinan los trminos, tanto sea a la hora de construir el lenguaje como a la hora de indizar el documento o a la de recuperarlo.
Lenguajes precoordinados Un ejemplo de construccin con un lenguaje precoordinado como la Lista de encabezamientos de materia como la del CSIC prev que la materia Construccin de viviendas se represente como: Viviendas - Construccin Es decir, por este orden y separados con un guin. Un ejemplo de indizacin con un lenguaje precoordinado, por ejemplo, de una materia compuesta por tres elementos como Enciclopedia de los perros pastores europeos se representa como: Perros Pastores - Europa - Enciclopedias El encabezamiento se hace en este orden concreto, y las reglas sintcticas del lenguaje evitan la posibilidad de otras combinaciones.

La precoordinacin tiene dos grande ventajas: Agrupa en proximidad todos los documentos que tienen una temtica afn, de manera que si consultamos el catlogo de una biblioteca Viviendas, tambin veremos otros documentos como: Viviendas - Alumbrado Viviendas - Arrendamiento Viviendas - Calefaccin y ventilacin

CC-BY-NC-ND PID_00143964

47

Anlisis de contenido: resumen e indizacin

Un solo trmino de indizacin rene los elementos principales para la bsqueda.

La precoordinacin era una autntica necesidad en el entorno de las bibliotecas manuales, ya que no se poda buscar por una combinacin de dos o ms trminos. b)Postcoordinacin. La postcoordinacin consiste en combinar los trminos de indizacin en el momento de la recuperacin. Permite combinar mltiples trminos de indizacin siguiendo la lgica de los operadores booleanos y de esta manera profundizar en el anlisis de contenido. No tienen sintaxis en el momento de la indizacin. Cada trmino indizado es un punto de acceso al documento; cuantos ms trminos indizamos, ms posibilidad tenemos de recuperarlo.
Lenguajes postcoordinados Un lenguaje postcoordinado, como un tesauro, representara el documento anterior sobre perros pastores como: Perros pastores Europa Enciclopedia que sera recuperado siguiendo la lgica de los operadores booleanos: Perros Pastores AND Europa

Ved tambin El tema de la precoordinacin se trata sobradamente en los mdulos dedicados a los dos lenguajes precoordinados: Sistemas de clasificacin documentales y Listas de encabezamientos y listados de autoridades.

Los lenguajes postcoordinados slo tienen sentido en sistemas documentales automatizados que dispongan de un fichero inverso. El fichero inverso est donde se almacenan todos los descriptores que el analista va indizando, se sitan uno detrs del otro de forma secuencial y asociados al documento al que hacen referencia. Los lenguajes postcoordinados son cuatro: Listados de autoridades. Tesauro. Listados de descriptores libres. Listados de palabras clave.

CC-BY-NC-ND PID_00143964

48

Anlisis de contenido: resumen e indizacin

Ejemplo de fichero inverso Fichero inverso Documento Documento1 Perros pastores Europa Enciclopedia Fichero inverso: concepto y n. de documento Alimentacin (2) Enciclopedia (1,3) Entrenamiento (2) Europa (1) Perros Pastores (1,2) Qumica orgnica (3)

Documento2 Perros pastores Alimentacin Entrenamiento Documento3 Qumica orgnica Enciclopedia

5.4. Estructura: jerrquica o combinatoria El vocabulario de los lenguajes documentales se organiza en dos estructuras bsicas, en forma jerrquica o en forma combinatoria: a)Jerrquica: en la estructura jerrquica o arborescente, el vocabulario se presenta en forma de cadena, con trminos genricos que agrupan trminos ms especficos. Todos los trminos dependen de un trmino superior y de significado ms genrico. Esta estructura permite agrupar los conceptos por temas y tambin situarlos en contexto, ya que la secuencia jerrquica nos informa de cul es el campo temtico al que est adscrito el concepto.
Ejemplo Pongamos un ejemplo extrado de la CDU: 37 Educacin 371 Organizacin de la educacin 372 Contenido. Materias 373 Tipo de escuelas 374 Enseanza extraescolar 376 Escuelas especiales 377 Formacin profesional 378 Universidades As, el concepto Universidades depende del concepto 37 Enseanza, por lo tanto hace referencia a la educacin que se imparte en la universidad y no a la arquitectura de las universidades (que estara dentro de 72 Arquitectura).

Los lenguajes jerrquicos son dos: Los sistemas de clasificacin. Los tesauros (en la parte de presentacin sistemtica o jerrquica).

CC-BY-NC-ND PID_00143964

49

Anlisis de contenido: resumen e indizacin

b)Combinatoria: en la estructura combinatoria, los trminos no forman cadena, estn listados por orden alfabtico. Este tipo de estructura surgi como reaccin a la rigidez de la estructura jerrquica, que no era fcil de actualizar.
Ejemplo extrado de la Lista de encabezamientos del CSIC

La estructura combinatoria permite la inclusin de nuevos trminos y la eliminacin de los obsoletos sin afectar al resto de la estructura del lenguaje. La facilidad para actualizar el vocabulario los convierte en lenguajes adecuados para todo tipo de entornos: enciclopdicos, cientficos y tcnicos. Los lenguajes de estructura combinatoria son cinco: Listas de encabezamientos de materia. Listados de autoridades. Tesauros. Listados de descriptores libres. Listados de palabras clave.

Como se puede observar, los tesauros participan de las dos estructuras: tienen una presentacin sistemtica en forma jerrquica y una presentacin alfabtica en forma combinatoria.
El descriptor Cmic Veamos el descriptor Cmic tanto en una presentacin como en la otra (extrado del Tesaurus dhistria local de Catalunya). Presentacin jerrquica (izquierda) y alfabtica (derecha)

CC-BY-NC-ND PID_00143964

50

Anlisis de contenido: resumen e indizacin

5.5. Nivel de anlisis: materias, conceptos, palabras clave Los lenguajes pueden indizar ms o menos conceptos, de manera que podemos establecer una ltima tipologa segn la cantidad de informacin que transmiten cada uno. En el punto ms sinttico, con uno o dos trminos de indizacin, tenemos los lenguajes que indizan por materias; en el punto medio, los lenguajes de conceptos, tambin llamados de descriptores, y en el punto ms analtico, los lenguajes de palabras clave. Indizar por materias, conceptos y palabras clave est en relacin directa con los dos paradigmas de bsqueda. La indizacin por materias es adecuada para sistemas de browsing (o de navegacin o directorio). En cambio, las indizaciones por conceptos y palabras clave se adaptan mejor a los sistemas de interrogacin en buscadores. a)Pormaterias: responden a la pregunta:cul es el tema de este documento?. Los lenguajes que indizan por materias son dos: Los sistemas de clasificacin. Las listas de encabezamientos de materia.

b)Porconceptos: indizar por conceptos significa indizar las ideas y nociones del texto sin reducirlo a un tema principal. Responden a la pregunta: cules son los conceptos de este documento?. Van ligados necesariamente a sistemas automatizados, ya que no es factible elaborar tantas fichas de cartulina como conceptos se van a indizar. Los lenguajes que indizan por conceptos son tres: Listados de autoridades. Tesauro. Listados de descriptores libres.

c) Por palabras clave: indizar por palabras clave significa indizar todas las palabras con significado del texto. Es el proceso ms analtico que existe. No es una tarea de indizacin humana, sino automtica. Los programas que indizan por palabras clave seleccionan slo las palabras que tienen significado (preferentemente sustantivos). Slo hay un lenguaje por palabras clave, y es evidentemente el nico lenguaje automtico: el listado de palabras clave.

CC-BY-NC-ND PID_00143964

51

Anlisis de contenido: resumen e indizacin

Ejemplo de indizacin con los tres niveles de anlisis Indizaremos con los tres niveles de anlisis el siguiente resumen indicativo: MUOZ CRUZ, Valle. El papel del gestor de la informacin en las organizaciones a las puertas del siglo XXI. A. Los sistemas de informacin al servicio de la sociedad: actas de las jornadas. Valencia: FESABID, 1998, vol. 2, p. 649-660. Artculo sobre el papel y funciones del gestor de la informacin, un nuevo profesional de la documentacin, en las organizaciones del siglo XXI. Describe el panorama laboral espaol, analizando la Administracin pblica y la empresa privada. Propone desarrollar una poltica nacional de informacin y una formacin adaptada a las necesidades organizativas de las instituciones. Ejemplo de niveles de anlisis Por materias Gestor de informacin Por conceptos Gestor de informacin Documentacin Administracin pblica Empresa privada Poltica de informacin Por palabras clave Adaptada Administracin Artculo Documentacin Empresa Espaol Formacin Funciones Gestor Informacin Instituciones Laboral Nacional Necesidades Nueve Organizaciones Organizativas Panorama Papel Poltica Privada Profesional Pblica Siglo XXI

A modo de conclusin Los lenguajes documentales se tipifican segn: Lanaturalezadelostrminos: los trminos pueden expresarse en lenguaje codificado o natural. Entendemos por codificado el uso de un cdigo artificial compuesto de nmeros, letras y smbolos que traducen un concepto. Entendemos por natural el uso de palabras del lenguaje usual, habitual, no cdigos. Elniveldecontroldelvocabulario: los lenguajes pueden ser libres o controlados. Los lenguajes libres son listas de trminos extrados del lenguaje natural. Consideramos lenguajes controlados aquellos que estn redactados previamente en forma de listas o listados de trminos que se consideran aceptados y unvocos para la indizacin. Slo los trminos de la lista se pueden usar para indizar. El nivel de coordinacin: precoordinado o postcoordinado. La precoordinacin consiste en determinar a priori cmo se combinan los trminos, ya sea a la hora de construir el lenguaje, a la hora de indizar el documento o a la hora de recuperarlo. La postcoordinacin consiste en no establecer reglas a la hora de la indizacin y combinar los trminos de indizacin en el momento de la recuperacin siguiendo la lgica de los operadores booleanos. Laestructura: el vocabulario de los lenguajes documentales se organiza en dos estructuras: jerrquica o combinatoria. En la estructura jerrquica o arborescente, el vocabulario se presenta en forma de cadena, con trminos genricos que agrupan trminos ms especficos. En la estructura combinatoria, los trminos no forman cadena, estn listados por orden alfabtico. Elniveldeanlisis: materias, conceptos, palabras clave. Indizar por materias consiste en indizar la materia principal del documento. Indizar por conceptos significa indizar las ideas y nociones del texto. Indizar por palabras clave significa indizar todas las palabras con significado del texto. Es el proceso ms analtico que existe. No es una tarea de indizacin humana, sino automtica.

CC-BY-NC-ND PID_00143964

52

Anlisis de contenido: resumen e indizacin

5.6. Conclusiones El estudio de las tipologas de los lenguajes documentales permite elaborar la ficha descriptiva de cada uno.
Fichas descriptivas de cada lenguaje documental Sistemasdeclasificacin Sinttico por materias Smbolos de clase o notaciones Humana Codificado Controlado Precoordinado Jerrquico Tesauro Analtico por conceptos Descriptores Humana Natural Controlado Postcoordinado Jerrquico Combinatorio Listadodeencabezamientodematerias Sinttico por materias Encabezamientos Humana Natural Controlado Precoordinado Combinatorio Listadodedescriptoreslibres Analtico por conceptos Descriptores Humana Natural Libre Postcoordinado Combinatorio Listadodeautoridades Analtico por conceptos Identificadores y descriptores Humana Natural Controlado Postcoordinado Combinatorio Listadodepalabrasclave Analtico por palabras clave Palabras clave Automtica Natural Libre Postcoordinado Combinatorio

CC-BY-NC-ND PID_00143964

53

Anlisis de contenido: resumen e indizacin

Actividades
1. A partir del siguiente artculo elaborad un resumen informativo, uno indicativo, uno selectivo de conclusiones y uno automtico que tenga una extensin parecida al informativo. VALLEZ, M; PEDRAZA-JIMNEZ, R. El Procesamiento del Lenguaje Natural en la Recuperacin de Informacin Textual y reas afines [en lnia en http://www.hipertext.net/web/ pag277.htm]. Hipertext.net, nm. 5, 2007. ISSN 1695-5498. 2. Indizad el mismo artculo con los tres niveles de exhaustividad. Argumentad en qu tipo de base de datos y SID podra ser til cada uno. 3. Proponed dos ttulos de documentos, reales o inventados, donde la materia se exprese a travs de dos sinnimos. 4. Imaginad dos ttulos ms donde aparezcan dos polismicos y proponed una manera de diferenciarlos. Buscad el origen etimolgico de las palabras y decid si son polismicas u homnimas. 5. Responded las siguientes afirmaciones justificando la solucin: a) Todo lenguaje controlado es codificado? b) Todo lenguaje precoordinado es controlado? c) Todo lenguaje libre es natural? d) El lenguaje que tiene la tasa de coherencia ms elevada es el Listado de palabras clave? 6. El siguiente texto es un compendio de errores y medias verdades. Sabrais localizarlas y argumentar por qu no son correctas? Usar lenguajes naturales en la indizacin y recuperacin permite una buena comunicacin documental. Los sistemas de clasificacin representan la materia de los documentos a travs de mltiples notaciones. Los lenguajes que indizan por materias son los tesauros y las listas de encabezamientos de materia. Para recuperar de manera precisa tenemos que utilizar sistemas de clasificacin y listados de encabezamientos de materia. Los lenguajes controlados son muy amigables para el analista y el usuario. Los lenguajes precoordinados permiten ordenar los documentos en las estanteras.

CC-BY-NC-ND PID_00143964

54

Anlisis de contenido: resumen e indizacin

Glosario
abstract m Terminologa anglosajona para los resmenes redactados por personas. anforas f Relacin de referencia entre un elemento lingstico y uno anterior en el discurso. anlisis de contenido m Operaciones de anlisis que identifican y representan de manera precisa la materia de los documentos, con el objetivo de permitir la recuperacin. Las operaciones son dos: el resumen y la indizacin. Esta parte del anlisis documental establece el punto de acceso por materias. anlisis morfosintctico m Anlisis que determina la categora lxica de cada palabra: sustantivo, verbo, adjetivo, artculo, preposicin, etc. Tambin determina el lema. Estas operaciones permiten distinguir las palabras con significado (sustantivos, adjetivos, verbos) de las vacas (artculos, preposiciones, pronombres, etc.). El lema permite agrupar todas las palabras que son flexiones de otra (info/informar/informacin/informador/informacional/etc.). autoridad f Trmino de indizacin propio del lenguaje documental Listado de Autoridades. Tambin se conocen con el nombre de identificadores y descriptores. codificado adj. Tipologa de lenguaje documental consistente en el uso de un cdigo artificial compuesto de nmeros, letras y smbolos que traducen un concepto. Slo hay un tipo de lenguaje codificado, son los sistemas de clasificacin. combinatoria f Tipologa de lenguaje documental consistente en estructurar los trminos de indizacin por orden alfabtico. La estructura combinatoria permite la inclusin de nuevos trminos y la eliminacin de los obsoletos sin afectar al resto de la estructura del lenguaje. Los lenguajes de estructura combinatoria son cinco: las listas de encabezamientos de materia, los listados de autoridades, los tesauros, el listado de descriptores libres y el listado de palabras clave. controlado adj. Tipologa de lenguaje documental consistente en listas de trminos seleccionados tanto en su forma (plural, singular, sintagma nominal, adjetivado, siglas, etc.) como en su contenido (de todos los sinnimos se escoge uno, los homnimos se diferencian entre ellos, etc.) y como en sus relaciones de jerarqua y asociacin (trminos conceptualmente ms genricos o especficos y trminos que se evocan mutuamente). Requieren unos gastos de construccin elevados, tanto en personal cualificado como en tiempo. Son los verdaderos lenguajes documentales. Tambin se conocen por el nombre de lenguajes artificiales. Su funcin documental es la de representar un concepto con un nico trmino y que slo haya un trmino por concepto, lo que se conoce como univocidad. Los lenguajes controlados son cuatro: los sistemas de clasificacin, las listas de encabezamientos, listados de autoridades y tesauros. describir el contenido loc. v. Ved representar el contenido descripcin caracterstica f Ved indizacin. descriptor m Trmino de indizacin propio de tres lenguajes documentales: listado de autoridades, tesauros, listado de descriptores libres. encabezamiento m Trmino de indizacin propio del lenguaje documental de las listas de encabezamientos de materia. entropa f Calidad aplicable a los lenguajes documentales que tienden a la seleccin, a la restriccin del vocabulario. Es el proceso contrario al lenguaje natural que tiende a la abundancia, a la reiteracin de conceptos, a la sinonimia en beneficio de una expresin ms rica. especificidad f Criterio relacionado con la exactitud en que un concepto particular que aparece en un documento est representado por un trmino de indizacin. estructura f Tipologa de los lenguajes documentales que los clasifica en jerrquicos o combinatorios. examen del documento m Primera fase del proceso de indizacin consistente en la lectura del ttulo, resumen, sumario, introduccin, ilustraciones y palabras o frases destacadas en una tipografa diferente. exhaustividad f Criterio relacionado con el nmero de conceptos que se tienen en cuenta para caracterizar el contenido entero de un documento. El principal criterio de seleccin es el

CC-BY-NC-ND PID_00143964

55

Anlisis de contenido: resumen e indizacin

valor potencial del concepto para los usuarios de su SID. Podemos distinguir entre exhaustividad baja, media y alta en funcin del nmero de descriptores. extract m Terminologa anglosajona para los resmenes automticos. Los extracts son los resmenes formados a partir de la extraccin de algunas frases del texto previamente seleccionadas por un programa. fichero inverso m Fichero donde se almacenan todos los trminos de indizacin. Estos se sitan uno detrs del otro de forma secuencial y asociados al documento al que hacen referencia. hipernimo adj. Decimos que una palabra es hipernima cuando tiene un campo significativo que incluye otro de menor extensin. Ejemplo: color es un hipernimo con respecto a amarillo, naranja, verde... hipnimo adj. Decimos que una palabra es hipnima cuando tiene un campo significativo que queda incluido en otro de mayor extensin. Ejemplo: amarillo, naranja, verde son hipnimos ya que pertenecen al trmino color. homonimia f Tipo de polisemia. Se da cuando dos conceptos diferentes han llegado a tener el mismo nombre, la misma forma, pero vienen de orgenes diferentes y por lo tanto tienen etimologas diferentes. identificador m Trmino de indizacin propio del lenguaje documental Listado de autoridades. Tambin se conocen con el nombre de autoridad y descriptores. indizacin f Accin de describir o identificar un documento en relacin a su contenido. Norma UNE 50-121-91. Indizar es el resultado de examinar el documento, seleccionar los conceptos y almacenarlos en una base de datos. Esta definicin implica tres acciones, de las cuales la ms significativa es la seleccin de los conceptos y su traduccin al lenguaje documental. indizacin por conceptos loc. v. Indizacin de las ideas y nociones del texto, sin reducirlo a un tema principal. Responden a la pregunta cules son los conceptos de este documento?, van ligados necesariamente a sistemas automatizados. Los lenguajes que indizan por conceptos son tres: listados de autoridades, tesauros, listados de descriptores libres. indizacin por materias loc. v. Indizacin sinttica. Responden a la pregunta cul es el tema de este documento?. Los lenguajes que indizan por materias son dos, los sistemas de clasificacin y las listas de encabezamientos de materia. indizacin por palabras clave loc. v. Indizacin de todas las palabras con significado del texto. Es el proceso ms analtico que existe. No es una tarea de indizacin humana, sino automtica. Los programas que indizan por palabras clave seleccionan slo las palabras que tienen significado (preferentemente sustantivos). Slo hay un lenguaje por palabras clave, y es evidentemente el nico lenguaje automtico, el listado de palabras clave. ISO 214: 1976 f Norma internacional, traducida por AENOR como norma UNE 50-103-90 Preparacin de resmenes. jerrquica adj. Tipologa de lenguaje documental consistente en estructurar los trminos de indizacin de forma arborescente. El vocabulario se presenta en forma de cadena, con trminos genricos que agrupan trminos ms especficos. Todos los trminos dependen de un trmino superior y de significado ms genrico. Esta estructura permite agrupar los conceptos por temas. lenguaje artificial m Ved controlado. lenguaje documental m Vocabulario de trminos en lenguaje natural o un sistema artificial de signos normalizados que facilitan la representacin del contenido de los documentos. Sus funciones principales son indizar el contenido de los documentos y permitir la recuperacin a partir del campo materia. lenguaje natural m Lenguaje que usamos de forma cotidiana: cataln, castellano, vasco, gallego, francs, etc. libre adj. Tipologa de lenguaje documental consistente en listas de trminos extrados del lenguaje natural sin formar parte de ningn listado establecido a priori, ni haber pasado un proceso de control de su vocabulario. Los lenguajes libres son dos: los listados de descriptores libres y el listado de palabras clave.

CC-BY-NC-ND PID_00143964

56

Anlisis de contenido: resumen e indizacin

listado de autoridades m Lenguaje documental. Analtico por conceptos, natural, controlado, postcoordinado y combinatorio. Su trmino de indizacin se conoce como identificador, autoridad o descriptor. listado de descriptores libres m Lenguaje documental. Analtico por conceptos, natural, libre, postcoordinado y combinatorio. Su trmino de indizacin se conoce como descriptor. listado de encabezamientos de materia m Lenguaje documental. Sinttico por materias, natural, controlado, precoordinado y combinatorio. Su trmino de indizacin se conoce como encabezamiento. listado de palabras clave m Lenguaje documental. Analtico por palabras clave, natural, libre, postcoordinado y combinatorio. Su trmino de indizacin se conoce como palabra clave. natural adj. Tipologa de lenguaje documental consistente en el uso de palabras del lenguaje usual, habitual, no cdigos. Hay cinco lenguajes documentales naturales: las listas de encabezamientos de materia, los listados de autoridades, los tesauros, los listados de descriptores libres y los listados de palabras clave. naturaleza de los lenguajes f Tipologa de los lenguajes documentales que los clasifica en codificados o naturales. nivel de anlisis m Tipologa de los lenguajes documentales que los clasifica en lenguajes de materias, conceptos y palabras clave. nivel de control m Tipologa de los lenguajes documentales que los clasifica en libres o controlados. nivel de coordinacin m Tipologa de los lenguajes documentales que los clasifica en precoordinados o postcoordinados. notacin f Trmino de indizacin propio del lenguaje documental de los sistemas de clasificacin. palabra clave f Trmino de indizacin propio del lenguaje documental de las palabras clave o indizacin automtica. Palabra o grupo de palabras seleccionadas de manera automtica del ttulo, resumen o texto de un documento que representan el contenido y permiten la recuperacin. palabra vaca f Palabra sin significado en las operaciones de indizacin y resumen. Son preposiciones, artculos, verbos, adverbios, etc. polisemia f Propiedad de un signo lingstico de tener ms de un significado. Decimos que dos palabras son polismicas cuando el mismo signo lingstico, palabra o sonido, tiene ms de un significado. La palabra tiene un nico origen etimolgico y acaba teniendo significados diferentes sin cambiar su categora gramatical. ponderacin (de frases, de palabras) f Mtodo que evala las frases y las palabras de un texto en funcin de parmetros como la frecuencia, la presencia de palabras indicativas (buscan palabras como importante, esencial, conclusiones, etc.), la aparicin en lugares destacados, por ejemplo el ttulo: al principio de cada prrafo, al final a modo de conclusiones, etc. postcoordinacin f Tipologa de lenguaje documental consistente en combinar los trminos de indizacin en el momento de la recuperacin. Los lenguajes postcoordinados slo tienen sentido en sistemas documentales automatizados que dispongan de un fichero inverso. Los lenguajes postcoordinados son cuatro: listados de autoridades, tesauros, listados de descriptores libres y listados de palabras clave. precoordinacin f Tipologa de lenguaje documental consistente en determinar a priori cmo se combinan los trminos, ya sea a la hora de construir el lenguaje, de indizar el documento, o de recuperarlo. Los dos lenguajes precoordinados son los sistemas de clasificacin y las listas de encabezamientos de materia. procesamiento en lenguaje natural (PLN) m Rama de la inteligencia artificial y de la lingstica computacional que estudia los lenguajes que usan los humanos para interactuar con los ordenadores en contextos escritos y orales. EL PLN estudia cmo emular el conocimiento humano, en cuanto a la identificacin de los conceptos y frases con contenido relevante. relacin de significado f Ved relacin semntica.

CC-BY-NC-ND PID_00143964

57

Anlisis de contenido: resumen e indizacin

relacin semntica f Relaciones de significado de las palabras. Las relaciones pueden ser de tipo genrico, especfico o relacionado de un trmino con respecto a otro. En lenguaje natural estas relaciones son implcitas pero en un lenguaje documental hay que definir estas relaciones, agrupando y relacionando los trminos afines. representar el contenido loc. v. Expresin que significa describir el tema o los temas de un documento. resumen m Presentacin abreviada y precisa de un documento, sin interpretacin ni crtica y sin mencin expresa del autor del resumen. Norma UNE 50-103-90 Preparacin de resmenes. resumen indicativo m Resumen que consigna slo las ideas centrales del documento. Su lectura no puede sustituir la lectura del original. resumen informativo m Resumen que consigna el tema central, temas adicionales, naturaleza y objetivo del documento, metodologa, resultados, conclusiones y anexos. La idea de fondo es que un resumen informativo puede sustituir en ocasiones la lectura del documento original. resumen selectivo m Resumen que consigna slo una parte concreta del documento. El ms habitual es el resumen de conclusiones, pero tambin hay otros tipos, como la resea (review). seleccin de los trminos de indizacin f Segunda fase en el proceso de indizacin consistente en identificar las nociones que son elementos esenciales de la descripcin del contenido. Los criterios de seleccin son el nmero de conceptos (criterio de exhaustividad) y la exactitud de los mismos (criterio de especificidad). smbolo de clase m Ved Notacin. sinonimia f Palabras que tienen el mismo significado. Ejemplo: alimento, nutriente, comida, provisin. En un sistema documental, si no se controlan y se usan indiscriminadamente, comportan silencio documental. sistema de clasificacin m Lenguaje documental. Sinttico por materias, codificado, controlado, precoordinado y jerrquico. Su trmino de indizacin se conoce como notacin o smbolo de clase. trmino de indizacin m Representacin de un concepto en lenguaje natural o un cdigo de clasificacin. Los trminos de indizacin pueden estar formados por una palabra o ms de una. tesauro m Lenguaje documental. Analtico por conceptos, natural, controlado, postcoordinado, jerrquico y combinatorio. Su trmino de indizacin se conoce como descriptor. traduccin a un lenguaje documental controlado f Buscar un concepto expresado en lenguaje natural en el listado de trminos de un lenguaje documental controlado. Utilizar el trmino controlado para indizar y recuperar. UNE 50-103-90 Preparacin de resmenes f Norma espaola que establece las directrices que se tienen que seguir para presentar los resmenes en los documentos. Pone especial nfasis en la preparacin de resmenes por parte de los autores de los documentos primarios y en la misma publicacin. UNE 50-113-92/1 f Norma espaola titulada Documentacin e informacin. Vocabulario. Parte 1. Conceptos fundamentales. En: Documentacin: Normas fundamentales. Madrid: AENOR, 1994. UNE 50-121-91 f Norma espaola titulada Mtodos para el anlisis de documentos, determinacin de su contenido y seleccin de trminos de indizacin. Basa el proceso de indizacin en tres fases: examinar el documento para identificar su contenido, seleccionar los conceptos principales de los contenidos y traducir a un lenguaje documental. unitrmino m La parte ms pequea con significado de un trmino de indizacin. La norma UNE 50-113-92/1 define los unitrminos como el elemento significativo ms pequeo de un lenguaje documental utilizado para representar un concepto especfico en un sistema de indizacin coordinado; no se debe confundir con palabra clave o descriptor. univocidad f Representar un concepto con un nico trmino.

CC-BY-NC-ND PID_00143964

58

Anlisis de contenido: resumen e indizacin

Bibliografa
Bibliografa sobre el resumen AENOR (1990). Documentacin. Preparacin de resmenes. UNE 50 103 90. Madrid: AENOR. Climent, Salvador. Sistemes de resum automtic de documents. Digit. Hum. Revista digital dhumanitats. ISSN 1575-2275. Lloret, E.; Ferrndez, O.; Muoz, R.; Palomar, M. (2008). Integracin del reconocimiento de la implicacin textual en tareas automticas de resmenes de textos. Procesamiento del lenguaje natural, nm. 41, pg. 183-190. Mateo, P. L.; Gonzlez, J. C.; Villena, J; Martnez, J. L. (2003). Un sistema para resumen automtico de textos en castellano. Pinto Molina, M. (1992). El resumen documental: principios y mtodos. Madrid: Pirmide/ Fundacin Germn Snchez Ruiprez (Biblioteca del Libro, Y). Bibliografa sobre la indizacin Abadal, E.; Codina, L. (2005). Recuperacin de Informacin. En: Bases de Datos Documentales: Caractersticas, funciones y mtodo (cap. 2. p. 29-92). Madrid: Sntesis. AENOR (1997). Mtodos para el anlisis de los documentos, determinacin de su contenido y seleccin de los trminos de indizacin. Norma UNE 50-121-91. Madrid: AENOR. AENOR (1997). Documentacin e informacin. Vocabulario. Parte 6: lenguajes documentales. Revista Espaola de Documentacin Cientfica, Norma UNE-50-113/6 (ISO 5127/6), vol. 20, nm. 4, pg. 417-436. Cid, P.; Cuadrado, M.; Aguiriano, C. (1999). Fonaments de llenguatges documentals. [Document electrnic]. Barcelona: UOC. Codina, L. (1994). El papel del lenguaje natural en los sistemas multimedia: una reflexin sobre la tecno-simpleza y la ciber-ingenuidad. Cuadernos de documentacin multimedia, nm. 3 (junio). Gil Leiva, I. (2008). Manual de indizacin. Teora y prctica. Gijn: Ediciones Trea (Biblioteconoma y Administracin cultural, 193). Gil, I.; Rodrguez Muoz, J. V. (1996). El Procesamiento del lenguaje natural aplicado al anlisis del contenido de los documentos. Revista general de informacin y documentacin, vol. 6, nm. 2, pg. 205-218. Gil Urdiciain, B. (1992). Funcin de los lenguajes documentales en el tratamiento de la informacin en las organizaciones. Revista general de informacin y documentacin, vol. 2, Nm. 2, pg. 195-200. Gil Urdiciain, B. (2004). Manual de lenguajes documentales. Gijn: Ediciones Trea (Biblioteconoma y Administracin cultural, 106). Norma UNE 50-113-92/1. Documentacin e informacin. Vocabulario. Parte 1. Conceptos fundamentales (1994). En: Documentacin: Normas fundamentales. Madrid: AENOR. Slype, G. van (1991). Los lenguajes de indizacin: concepcin, construccin y utilizacin en los sistemas documentales. Madrid: Pirmide. Fundacin Germn Snchez Ruiprez. Biblioteca del Libro.

Recurso: Mdulo 2. Anlisis de Contenido: resumen e indizacin Descripcin: Este recurso es el segundo mdulo del curso Fundamentos del Lenguaje Documental Idioma: ES Categora: Humanas y Sociales Fecha de alta: 2010-06-16 00:00:00.0

Você também pode gostar