Você está na página 1de 8

ESTRUCTURACIN DE NDICES GRAMATICALES Y LXICOS PARA LA EXTRACCIN Y RECUPERACIN DE INFORMACIN

Couto, Javier (1) jcouto@fing.edu.uy Crispino, Gustavo (1) crispino@fing.edu.uy Grassi, Mariela (1) Skorodynski, Mnica (1) mgrassi@seciu.edu.uy mskorodynski@bps.gub.uy

(1) Instituto de Computacin Facultad de Ingeniera Universidad de la Repblica Uruguay

Resumen
Basta consultar un diccionario ms o menos completo del castellano o cualquier otra lengua natural para concluir que las unidades lingsticas son generalmente polismicas. Esta es la razn principal de numerosos casos de ambigedad lingstica. Teniendo en cuenta este hecho, el Mtodo de Exploracin Contextual provee el marco necesario para identificar informacin semntica especfica contenida en los textos as como tambin mecanismos que conducen a resolver indeterminaciones semnticas. Este mtodo puede ser utilizado en distintas aplicaciones que trabajan con lenguaje natural para la extraccin y recuperacin de informacin. En este artculo presentamos una plataforma informtica para este mtodo y algunas reflexiones surgidas en el proceso de definicin de los elementos que deben integrarse a la base de conocimientos de la plataforma informtica para poder realizar el tratamiento de textos escritos en castellano.

1.

Introduccin

La lingstica computacional ha buscado durante mucho tiempo construir representaciones semnticas apoyndose en anlisis sintcticos previos, los cuales necesitan, a su vez, anlisis morfolgicos. Para asegurar la coherencia textual, varios equipos de investigacin han intentado introducir consideraciones pragmticas, haciendo uso de conocimientos cada vez ms numerosos relativos a los dominios tratados (Pazienza 1997). Esos mtodos movilizan importantes recursos lingsticos y son difciles de poner en prctica sobre textos heterogneos. Adems, necesitan conocimientos lingsticos y ontologas no siempre disponibles en los dominios tratados. Sin embargo, tiende a imponerse la necesidad de introducir ms semntica en las herramientas de bsqueda y extraccin de informacin. La cuestin a resolver es la de introducir las nociones semnticas, de manera razonable, sin pasar por los

mtodos costosos o parciales que han sido propuestos durante un cierto perodo por la Inteligencia Artificial. El Mtodo de Exploracin Contextual (Descls et al. 1991, Descls 1996, Descls et al.1997) identifica los conocimientos lingsticos ubicndolos en sus contextos y organizndolos en tareas especializadas. En este enfoque, los lingistas analizan los textos identificando indicadores e ndices gramaticales y lxicos pertinentes para la resolucin de un problema, y luego conciben y escriben las reglas de exploracin del contexto de los ndices identificados en los textos. Este mtodo no est limitado a tratamientos especficos, sino que ofrece un marco de trabajo realista. En este trabajo presentamos una plataforma informtica para este mtodo y algunas reflexiones surgidas en el proceso de la definicin de los elementos que deben integrarse a la base de conocimientos de la plataforma informtica para poder realizar

el tratamiento castellano.

de

textos

escritos

en

Este artculo se organiza de la siguiente manera. En la seccin 2 hacemos una breve presentacin del Mtodo de Exploracin Contextual y sus aplicaciones. En la seccin 3 describimos una plataforma informtica capaz de soportar las distintas aplicaciones del mtodo. En la seccin 4 presentamos una propuesta de organizacin conceptual de la base de conocimientos, a partir de nuestro trabajo especfico para el castellano. En la seccin 5 exponemos las conclusiones de nuestra investigacin.

presente en el texto. El mtodo requiere entonces de una descripcin fina y detallada de ciertas unidades lingsticas llamadas indicadores y de otras denominadas ndices, complementarias de las primeras. Los indicadores son expresiones lingsticas que disparan la ejecucin de ciertas reglas de exploracin contextual encargadas de determinar el valor semntico del indicador para cierta tarea especfica, por ejemplo, reconocer una conclusin o filtrar una definicin del texto. De manera que los indicadores estn asociados a ciertas tareas, son especficos de cada tarea. Por otra parte, cada indicador tiene asociado un conjunto de reglas de exploracin contextual, heursticas unas y lingsticas otras. La aplicacin de una regla, invocada por un indicador, explora el contexto de ese indicador buscando ndices lingsticos con el objetivo de resolver la tarea, esto es, determinar el valor semntico del indicador. Todos estos elementos indicadores, ndices y reglas- componen la base de conocimiento lingstico que el mtodo emplea para realizar las actividades requeridas (Descls 1996) A modo de sntesis y para comprender mejor el funcionamiento del MEC, damos a continuacin una representacin grfica de los componentes de este mtodo y sus relaciones:

2.

Mtodo de Contextual

Exploracin

El Mtodo de Exploracin Contextual (MEC) fue desarrollado por el equipo LaLIC (UMR 8557 du CNRS, EHESS, Universit Paris-Sorbonne) que dirige el Prof. Jean-Pierre Descls. El objetivo de este mtodo consiste en proveer el marco necesario para identificar informacin semntica especfica contenida en los textos. El MEC parte de la hiptesis que establece que todo texto posee unidades lingsticas que permiten levantar indeterminaciones semnticas, en algunos casos, y tomar ciertas decisiones para construir el sentido, en otros. El mtodo se implementa informticamente bajo la forma de bases de conocimiento lingstico. Este sistema emplea conocimiento exclusivamente lingstico y

Tarea-t1 {ndices} {ndices} Actividad {ndices} Tarea-t2 : : Tarea-tn

{indicadores-i1} {indicadores-i2} : {indicadores-ip}

Regla-r1 Regla-r2 : Regla-rs

En este diagrama la llave grande se lee como se compone de, las flechas indican asociada a y las llaves chicas denotan conjuntos. De manera que el esquema completo debe leerse as: Una actividad se compone de una o ms tareas. Cada tarea est asociada a uno o ms conjuntos de indicadores. A cada conjunto de indicadores se asocia una o ms reglas. Las reglas tienen la forma de un condicional: si <condicin> entonces <conclusiones o acciones> En la condicin aparecen los conjuntos de ndices que permiten tomar una decisin, es decir que permiten desambiguar el valor semntico del indicador. Una conclusin consiste en asignar una etiqueta semntica a un segmento textual.

del dominio (mdico, econmico, tcnico), pero que no son independientes del tipo de texto con el que se trabaje. El estudio de esos fragmentos o categoras textuales implica identificar indicadores lingsticos especficos, los cuales son claves importantes para la estructuracin del conocimiento semntico. Pero esto no es suficiente para la identificacin lxica. El procesamiento semntico de una unidad lingstica depende de otras claves lingsticas los ndices- que deben estar presentes en el mismo contexto para resolver la ambigedad causada por el fenmeno de la polisemia. Para cada categora textual, el MEC sugiere la misma metodologa: i) Identificar informacin semntica relevante y sus indicadores lingsticos, en funcin de una tarea. Identificar, en el texto analizado, los lmites del contexto C necesarios para resolver las indeterminaciones semnticas. Determinar los pasos para encontrar las claves lingsticas ms importantes explorando el contexto C con el fin de resolver posteriores problemas de ambigedad.

ii)

A modo de ejemplo, algunas actividades pueden ser: hacer un resumen, filtrar definiciones de un texto, filtrar citas, identificar relaciones de causalidad. Algunas tareas: buscar anuncios temticos, conclusiones, recapitulaciones, definiciones. Algunas etiquetas semnticas: anuncio temtico, definicin, conclusin, relacin causal. Entonces, a modo de ejemplo, la actividad de hacer un resumen se compone de las siguientes tareas: buscar anuncios temticos, buscar recapitulaciones y buscar conclusiones. A su vez, cada una de esas tareas est asociada a un conjunto de indicadores. El MEC se basa en los siguientes supuestos bsicos: El procesamiento de textos necesita identificar y estudiar la semntica de ciertos fragmentos de texto (oraciones, prrafos, etc.) que son independientes

iii)

Muchas tareas de procesamiento de texto, como la extraccin de conocimiento o el resumen automtico, pueden ser resueltas analizando exclusivamente las unidades lxicas del texto, siempre y cuando tengamos en cuenta su contexto lingstico. Ahora bien, en ciertos casos tambin es til y necesario recurrir a indicadores textuales ms que lingsticos, es decir, a informacin del tipo de ubicacin de una palabra en la oracin, ubicacin de oraciones y de prrafos en el texto, signos grficos utilizados en los ttulos, y otros. As es que el mtodo puede utilizar diversos indicadores lxicos,

temticos, textuales y estructurales- en sus estrategias de bsqueda, con el objetivo de asignar etiquetas semnticas a las oraciones u otras unidades textuales (prrafos, secciones, etc.). Entonces el sistema de contextual se compone de: i) exploracin

una base de datos de indicadores lingsticos semnticamente relevantes; una base de datos con ndices lingsticos para resolver la ambigedad que afecta a los indicadores en su contexto; una base de datos de reglas de exploracin contextual. La tarea de estas reglas es identificar indicadores lingsticos con el fin de asignar etiquetas semnticas.

ii)

entre el equipo LaLIC del CAMS y el grupo de TALN del Instituto de Computacin de la Facultad de Ingeniera de la Universidad de la Repblica (Uruguay). ContextO (Crispino et al. 1999) est constituida por un motor de exploracin contextual, un conjunto de agentes especializados para orientar y posteriormente explotar el trabajo del motor, y por un sistema de gestin de la base de conocimientos. Como respuesta a invocaciones determinadas en funcin de parmetros fijados por el usuario, el motor de exploracin contextual dispara, para una o varias tareas especializadas, el proceso de reconocimiento de indicadores e ndices presentes en un segmento textual. Este proceso es realizado por el sistema de gestin de conocimientos lingsticos, el cual proporciona al motor de exploracin contextual el conjunto de reglas potencialmente aplicables. Un lenguaje de descripcin permite al lingista constituir su base de conocimientos especificando las tareas, los indicadores, los ndices y las reglas de exploracin contextual asociadas. Estas ltimas se expresan en un lenguaje formal de tipo declarativo. Cada regla comprende una parte de Declaracin de un Espacio de Bsqueda, una parte de Condicin y una parte Accin, la cual es ejecutada solamente si se verifica la Condicin. Como resultado de la aplicacin de las reglas, se colocan etiquetas semnticas que "decoran" la jerarqua del texto a diversos niveles; por ejemplo, una regla puede atribuir una etiqueta semntica a una oracin. Los agentes especializados tienen por objetivo explotar las "decoraciones semnticas" del texto en funcin de las necesidades definidas por el usuario. Hay entonces un agente que construye un resumen compuesto de oraciones del texto de entrada que corresponden a un perfil tipo y un agente que construye diferentes extractos del texto de entrada en funcin de perfiles seleccionados por el usuario. Estos agentes especializados permiten desarrollar tratamientos especficos para un

iii)

3. Una plataforma para el MEC

informtica

En el equipo LaLIC del CAMS se han desarrollado diversas investigaciones destinadas a identificar ciertas informaciones semnticas a partir de marcas de superficie: identificar las acciones en textos tcnicos (Garca 1998) ; identificar las relaciones causales entre situaciones (Jackiewicz 1998) ; identificar las definiciones de trminos propuestos explcitamente o implcitamente por un autor (Cartier 1998) ; identificar los anuncios temticos puestos en evidencia por un autor (Cartier 1998) ; Actualmente se est trabajando sobre una plataforma informtica (ContextO) capaz de soportar las diferentes aplicaciones del MEC. Este trabajo se est desarrollando en el marco del programa ECOS (Francia Uruguay, Accin n U97E01) para el desarrollo de proyectos conjuntos de investigacin cientfica entre Uruguay y Francia. La colaboracin es llevada a cabo

usuario explotando el modelo genrico de tratamiento de conocimientos lingsticos. El sistema de gestin de conocimiento lingstico tiene por objetivo agrupar en una base de datos general las diferentes tareas definidas en los sistemas de exploracin contextual. Se trata de un sistema no slo capaz de permitir el acceso a los datos lingsticos, sino tambin de facilitar la adquisicin, la modelizacin, la explotacin y la posibilidad de compartir esos datos lingsticos. Este sistema tiene tres componentes: una base de datos lingsticos de la exploracin contextual una capa de servicios de bsqueda y extraccin de datos lingsticos de la exploracin contextual herramientas de ayuda a la adquisicin y la modelizacin de conocimientos lingsticos de la exploracin contextual

Por ejemplo, el verbo presenta flexin de tiempo, nmero y persona. Estas son propiedades gramaticales de la categora verbal. As, en el caso de la forma verbal canto, el morfema -o indica persona:primera, nmero:singular y tiempo:presente del modo indicativo. En cambio, en la forma verbal cantaron la desinencia verbal -aron indica persona:tercera, nmero:plural y tiempo:pretrito perfecto simple del modo indicativo. (Real Academia Espaola 1973) El adjetivo, en cambio, presenta flexin de gnero y nmero. Por ejemplo, en blancos, el morfema o indica gnero masculino y el morfema s indica nmero plural. Por otro lado, los indicadores llevan asociado un tipo que definimos como simple, continuo o discontinuo dependiendo de la composicin de los mismos. Si el indicador consta de una sola unidad lxica, es decir que se compone de una sola palabra, decimos que es un indicador simple. En cambio, si la unidad lxica consta de dos o ms palabras adyacentes, decimos que el indicador es complejo continuo. Finalmente, si el indicador est compuesto por dos o ms palabras entre las cuales pueden intercalarse otros elementos, se trata de indicadores complejos discontinuos. Dado que la continuidad o discontinuidad se aplica slo a indicadores complejos, podemos simplificar la expresin diciendo que el valor asociado al argumento tipo del atributo ser simple, continuo o discontinuo. Son ejemplos de los casos mencionados los siguientes: Indicadores simples: demostrar, desarrollar, exponer, explicar, presentar Indicadores continuos: en resumen, en sntesis, en suma, para resumir Indicadores discontinuos: tratar...de, no es...sino, poner...el acento en Con el objetivo de representar formalmente estas propiedades, definimos atributos. Los atributos se asocian a cada una de las propiedades consideradas relevantes con el fin de caracterizar cada tipo de unidad lxica. As tendremos que la categora

4. Organizacin conceptual de los marcadores


La base de conocimientos para el tratamiento de textos en francs cuenta actualmente con aproximadamente 11.000 marcadores (indicadores e ndices) y unas 250 reglas de exploracin contextual. Nosotros hemos comenzado un trabajo de construccin de bases para el tratamiento de textos en castellano, apoyndonos en las ya existentes para el francs. Hasta el presente hemos completado la informacin necesaria para captar anuncios temticos, conclusiones, e identificacin de acciones en textos tcnicos. En este trabajo hemos definido algunos criterios para la organizacin conceptual de ndices e indicadores que presentaremos en lo que sigue de esta seccin. Los ndices y los indicadores que se emplean en el MEC son unidades lxicas y sintagmticas, es decir, verbos, sustantivos, adjetivos, adverbios y conjunciones, para los primeros, y sintagmas nominales, verbales, preposicionales y otros, para los segundos. Cada una de estas unidades posee propiedades que las caracterizan.

gramatical es un atributo, en tanto que el gnero, tiempo, nmero y persona tambin lo son. A su vez, las unidades lxicas se agrupan en conjuntos. Y una misma unidad lxica puede pertenecer a varios conjuntos a la vez. Por su parte los conjuntos tambin tienen propiedades que los caracterizan. Hay conjuntos homogneos y conjuntos heterogneos. Un conjunto homogneo es aquel en el que todos sus elementos pertenecen a la misma categora gramatical, mientras que en un conjunto heterogneo los miembros pertenecen a distintas categoras gramaticales. De manera que hay atributos asociados al conjunto y atributos asociados a los elementos del conjunto. Por lo tanto, a grandes rasgos, un conjunto se compone de: atributos1 del conjunto atributos de los elementos del conjunto elementos del conjunto A continuacin presentamos un ejemplo de conjunto:

En estos casos cuando decimos atributos significa el par (nombre del atributo: valor del atributo)

Conjunto de SUSTANTIVOS: Conjunto Atributos del conjunto: Nombre: Descripcin:

introduce-tema sustantivos que introducen la temtica del texto. contexto: el X de este texto

Tipo conjunto: Nivel:

homogneo 1 (los elementos del conjunto son unidades lxicas)

Atributos de los elementos del conjunto: tipo del indicador: {simple} categora gramatical: sustantivo atributos: gnero: nmero: Cuerpo: {femenino, masculino} {singular, plural} {hiptesis, motivo, motivos, objetivo, objetivos, planteo, planteos, premisa, premisas, problema, problemas, problemtica, problemticas propsito, propsitos, sujetos, tema, temas, temtica, temticas, tesis}

Fin-Conjunto

5.

Conclusiones

mostrando su flexibilidad y su potencialidad para constituir una base multilinge. Por otra parte, la organizacin de marcadores que presentamos en este trabajo, permite un manejo no slo productivo para el tratamiento de textos, sino que tambin brinda al lingista condiciones para realizar un trabajo conceptual y sistemtico que permitir enriquecer la calidad de los trabajos basados en el mtodo.

La plataforma ContextO est actualmente operativa con una base de conocimientos que permite un tratamiento bastante completo de textos en francs. Pensamos que su arquitectura, que privilegia el concepto de componentes de software y de agentes especializados, la hace apta para representar diferentes tipos de tratamiento lingstico ya que es posible definir nuevas bases de conocimiento para nuevas tareas de etiquetado semntico. En particular, la incorporacin de marcadores para el tratamiento del castellano nos est

Referencias Bibliogrficas
Cartier, Emmanuel. (1998). Analyse automatique des textes : lexemple des informations dfinitoires. RIFRA98, Rencontre Internationale sur lExtraction le Filtrage et le Rsum Automatiques. Sfax, Tunisie. Crispino, Gustavo; Ben Hazez, Slim; Minel, Jean-Luc (1999). Architecture logicielle de ContextO plate-forme d'ingnierie linguistique. TALN 1999, Cargse, France, 12-17 juillet 1999

Descls, Jean-Pierre, Christophe Jouis, Hum-Ghum Oh, Danile Maire Reppert. (1991). Exploration Contextuelle et smantique : un systme expert qui trouve les valeurs smantiques des temps de l'indicatif dans un texte. In Knowledge modeling and expertise transfer, pp.371-400, D. Herin-Aime, R. Dieng, J-P. Regourd, J.P. Angoujard (ds), Amsterdam. Descls, Jean-Pierre. (1996). Systmes d'exploration contextuelle. Actes du colloque sur le Calcul du sens et contexte. Universit de Caen. Descls, Jean-Pierre, Emmanuel Cartier, Agata Jackiewicz, Jean-Luc Minel. (1997). Textual Processing and Contextual Exploration Method. In CONTEXT'97, Rio de Janeiro, Brasil. Garca, Daniela. (1998). Analyse automatique des textes pour l'organisation causale des actions. Ralisation du systme informatique COATIS. Thse de Doctorat, Universit ParisSorbonne. Jackiewicz, Agata. (1998). L'expression de la causalit dans les textes. Contribution au filtrage smantique par une mthode informatique d'exploration contextuelle. Thse de Doctorat, Universit Paris-Sorbonne. Pazienza, M.T. (1997) (d.). Information extraction (a multidisciplinary approach to an emerging information technology), International Summer School, SCIE'97, Springer Verlag (Lectures Notes in Computer Science). Real Academia Espaola (1973). Esbozo de una nueva gramtica de la lengua espaola, 1973, Madrid:Espasa-Calpe