Você está na página 1de 14

UN MTODO PARA LA DESAMBIGUACIN SINTCTICA DE

TIPO COORDINATIVO Y PREPOSICIONAL

A METHOD FOR COORDINATIVE AND PREPOSITIONAL


SYNTACTIC DISAMBIGUATION

CARLOS ZAPATA
Grupo de Ingeniera de Software, Escuela de Sistemas, Universidad Nacional de Colombia, czapata@unal.edu.co

KARLA PALOMINO
Grupo de Ingeniera de Software, Escuela de Sistemas, Facultad de Minas, Universidad Nacional de Colombia, Sede Medelln

ROBERTO ROSERO
Grupo de Ingeniera de Software, Escuela de Sistemas, Facultad de Minas, Universidad Nacional de Colombia, Sede Medelln

Recibido para revisar Febrero 17 de 2007, aceptado Mayo 18 de 2007, versin final Mayo 28 de 2007

RESUMEN: El procesamiento del lenguaje Natural (PLN) investiga y formula mecanismos computacionales que
permiten la comunicacin hombre-mquina. Conceptualmente, un sistema de PLN se divide en tres procesos
principales: anlisis morfolgico, sintctico y semntico. En cada uno de estos procesos es factible que se presenten
mltiples interpretaciones de una misma palabra o frase, segn sea el proceso que se est llevando a cabo; estas
interpretaciones dan origen al concepto de ambigedad. Para resolver la ambigedad se han propuesto mtodos
basados en estadstica, inteligencia artificial y mtodos hbridos, los cuales an presentan dificultades como el alto
consumo de recursos lxicos y computacionales y el uso de elementos pertenecientes a dominios restringidos. En
este artculo se propone un mtodo que incluye la definicin de un conjunto de reglas heursticas para desambiguar
frases que poseen ambigedad sintctica de tipo coordinativo y preposicional. Adems, se muestra la
implementacin del mtodo en el lenguaje python y, combinada con herramientas del paquete NLTK, y se presentan
dos casos de estudio para ejemplificar el mtodo.

PALABRAS CLAVE: Procesamiento del Lenguaje Natural, Anlisis sintctico, Informacin sintctica y semntica,
Ambigedad sintctica Coordinativa, Ambigedad sintctica preposicional, Desambiguacin.

ABSTRACT: Natural Language Processing (NLP) have researched and formulated computational mechanisms to
ease Human-Computer Interaction (HCI). From the conceptual point of view, a NLP system can be divided into three
main processes: morphology, syntax and semantics. Every process has to deal with multiple interpretations for the
same word or phrase; as a result, ambiguity is originated. To solve ambiguity, statistics-based, artificial-intelligence-
based, and hybrid methods have been proposed; however, there are still difficulties to be solved, for example wasting
of lexical and computational resources and using of restricted-domain elements. Here in this paper we propose a
method for solving coordinative and prepositional syntactic ambiguity; this method includes the definition of a set of
heuristic rules. Also, we show the implementation of the method using the python language in conjunction with the
Natural Language Tool Kit (NLTK), and we exemplify disambiguation of two case studies.

KEYWORDS: Natural Language Processing, Syntactic Analysis, Syntactic and Semantic Information, Coordinative
and Preposition Syntactic Ambiguity, Disambiguation.

Dyna, Ao 75, Nro. 156, pp. 29-42. Medelln, Noviembre de 2008. ISSN 0012-7353
30 Zapata et al

1. INTRODUCCIN estadsticos y de los basados en IA.En general,


todos los mtodos restringen la sintaxis, el
El procesamiento del lenguaje natural (PLN) vocabulario y el dominio del texto que se desea
trata los fenmenos lingsticos de forma analizar [5]; sin embargo, existen algoritmos que
Mecanizada mediante sistemas de cmputo [1]. ofrecen buenos resultados para un lenguaje
Se define adems, como una parte esencial de la restringido, es decir, definido por una gramtica
Inteligencia Artificial que investiga y formula de cobertura limitada [5].
mecanismos que sean computacionalmente En este artculo se propone un mtodo de
efectivos y que faciliten la interaccin hombre- desambiguacin sintctica para un texto escrito
mquina [2]. El PLN surge como una necesidad en espaol. El mtodo se basa en reglas
de automatizar tareas que en la actualidad heursticas que permiten identificar
requieren mucho tiempo para ser realizadas. ambigedades de tipo coordinativo y de tipo
Conceptualmente, un sistema de PLN divide el preposicional, permitiendo la obtencin de los
anlisis de un texto en los siguientes niveles: rboles sintcticos ms probables para cada una
anlisis morfolgico, anlisis sintctico y de las frases que hacen parte del texto.
anlisis semntico [1], [2], [3]. A su vez, estas
tareas comprenden otros procesos, que permiten El artculo est organizado as: en la Seccin 2 se
extraer y evaluar diferentes tipos de informacin muestra el marco terico que fundamenta los
que contribuyen al anlisis global de un texto. conceptos concernientes al lenguaje natural; en
En comparacin con otros lenguajes, el espaol la Seccin 3 se hace una revisin de los mtodos
es bastante complejo, pues su interpretacin se de desambiguacin sintctica que se han
encuentra limitada por la variabilidad de su desarrollado; en la Seccin 4 se propone un
estructura y la precisin y elaboracin de sus mtodo de desambiguacin sintctica para un
reglas de formacin [4]. Estas caractersticas texto escrito en lenguaje natural que identifica
generan problemas de ambigedad (diferentes ambigedades de tipo coordinativo y de tipo
significados para una misma oracin), que preposicional; en la Seccin 5 se presenta la
dependen del tipo de anlisis que se est aplicacin del mtodo, resultados y dificultades;
llevando a cabo. Desde el punto de vista en la Seccin 6 se plantean conclusiones acerca
sintctico, la ambigedad genera diferentes del trabajo realizado y el trabajo futuro que se
representaciones para una misma frase [1]. deriva a partir del mtodo propuesto.
Con el fin de interpretar el lenguaje natural,
algunos grupos de investigacin han estudiado
los diversos tipos de ambigedad, sus causas y 2. MARCO TERICO
posibles soluciones. Para corregir este problema,
se han propuesto, probado e implementado El procesamiento del lenguaje natural (PLN) ha
diversas estrategias de desambiguacin; algunas surgido como una solucin a los obstculos de
de ellas se han basado en mtodos estadsticos tipo lingstico que se generan en la bsqueda de
[5], [7], [8], [9]; otras estrategias se fundamentan informacin; en esta bsqueda, el hombre ha
en tcnicas de inteligencia artificial [10], [11]; optado por automatizar tareas que en la
tambin se han expuesto mtodos hbridos que actualidad requieren mucho tiempo para ser
han logrado mejores resultados [12]. realizadas.
Los mtodos de desambiguacin actuales El procesamiento del lenguaje natural (PLN)
continan presentando limitaciones para la trata todo tipo de fenmenos lingsticos de
resolucin del problema de la ambigedad. Los forma automtica [1], y se define como una parte
mtodos estadsticos consumen muchos recursos esencial de la Inteligencia Artificial que
tanto computacionales como lxicos; los investiga y formula mecanismos que sean
mtodos basados en inteligencia artificial hacen computacionalmente efectivos y que faciliten la
uso de ontologas o redes semnticas que se interaccin hombre-mquina [2]. De ah la
encuentran restringidas a dominios especficos; importancia que ha venido adquiriendo el PLN,
los mtodos hbridos, en consecuencia, presentan ya que no solamente se estn solucionando
las mismas limitaciones de los mtodos problemas lingsticos, sino que implcitamente
Dyna 156, 2008 31

se est reduciendo el tiempo de procesamiento Ambigedad Semntica: Ocurre cuando una


de la informacin. oracin posee ms de un significado o
sentido; se refiere a fenmenos como la
Conceptualmente, un sistema de PLN divide el homonimia y la polisemia, en los cuales la
anlisis de un texto en los siguientes niveles: misma palabra puede tener distintos
anlisis morfolgico, anlisis sintctico y significados [1], [2], [3], [8].
anlisis semntico [1], que se pueden definir as:
3. REVISIN DEL ESTADO DEL ARTE
Anlisis morfolgico: consiste en determinar
la forma, clase o categora gramatical de cada
La ambigedad, en el proceso lingstico, puede
palabra que hace parte de una oracin,
presentarse cuando es posible admitir diferentes
haciendo lo que se conoce como etiquetado
interpretaciones a partir de la representacin de
morfolgico.
una oracin; tambin, se presenta cuando existe
Anlisis sintctico: consiste en determinar las confusin al tener diversas estructuras
funciones de las palabras o grupos de asociadas a la misma oracin. Para
palabras dentro de la oracin. desambiguar, es decir, para seleccionar los
significados o estructuras ms adecuados de un
Anlisis semntico: consiste en asignar conjunto conocido de representaciones, se
significados a las estructuras generadas por el requieren diversas estrategias de solucin que
analizador sintctico, es decir se establecen dependen del tipo de ambigedad que presente
correspondencias entre las estructuras una frase u oracin [15].
sintcticas y cada palabra dentro de un Con el fin de interpretar automticamente el
dominio. lenguaje natural, se han adelantado estudios
acerca de los diversos tipos de ambigedad que
Para la realizacin de estos anlisis, existen puede presentar un texto, sus causas y posibles
herramientas tales como el MPRO [13] y el soluciones. Para corregir el problema de la
NLTK (Natural Language Tool Kit) [14], que ambigedad, se han propuesto, probado e
permiten realizar algunos pasos del proceso de implementado diversas estrategias de
anlisis, pero que no poseen mdulos de desambiguacin. Sin embargo, persisten algunas
desambiguacin; el trazado de los rboles limitaciones en cuanto a los textos que se deseen
sintcticos de NLTK, por ejemplo, se usar para analizar, ya que se encuentran restringidos a un
la propuesta que se presenta en este artculo. dominio especfico.
Debido a la variabilidad de la gramtica El espaol ha sido uno de los lenguajes ms
espaola, a la precisin y elaboracin de las difciles de tratar, puesto que la mayora de los
reglas de formacin del espaol [6], las tareas de recursos lxicos disponibles se encuentran en
anlisis se dificultan, ya que se presentan ingls y para el procesamiento del espaol se
diferentes tipos de ambigedad durante cada cuenta con recursos muy limitados.
nivel de anlisis, as: Actualmente existen varios mtodos de
desambiguacin de un texto. Estos mtodos se
Ambigedad Morfolgica: Ocurre cuando clasifican en: mtodos estadsticos, mtodos de
una palabra que se encuentra en una oracin inteligencia artificial y mtodos hbridos.
representa ms de un rol sintctico o
categora gramatical dentro de la misma [1], 3.1 Trabajos basados en mtodos estadsticos
[2], [3].
En [5] se muestra un mtodo supervisado de
Ambigedad Sintctica: Se presenta cuando desambiguacin del sentido de las palabras
una oracin tiene asociada ms de una basado en los modelos de Markov (MM)
representacin sintctica, es decir, cuando especializados; estos mtodos utilizan matrices
ms de una regla gramatical representa dicha de probabilidades, donde cada estado
oracin [1], [2], [3]. corresponde a una categora morfosintctica y el
32 Zapata et al

nmero de estados corresponde al nmero de encuentran ordenados de mayor a menor, de


categoras asociadas a una palabra. El mtodo acuerdo con la importancia que tenga la palabra
consiste en dos tareas fundamentales: la en el dominio.
seleccin de las caractersticas relevantes para la En general, los mtodos estadsticos, aunque
tarea de desambiguacin, mediante la definicin resuelven algunos problemas de ambigedad,
del alfabeto de smbolos utilizado en un MM, y consumen muchos recursos lxicos y
la especializacin o redefinicin de los estados computacionales, lo cual los hace mtodos poco
del modelo a partir de la informacin disponible convenientes para el espaol [18]. Adems estos
en los datos de entrenamiento. Este mtodo mtodos son muy especializados, ya que
requiere recursos computacionales que son recurren a frmulas y estudios complejos que
escasos para el idioma espaol, como es el caso hacen necesaria la presencia de un experto, si se
de los corpus anotados semnticamente. desea mejorar el resultado.
En [7] se muestra un mtodo probabilstico,
basado en una gramtica lexicalizada (gramtica
que proporciona mayor informacin sintctica 3.2 Trabajos basados en tcnicas de
por cada categora gramatical). El mtodo inteligencia artificial
combina probabilidades sintcticas, las cuales
permiten seleccionar una categora sintctica de En [10] se expone un mtodo de resolucin de
un conjunto de categoras asociadas a una ambigedad lxica basado en el Modelo de
palabra, y probabilidades semnticas, que Espacio Vectorial (MEV). Cada sentido de una
posibilitan la seleccin de una regla sintctica palabra es representado con un vector, as como
entre un conjunto de reglas asociadas a una el contexto de la palabra a desambiguar. Las
oracin. entradas del algoritmo estn representadas por
En [8] se propone un mtodo de aprendizaje los vectores, que son procesados mediante el
supervisado a partir de un corpus de textos algoritmo LVQ (Learning Vector Quantization).
anotados semnticamente para la resolucin de Mediante una funcin de similitud se comparan
la ambigedad semntica de las palabras. Se los vectores que representan el contexto de cada
necesita una fase previa de aprendizaje antes de palabra a desambiguar con cada uno de los
poder construir y almacenar un clasificador para vectores de sus sentidos. El sentido representado
cada palabra; en esta fase se recogen los por el vector de mayor similitud ser el
ejemplos del corpus y se incorporan al modelo designado como sentido desambiguado.
de probabilidad para hacer la estimacin de la En [11] se propone un mtodo para la solucin
funcin de clasificacin. El mtodo utiliza los de la ambigedad estructural a partir de
Modelos de Mxima entropa (MME) para suposiciones previas acerca del contexto de la
realizar la asignacin de sentidos a cada palabra frase. La representacin de la frase que cumpla
y un algoritmo de aprendizaje que permite el mayor nmero de suposiciones, ser la
estudiar los ejemplos y asignar pesos a las elegida. Esta tcnica de desambiguacin en el
palabras que hacen parte de los mismos. Los lenguaje espaol, y otras relacionadas con la
MME se exponen de una forma ms amplia en Inteligencia Artificial, por ejemplo mediante
[16]. redes neuronales, pueden no resultar apropiadas
En [9] se propone un mtodo de desambiguacin ni precisas. Por ejemplo, en el entrenamiento de
lxica. El mtodo consiste en asignar una red neuronal (RN), o en la calibracin de los
automticamente el sentido de las palabras que vectores empleados en [10], se requieren
aparecen dentro del contexto de una oracin, repositorios de informacin muy extensos (redes
recurriendo a WordNet Domains [17], el cual se semnticas, ontologas especficas de un dominio
usa para recopilar ejemplos de los diferentes particular, lexicones o corpus), para llegar a una
dominios asociados con los significados solucin coherente; esos repositorios son escasos
semnticos de las palabras. El valor agregado de para el lenguaje espaol [18], o pueden
esta propuesta es que etiqueta cada palabra, pertenecer a dominios muy restringidos, lo cual
asignndole los dominios a los cuales puede limita la aplicacin a esos dominios especficos
pertenecer dicha palabra. Los dominios se [18], [19].
Dyna 156, 2008 33

3.3 Trabajos con mtodos hbridos herramientas, mdulos y tutoriales de


procesamiento de lenguaje natural basado en el
En [12] se propone un mtodo de resolucin de lenguaje de programacin python [20]. En el
la ambigedad estructural haciendo uso de segundo paso, se procede a determinar el tipo de
informacin lxica, sintctica y semntica. Se ambigedad sintctica que presenta la frase, ya sea
combinan tres tcnicas que son: reglas de tipo coordinativo, o de tipo preposicional. El
ponderadas, patrones de manejo y proximidad tercer paso es la desambiguacin como tal, que
semntica. El mtodo contiene mdulos que depende del tipo de ambigedad que haya sido
arrojan variantes con pesos y se encargan de detectada. En el cuarto y ltimo paso, se realiza el
recopilar y procesar los pesos arrojados. Estos despliegue de resultados; en este paso, la
mdulos son: aplicacin implementada durante el proyecto
El mdulo de reglas ponderadas, que trabaja muestra grficamente el (los) rbol(es) sintctico(s)
con una gramtica independiente del con su respectiva frase de origen ya
contexto, una gramtica computacional y un desambiguado(s). El segundo, tercero y cuarto
analizador sintctico tipo chart. pasos son los aportes especficos de esta propuesta
y fueron programados tambin en el lenguaje
El mdulo de patrones de manejo, que python por los autores.
emplea informacin lxica de verbos,
adjetivos y algunos sustantivos, que obtiene a A continuacin se detalla cada uno de los pasos
partir de un corpus del espaol. que se llevan a cabo para lograr la desambiguacin
sintctica de una frase:
El mdulo de proximidad semntica, que
obtiene el grado de proximidad de una
Anlisis sintctico:
palabra o grupo de palabras a partir de una
red semntica existente. El anlisis sintctico es realizado mediante la
herramienta NLTK, la cual provee dos tipos de
El mdulo de votacin, que se encarga de algoritmos para este anlisis. El primero es un
recopilar los valores arrojados por cada uno mtodo recursivo; el segundo es un mtodo
de los mdulos explicados anteriormente y bottom_up llamado chart_parser, que funciona de
elegir la(s) estructura(s) sintctica(s) forma iterativa.
correcta(s) segn la evaluacin de cada
mdulo. Para el anlisis sintctico se elige el mtodo
Al igual que los mtodos basados en IA, los iterativo, ya que ha demostrado ser ms eficiente
mtodos hbridos requieren recursos que en general que los mtodos recursivos, en cuanto a tiempo de
no estn disponibles para dominios amplios. ejecucin [14].
Adems, como ocurre con los mtodos estadsticos,
el consumo de recursos computacionales puede La aplicacin se encarga de leer un archivo de
llegar a ser alto. texto que contiene un subconjunto de reglas
sintcticas que hacen parte de la gramtica de
contexto libre elegida; este subconjunto est
4. PLANTEAMIENTO DEL MTODO DE conformado por las estructuras sintcticas ms
SOLUCIN comunes del espaol. El archivo contiene adems
un conjunto de palabras con su respectivo rol
En este artculo, se propone un mtodo de
sintctico asociado.
desambiguacin que pretende disminuir el nmero
representaciones sintcticas de una frase que Determinacin del tipo de ambigedad
presenta ambigedad originada en las conjunciones
o en las preposiciones. El mtodo se divide en Cuando la frase ha sido analizada sintcticamente,
cuatro pasos; el primero de ellos es el anlisis la aplicacin, empleando un nuevo mdulo
sintctico de la frase, que es realizado mediante el programado en el desarrollo de este trabajo, se
mdulo de anlisis sintctico del Natural Language procede a identificar el tipo de ambigedad
Tool Kit (NLTK) [14], un conjunto de sintctica que presenta la frase. En el contexto de
34 Zapata et al

este artculo, los tipos de ambigedad sintctica 4.1 Alcance del mtodo
pueden ser:
Las preposiciones y conjunciones en el espaol, se
- Ambigedad Sintctica Coordinativa: se puede clasifican en diferentes grupos. Las preposiciones
presentar cuando una oracin contiene ms de una se clasifican en separables e inseparables y las
palabra de tipo conjuncin. Esta ambigedad puede conjunciones, segn la funcin de correlacin que
ser copulativa, disyuntiva o mixta. cumplen en la oracin, se dividen en coordinantes
y subordinantes; dentro del grupo de las
- Ambigedad Sintctica Preposicional: se puede
conjunciones subordinantes se encuentran otros
presentar, cuando una oracin contiene una palabra
subgrupos que son: copulativas, disyuntivas,
de tipo preposicin.
adversativas y alternativas. Finalmente en el grupo
Cuando se identifica el tipo de ambigedad, se de las conjunciones subordinantes se encuentran
muestran los rboles sintcticos correspondientes a los subgrupos de conjunciones: causales,
las estructuras sintcticas que representan la frase y comparativas, condicionales, continuativas, ilativas
el tipo de ambigedad que presenta. Sin embargo, y finales.
es posible que la frase no presente ambigedad El mtodo que aqu se propone identifica las
sintctica; en este caso se despliega una sola preposiciones separables para realizar el anlisis
representacin sintctica y se notifica que la frase sintctico de la frase, pero se define un nuevo
no presenta ambigedad. subconjunto de preposiciones separables
posiblemente ambiguas, que permitirn determinar
la ambigedad sintctica preposicional presente en
Desambiguacin una frase dada. En la Tabla 1 se muestran las
Luego de identificar el tipo de ambigedad que preposiciones separables, y cules de ellas son
presenta la frase, se procede a aplicar las reglas consideradas como posibles preposiciones
correspondientes a la desambiguacin; si la ambiguas segn las reglas definidas por el mtodo.
ambigedad sintctica es de tipo coordinativo, la Sin embargo, la informacin sintctica de las
aplicacin se encarga de identificar el tipo de las palabras que conforman una frase, no es suficiente
conjunciones que hacen parte de la frase, y calcular para llevar a cabo la desambiguacin preposicional
el nivel de profundidad al que se encuentran dentro de la misma; es por ello que se hace necesaria la
de la representacin grfica o rbol sintctico. introduccin de informacin semntica de la
Dado el caso de que la ambigedad identificada sea preposicin que genera ambigedad y de las
de tipo preposicional, el sistema se encarga de palabras que la acompaan en la frase [21].
identificar las preposiciones que conforman la frase
y luego procede a consultar en un archivo los En la Tabla 1 tambin se pueden observar los
sentidos asociados a cada preposicin y las sentidos que representan las diferentes
palabras con sus roles semnticos asociados. preposiciones y que son aceptados por el mtodo.
Ambas estrategias de desambiguacin se Para llevar a cabo la tarea de desambiguacin
encuentran definidas por ciertas reglas heursticas sintctica coordinativa, el sistema comienza
que han sido inferidas, implementadas y aplicadas reconociendo las conjunciones que hacen parte de
en diferentes casos de estudio (Vase Seccin 4.2) la frase, y que se han definido previamente como
por los integrantes del proyecto. conjunciones reconocidas por el sistema (Vanse
Tablas 2 y 3). Para la posterior desambiguacin, el
mtodo define un nuevo grupo de conjunciones
conformado por aqullas que posiblemente generen
Despliegue de resultados
ambigedad coordinativa dentro de la frase; estas
Luego de aplicar la estrategia de desambiguacin, conjunciones son: Y, O, E, U.
el sistema muestra grficamente el (los) rbol(es) Para llevar a cabo la desambiguacin de una frase
sintctico(s) que segn las reglas heursticas dada, el mtodo que se propone parte de ciertas
definidas no son ambiguos sintcticamente. suposiciones que son:
Dyna 156, 2008 35

Se cuenta con un corpus etiquetado que se Tabla 3. Conjunciones Subordinantes


encuentra desambiguado morfolgicamente. Table 3. Subordinative Conjunctions
Se cuenta con la informacin sintctica de los Conjunciones subordinantes
sustantivos, correspondiente al rol Causales Comparativas Condicionales
desempeado en la frase.
Las frases a desambiguar corresponden con al Pues Como Si
menos una de las reglas sintcticas que hacen Porque
parte de la gramtica utilizada. Conjunciones subordinantes
Finales Ilativas Temporales
Tabla 1. Preposiciones Separables posiblemente Para Aunque Cuando
ambiguas y sentidos aceptados para las preposiciones Porque Luego Antes
ambiguas Pues Luego
Table 1. Separable and possibly ambiguous Despus
prepositions and accepted senses for them
Estas suposiciones, permiten desarrollar el mtodo,
Preposiciones
Preposiciones
Sintacticamente Sentido
pero no es necesaria la existencia de estos
Separables requisitos para que sea posible la aplicacin del
ambiguas
Lugar mtodo de desambiguacin.
A X Tiempo
Instrumento 4.2 Reglas Heursticas
Ante
Bajo
Cabe El mtodo est basado en reglas heursticas, las
Contenido cuales fueron identificadas e inferidas por los
Con X Compaa autores despus de un proceso de anlisis de
Instrumento mltiples frases que presentaban los tipos anotados
Contra
de ambigedad. Estas reglas heursticas han sido
Materia
De X Pertenencia divididas en tres grupos, para su mayor
Origen comprensin y facilidad en la implementacin:
Desde
Lugar Reglas de identificacin de la ambigedad:
En X
Tiempo
Entre
Hacia Estas reglas permiten determinar qu tipo de
Hasta ambigedad sintctica presenta una frase.
Para
Por Regla 1: Si una frase contiene ms de una
Segn conjuncin sintcticamente ambigua y dichas
Sobre conjunciones pertenecen al grupo de conjunciones
Tras coordinantes copulativas entonces la frase presenta
ambigedad coordinativa copulativa.
Tabla2. Conjunciones Coordinantes
Table 2. Coordinative conjuctions
En la frase: Mara y Pedro y David estudian ingls
Conjunciones coordinantes se presenta este tipo de ambigedad, ya que se
Copulativas Disyuntivas Adversativas identifican dos conjunciones copulativas
consideradas por el sistema como posiblemente
Y O Aunque ambiguas.
E U Pero
Ni Sea Mas Regla 2: Si una frase contiene ms de una
Que Bien Empero
conjuncin sintcticamente ambigua y dichas
Sino
conjunciones pertenecen al grupo de conjunciones
coordinantes disyuntivas, entonces la frase presenta
Siquiera
ambigedad coordinativa disyuntiva.
36 Zapata et al

En el caso: Mara o Pedro o David estudiarn sustantivo que acte o represente un punto en el
ingls se identifican dos conjunciones disyuntivas tiempo, entonces la preposicin es de tiempo.
consideradas posiblemente ambiguas, por lo tanto Regla 5.1.3 Si la preposicin se encuentra sucedida
segn la regla, la frase presenta ambigedad por un sintagma nominal cuyo ncleo sea un
coordinativa disyuntiva. sustantivo que acte o represente un medio o
instrumento, entonces la preposicin es de
Regla 3: Si una frase contiene ms de una Instrumento.
conjuncin sintcticamente ambigua y dichas
conjunciones pertenecen al grupo de conjunciones Regla 5.2 La preposicin es con:
coordinantes disyuntivas o al grupo de
Regla 5.2.1 Si la preposicin se encuentra sucedida
conjunciones coordinantes copulativas entonces la
por un sustantivo que puede representar
frase presenta ambigedad coordinativa mixta.
instrumento entonces la preposicin es de
instrumento
En la frase: Mara y Pedro o David estudiarn
Regla 5.2.2 Si la preposicin se encuentra sucedida
ingls se identifica una conjuncin disyuntiva y
por un sustantivo que acte o represente una
otra copulativa, que indican que la frase presenta
persona u objeto animado entonces la preposicin
una ambigedad coordinativa mixta.
es de compaa.
Regla 5.2.3 Si la preposicin se encuentra sucedida
Regla 4: Si una frase contiene al menos una
por un sustantivo que acte o represente una
preposicin separable, que sea sintcticamente
sustancia o material entonces la preposicin es de
ambigua entonces la frase presenta ambigedad
contenido.
preposicional.
Regla 5.3 La preposicin es de:
La frase: Juan va a la fiesta con la novia contiene
dos preposiciones: la primera de ellas es la Regla 5.3.1 Si la preposicin se encuentra sucedida
preposicin a y la segunda es la preposicin por un sustantivo que puede representar un tipo de
con; estas preposiciones son agrupadas por el material entonces la preposicin es de materia.
sistema como separables y posiblemente ambiguas. Regla 5.3.2 Si la preposicin se encuentra sucedida
por un sustantivo que acte o represente una
Reglas de extraccin de informacin persona o en general un objeto animado entonces la
semntica: preposicin es de pertenencia.
Regla 5.3.3 Si la preposicin se encuentra sucedida
Estas reglas permiten reunir la informacin por un sustantivo que acte o represente un lugar
semntica necesaria tanto de la(s) preposicin(es) entonces la preposicin es de origen.
que genera(n) ambigedad como de las palabras Regla 5.4 La preposicin es en:
que la(s) acompaan; esta informacin semntica Regla 5.4.1 Si la preposicin se encuentra sucedida
se conoce como roles semnticos de una palabra por un sustantivo que puede representar un lugar
[21]. entonces la preposicin es de lugar.
Si la Regla 4 se cumple, entonces: Regla 5.4.2 Si la preposicin se encuentra sucedida
por un sustantivo que represente un punto en el
Regla 5: Se identifica la preposicin que ha tiempo entonces la preposicin es de tiempo
generado la ambigedad sintctica.
Reglas de desambiguacin:
Regla 5.1 La preposicin es a:
Estas reglas permiten aplicar una estrategia de
Regla 5.1.1 Si la preposicin se encuentra sucedida desambiguacin posterior al cumplimiento de
por un sintagma nominal cuyo ncleo sea un alguna de las reglas de identificacin de la
sustantivo que puede representar locacin, ambigedad.
entonces el sentido de la preposicin es de Lugar. Si se cumple la Regla 1 entonces:
Regla 5.1.2 Si la preposicin se encuentra sucedida
por un sintagma nominal cuyo ncleo sea un Regla 6: Para cada uno de los rboles sintcticos
Dyna 156, 2008 37

generados en el anlisis sintctico, se determina el profundidad para la preposicin con sea la


nivel de profundidad, al cual se encuentra cada una menor.
de las conjunciones presentes en la frase.
Si se cumple la Regla 5.1.3 entonces:
Regla 6.1 Para cada rbol sintctico se suman los
niveles de profundidad hallados en la Regla 6 Regla 10: Se elige la representacin sintctica
correspondientes a las conjunciones copulativas. cuyo nmero de niveles sea el mayor.
Regla 6.2 El rbol sintctico elegido es aquel cuya
suma de niveles de profundidad halladas en la Si se cumple la Regla 5.2.2 entonces:
Regla 6.1 sea la mayor. Si se presentan empates
Regla 11: Se calcula el nivel de profundidad de la
entre las sumas de niveles de profundidad de varios
preposicin con para cada una de las
rboles sintcticos, se presentan todos los rboles,
representaciones grficas.
lo cual implica que slo se pudo aplicar la
desambiguacin hasta ese resultado.
Si se cumple la Regla 5.2.3 entonces:
Si se cumple la Regla 2 entonces: Regla 12: Se calcula el nivel de profundidad de la
preposicin con para cada una de las
Regla 7: Para cada uno de los rboles sintcticos
representaciones sintcticas.
generados en el anlisis sintctico, se determina el
nivel de profundidad, al cual se encuentra cada una
Si se cumple la Regla 5.3.1 entonces:
de las conjunciones presentes en la frase.
Regla 7.1 Para cada rbol sintctico se suman los Regla 13: Se elige la representacin sintctica,
niveles de profundidad hallados en la Regla 6 donde el nivel de profundidad de la preposicin
correspondientes a las conjunciones disyuntivas. de sea el menor.
Regla 7.2 El rbol sintctico elegido es aquel cuya
suma de niveles de profundidad halladas en la Si se cumple la Regla 5.3.2 entonces:
Regla 7.1 sea la mayor. Si se presentan empates
entre las sumas de niveles de profundidad de varios Regla 14: Se elige la representacin sintctica,
rboles sintcticos, se elige nicamente el primero donde el nivel de profundidad calculado de la
de ellos. preposicin de sea el menor.

Si se cumple la Regla 3 entonces: Si se cumple la Regla 5.4.1 entonces:


Regla 15: Se elige la representacin sintctica para
Regla 8: Para cada uno de los rboles sintcticos el cual el nivel de profundidad en el que se
generados en el anlisis sintctico, se determina el encuentra la preposicin de es la mayor.
nivel de profundidad, al cual se encuentra cada una En general, si en cualquiera de los casos se
de las conjunciones presentes en la frase. presentan empates en el nivel de profundidad al
Regla 8.1 Por cada rbol sintctico se comparan que se encuentran las preposiciones, se elijen las
los niveles de profundidad hallados en R8 representaciones que presentan empates.
correspondientes a las conjunciones copulativas
que hayan sido reconocidas.
Regla 8.2 El rbol sintctico elegido es aquel cuyo 5. APLICACIN DEL MTODO Y
nivel de profundidad correspondiente a la(s) RESULTADOS OBTENIDOS
conjunciones copulativas sea el mayor.
Como una forma de validacin de la efectividad de
Si se presentan empates en la Regla 8.1, se eligen las reglas, el mtodo se program en lenguaje
los rboles sintcticos que hayan generados python, como un mdulo complementario a la
empates y que hayan obtenido el mayor nivel de herramienta NLTK, la cual se emplea para la
profundidad. realizacin del anlisis sintctico (en esencia, la
Si se cumple la Regla 5.1.1 entonces: construccin de los rboles sintcticos). El ncleo
del proceso de desambiguacin se basa en las
Regla 9: Se elige la representacin cuyo nivel de
reglas presentadas en la Seccin anterior.
38 Zapata et al

La primera interfaz que presenta la aplicacin, presenta la frase (Vase Figura 3). Para entregar
permite ingresar una frase para ser posteriormente este mensaje, la aplicacin internamente se
analizada y desambiguada (Vase Figura 1). encuentra validando las Reglas 1 a 4 que hace parte
En esta interfaz, el usuario escribe la frase que de las reglas de identificacin de la ambigedad
desea desambiguar y da clic en el botn ingresar; (Vase Seccin 4.2).
internamente, el sistema lleva a cabo el anlisis Posteriormente, el sistema se encarga de aplicar las
sintctico de la frase y muestra los rboles reglas de desambiguacin y finalmente mostrar el
sintcticos correspondientes a la frase ingresada (los) rbol(es) sintctico(s) ya desambiguados
(Vase Figura 2). (Vase Figura 4). Adems, se despliega una
Luego, el sistema muestra un mensaje al usuario ventana que indica las reglas que fueron aplicadas
que le informa el tipo de ambigedad sintctica que en el proceso.

Figura 1. Interfaz para Ingresar Frase


Figure 1. Snapshot of the input-phrase interface

Figura 2. Resultados del Anlisis Sintctico


Figure 2. Results of the Syntactic Analysis

Figura 3. Informacin del Tipo de ambigedad


Figure 3. Information about the ambiguity type
Dyna 156, 2008 39

Figura 4. Resultados de la desambiguacin


Figure 4. Results of the Disambiguation process

A continuacin se presentan dos casos de estudio; nominal representado por la maestra.


el primero de ellos muestra una frase que presenta Tras realizar el anlisis sintctico de la frase, el
ambigedad sintctica coordinativa, mientras que sistema identifica que la frase presenta ambigedad
el segundo est caracterizado por una frase con sintctica coordinativa mixta puesto que Y es
ambigedad sintctica preposicional. En ambos una Conjuncin copulativa, y O una Conjuncin
casos se aplica el mtodo de desambiguacin y se disyuntiva, entonces se cumple la Regla 3; al
muestran los resultados obtenidos durante el cumplirse esta regla, debe llevarse a cabo la
proceso. verificacin de las Reglas 8, 8.1 y 8.2. En este
caso, los resultados favorecen a la representacin
CASO 1: Patricio y Pedro o la maestra grafica 2 (Vase Tabla 4), puesto que el nivel de
estudian profundidad para la conjuncin Y en la
Inicialmente se escribe la frase que se desea representacin 2 es mayor que el nivel de
desambiguar. Luego se da clic en el botn Ingresar profundidad para la conjuncin Y en la
(Vase Figura 1) representacin 1 (Vase Tabla 5).
El anlisis sintctico de la frase genera dos
representaciones sintcticas grficas. Cada una de Tabla 4. Resultados de los niveles de profundidad de
cada representacin sintctica
estas representaciones corresponde a diferentes
Table 4. level depth results for every syntactic
agrupaciones de las categoras gramaticales. En la representation
primera representacin grfica (Vase Figura 2), se
puede observar que la conjuncin Y afecta a Conjuncin Representacin Representacin
Patricio y al grupo nominal conformado por Pedro 1 2
o la maestra. La conjuncin O afecta a Pedro y Y 3 2
O 2 3
la maestra. Esto se puede apreciar por la forma
como se encuentran agrupados los Sintagmas Como en este caso slo se encuentra una
nominales (SNs). ocurrencia por conjuncin, nicamente se compara
el nivel de profundidad de la conjuncin Y
En la segunda representacin (Vase Figura 2) calculado para cada rbol.
sucede que la conjuncin Y afecta a Patricio y a
Pedro. La conjuncin O afecta al grupo nominal En la Figura 4 se presenta el rbol que ha sido
conformado por Patricio y Pedro y al sintagma elegido por el sistema mediante el mtodo de
40 Zapata et al

desambiguacin sintctica para la ambigedad CASO 2: Patricio va a la playa con la novia


sintctica coordinativa mixta del caso de estudio. Los resultados obtenidos tras realizar el anlisis
sintctico de la frase, muestran dos
Tabla 5. Eleccin de la representacin sintctica representaciones sintcticas de la misma. Se
Table 5. Selection of the syntactic representation
identifica una posible ambigedad sintctica de
tipo preposicional, puesto que la frase contiene dos
Nmero Nivel de Representacin
Representacin Profundidad elegida
preposiciones posiblemente ambiguas, que son: a
1 2 y con. El sistema, que emplea el mtodo
2 3 X
propuesto, indica mediante un mensaje cul regla
heurstica se cumple para llegar a concluir qu tipo
de ambigedad posee la frase (Vase la Figura 5).

Figura 5 Resultados del Anlisis Sintctico


Figure 5. Results of the Syntactic Analysis

De igual forma, el sistema procede a mostrar un Sintagma nominal cuyo ncleo est representado
mensaje que seala cules reglas fueron utilizadas por el sustantivo novia que representa una persona,
para resolver la ambigedad de la frase ingresada que corresponde a la regla 5.2.2. (Vase Seccin
(Vase Figura 6) 4.2). Luego de identificados la preposicin y su
posible sentido, se procede a desambiguar la frase
mediante la Regla 10, en este caso se obtienen los
resultados que se muestran en la Tabla 6.
Tabla 6. Eleccin de la representacin sintctica
Table 6. Selection of the syntactic representation
Nmero Nivel de Representacin
Representacin Profundidad elegida
Figura 6 Informacin del Tipo de ambigedad
1 6 X
Figure 6. Information about the ambiguity type
2 4
Para realizar la desambiguacin correspondiente, el
sistema aplica la regla de desambiguacin 5.2, y De la Tabla 6 se infiere que la representacin
Verifica las reglas 5.2.1, 5.2.2 y 5.2.3. En este sintctica elegida segn las reglas heursticas es la
caso, los resultados obtenidos tras la aplicacin de representacin 1 ya que el nivel de profundidad de
dichas reglas fueron: la preposicin con calculado, es mayor que el
Para el caso de la preposicin con, indica nivel calculado para la representacin 2 (Vase
Compaa ya que se encuentra sucedida por el Figura 7).
Dyna 156, 2008 41

Figura 7. Resultados de la desambiguacin


Figure 7. Results of the Disambiguation process

6. CONCLUSIONES Y TRABAJO FUTURO -En relacin con los mtodos empleados en la


literatura, el sistema que implementa esta
-En este artculo se present un mtodo para la propuesta no posee un alto consumo de recursos
desambiguacin de tipo coordinativo y computacionales o lxicos (slo se requiere un
preposicional. Se definieron las reglas heursticas lexicn muy sencillo). Adems, no se necesitan
que permiten definir el tipo de ambigedad que ontologas del dominio ni corpus especficos de
presenta la frase, para posteriormente tratar la ciertos temas, lo que le suministra generalidad para
ambigedad y presentar una o varias estructuras el trabajo de desambiguacin.
que puedan contribuir a precisar el sentido de las -Gracias al lenguaje de programacin python y al
frases, pero tomando en cuenta nicamente el NLTK es posible la integracin tanto de una
anlisis morfolgico y sintctico. interfaz Web como de una base de datos en
-Una ventaja del mtodo propuesto, es que Oracle que permitan lograr una mayor
suministra informacin concerniente al tipo de accesibilidad y robustez del sistema. Este es
ambigedad sintctica de una frase; esta considerado uno de los trabajos que pueden dar
informacin puede ser reutilizada en tareas continuidad a esta propuesta. Igualmente, la
posteriores del procesamiento del lenguaje natural, implementacin de reglas heursticas para otros
que a su vez permitan automatizar diversas tipos de ambigedad se podran considerar como
actividades que involucren este tipo de procesos. extensiones a este trabajo.
El mtodo propuesto hace uso de la herramienta
NLTK [14], la cual ha mostrado buenos resultados
en el campo del PLN, y la complementa con REFERENCIAS
Cdigo desarrollado en el lenguaje de
programacin python [20], que se caracteriza por [1] MOONEY, RAYMOND J. Fundamentals,
su flexibilidad y facilidad de programacin. Estas Parte I caps. II, III, IV, V. Oxford Handbook of
herramientas presentan ventajas para el futuro Computational Linguistics, Oxford University
mejoramiento y actualizacin del sistema. Press. (Ruslan Mitkov Ed.). 2003.
-La desambiguacin y anlisis sintcticos de una
frase se logran mediante la conjugacin de [2] ALLEN, J. Natural language understanding.
diferentes clases de informacin lingstica. El California: The Benjamin/Cummings Publishing
anlisis sintctico de una frase requiere de Company. 1987.
informacin morfolgica y la desambiguacin
[3] HAUSSER, R. Foundations of computational
requiere de informacin sintctica y semntica; es
linguistics: human_computer comunication in
por ello que el anlisis sintctico es considerado
natural language, Berlin: Springer. 2001.
una de las tareas ms complejas y completas que
hacen parte del PLN.
42 Zapata et al

[4] MORENO, L., PALOMAR, M., MOLINA, [13] HALLER, J., DONOSO, A., RAMIREZ,
A., y FERRNDEZ, A. Introduccin al Y. MPRO un programa para el anlisis
Procesamiento del Lenguaje Natural. (Ed. Servicio morfolgico y sintctico de textos en espaol.
de Publicaciones Universidad de Alicante). Procesamiento del Lenguaje Natural, Revista n 29.
Universidad de Alicante. 1999. pp. 307-308. 2002.
[5] MOLINA, A. Desambiguacin en [14] Natural Language Toolkit.
procesamiento del lenguaje natural mediante http://nltk.sourceforge.net/ [Citado 22 de
tcnicas de aprendizaje automtico [PhD tesis]. Noviembre de 2006].
Universidad Politcnica de Valencia Valencia,
2004. [15] GALICIA, HARO S. Anlisis sintctico
conducido por un diccionario de patrones de
[6] ZAPATA, C., ARANGO, F. Los modelos manejo sintctico para lenguaje espaol [PhD].
verbales en lenguaje natural y su utilizacin en la Instituto Politcnico Nacional. Mexico D.F. 2000.
elaboracin de esquemas conceptuales para el
desarrollo de Software: Una revisin crtica. [16] JAYNES, E.T. (Notes on present status and
Revista Universidad EAFIT. Vol. 41. Pp 77-95. future prospects), en W.T. Grandy y L.H. Schick,
2005. editores, Maximum Entropy and Bayesian
Methods. Pp. 1-13. (1990).
[7] MIYAO, Y., TSUJII J. A model of syntactic
[17] MAGNINI, BERNARDO Y C. Strapparava
disambiguation based on lexicalized grammars.
(Experiments in Word Domain Disambiguation for
Memorias La sptima conferencia sobre
Parallel Texts), en Proceedings of the ACL
aprendizaje de Lenguaje natural. Edmonton,
Workshop on Word Senses and Multilinguality,
Canada. Mayo, 2003.
Hong Kong, China. 2000.
[8] SUREZ, CUETO A. Resolucin de la
[18] PEREZ M. PASCQA: Bsqueda de
ambigedad semntica de las palabras mediante
Respuestas con base en anotacin predictiva de
modelos de probabilidad de mxima entropa [PhD
contextos lxico-sintcticos [PhD tesis]. Instituto
Tesis]. Universidad de Alicante. Alicante, 2004.
Nacional de Astrofsica, ptica y Electrnica Sta.
[9] VZQUEZ S., MONTOYO A., RIGAU G. Ma. Tonantzintla, Pue. 2006.
Mtodo de desambiguacin lxica basada en el
[19] CARRERRO F., GOMEZ J., DE
recurso lxico Dominios Relevantes.
BUENAZA M., MATA J. y MAA M. Acceso a
Procesamiento del Lenguaje Natural, Revista n 31.
la informacin bilinge utilizando ontologas
Pp 141-149. 2003.
especficas del dominio biomdico. Revista de la
Sociedad Espaola para el Procesamiento del
[10] MARTN, VALDIVIA M. TERESA,
Lenguaje Natural, pendiente publicacin.
GARCA, VEGA M., UREA, LPEZ L.
ALFONSO. Resolucin de la ambigedad
[20] The Python Programming Language.
mediante redes neuronales. Procesamiento del
http://www.python.org/. [Citado 22 de Noviembre
Lenguaje Natural, Revista n 29. Pp 39-45. 2002.
de 2006].
[11] KNOTT, A. AND VLUGTER, P. Syntactic [21] NAVARRO B., MOREDA, P.,
disambiguation using presupposition resolution in FERNNDEZ, B. et al. Anotacin de roles
Proceedings of the 4th Australasian Language semnticos en el corpus 3LB. IX Ibero-American
Technology workshop. Melbourne. 2003. Conference on Artificial Intelligence. 2004.
[12] GALICIA-HARO, S., GELBUKH, A. y
Bolshakov, Igor A. Una aproximacin para
resolucin de ambigedad estructural empleando
tres mecanismos diferentes. Procesamiento del
Lenguaje Natural, Revista n 27. Pp 55-63. 2001.