Você está na página 1de 5

Corpus Informatizado: textos del espaol del Uruguay (CORIN)

1


Mariela Grassi (mgrassi@seciu.edu.uy), Marisa Malcouri (mmalc@chasque.apc.org), Javier
Couto, Juan Jos Prada, Dina Wonsever {jcouto;prada;wonsever}@fing.edu.uy
Universidad de la Repblica Uruguay



1
El proyecto CORIN est vinculado con el proyecto Aspectos semnticos de la interface gramtica-discurso:
estudios descriptivos y comparados (Action ECOS SUD N U97H02) dirigido por el Prof. Dr. Adolfo Elizaincn
(Universidad de la Repblica) y la Profa. Dra. Brenda Laca (Universit de Paris VII (URA 1028 CNRS) y
Universit de Paris VIII).

Resumen. Se presenta un corpus del espaol
del Uruguay en el perodo 1996-2000, norma
culta y se analizan algunos de los problemas
encontrados al momento de definir las
etiquetas y sus atributos y las soluciones
propuestas. El formalismo de representacin
para el corpus etiquetado es XML (eXtensible
Markup Language, [5]). Se describe el
lenguaje de consultas LCX (Lenguaje de
Consulta para XML, general para
documentos XML) y se muestra su
potencialidad para expresar consultas sobre
el corpus.

1. Introduccin
Este trabajo recoge lo que hemos
desarrollado hasta ahora acerca del proyecto
Corpus Informatizado: textos del espaol del
Uruguay (CORIN) [2]]. Este proyecto se
inscribe en el campo de la Lingstica
Computacional y surge como iniciativa de un
equipo interdisciplinario de lingistas e
informticos de la Universidad de la Repblica
pertenecientes al Instituto de Lingstica de la
Facultad de Humanidades y Ciencias de la
Educacin y al Instituto de Computacin de la
Facultad de Ingeniera.
CORIN tiene como objetivo especificar
e implementar un modelo de datos para el
tratamiento informtico de un corpus escrito
del espaol actual del Uruguay. Una aplicacin
de esta naturaleza podr ser interrogada por
parte de cualquier usuario, en lo que tiene que
ver con categoras gramaticales, contextos
sintcticos, frecuencia de ocurrencia de
construcciones, uso de la puntuacin, tiempos y
modos verbales, etc.
Desde el punto de vista informtico, los
textos estarn etiquetados segn el formato
estndar XML. Se trabajar, adems, con una
herramienta denominada LCX de la cual
actualmente poseemos un prototipo. Esta
aplicacin ha sido propuesta por el grupo de
trabajo del Laboratorio de Procesamiento de
Lenguaje Natural del Instituto de Computacin
que mencionamos antes y consiste en una
herramienta para la gestin de corpus escrito en
lenguaje natural. Ser implementada en
lenguaje Java, para ambiente grfico Windows
y, como ya sealamos, trabajar con textos
etiquetados segn el formato estndar XML.

2. El corpus
En cuanto a sus caractersticas, es un
corpus de corte sincrnico que comprende el
perodo 1996-2000. Contiene textos completos
y fragmentos de tipo literario de autores
uruguayos (ensayo y ficcin) y textos de la
produccin periodstica publicada en
Montevideo con distribucin nacional
(artculos y reportajes). Es de sealar que los
textos de ficcin incluyen slo narrativa, por lo
tanto se excluyen los textos poticos y
dramticos. Si bien no es un corpus centrado en
la variacin, sino que atiende a la lengua escrita
y a la norma estndar, en los textos
seleccionados estn representados distintos
registros discursivos dentro de la lengua
escrita, desde el texto literario hasta el reportaje

periodstico que puede ser tratado, en algunos
aspectos, como un material hbrido entre
oralidad y escritura. Todos los textos tienen la
informacin bibliogrfica completa. Es un
corpus general, no especializado
temticamente, que puede ser explotado para
estudios lexicogrficos, gramaticales,
didcticos y de muy diversa naturaleza.
Estas caractersticas se resumen del
siguiente modo:

Caracterstica/Detalle
Corte: Sincrnico
Variacin: No centrado en la variacin.
Variacin diafsica entre prosa literaria (ensayo
y ficcin) y prensa (reportajes y artculos).
Lengua escrita, norma estndar
mbito temporal: Periodstico y Reportajes:
1996 a 2000 Literarios: 1980 a 2000
Tipo: General, no es especializado
temticamente
Composicin: Fragmentos y textos completos
Carcter: Abierto
Lengua: Espaol del Uruguay (monolinge)
Codificacin: XML
Lematizacin: Manual y parte automtica.
Revisado manualmente.
Etiquetacin: Corpus con etiquetacin
morfosintctica
Anlisis: Morfosintctico
Tamao: 250.000 palabras
Informacin: Los textos tendrn referencias
bibliogrficas
Tipologizado: Literario-ficcin, literario-
ensayo, prensa-artculo, prensa-reportaje
Recursos: Propios
Explotacin prevista: Lexicogrfica,
gramatical, general

3. Las etiquetas morfosintcticas
3.1 Unidades de anlisis
Para clasificar los trminos del corpus
hemos decidido considerar dos tipos de
unidades: simples y complejas.
La unidad simple es la palabra definida
como una secuencia de signos entre dos
blancos o entre dos signos ortogrficos o entre
una combinacin de un blanco y un signo
ortogrfico.
A su vez, las unidades complejas se
dividen bsicamente en dos tipos, a saber, las
que estn constituidas por dos o ms palabras
(por ejemplo, haba comido, con respecto a) y
las que, por el contrario, si bien grficamente
constituyen una unidad palabra tal como fue
definida antes, requieren una segmentacin
interna como es el caso de las contracciones
(ej.: al, del) y de los verbos con enclticos (ej.:
comerlo).

3.2 Contenido de las etiquetas
morfosintcticas
Al elaborar el diseo de las etiquetas con
contenido morfosintctico, nos enfrentamos
con el clsico problema de las llamadas clases
de palabras. Bosque [1:30] sostiene que la
paradoja habitual sobre las categoras
gramaticales es precisamente que no existe
autor ni escuela que no reconozca la dificultad
de obtenerlas formalmente, mientras que a la
vez son unidades bsicas del anlisis
gramatical. Es sabido que en la determinacin
de las clases y sub-clases de palabras se han
utilizado criterios semnticos, morfolgicos y
sintcticos que muchas veces se solapan dando
lugar a que un elemento pertenezca a dos
categoras a la vez. Por otra parte, existen
clases cuya existencia se postula slo en base a
uno de los criterios, el morfolgico por
ejemplo, y que, como el adverbio, resultan, sin
embargo, extraordinariamente heterogneas.
Obviamente no pretendemos resolver
un problema que tiene ms de veinte siglos de
existencia, sino simplemente consignarlo
porque se ver necesariamente reflejado en el
etiquetado.
En trminos generales, es nuestro
propsito hacer uso de atributos compatibles
con la denominacin tradicional. De esta forma
el etiquetado no ser un obstculo que limite el
nmero de usuarios, ya que permitir realizar
desde consultas sencillas hasta bsquedas ms
sofisticadas.
En el CORIN, las categoras se definen
asocindoles un conjunto de atributos y a cada
atributo se le asocia un conjunto de valores.
Por otra parte, las palabras que aparecen en un
texto se clasifican en categoras. En
consecuencia, y de acuerdo con el modo que
hemos seleccionado para representar las
categoras, cada palabra tendr asociado un
conjunto de pares atributo-valor. Por ejemplo:

<w><art categ="art" id="nroid"
lema="el" tipo="def" gen="m"
num="sg" neutro="no">el</art></w>


<w><sust categ=sust id=xxx
lema=pregunta gen=f num=pl>
preguntas</sust></w>

Acerca de la definicin de las
categoras queremos agregar lo que seala
Bosque [1:31] cuando dice que las categoras
gramaticales son clases formales de unidades
lxicas. Pero, paradjicamente, los miembros
de esas clases no siempre poseen todas las
caractersticas que se asocian con el grupo al
que pertenecen.
2
Este hecho se ver reflejado
en la definicin por medio de rasgos que
proponemos para las categoras.
Por razones de espacio slo vamos a
mencionar aqu las categoras que hemos
definido sin explicitar los atributos y los
valores asociados a cada uno:

adjetivo, adverbio, artculo, conjuncin,
cuantificador, demostrativo, exclamativo,
interjeccin, interrogativo, miscelnea,
personal, posesivo, preposicin, reflejo,
relativo, signo ortogrfico, sustantivo,
verbo.

En cuanto a etiquetas complejas
proponemos las siguientes:

contraccin, forma compuesta, forma
contracta, locucin, perfrasis verbal,
relativo complejo, unidad idiomtica,
verbo+encltico.

Y como etiquetas especiales tenemos estas:

discontinuidad, nombre propio, uso
metalingstico

Claramente, hay categoras que se vinculan
con otras, y este hecho se representa
asignndole el mismo valor a alguno de sus
atributos. Es lo que sucede, por ejemplo, con la
clase de los personales, posesivos,
demostrativos y otros, cuando tienen
instanciado el rasgo deixis o tipocategorial con
el valor pronombre, tal como se ve en el
siguiente cuadro.





2
El destacado es nuestro.


















































Cuadro con vnculos entre categoras




categ personal
identif
lema
persona
gnero
nmero
caso
neutro
encltico
deixis
pronombre
categ cuantif
identif
lema
tipo numeral
subtipo
gnero
nmero
tipocateg
pronombre
categ cuantif
identif
lema
tipo indef
tipocateg
pronombre
gradativo
gnero
nmero
neutro
[negativo]
categ demos
identif
lema
tipocateg
pronombre
gnero
nmero
neutro
categ exclam
identif
lema
tipocateg
pronombre
gnero
nmero
neutro
categ posesivo
identif
lema
persona
gnero
nmero
poseedor
tipocateg
deixis
pronombre
categ reflejo
identif
lema
persona
nmero
caso
subtipo
encltico
deixis
pronombre
categ relativo
identif
lema
tipocateg
pronombre
gnero
nmero
categ interrog
identif
lema
tipocateg
pronombre
gnero
nmero
neutro


Este tipo de relaciones o vnculos pone de
manifiesto algunos aspectos de la problemtica
de la categorizacin. Para ser ms explcitos y a
modo de ejemplo, veamos lo que sucede con el
pronombre y las dificultades asociadas a su
categorizacin. En las gramticas la categora
pronombre, aplicable a aquellos elementos que
tienen capacidad dectica, aparece subdividida
en tipos tales como pronombre personal,
pronombre posesivo, pronombre relativo, etc.
Ahora bien, estos tipos presentan
comportamientos gramaticales muy diferentes
entre s e incluso dentro de un mismo tipo. Por
otra parte, se utiliza el trmino pronombre para
nombrar aquellos miembros que dentro de una
clase, por ejemplo, pronombre demostrativo,
pueden alternar con un sintagma nominal. En
vista de esto, y como queda evidente en la
enumeracin de nuestras categoras y en el
cuadro de arriba, decidimos no utilizar
pronombre como etiqueta categorial sino como
un valor de atributo. As, el atributo tipo
categorial puede tomar valor pronombre en
cuantificadores numerales e indefinidos, en
relativos y en demostrativos, entre otros,
indicando en ese caso que el miembro de la
categora en cuestin presenta alternancia con
un sintagma nominal. El atributo deixis, que
aparece en personales, posesivos y reflejos,
toma siempre valor pronombre, a los solos
efectos de las bsquedas. De esta forma todos
aquellos trminos que se denominan
pronombre en la tradicin gramatical quedan
efectivamente vinculados. Esto hace posible
formular las consultas con la terminologa
tradicional (pronombre demostrativo,
pronombre personal) y resuelve, en parte, la
paradoja de la categorizacin sealada ms
arriba.

4. Representacin informtica,
consultas.
Se resolvi utilizar XML [5] como
formalismo de representacin de los datos
lingsticos del corpus. Varias razones
fundamentan esta decisin :
i. XML est emergiendo como estndar
para la representacin e intercambio de
datos especializados de distintos
dominios. En tal sentido es posible
sealar la definicin de DTDs (Document
Type Definition) especializadas para
distintos dominios [6] (Matemtica,
Qumica, Astronoma, etc.).
ii. Cuenta con un poder expresivo adecuado
para la informacin que deseamos
representar.
iii. Es fcilmente extensible dentro del
mismo marco. Esto permitira el
agregado de unidades sintcticas ms
amplias, agregando elementos a la DTD
iv. Disponibilidad de cada vez ms
herramientas de software brindando
distintos tipos de servicios para
documentos XML

Presentamos, a modo de ejemplo, una
parte de la DTD definida para CORIN:

<!-- El elemento perifverbal lleva
%categesp; en su modelo de
contenido porque puede
contener discontinuidades
-->
<!ELEMENT perifverbal (W+ |
%categesp;+)+>
<!ATTLIST perifverbal
id ID #required
categoria (perifrasis
verbal) #fixed "perifrasis verbal"
lema CDATA #required
tipo (modal |
aspectual | pasiva | otros)
#required
>

<!ELEMENT locucion (W+)>
<!ATTLIST locucion
id ID #required
categoria (locucion) #fixed
"locucion"
lema CDATA
tipo (adverbial |
prepositiva | conjuntiva)
#required
>
En el texto anterior aparecen las
definiciones para perfrasis verbales y
locuciones. Estos casos de unidades
multipalabra (categoras complejas) se definen
de modo directo en XML. En ambos casos se
pueden presentar discontinuidades.
Acompaando la expresividad de la
representacin XML es importante contar con
la posibilidad de realizar variadas consultas por
todos los elementos del corpus etiquetado:
texto, elementos, atributos. Para ello se
utilizar el lenguaje LCX, desarrollado en el
Instituto de Computacin de la Facultad de
Ingeniera [3,4]. Las expresiones de consulta
LCX pueden incluir referencias a elementos,

atributos y porciones de texto. Existen
operadores para relaciones jerrquicas entre
elementos y entre elementos y texto (contiene,
contenido en) y para relaciones de precedencia
linear entre elementos y/o porciones de texto
(+, secuencia; [n,m], distancia). Los elementos
pueden restringirse por expresiones booleanas
sobre sus atributos. Las consultas por texto
pueden referirse a un patrn de caracteres para
el mismo. (Por el momento slo se han
implementado consultas por sufijo o prefijo).
Distintas expresiones de elementos o de texto
pueden combinarse a su vez mediante
operadores booleanos para formar una
expresin de consultas compleja.
Actualmente se est implementado una
interfaz especializada para las consultas a Corin
en ambiente Web. En esta interfaz se incluye
una capa sobre LCX que ayuda al usuario a
formular la expresin de consulta. Dicha
interfaz incluye adems la posibilidad de
definir macros, expandibles en expresiones de
consulta bsicas.

5. Conclusiones, trabajo futuro.
Hemos presentado el estado actual del
proyecto CORIN y de la implementacin de
una interfaz de consultas mediante el lenguaje
LCX. En lo que respecta al etiquetado
completo del corpus, ste se est haciendo de
modo esencialmente manual (con alguna ayuda
automtica para casos simples). Se espera
poder liberar para consultas partes del CORIN
para comienzos del ao prximo.

6. Referencias
[1] Bosque I., Las categoras gramaticales.
Relaciones y diferencias, ed. Sntesis, 1990

[2] Caviglia S., Malcuori M., Grassi M.,
Corpus Informatizado: textos del espaol del
Uruguay(CORIN), IV Congreso de Lingstica
General, Universidad de Cdiz, abril de 2000

[3] Costas S.,Vallejo L., Wonsever D.,
Extensiones a LCX. Documento interno,
Instituto de Computacin, Facultad de
Ingeniera, junio de 2000.

[4] Pessano B., Souza J. Prada J.J., Wonsever
D., LCX, un lenguaje de consultas para
documentos XML. Documento interno, Instituto
de Computacin, Facultad de Ingeniera, mayo
de 1999.

[5] http://xml.coverpages.org/sgml-xml.html,
mayo 2001.

[6] http://xml.coverpages.org/gen-apps.html
mayo 2001.

Você também pode gostar