Escolar Documentos
Profissional Documentos
Cultura Documentos
Categorizacin gramatical
CAPTULO 9
CATEGORIZACIN GRAMATICAL
182
Captulo 9. Categorizacin gramatical
texto
SEGMENTACIN
Y PRE-PROCESO
palabra
DICCIONARIO ANLISIS
LXICO MORFOLGICO
lista de posibles
categoras
REGLAS DE
CATEGORIZACIN
TERMINACIN
POR REGLAS
REGLAS DE
CONTEXTO categora
183
Captulo 9. Categorizacin gramatical
184
Captulo 9. Categorizacin gramatical
5. Modo/Grado
Este carcter proporciona dos tipos de informacin:
- Modo para los verbos: infinitivo, indicativo, imperativo, subjuntivo,
condicional y participio.
- Grado para adjetivos y adverbios: comparativo, superlativo.
6. Persona y nmero/nmero
El significado de esta carcter depende de la clase principal:
- persona y nmero para verbos
- nmero para las restantes clases: singular, plural, neutro o invariable.
7. Locuciones
Este carcter se rellena nicamente cuando la clase principal forma parte de
una locucin (preposicional, adverbial, ...)
8. Gnero
Masculino, femenino, neutro o no gnero (para los verbos).
9 y 10. Pronombres enclticos
nicamente para aquellas formas verbales que incorporen pronombres
enclticos.
Hay dos signos que tienen un significado especial: el punto, que indica no
especificado y #, que significa no existe.
185
Captulo 9. Categorizacin gramatical
1
En la versin anterior el verbo estar se categorizaba como V..
186
Captulo 9. Categorizacin gramatical
2
La definicin de las unidades especiales y el funcionamiento del detector se describen en el
Captulo 5.
3
Los diccionarios especializados que utiliza el sistema se dan en el apartado 6.3 del Captulo 6.
187
Captulo 9. Categorizacin gramatical
188
Captulo 9. Categorizacin gramatical
Las reglas para la categorizacin de las palabras con guin son similares a las
expuestas en [Varela 92].
Despus del preprocesado del texto, la siguiente tarea es realizar para cada
palabra un anlisis morfolgico; para ello disponemos de un conjunto de diccionarios
lxicos. El diseo del lxico para la categorizacin gramatical debe buscar un
compromiso entre la memoria ocupada por el lxico y la complejidad del anlisis
morfolgico.
El anlisis se realiza palabra a palabra y consiste en una bsqueda de la misma
en el conjunto de diccionarios considerado4. El resultado del anlisis es una lista con
todas las posibles categoras de la palabra bajo estudio.
Este mdulo ofrece muy buenos resultados, categorizando la mayor parte de las
palabras del texto procesado. El inconveniente de anlisis morfolgico es que, dado que
existen palabras que pueden pertenecer a dos o ms categoras, no presenta una nica
categora para cada palabra. La determinacin de la categora gramatical definitiva se
lleva a cabo mediante reglas de contexto.
4
Los diccionarios que utiliza el programa en su funcionamiento normal, as como el proceso de
bsqueda en ellos se explica en el apartado 6.9 del Captulo 6.
189
Captulo 9. Categorizacin gramatical
190
Captulo 9. Categorizacin gramatical
191
Captulo 9. Categorizacin gramatical
conjunto de reglas aplicado en distinto orden conduce a resultados distintos. Las reglas
deben ordenarse comenzando por las ms restrictivas.
192
Captulo 9. Categorizacin gramatical
REGLAS_0
Los nmeros romanos y las letras se categorizan por reglas de contexto. En el caso
de los nmeros romanos es difcil implementar un detector que ofrezca resultados
aceptables ya que resulta difcil diferenciar algunas siglas y algunos nmeros romanos.
Sin embargo es fcil detectarlos mediante un anlisis de contexto debido a que los
nmeros romanos suelen ir antecedidos o precedidos por un conjunto de palabras muy
limitado5. Aprovechando este hecho, decidimos categorizarlos por reglas de contexto.
Con las letras la situacin es muy similar. El anlisis morfolgico no nos permite
distinguir cuando a funciona como preposicin (Fue de Madrid a Barcelona) y cuando
como letra (La explicacin est en el apartado a del Tomo 2). Sin embargo cuando
funcionan como letras suelen ir acompaadas por un conjunto de palabras clave
(apartado, anexo, letra, grado, etc.) por lo que pueden categorizarse con bastante
acierto con ayuda de reglas contextuales, aunque esto es dependiente del dominio.
Para la categorizacin de nmeros romanos y letras creamos un nuevo fichero de
reglas: reglas_0. Estas reglas son las primeras que se aplican, inmediatamente despus
del anlisis morfolgico, ya que son reglas para solucionar casos muy concretos.
Adems de los nmeros romanos y las letras, se ocupan tambin de la
categorizacin de algunas palabras extranjeras muy comunes, como por ejemplo, for,
rue o box. El mdulo de preprocesamiento dispone de un detector de palabras
extranjeras que funciona bastante bien6. Pero hay palabras que escapan a este detector
ya que la informacin morfolgica es insuficiente para determinar si se trata de palabras
extranjeras o no, para ello seran necesarios conocimientos ms profundos. Para este
conjunto de palabras y debido a que son de uso frecuente, se han elaborado reglas
especficas y se han incluido en reglas_0. El tamao total de este fichero es de 9 reglas.
REGLAS_CRATER
Es un conjunto de 217 reglas de terminacin elaboradas dentro del proyecto Crater
[Crater 95] y que utilizaremos para establecer comparaciones con nuestras reglas de
terminaciones (reglas1_1 y reglas2_1).
5
La lista de palabras que suelen ir antes o despes de un nmero romano se da en el apartado
5.1.4 del Captulo 5.
6
Vase Captulo 5.
193
Captulo 9. Categorizacin gramatical
Para el anlisis y evaluacin del categorizador por reglas utilizamos varios ficheros
que nos proporcionan informacin sobre el nmero de reglas aplicadas, de su eficiencia
y de los errores cometidos. Existen tres ficheros de depuracin para las reglas:
reglas.lst, errores.dep y resultados.dep.
REGLAS.LST
Este fichero ya exista anteriormente y contiene la frase antes y despus de aplicar
una regla, de manera que podamos revisar manualmente la efectividad de esa regla en la
frase en la que se aplica.
El nombre de este fichero vara en funcin de las reglas que se apliquen; por
ejemplo, si se aplican las reglas1_1, el fichero se denomina reglas1_1.lst.
194
Captulo 9. Categorizacin gramatical
195
Captulo 9. Categorizacin gramatical
ERRORES.DEP
Este fichero contiene los errores cometidos al aplicar una reglas de contexto.
Cuando se aplica una regla contexto a una frase concreta, se compara la categora que
asigna el categorizador por reglas con la solucin que ofrece el texto categorizado
manualmente y en caso de que haya discrepancias entre ambas se escribe la regla
aplicada, el contexto en el que se aplica, la categora que propone el categorizador y la
que propone el texto.
El objetivo de este fichero es poder evaluar por qu falla la regla, o bien, si se trata
de un error del texto con el que se compara.
REGLA 14:
Comisin
europea
ha
solicitado N00##S.M## correcta: V0846S.M..
a
los
pases
RESULTADOS.DEP
Proporciona informacin sobre el nmero total de reglas aplicadas, qu reglas se
aplican, nmero de veces que se aplica y nmero de veces que falla cada regla. El
formato de este fichero es el siguiente:
Regla aplicada N veces que se aplica N veces que falla Error cometido
Reglas 3
REGLA 7: 724 51 0.070442
REGLA 10: 1522 147 0.096583
REGLA 13: 7 0 0.000000
REGLA 14: 145 96 0.662069
Nmero total de reglas aplicadas: 6494
Errores en las reglas: 1032 0.158916
196
Captulo 9. Categorizacin gramatical
7
Porcentaje sobre el nmero total de palabras procesadas
197
Captulo 9. Categorizacin gramatical
860 la mayor parte del vocabulario es conocido para el sistema. Los diccionarios del
proyecto 860 incluyen el vocabulario ms frecuente de los corpus.
El nmero medio de categoras por palabra tambin es superior en El Mundo; la
razn est en que los Textos 860 han sido revisados manualmente y adems tratan sobre
temas concretos, mientras que los artculos de El Mundo tratan un amplio abanico de
temas (economa, deportes, cultura, sucesos, etc.) y aparecen ms registros idiomticos
(culto, tcnico, vulgar, ...).
El nmero medio de categoras por palabra de los textos de El Mundo puede
parecer elevado si lo comparamos con otros sistemas; por ejemplo, en el categorizador
desarrollado por J. Chanod y P. Tapanainen [Chanod 95] el nmero medio de categoras
por palabra es 1.64. Sin embargo las condiciones de trabajo de ambos sistemas distintas.
Su corpus de evaluacin es ms pequeo (5752 palabras frente a las ms de 2250000
palabras que hay en un mes de El Mundo) y son artculos econmicos, mientras que
nosotros procesamos artculos de todo tipo. Sin embargo, si comparamos estos
resultados con los obtenidos para los Textos 860, nuestro sistema ofrece mejores
resultados. En este caso las condiciones de comparacin estn ms equiparadas en
cuanto al corpus evaluado, aunque nuestros corpus siguen conteniendo mayor nmero
de palabras.
RECALL
Los datos anteriores se refieren al porcentaje de texto categorizado pero no nos
sirven para evaluar la eficiencia del categorizador por reglas, para ello necesitamos
conocer el porcentaje de texto correctamente categorizado. Esta informacin la
proporciona el Recall, que se define como el nmero de veces que la categora correcta
est en la lista de posibles categoras asociada a una palabra. Es decir, se encuentra la
solucin correcta entre la lista de categoras?
Para medir el Recall es necesario procesar texto categorizado manualmente, por eso
los datos de Recall se dan nicamente para los Textos 860. Se procesa el texto, y la
salida del categorizador (fichero categorizado.dep) se compara con el resultado de la
categorizacin manual. El Recall se calcula sumando el nmero de veces en que la
solucin correcta se encuentra entre las que propone el categorizador. En este clculo
se dan por vlidas las siguientes situaciones:
198
Captulo 9. Categorizacin gramatical
8
Vase Captulo 8.
199
Captulo 9. Categorizacin gramatical
REGLAS_0
Como era de esperar las reglas_0 ofrecen buenos resultados ya que han sido
diseadas para categorizar casos concretos en los que el analizador morfolgico era
insuficiente. A continuacin se muestra el Recall antes y despus de aplicar estas reglas
al corpus de Entrenamiento (Textos 860) y la mejora conseguida, definida como la
diferencia de Recall antes y despus de aplicar las reglas.
REGLAS DE TERMINACIN
La prueba realizada con el Corpus1 nos sirvi para comprobar que las reglas de
terminacin mantenan el Recall pero, debido a que la mayor parte del vocabulario de
200
Captulo 9. Categorizacin gramatical
los Textos 860 es conocido para el sistema, no nos dice nada sobre la efectividad de
estas reglas, entre otras cosas porque apenas se aplican.
Para estudiar la eficiencia de las reglas de terminacin utilizamos el diccionario
Dinmico correspondiente a un mes del peridico El Mundo (abril 1994). El diccionario
Dinmico, como ya se explic en el Captulo 6, contiene las palabras desconocidas para
el sistema: palabras nuevas y errores tipogrficos. A este corpus de 6920 palabras le
aplicamos las reglas_crater reglas1_1 y reglas2_1 y analizamos los resultados.
1. REGLAS_CRATER
Como conclusin general podemos decir que funcionan bien, categorizando
6831 de las 6920 palabras. Son muy ambiguas ya que muchas palabras las
categoriza como nombre comn y adjetivo calificativo, por ejemplo, arbolitos,
elevalunas, paragolpes, con lo que el Recall es bueno, pero la precisin no.
Donde ms errores comete es con los verbos y palabras extranjeras. En el caso
de los verbos, unas veces categoriza como verbos palabras que no lo son, por
ejemplo, elaboradsimo, telefamoso; y otras veces deja verbos sin categorizar, por
ejemplo, necesitabamos, la categoriza como sustantivo y adjetivo calificativo o
llevandose como sustantivo.
Muchas palabras extranjeras las categoriza como verbos: center, designer,
mater.
Por otro lado debemos aclarar que los diccionarios que usamos son distintos a
los del proyecto Crater.
2. REGLAS1_1
Categorizan 2202 de las 6920 palabras del corpus evaluado, el 31.82 %. El
principal problema de estas reglas es que son muy ambiguas, categorizan muchas
palabras como sustantivo y adjetivo calificativo y deberan asignar solamente una de
201
Captulo 9. Categorizacin gramatical
202
Captulo 9. Categorizacin gramatical
Hay que destacar el buen funcionamiento de las reglas con los adverbios
acabados en mente (experimentalmente, instintivamente), con los adjetivos
acabados en simo (famossimas, finsimo) y con los sustantivos terminados en
in (felacin, expansin). Debido a la gran cantidad de palabras que responden a
estos patrones en el corpus, estas terminaciones son muy productivas en castellano,
y las reglas1_1 presentan una alta eficiencia.
A continuacin, eliminamos del fichero reglas1_1 todas aquellas destinadas a
categorizar verbos, tanto formas finitas como infinitivos, gerundios y participios,
pasando de las 117 reglas iniciales a un conjunto de 77 reglas, y realizamos una
segunda prueba sobre un Corpus distinto: el diccionario Dinmico correspondiente a
diciembre de 1994, formado por 7011 palabras. Los resultados obtenidos fueron
bastante buenos; con este conjunto de 77 reglas categorizamos 1739 de las 7011
palabras, el 24.80 %, y de esas 1739, 20 no las evaluamos por tratarse de errores
tipogrficos (por ejemplo, caracterica, governo, nismo). De las 1719 palabras
consideradas, 1698 las categoriza correctamente, lo que significa que el porcentaje
de error es del 1.22 %. Este nuevo conjunto de 77 reglas ofrece muy buenos
resultados desde el punto de vista del Recall, pero siguen teniendo el problema de
ambigedad, ya que muchas palabras las categorizan como sustantivo y adjetivo.
3. REGLAS2_1
Se encargan de categorizar, sobre todo, nombres comunes y adjetivos, aunque
tambin hay algunas reglas para formas verbales. Categorizan 2069 de las 6920
palabras que componen el Corpus considerado para la comparacin de los tres
ficheros de reglas de terminaciones (diccionario Dinmico de abril de 1994), es
decir, el 29.90 %. De las 2069 palabras categorizadas, 4 son errores tipogrficos
9
Palabras categorizadas sin considerar errores tipogrficos.
10
Porcentaje sobre el nmero total de palabras categorizadas.
203
Captulo 9. Categorizacin gramatical
(por ejemplo, afiliacion, pildora, version), por los que slo consideramos 2065
palabras, de las cuales, 1849 estn correctamente categorizadas. Es decir, el error
cometido por las reglas2_1 es del 10.46 %.
REGLAS_3
De los tres ficheros de reglas contextuales reglas1_2, reglas2_1 y reglas_3, stas
ltimas son las que ofrecen mejores resultados en el sentido de que son las que menos
empeoran el Recall. La tabla 9.12 muestra el Recall antes y despus de aplicar reglas_3
al corpus de Entrenamiento.
11
Palabras categorizadas sin considerar errores tipogrficos.
12
Porcentaje sobre el nmero total de palabras categorizadas.
13
Entre parntesis figura la categora que asignan las reglas a la palabra considerada.
204
Captulo 9. Categorizacin gramatical
205
Captulo 9. Categorizacin gramatical
Tabla 9.13 Nmero medio de categoras por palabra antes y despus de aplicar reglas_3
Para finalizar este apartado, debemos destacar que los ficheros de reglas
utilizados ya existan y lo nico que hemos hecho es hacer distintas pruebas para
evaluar su utilidad.
206
Captulo 9. Categorizacin gramatical
El categorizador sin reglas y con las reglas_0 ofrece buenos resultados, con un
99.94 % de palabras categorizadas y un Recall del 99.48 %.
14
Vase apartado 8.2 del Captulo 8.
207
Captulo 9. Categorizacin gramatical
EL CATEGORIZADOR DE TELFONICA
El categorizador de Telefnica tiene una precisin del 97 %. Este resultados no es
comparabale con los de nuestro sistema ya que, por un lado hace referencia a la
precisin y no al Recall y por otra parte, las condiciones de funcionamiento son
diferentes en cuanto al nmero de palabras evaluado, el tipo de texto procesado y el
conjunto de categoras empleado.
Telefnica utiliza un conjunto de 36 categoras mientras que en nuestro caso el
nmero de categoras es muy superior, considerando clase y subclase, existen 48
categoras distintias15. Por otra parte, el categorizador de Telefnica no distingue entre
nombres comunes y adjetivos calificativos ya que, en su opinin, complicara mucho la
tarea y no tendra ninguna utilidad.
15
La lista de categoras que utiliza el programa se da el Anexo A.
208
Captulo 9. Categorizacin gramatical
16
Para una descripcin ms detallada del categorizador de Stathis y Juan Manuel Montero y de
la teora de Eric Brill puede consultarse el Captulo 2.
209
Captulo 9. Categorizacin gramatical
210
Captulo 9. Categorizacin gramatical
195