Você está na página 1de 30

Captulo 9.

Categorizacin gramatical

CAPTULO 9

CATEGORIZACIN GRAMATICAL

La categorizacin gramatical se puede definir como el procedimiento que


produce, para cada palabra, a partir de un diccionario lxico y un conjunto de reglas de
terminaciones y contextuales, una lista de sus posibles categoras, con una descripcin
de su gnero, nmero y persona. El objetivo final es reducir al mnimo la lista de
categoras asociadas a una palabra: desambigedad morfo-sintctica. Lo ideal sera
reducir a uno el nmero de categoras por palabra.
El problema de la desambiguacin lxica consiste en: dado un texto tal que cada
palabra tiene asociada una lista de posibles categoras gramaticales, obtener un texto tal
que cada palabra tenga una sola categora asociada.

La artculo/nombre comn La artculo


rueda nombre comn/verbo rueda nombre comn
daba verbo => daba verbo
vueltas nombre comn vueltas nombre comn

Ejemplo 9.1 Desambigacin lxica

182
Captulo 9. Categorizacin gramatical

texto

SEGMENTACIN
Y PRE-PROCESO

palabra
DICCIONARIO ANLISIS
LXICO MORFOLGICO

lista de posibles
categoras
REGLAS DE
CATEGORIZACIN
TERMINACIN
POR REGLAS

REGLAS DE
CONTEXTO categora

Figura 9.1 Categorizacin gramatical

CLASIFICACIN DE LAS CATEGORAS


Un aspecto clave en el anlisis morfolgico es la definicin de las categoras que va
a producir el categorizador. Las gramticas no se ponen de acuerdo en dar una lista
nica de categoras gramaticales, al mezclar criterios morfolgicos, sintcticos y
semnticos. As, en funcin del criterio empleado, se establecen tres clasificaciones
[Lpez 93]:
1. Criterios morfolgicos: categoras variables e invariables.
2. Criterios sintcticos: categoras abiertas (sustantivos, adjetivos y verbos) y
cerradas (artculos, pronombres, preposiciones, conjunciones y adverbios).
3. Criterios semnticos: categoras llenas (con significado lxico) y vacas
(carentes de significado lxico).

183
Captulo 9. Categorizacin gramatical

9.1 EL SISTEMA DE CATEGORIZACIN 860

El categorizador gramatical actual parti de un sistema basado en categoras


numricas, es decir, cada categora gramatical se representaba con un nmero, por
ejemplo, el 3 para los sustantivos o el 2 para los verbos.
El principal inconveniente de las categoras numricas era que slo
proporcionaban informacin de la clase principal (nombre, pronombre, verbo, adverbio,
adjetivo, artculo, preposicin y conjuncin) y de la subclase o tipo (por ejemplo, dentro
de la clase pronombre tenemos los siguientes tipos: posesivo, demostrativo, indefinido,
interrogativo, etc.), pero carecan de informacin de gnero y nmero para nombres y
adjetivos, o de tiempo, modo, nmero y persona para verbos. Esta informacin es
importante para la desambiguacin lxica, ya que permitir elaborar reglas basadas en
comprobaciones de concordancia. Por ejemplo, un artculo precedido por una palabra
que puede ser sustantivo o verbo, si concuerda en gnero y nmero con dicho artculo
ser sustantivo, en caso contrario, ser verbo.
Las categoras 860 permiten incluir mayor informacin morfolgica, y por esta
razn se pas del sistema de categoras numricas al sistema 860.

9.1.1 CATEGORAS 860

Una categora 860 es un conjunto de 10 caracteres, cada uno de ellos con un


significado especfico:
1. Clase principal
Se distinguen 10 clases: verbo, nombre, adjetivo, adverbio, pronombre,
preposicin, artculo, conjuncin, interjeccin y miscelnea.
2 y 3. Subclase o tipo
Por ejemplo, dentro de la categora nombre tenemos las subclases comn y
propio o dentro de la categora artculo, definido e indefinido.
4. Tiempo verbal
Presente, pasado (indefinido/participio), pretrito imperfecto, futuro y
gerundio. Esta informacin slo se rellena para los verbos.

184
Captulo 9. Categorizacin gramatical

5. Modo/Grado
Este carcter proporciona dos tipos de informacin:
- Modo para los verbos: infinitivo, indicativo, imperativo, subjuntivo,
condicional y participio.
- Grado para adjetivos y adverbios: comparativo, superlativo.
6. Persona y nmero/nmero
El significado de esta carcter depende de la clase principal:
- persona y nmero para verbos
- nmero para las restantes clases: singular, plural, neutro o invariable.
7. Locuciones
Este carcter se rellena nicamente cuando la clase principal forma parte de
una locucin (preposicional, adverbial, ...)
8. Gnero
Masculino, femenino, neutro o no gnero (para los verbos).
9 y 10. Pronombres enclticos
nicamente para aquellas formas verbales que incorporen pronombres
enclticos.

Hay dos signos que tienen un significado especial: el punto, que indica no
especificado y #, que significa no existe.

Palabra Categora gramatical Signficado


soy V2901T.0.. Verbo ser presente indicativo 3 persona singular
mesa N00##S.F## Nombre comn singular femenino

Ejemplo 9.2 Categoras 860

9.1.2 NUEVAS CATEGORAS

Durante el proceso de entrenamiento del categorizador nos dimos cuenta de que


el conjunto inicial de categoras 860 era incompleto y de que debamos aumentar el
nmero de categoras. La necesidad de introducir nuevas categoras se debe a dos
motivos:

185
Captulo 9. Categorizacin gramatical

1. Palabras que no se ajustaban a ninguna de las categoras existentes. Por


ejemplo, puntos suspensivos, fechas y horas.
2. Especializacin de categoras. Por ejemplo, combinaciones de letras y
nmero y nmeros romanos compartan la misma subclase. Con el objeto de
afinar ms en la categorizacin de las palabras decidimos redefinir la
categoras de nmeros, combinaciones de letras y nmeros y nmeros
romanos, definiendo tres subclases distintas:
- nmeros: adjetivo numeral cardinal (A12). Ejemplos: 27, 12,5.
- romanos: nmero romano (M02). Ejemplos: XII, II.
- combinaciones de letras y nmeros: letras y nmeros (M55). Ejemplos:
87R, C24.

Inicialmente las siglas o acrnimos se incluan en la clase nombre,


distinguindose tres subclases: comn, propio y acrnimo. Sin embargo nos pareci
ms lgico incluir las siglas dentro de la clase miscelnea, junto a abreviaturas y
nmeros romanos y por ello incluimos la subclase sigla dentro de esta clase.
La Tabla 9.1 presenta las nuevas categoras introducidas. En el Anexo A aparece
la lista actual de categoras 860.

Categora Clase y subclase Categora Clase y subclase


estar V301 nmeros con guin M34
adverbio de lugar B01 ` M35
todo/a/os/ R03 &&& (fin de frase) M46
n romano M02 letra M50
sigla M04 nmeros+letras M55
= M25 n+letras+guiones M56
... M31 ambRomano L00
fechas M32 ambLetra L01
horas M33

Tabla 9.1 Nuevas categoras 860

1
En la versin anterior el verbo estar se categorizaba como V..

186
Captulo 9. Categorizacin gramatical

9.2 CATEGORIZACIN SIN REGLAS

9.2.1 CATEGORIZACIN DE UNIDADES ESPECIALES

Algunas partes de la categorizacin se realizan en el mdulo de


preprocesamiento, como por ejemplo, las palabras extranjeras, las siglas y los nmeros.
El detector de unidades especiales se ocupa del reconocimiento y categorizacin de
dichas unidades, de manera que ambas tareas se realizan simultneamente2.
El detector toma una frase del texto de entrada y la recorre de izquierda a
derecha en busca de unidades especiales y si identifica alguna, le asigna la categora
correspondiente. En el caso de las unidades especiales no existe ambigedad lxica sino
que una vez reconocida su categora es nica.
Para el reconocimiento y categorizacin de algunas unidades, el detector cuenta
con la ayuda de diccionarios especializados3. Estas unidades son: nombres propios,
siglas y abreviaturas.

CATEGORIZACIN DE PALABRAS CON GUIN


El detector de unidades especiales se encarga del reconocimiento y categorizacin
de palabras unidas por un guin intermedio, por ejemplo, fsico-qumico, seor/a. De
cara la su categorizacin gramatical tenemos que distinguir dos tipos:
1. Guiones que se utilizan para expresar gnero o nmero. Por ejemplo, seor/a,
chico/s. En estos casos, se busca la palabra que aparece inmediatamente antes
del guin en los diccionarios y si se encuentra, se categoriza el compuesto con la
categora que aparece en el diccionario pero modificando su gnero o nmero
dependiendo del caso concreto. Considrese por ejemplo seor/a. Se busca
seor en los diccionarios, se encuentra como nombre comn singular masculino,
se estudia la palabra inmediatamente posterior al guin (a), se determina que es
un sufijo de gnero y se categoriza seor/a como nombre comn singular neutro.
Con chico/s se sigue un procedimiento anlogo, pero en este caso al detectar que

2
La definicin de las unidades especiales y el funcionamiento del detector se describen en el
Captulo 5.
3
Los diccionarios especializados que utiliza el sistema se dan en el apartado 6.3 del Captulo 6.

187
Captulo 9. Categorizacin gramatical

el sufijo es de nmero (s) se categoriza chico/s como nombre comn plural


masculino.
2. Guiones que se utilizan para la formacin de compuestos. Por ejemplo fsico-
qumico, fuera/es. Este grupo incluye las palabras unidas por un guin
intermedio que tienen significado de forma independiente. As, fsico y qumico
son dos palabras con significado pleno, a deferencia del caso anterior donde a y
s son sufijos.
Dentro de este grupo hemos encontrado las siguientes combinaciones:
a. sustantivo-sustantivo. Ejemplos: ciudad-dormitorio, hombre-mujer.
b. adjetivo-adjetivo. Ejemplos: fsico-qumico, histrico-artsticos.
c. verbo-verbo. Ejemplos: fuera/es, espulga/expurga.
d. adverbio-adverbio. Ejemplos: arriba/abajo, delante/detrs.
e. preposicin-sustantivo, preposicin-adjetivo, preposicin-verbo. Ejemplos: ante-
sala, sobre-dosis.
Las reglas seguidas para categorizan estos compuestos son:
2.1. Si las dos palabras unidas por el guin son sustantivos, adjetivos o adverbios
(casos a, b y d), el compuesto se categoriza con la misma categora que la de la
ltima palabra pues en caso de que haya diferencias de gnero o nmero entre
las dos palabras unidas por el guin, la categora del compuesto coincide con la
de la segunda palabra. Por ejemplo si analizamos histrico-artsticos, histrico
ser adjetivo calificativo singular masculino y artsticos, adjetivo calificativo
plural masculino e histrico-artsticos ser adjetivo calificativo plural
masculino, categora que coincide con la de artsticos.
2.2. Si las palabras que forman el compuesto son verbos, el compuesto se categoriza
como verbo, sin especificar el tiempo, modo, persona y nmero. Por ejemplo,
fuera/es, fuera es 1/3 persona singular del pretrito imperfecto de subjuntivo
del verbo ser o del verbo ir, y es se analizara como 3 persona singular del
presente de indicativo del verbo ser y el compuesto se categorizara
simplemente como verbo.
2.3. Si la primera palabra del compuesto es una preposicin, el compuesto se
categoriza con la misma categora que la segunda palabra. Por ejemplo, ante-
sala como nombre comn singular femenino, entre-sacar como infinitivo
verbal.

188
Captulo 9. Categorizacin gramatical

Las reglas para la categorizacin de las palabras con guin son similares a las
expuestas en [Varela 92].

9.2.2 CATEGORIZACIN POR DICCIONARIO

Despus del preprocesado del texto, la siguiente tarea es realizar para cada
palabra un anlisis morfolgico; para ello disponemos de un conjunto de diccionarios
lxicos. El diseo del lxico para la categorizacin gramatical debe buscar un
compromiso entre la memoria ocupada por el lxico y la complejidad del anlisis
morfolgico.
El anlisis se realiza palabra a palabra y consiste en una bsqueda de la misma
en el conjunto de diccionarios considerado4. El resultado del anlisis es una lista con
todas las posibles categoras de la palabra bajo estudio.
Este mdulo ofrece muy buenos resultados, categorizando la mayor parte de las
palabras del texto procesado. El inconveniente de anlisis morfolgico es que, dado que
existen palabras que pueden pertenecer a dos o ms categoras, no presenta una nica
categora para cada palabra. La determinacin de la categora gramatical definitiva se
lleva a cabo mediante reglas de contexto.

CATEGORIZACIN DE UN, UNO/S, UNA/S


Ante la posibilidad de categorizar un, uno, una, unos y unas como adjetivo
numeral y como pronombre indefinido, nos hemos decantado por adjetivo numeral
cardinal. Esta decisin se apoya en el artculo 167 de la Gramtica de la Lengua
Espaola [Alarcos 94], segn el cual la distincin tradicional entre uno numeral, uno
pronombre indefinido y un, una, unos, unas como artculos indeterminados carece de
justificacin. Su comportamiento funcional es unitario y la referencia que efectan
anloga. No puede ser artculo por cuanto este carece de acento y no es palabra
independiente. Separar, de otra parte, el sentido numeral respecto del indefinido es
innecesario, ya que de todas las maneras se trata de un cuantificador.

4
Los diccionarios que utiliza el programa en su funcionamiento normal, as como el proceso de
bsqueda en ellos se explica en el apartado 6.9 del Captulo 6.

189
Captulo 9. Categorizacin gramatical

9.2.3 EL FICHERO CATEGORIZADO.DEP

Una vez realizado el pre-procesado y el anlisis morfolgico de una frase, se


escribe cada una de las palabras que la forman junto con la categora o lista de
categoras asociadas en el fichero categorizado.dep. Este fichero permite evaluar el
mdulo de segmentacin y la efectividad de la categorizacin sin reglas (detector de
unidades especiales y anlisis morfolgico).

La D00##S.F## N00##S.F## R02##H.F##


poltica A11..S.F## N00##S.F##
europea A11..S.F##
sobre N00##S.M## P00##N.0## V..02H.0.. V..034.0..
la D00##S.F## N00##S.F## R02##H.F##
competencia N00##S.F##
est V3001H.0..
definida N00##S.F## V..46S.F..
en P00##N.0##
sus A06##..N##
lneas N00##P.F##
generales A11##P.N##
por P00##N.0##
los D00##P.M## R02##T.M##
Tratados N00##P.M##
de P00##N.0##
la D00##S.F## N00##S.F## R02##H.F##
Comunidad N00##S.F##

Ejemplo 9.3 El fichero categorizado.dep

9.3 CATEGORIZACIN POR REGLAS


La categorizacin sin reglas resulta muy eficiente a la hora de asignar categoras a
las palabras, pero deja sin resolver dos problemas:
1. Ambigedad lxica. Palabras que puede pertenecer a dos o ms categoras.
Por ejemplo, poder puede ser nombre comn y verbo.
2. Palabras desconocidas para el sistema. A estas palabras no se les asocia
ninguna categora.
3. Palabra a las que se ha asignado una categora errnea.

190
Captulo 9. Categorizacin gramatical

La categorizacin por reglas pretende solucionar estos problemas, asignando a


cada palabra su categora correspondiente. Dentro de la categorizacin por reglas se
distingue entre reglas de terminaciones y reglas de contexto.

9.3.1 REGLAS DE TERMINACIONES

Las reglas de terminacin asignan una categora en funcin de la terminacin de


la palabra considerada. Estas reglas son muy tiles para la categorizacin de algunos
sustantivos, adjetivos y adverbios. Por ejemplo, en morfologa, la terminacin ble se
utiliza para formar adjetivos (amigable, agradable, saludable), la terminacin mente
para formar adverbios a partir de adjetivos (ansiosamente, serenamente, uniformemente)
y la terminacin ismo para formar sustantivos (socialismo, sensacionalismo,
conformismo).
Por supuesto, hay palabras que no siguen la regla general, por ejemplo, demente
no es un adverbio ni sable un adjetivo. Por esta razn, las reglas de terminacin se
aplican nicamente a aquellas palabras que no hayan sido categorizadas por diccionario.

9.3.2 REGLAS DE CONTEXTO

Una vez realizado el anlisis morfolgico y aplicadas las reglas de terminacin,


se puede determinar la categora de algunas palabras analizando su contexto gramatical.
Estas reglas sirven para resolver problemas de ambigedad lxica. Un ejemplo de estas
reglas es el siguiente: cuando en el contexto izquierdo de una palabra que puede ser un
sustantivo o un verbo se encuentra un artculo o una preposicin, y en el contexto
derecho hay un verbo, la palabra ambigua ser un sustantivo.
La funcin de estas reglas es indicar si en un contexto concreto la palabra
ambigua debe ser categorizada o no, y en caso afirmativo, qu categora debe asignarse.
El contexto puede referirse a una o varias posiciones anteriores y posteriores al
elemento ambiguo. En general, cuanto mayor sea el contexto analizado, mayor ser la
probabilidad de acierto de la regla. La dificultad est en que hay que aplicar las reglas
sobre la lista de posibles categoras. En ocasiones se aplica una regla a una palabra
ambigua considerando un contexto (izquierdo o derecho) y ste tambin es ambiguo.
Por esta razn es muy importante el orden en que se apliquen las reglas; el mismo

191
Captulo 9. Categorizacin gramatical

conjunto de reglas aplicado en distinto orden conduce a resultados distintos. Las reglas
deben ordenarse comenzando por las ms restrictivas.

9.3.3 LOS FICHEROS DE REGLAS

ADAPTACIN DE LOS FICHEROS EXISTENTES


Inicialmente se dispona de tres ficheros de reglas: reglas1, reglas2 y reglas3. Los
dos primeros contenan reglas de terminaciones y de contexto y el ltimo nicamente
reglas de contexto. El nombre de las reglas hace referencia al orden en que se aplican,
orden, que como ya mencionamos antes, es fundamental para la eficiencia de las reglas;
en primer lugar se aplican las reglas1, luego las 2 y por ltimos las 3.
La versin anterior del categorizador, basada en categoras numricas, no dispona
del mdulo de preprocesamiento y realizaba un anlisis por diccionario mucho ms
simple. Como consecuencia, el nmero de palabras ambiguas y no categorizadas que
llegaban al categorizador por reglas era mucho mayor.
En la versin actual el nmero de palabras sin categorizar tras el preprocesamiento
y el anlisis morfolgico es pequeo y muchas reglas carecan de utilidad puesto que las
palabras a las que iban dirigidas se categorizan en alguno de los mdulos precedentes.
Por tanto, la primera tarea fue adaptar los ficheros de reglas a la nueva situacin,
eliminando reglas que ya no eran necesarias y dividiendo las reglas 1 y 2 en dos partes:
por un lado las reglas de terminacin y por otro las contextuales. De esta manera
obtuvimos cinco ficheros: reglas1_1, reglas1_2, reglas2_1, reglas2_2 y reglas3. La
Tabla 9.2 muestra los ficheros de reglas iniciales y los nuevos, as como el nmero de
reglas que contiene cada uno de ellos.

Reglas iniciales Reglas actuales


Nombre Tipo N reglas Nombre Tipo N reglas
reglas1 terminacin 219 reglas1_1 terminacin 117
y contexto reglas1_2 contexto 102
reglas2 terminacin 249 reglas2_1 terminacin 165
y contexto reglas2_2 contexto 84
reglas3 contexto 36 reglas_3 contexto 36

Tabla 9.2 Los ficheros de reglas

192
Captulo 9. Categorizacin gramatical

REGLAS_0
Los nmeros romanos y las letras se categorizan por reglas de contexto. En el caso
de los nmeros romanos es difcil implementar un detector que ofrezca resultados
aceptables ya que resulta difcil diferenciar algunas siglas y algunos nmeros romanos.
Sin embargo es fcil detectarlos mediante un anlisis de contexto debido a que los
nmeros romanos suelen ir antecedidos o precedidos por un conjunto de palabras muy
limitado5. Aprovechando este hecho, decidimos categorizarlos por reglas de contexto.
Con las letras la situacin es muy similar. El anlisis morfolgico no nos permite
distinguir cuando a funciona como preposicin (Fue de Madrid a Barcelona) y cuando
como letra (La explicacin est en el apartado a del Tomo 2). Sin embargo cuando
funcionan como letras suelen ir acompaadas por un conjunto de palabras clave
(apartado, anexo, letra, grado, etc.) por lo que pueden categorizarse con bastante
acierto con ayuda de reglas contextuales, aunque esto es dependiente del dominio.
Para la categorizacin de nmeros romanos y letras creamos un nuevo fichero de
reglas: reglas_0. Estas reglas son las primeras que se aplican, inmediatamente despus
del anlisis morfolgico, ya que son reglas para solucionar casos muy concretos.
Adems de los nmeros romanos y las letras, se ocupan tambin de la
categorizacin de algunas palabras extranjeras muy comunes, como por ejemplo, for,
rue o box. El mdulo de preprocesamiento dispone de un detector de palabras
extranjeras que funciona bastante bien6. Pero hay palabras que escapan a este detector
ya que la informacin morfolgica es insuficiente para determinar si se trata de palabras
extranjeras o no, para ello seran necesarios conocimientos ms profundos. Para este
conjunto de palabras y debido a que son de uso frecuente, se han elaborado reglas
especficas y se han incluido en reglas_0. El tamao total de este fichero es de 9 reglas.

REGLAS_CRATER
Es un conjunto de 217 reglas de terminacin elaboradas dentro del proyecto Crater
[Crater 95] y que utilizaremos para establecer comparaciones con nuestras reglas de
terminaciones (reglas1_1 y reglas2_1).

5
La lista de palabras que suelen ir antes o despes de un nmero romano se da en el apartado
5.1.4 del Captulo 5.
6
Vase Captulo 5.

193
Captulo 9. Categorizacin gramatical

9.3.4 ADAPTACIN DEL PROGRAMA

Para el entrenamiento y evaluacin del categorizador por reglas es necesario


disponer de texto categorizado y revisado manualmente, de manera que podamos
comparar los resultados del categorizador con dicho texto.
Hasta el momento el programa estaba preparado para la lectura de texto no
categorizado, por lo que fue necesario adaptarlo para que pudiera procesar los dos tipos
de texto (categorizado y sin categorizar). La opcin de procesar texto categorizado slo
tiene sentido cuando se aplican reglas contextuales, ya que es en ste caso cuando debe
compararse la categora que ofrece como solucin el categorizador y la que propone el
texto.
En la actualidad, el programa ofrece la posibilidad de procesar texto
categorizado y sin categorizar, as como la opcin de aplicar o no reglas, tanto las de
terminacin como las contextuales.

9.3.5 FICHEROS DE DEPURACIN

Para el anlisis y evaluacin del categorizador por reglas utilizamos varios ficheros
que nos proporcionan informacin sobre el nmero de reglas aplicadas, de su eficiencia
y de los errores cometidos. Existen tres ficheros de depuracin para las reglas:
reglas.lst, errores.dep y resultados.dep.

REGLAS.LST
Este fichero ya exista anteriormente y contiene la frase antes y despus de aplicar
una regla, de manera que podamos revisar manualmente la efectividad de esa regla en la
frase en la que se aplica.
El nombre de este fichero vara en funcin de las reglas que se apliquen; por
ejemplo, si se aplican las reglas1_1, el fichero se denomina reglas1_1.lst.

194
Captulo 9. Categorizacin gramatical

ANTES DE REGLA 10:


Constituye V..01H.0.. V..02U.0..
igualmente B03..N.0## B21..S.N##
un A12##S.M## D01##S.M##
poderoso A11..S.M## N00##S.M##
factor N00##S.M##
de P00##N.0##
* progreso N00##S.M## V..01I.0..
tcnico A11..S.M## N00##S.M##
y C02##N.0##
econmico A11..S.M##
, M07#######
por B02###8###
cuanto B02###8###
las D00##P.F## R02##T.F##
empresas N00##P.F##
competidoras A11..P.F##
se R02##..N##
ven V..01T.0.. V..02U.0..
constantemente B03..N.0## B21..S.N##
forzadas A11..P.F## V..46P.F..
a P00##N.0##
innovar V..00N.0..
. M06#######
$$$$ M46#######
DESPUES REGLA 10:
Constituye V..01H.0.. V..02U.0..
igualmente B03..N.0## B21..S.N##
un A12##S.M## D01##S.M##
poderoso A11..S.M## N00##S.M##
factor N00##S.M##
de P00##N.0##
* progreso N00##S.M##
tcnico A11..S.M## N00##S.M##
y C02##N.0##
econmico A11..S.M##
, M07#######
por B02###8###
cuanto B02###8###
las D00##P.F## R02##T.F##
empresas N00##P.F##
competidoras A11..P.F##
se R02##..N##
ven V..01T.0.. V..02U.0..
constantemente B03..N.0## B21..S.N##
forzadas A11..P.F## V..46P.F..
a P00##N.0##
innovar V..00N.0..
. M06#######
$$$$ M46#######

Ejemplo 9.4 El fichero reglas.lst

195
Captulo 9. Categorizacin gramatical

ERRORES.DEP
Este fichero contiene los errores cometidos al aplicar una reglas de contexto.
Cuando se aplica una regla contexto a una frase concreta, se compara la categora que
asigna el categorizador por reglas con la solucin que ofrece el texto categorizado
manualmente y en caso de que haya discrepancias entre ambas se escribe la regla
aplicada, el contexto en el que se aplica, la categora que propone el categorizador y la
que propone el texto.
El objetivo de este fichero es poder evaluar por qu falla la regla, o bien, si se trata
de un error del texto con el que se compara.

REGLA 14:
Comisin
europea
ha
solicitado N00##S.M## correcta: V0846S.M..
a
los
pases

Ejemplo 9.5 El fichero errores.dep

RESULTADOS.DEP
Proporciona informacin sobre el nmero total de reglas aplicadas, qu reglas se
aplican, nmero de veces que se aplica y nmero de veces que falla cada regla. El
formato de este fichero es el siguiente:

Regla aplicada N veces que se aplica N veces que falla Error cometido

Reglas 3
REGLA 7: 724 51 0.070442
REGLA 10: 1522 147 0.096583
REGLA 13: 7 0 0.000000
REGLA 14: 145 96 0.662069
Nmero total de reglas aplicadas: 6494
Errores en las reglas: 1032 0.158916

Nmero medio de categoras/palabra con categoria


Antes de aplicar las reglas: 1.501219
Despus de aplicar las reglas: 1.258914

Ejemplo 9.6 El fichero resultados.dep

196
Captulo 9. Categorizacin gramatical

9.4 RESULTADOS DEL CATEGORIZADOR GRAMATICAL

9.4.1 CATEGORIZACIN SIN REGLAS

TEXTOS 860 Palabras categorizadas N medio


Total Porcentaje (%) categoras/palabra
Corpus 1 41563 99.92 1.51
Corpus 2 38354 99.94 1.51
Corpus 3 41383 99.68 1.49
Corpus 4 39507 99.93 1.50
Corpus 5 38102 99.93 1.50
Corpus 6 38605 99.93 1.51
Corpus 7 40883 99.96 1.50
Media 39767 99.90 1.50

Tabla 9.3 Resultados del categorizador sin reglas

TEXTOS Palabras categorizadas N medio


EL MUNDO Total Porcentaje (%)7 categoras/palabra
Ao 1994 2176988 97.26 2.05
Ao 1995 2204251 97.36 2.07
Media 2190619 97.31 2.06

Tabla 9.4 Resultados del categorizador sin reglas


(Datos medios mensuales)

Los resultados de la categorizacin sin reglas son buenos, con ms de un 97 %


de texto categorizado, tanto en los artculos de El Mundo como en los Textos 860. El
hecho de que en El Mundo el porcentaje sea algo inferior se debe a que en los Textos

7
Porcentaje sobre el nmero total de palabras procesadas

197
Captulo 9. Categorizacin gramatical

860 la mayor parte del vocabulario es conocido para el sistema. Los diccionarios del
proyecto 860 incluyen el vocabulario ms frecuente de los corpus.
El nmero medio de categoras por palabra tambin es superior en El Mundo; la
razn est en que los Textos 860 han sido revisados manualmente y adems tratan sobre
temas concretos, mientras que los artculos de El Mundo tratan un amplio abanico de
temas (economa, deportes, cultura, sucesos, etc.) y aparecen ms registros idiomticos
(culto, tcnico, vulgar, ...).
El nmero medio de categoras por palabra de los textos de El Mundo puede
parecer elevado si lo comparamos con otros sistemas; por ejemplo, en el categorizador
desarrollado por J. Chanod y P. Tapanainen [Chanod 95] el nmero medio de categoras
por palabra es 1.64. Sin embargo las condiciones de trabajo de ambos sistemas distintas.
Su corpus de evaluacin es ms pequeo (5752 palabras frente a las ms de 2250000
palabras que hay en un mes de El Mundo) y son artculos econmicos, mientras que
nosotros procesamos artculos de todo tipo. Sin embargo, si comparamos estos
resultados con los obtenidos para los Textos 860, nuestro sistema ofrece mejores
resultados. En este caso las condiciones de comparacin estn ms equiparadas en
cuanto al corpus evaluado, aunque nuestros corpus siguen conteniendo mayor nmero
de palabras.

RECALL
Los datos anteriores se refieren al porcentaje de texto categorizado pero no nos
sirven para evaluar la eficiencia del categorizador por reglas, para ello necesitamos
conocer el porcentaje de texto correctamente categorizado. Esta informacin la
proporciona el Recall, que se define como el nmero de veces que la categora correcta
est en la lista de posibles categoras asociada a una palabra. Es decir, se encuentra la
solucin correcta entre la lista de categoras?
Para medir el Recall es necesario procesar texto categorizado manualmente, por eso
los datos de Recall se dan nicamente para los Textos 860. Se procesa el texto, y la
salida del categorizador (fichero categorizado.dep) se compara con el resultado de la
categorizacin manual. El Recall se calcula sumando el nmero de veces en que la
solucin correcta se encuentra entre las que propone el categorizador. En este clculo
se dan por vlidas las siguientes situaciones:

198
Captulo 9. Categorizacin gramatical

1. La solucin correcta es un nombre propio extranjero y entre las soluciones que


propone el categorizador est la de nombre propio o viceversa. La justificacin est
en que los Textos 860 no siguen un criterio uniforme a la hora de categorizar los
nombres propios extranjeros, unas veces les asignan la categora nombre propio y
otras la de palabra extranjera8

2. La categora correcta es sustantivo y en la lista propuesta se encuentra la de adjetivo


calificativo o viceversa. Las reglas de contexto se encargarn posteriormente de
categorizar correctamente nombres y adjetivos calificativos.

El Recall obtenido los siete Corpus de Entrenamiento se muestra en la siguiente


Tabla:

Corpus1 Corpus2 Corpus3 Corpus4 Corpus5 Corpus6 Corpus7 Media


Recall 99.44 % 99.50 % 99.01 % 99.34 % 99.45 % 99.50 % 99.54 % 99.40 %

Tabla 9.5 Recall

9.4.2 CATEGORIZACIN POR REGLAS

El objetivo de la categorizacin por reglas es mejorar el nmero medio de


categoras por palabra, es decir, la desambigedad lxica y categorizar las palabras que
faltan tras el anlisis morfolgico, manteniendo el Recall obtenido anteriormente.
La primera prueba que realizamos fue aplicar cada una de las reglas a un corpus
y estudiar qu ocurra con el Recall. Como referencia tomamos el Corpus1. El resultado
fue que las reglas de terminacin (reglas1_1 y reglas2_1) mantenan e incluso
mejoraban el Recall, mientras que las reglas de contexto, a excepcin de las reglas_0,
(reglas1_2, reglas2_2 y reglas_3) lo empeoran considerablemente. De estas ltimas, las
que menos estropeaban el Recall eran las reglas_3. La Tabla 9.6 presenta los resultados
obtenidos en esta prueba.

8
Vase Captulo 8.

199
Captulo 9. Categorizacin gramatical

CORPUS 1 Recall Error cometido por las reglas


categorizador sin reglas 99.44 % -
reglas_0 99.51 % -
reglas1_1 99.49 % -
reglas1_2 93.60 % 40.70 %
reglas2_1 99.41 % -
reglas2_2 96.47 % 39.40 %
reglas_3 97.99 % 14.36 %

Tabla 9.6 Recall para el Corpus 1

REGLAS_0
Como era de esperar las reglas_0 ofrecen buenos resultados ya que han sido
diseadas para categorizar casos concretos en los que el analizador morfolgico era
insuficiente. A continuacin se muestra el Recall antes y despus de aplicar estas reglas
al corpus de Entrenamiento (Textos 860) y la mejora conseguida, definida como la
diferencia de Recall antes y despus de aplicar las reglas.

Mejora = Recall despus de reglas Recall antes de reglas

Corpus 1 Corpus 2 Corpus 3 Corpus 4 Corpus 5 Corpus 6 Corpus 7


sin reglas 99.44 % 99.50 % 99.01 % 99.34 % 99.45 % 99.50 % 99.54 %
reglas_0 99.51 % 99.55 % 99.11 % 99.42 % 99.52 % 99.56 % 99.59 %
Mejora 0.07 % 0.05 % 0.10 % 0.08 % 0.07 % 0.06 % 0.05 %

Tabla 9.7 Recall antes y despus de aplicar reglas_0

REGLAS DE TERMINACIN
La prueba realizada con el Corpus1 nos sirvi para comprobar que las reglas de
terminacin mantenan el Recall pero, debido a que la mayor parte del vocabulario de

200
Captulo 9. Categorizacin gramatical

los Textos 860 es conocido para el sistema, no nos dice nada sobre la efectividad de
estas reglas, entre otras cosas porque apenas se aplican.
Para estudiar la eficiencia de las reglas de terminacin utilizamos el diccionario
Dinmico correspondiente a un mes del peridico El Mundo (abril 1994). El diccionario
Dinmico, como ya se explic en el Captulo 6, contiene las palabras desconocidas para
el sistema: palabras nuevas y errores tipogrficos. A este corpus de 6920 palabras le
aplicamos las reglas_crater reglas1_1 y reglas2_1 y analizamos los resultados.

1. REGLAS_CRATER
Como conclusin general podemos decir que funcionan bien, categorizando
6831 de las 6920 palabras. Son muy ambiguas ya que muchas palabras las
categoriza como nombre comn y adjetivo calificativo, por ejemplo, arbolitos,
elevalunas, paragolpes, con lo que el Recall es bueno, pero la precisin no.
Donde ms errores comete es con los verbos y palabras extranjeras. En el caso
de los verbos, unas veces categoriza como verbos palabras que no lo son, por
ejemplo, elaboradsimo, telefamoso; y otras veces deja verbos sin categorizar, por
ejemplo, necesitabamos, la categoriza como sustantivo y adjetivo calificativo o
llevandose como sustantivo.
Muchas palabras extranjeras las categoriza como verbos: center, designer,
mater.
Por otro lado debemos aclarar que los diccionarios que usamos son distintos a
los del proyecto Crater.

Total Categorizadas Correctas Error (%)


Verbos 243 246 87 64.2
Palabras extranjeras 225 225 190 15.55

Tabla 9.8 Resultados de las reglas_crater en verbos y palabras extranjeras

2. REGLAS1_1
Categorizan 2202 de las 6920 palabras del corpus evaluado, el 31.82 %. El
principal problema de estas reglas es que son muy ambiguas, categorizan muchas
palabras como sustantivo y adjetivo calificativo y deberan asignar solamente una de

201
Captulo 9. Categorizacin gramatical

las dos categoras. Por ejemplo antisocialismo. En morfologa la terminacin ismo


se utiliza para la formacin de nombres. Las reglas deberan categorizar la palabra
como sustantivo y no como sustantivo y adjetivo. Esto hace que el Recall sea bueno
pero la precisin no, aumentando el nmero medio de categoras por palabra
innecesariamente.
Otro inconveniente es que tienen en cuenta la tilde pero no el acento. Por
ejemplo, categorizan hipnotizante como verbo. Para que una palabra que termina en
ante sea verbo debe ser esdrjula o sobreesdrjula y sin embargo la palabra
considerada es llana. Considrese tambin el caso de huesped. Las reglas la
categorizan como verbo; una palabra terminada en ed ser imperativo verbal si es
aguda y huesped es llana. Estos errores podran corregirse incorporando a las reglas
informacin sobre acentuacin.
Por otra parte, observamos que faltan reglas para algunas terminaciones que dan
lugar a nombres y adjetivos, como por ejemplo: -ito (abuelita, corderito), -logo
(autlogo, podolgo), -oma (linfoma, melanoma), -azo (muletazo, manaza). Al
carecer de reglas para estas terminaciones, el sistema suele fallar ya que les asigna la
categora verbo.
Al igual que ocurra con las reglas_crater, donde ms errores cometen las
reglas1_1 es con los verbos y las palabras extranjeras. Las reglas para los gerundios
son las que mejor funcionan (dentro del grupo de reglas verbales), aunque fallan
cuando se aplican a los ordinales, as decimosegundo lo categoriza como gerundio.
Sin embargo hay que resaltar que cuando se hicieron estas reglas no haba un
conjugador verbal y por eso tenan que arriesgar, para intentar categorizar el mayor
nmero posible de palabras. Ahora, con el conjugador verbal, apenas quedan verbos
sin categorizar y las reglas de verbos se aplican a palabras que no lo son, por eso
fallan.

Total Categorizadas Correctas Error (%)


Verbos 641 641 240 37.44
Palabras extranjeras 103 103 52 49.51

Tabla 9.9 Resultados de las reglas1_1 en verbos y palabras extranjeras

202
Captulo 9. Categorizacin gramatical

Hay que destacar el buen funcionamiento de las reglas con los adverbios
acabados en mente (experimentalmente, instintivamente), con los adjetivos
acabados en simo (famossimas, finsimo) y con los sustantivos terminados en
in (felacin, expansin). Debido a la gran cantidad de palabras que responden a
estos patrones en el corpus, estas terminaciones son muy productivas en castellano,
y las reglas1_1 presentan una alta eficiencia.
A continuacin, eliminamos del fichero reglas1_1 todas aquellas destinadas a
categorizar verbos, tanto formas finitas como infinitivos, gerundios y participios,
pasando de las 117 reglas iniciales a un conjunto de 77 reglas, y realizamos una
segunda prueba sobre un Corpus distinto: el diccionario Dinmico correspondiente a
diciembre de 1994, formado por 7011 palabras. Los resultados obtenidos fueron
bastante buenos; con este conjunto de 77 reglas categorizamos 1739 de las 7011
palabras, el 24.80 %, y de esas 1739, 20 no las evaluamos por tratarse de errores
tipogrficos (por ejemplo, caracterica, governo, nismo). De las 1719 palabras
consideradas, 1698 las categoriza correctamente, lo que significa que el porcentaje
de error es del 1.22 %. Este nuevo conjunto de 77 reglas ofrece muy buenos
resultados desde el punto de vista del Recall, pero siguen teniendo el problema de
ambigedad, ya que muchas palabras las categorizan como sustantivo y adjetivo.

Total Categorizadas9 Correctas Error10


Nuevas reglas1_1 7011 1719 1698 1.22 %

Tabla 9.10 Resultados del nuevo fichero reglas1_1

3. REGLAS2_1
Se encargan de categorizar, sobre todo, nombres comunes y adjetivos, aunque
tambin hay algunas reglas para formas verbales. Categorizan 2069 de las 6920
palabras que componen el Corpus considerado para la comparacin de los tres
ficheros de reglas de terminaciones (diccionario Dinmico de abril de 1994), es
decir, el 29.90 %. De las 2069 palabras categorizadas, 4 son errores tipogrficos

9
Palabras categorizadas sin considerar errores tipogrficos.
10
Porcentaje sobre el nmero total de palabras categorizadas.

203
Captulo 9. Categorizacin gramatical

(por ejemplo, afiliacion, pildora, version), por los que slo consideramos 2065
palabras, de las cuales, 1849 estn correctamente categorizadas. Es decir, el error
cometido por las reglas2_1 es del 10.46 %.

Total Categorizadas11 Correctas Error12


reglas2_1 6920 2065 1849 10.46 %

Tabla 9.11 Resultados de las reglas2_1

La principal causa de error son los diminutivos, ya que considerando nicamente


la terminacin de una palabra es difcil deducir si se trata de un sustantivo o de un
adjetivo. Consideremos, por ejemplo, la terminacin -ita. Unas veces da lugar a
adjetivos: morenita, enterita, y otras a nombres: abuelita, ramita. Una posible
solucin sera asignar a estas palabras la doble categora sustantivo/adjetivo
calificativo. De esta manera aumentara el Recall, pero a cambio disminuira la
Precisin al aumentar el nmero de categoras por palabra.
De los tres ficheros de reglas evaluados (reglas_crater, reglas1_1 y reglas2_1),
son las menos ambiguas, ya que cuando se aplican a una palabra, le asignan una
nica categora; en consecuencia, la Precisin es muy buena.
Por ltimo debemos mencionar que hemos encontrado casos en los que se
aplican reglas a palabras mal escritas o mal tildadas y sin embargo aciertan. Por
ejemplo: agjero13 (sustantivo), alcada (sustantivo), disminudo (participio).

REGLAS_3
De los tres ficheros de reglas contextuales reglas1_2, reglas2_1 y reglas_3, stas
ltimas son las que ofrecen mejores resultados en el sentido de que son las que menos
empeoran el Recall. La tabla 9.12 muestra el Recall antes y despus de aplicar reglas_3
al corpus de Entrenamiento.

11
Palabras categorizadas sin considerar errores tipogrficos.
12
Porcentaje sobre el nmero total de palabras categorizadas.
13
Entre parntesis figura la categora que asignan las reglas a la palabra considerada.

204
Captulo 9. Categorizacin gramatical

Corpus 1 Corpus 2 Corpus 3 Corpus 4 Corpus 5 Corpus 6 Corpus 7


sin reglas 99.44 % 99.50 % 99.01 % 99.34 % 99.45 % 99.50 % 99.54 %
reglas_3 97.99 % 98.03 % 97.64 % 97.92 % 97.99 % 98.14 % 98.13 %

Tabla 9.12 Recall antes y despus de aplicar reglas_3

Para estudiar qu reglas fallan y por qu motivo, analizamos los ficheros


errores.dep y resultados.dep del Corpus 1. El porcentaje de error al aplicar las reglas_3
es del 14.37 %. Las 35 reglas que componen este fichero pueden dividirse en seis
grupos:
1. Reglas que no se aplican nunca: 6
2. Reglas que aciertan siempre: 6
3. Reglas que fallan siempre: 3
4. Reglas que aciertan ms de un 80 % : 6
5. Reglas que fallan ms de un 80 % : 3
6. Reglas que estn en un caso intermedio : 11

La eficiencia de las reglas podra mejorarse trabajando en tres frentes:


- Resolver el problema de ambigedad lxica de algunas palabras de uso
frecuente. Se trata de palabras que tienen una categora claramente
preferente: entre, dicho, para, sobre, entre o una, y que si no se
categorizan correctamente en un primer momento hacen que las reglas
fallen sistemticamente. Asignando a estas palabras su categora
definitiva desde el comienzo se evitaran muchos errores y aumentara
satisfactoriamente la eficiencia de las reglas.
- Completando reglas. Algunas reglas estn incompletas, para que su
aplicacin fuera correcta deberan hacerse ms restrictivas.
Consideremos, por ejemplo, la siguiente regla: cuando en el contexto
izquierdo de una palabra que puede ser un sustantivo o un verbo se
encuentra un determinante, una preposicin, una contraccin o una
preposicin seguida por un determinante, la palabra ambigua ser un

205
Captulo 9. Categorizacin gramatical

sustantivo. La regla es correcta pero incompleta, le falta la condicin de


que la palabra ambigua no sea nombre propio.
- Analizando un contexto (izquierdo y derecho) ms amplio. Muchas
reglas fallan porque consideran el contexto izquierdo pero no el derecho
o viceversa. En general, cuanto mayor sea el contexto analizado mayor
ser la probabilidad de fallo de la regla.
Por ltimo debemos comentar que estas reglas fueron diseadas para aplicarse
despus de reglas1 y reglas2 y por eso pueden parecer incompletas, adems estaban
pensadas para resolver problemas concretos que surgan tras la aplicacin de los dos
ficheros de reglas anteriores. Ahora bien, trabajando estas reglas en los puntos indicados
anteriormente creemos que podran conseguirse buenos resultados, ya que el error no es
demasiado elevado (inferior al 15 %) y disminuyen apreciablemente el nmero medio
de categoras por palabras, consiguiendo un valor del 1.3. La Tabla 9.13 muestra el
nmero medio de categoras por palabra antes y despus de aplicar reglas_3.

Sin reglas Reglas_3 Error cometido por las reglas


Corpus 1 1.51 1.26 14.36 %
Corpus 2 1.51 1.26 14.79 %
Corpus 3 1.49 1.26 15.06 %
Corpus 4 1.50 1.25 15.12 %
Corpus 5 1.50 1.26 14.94 %
Corpus 6 1.51 1.26 14.99 %
Corpus 7 1.51 1.26 14.74 %

Tabla 9.13 Nmero medio de categoras por palabra antes y despus de aplicar reglas_3

Para finalizar este apartado, debemos destacar que los ficheros de reglas
utilizados ya existan y lo nico que hemos hecho es hacer distintas pruebas para
evaluar su utilidad.

206
Captulo 9. Categorizacin gramatical

9.5 EVALUACIN DEL CATEGORIZADOR

Para la evaluacin del categorizador utilizamos el corpus Eval14 formado por


38152 palabras categorizadas manualmente. Los resultados obtenidos en la
categorizacin sin reglas y tras aplicar reglas_0 y reglas_3 se recogen en la siguiente
Tabla:

N medio Error cometido


Recall (%)
categoras/palabra por las reglas (%)
sin reglas 99.24 1.50 -
reglas_0 99.48 1.50 0
reglas_3 97.87 1.26 15. 89

Tabla 9.14 Evaluacin del categorizador

El categorizador sin reglas y con las reglas_0 ofrece buenos resultados, con un
99.94 % de palabras categorizadas y un Recall del 99.48 %.

9.6 COMPARACIN CON OTROS SISTEMAS

Con el objetivo de evaluar los resultados obtenidos por nuestro categorizador,


vamos a compararlos con los obtenidos por otros tres sistemas: el conversor texto-voz
de Telefnica [Castejn 97], el categorizador desarrollado por J. Chanod y P.
Tapanainen [Chanod 95] y el categorizador para el espaol basado en la teora de Eric
Brill [Stathis 98]. En la Tabla 9.15 presentamos los resultados de estos tres
categorizadores.

14
Vase apartado 8.2 del Captulo 8.

207
Captulo 9. Categorizacin gramatical

Categorizador Telefnica Chanod & Tapanainen Stathis


Tamao del corpus 10168 5762 117542
(n de palabras)
Palabras 97 % 98.7 % 99.33 %
categorizadas
N medio 1 1 1
categoras/palabras

Tabla 9.15 Resultados de otros categorizadores

EL CATEGORIZADOR DE TELFONICA
El categorizador de Telefnica tiene una precisin del 97 %. Este resultados no es
comparabale con los de nuestro sistema ya que, por un lado hace referencia a la
precisin y no al Recall y por otra parte, las condiciones de funcionamiento son
diferentes en cuanto al nmero de palabras evaluado, el tipo de texto procesado y el
conjunto de categoras empleado.
Telefnica utiliza un conjunto de 36 categoras mientras que en nuestro caso el
nmero de categoras es muy superior, considerando clase y subclase, existen 48
categoras distintias15. Por otra parte, el categorizador de Telefnica no distingue entre
nombres comunes y adjetivos calificativos ya que, en su opinin, complicara mucho la
tarea y no tendra ninguna utilidad.

EL CATEGORIZADOR DE CHANOD & TAPANAINEN


Estos autores han desarrollado un categorizador para el francs y ofrecen resultados
no solo de precisin sino tambin sobre el porcentaje de texto categorizado en el anlisis
morfolgico, un 99.97 %. Este dato s es comparable con los resultados de nuestro
categorizador sin reglas: 99.48 %. En este punto, su sistema tiene un nmero medio de
categoras de palabras del 1.64, que es ligeramente superior al nuestro: 1.5. Teniendo en
cuenta que el tamao de nuestro corpus de evaluacin es mayor, nuestro sistema obtiene
muy buenos resultados. En este caso desconocemos la lista de categoras empleada por
Chanod & Tapanainen.

15
La lista de categoras que utiliza el programa se da el Anexo A.

208
Captulo 9. Categorizacin gramatical

Recall N medio categoras/palabra


Chanod & Tapanainen 99.97 % 1.64
Nuestro categorizador 99.48 % 1.50

Tabla 9.16 Comparacin de resultados con Chanod & Tapanainen

EL CATEGORIZADOR DE BRILL ADAPTADO


Este categorizador est basado en la teora de errores guiados de Eric Brill16. El
sistema utiliza un conjunto de 60 categoras, bastante similar, en nmero y tipo de
categoras empleadas, al nuestro y realiza pruebas en dos corpus distintos: el primero
est formado por 117542 palabras y el segundo por 370163. El porcentaje de texto
categorizado es similar al nuestro. Ahora bien, debemos destacar que esta adaptacin
del categorizador de Brill procesa textos muy poco ambiguos mientras que nuestro
corpus de evaluacin incluye textos de tres tipos distintos: legislativos, documentos de
la Comunidad Europea y periodsticos. Cuando al categorizador de Stathis se le
presenta texto un poco ms ambiguo empeoran ligeramente los resultados,
disminuyendo el Recall y aumentando el nmero medio de categoras por palabra. Esta
es la explicacin de la diferencia de resultados que aparecen en la Tabla 9.17; el Corpus
1 es menos ambiguo que el Corpus2 y por eso los resultados obtenidos son mejores.

Tamao del corpus Precisin Tasa de ambigedad


(n de palabras) del corpus
Corpus 1 117542 99.33 % 1.59
Corpus 2 370162 98.38 % 1.63

Tabla 9.17 Resultados del categorizador de Stathis

16
Para una descripcin ms detallada del categorizador de Stathis y Juan Manuel Montero y de
la teora de Eric Brill puede consultarse el Captulo 2.

209
Captulo 9. Categorizacin gramatical

210
Captulo 9. Categorizacin gramatical

CAPTULO 9 CATEGORIZACIN GRAMATICAL .........................................182

9.1 EL SISTEMA DE CATEGORIZACIN 860 ................................................184


9.1.1 CATEGORAS 860.................................................................................184
9.1.2 NUEVAS CATEGORAS ........................................................................185
9.2 CATEGORIZACIN SIN REGLAS .............................................................187
9.2.1 CATEGORIZACIN DE UNIDADES ESPECIALES..............................187
9.2.2 CATEGORIZACIN POR DICCIONARIO ............................................189
9.2.3 EL FICHERO CATEGORIZADO.DEP...................................................190
9.3 CATEGORIZACIN POR REGLAS ............................................................190
9.3.1 REGLAS DE TERMINACIONES............................................................191
9.3.2 REGLAS DE CONTEXTO......................................................................191
9.3.3 LOS FICHEROS DE REGLAS ...............................................................192
9.3.4 ADAPTACIN DEL PROGRAMA .........................................................194
9.3.5 FICHEROS DE DEPURACIN.............................................................194
9.4 RESULTADOS DEL CATEGORIZADOR GRAMATICAL.........................197
9.4.1 CATEGORIZACIN SIN REGLAS.........................................................197

TEXTOS 860 ...........................................................................................................197

9.4.2 CATEGORIZACIN POR REGLAS.......................................................199


9.5 EVALUACIN DEL CATEGORIZADOR ...................................................207
9.6 COMPARACIN CON OTROS SISTEMAS................................................207

195

Você também pode gostar