Você está na página 1de 10

Aplicaciones de Procesamiento de Lenguaje Natural

Aplicaciones de Procesamiento de Lenguaje


Natural
Hernndez M. Gmez J.

Escuela Politcnica Nacional, Facultad de Ingeniera en Sistemas
Quito, Ecuador (e-mail: myriam.hernandez@epn.edu.ec)

Universidad de Alicante, Departamento de Lenguajes y Sistemas Informticos
Alicante, Espaa (e-mail: jmgomez@ua.es)

Resumen: El campo de procesamiento de lenguaje natural (PLN), ha tenido un gran


crecimiento en los ltimos aos; sus reas de investigacin incluyen: recuperacin y extraccin
de informacin, minera de datos, traduccin automtica, sistemas de bsquedas de respuestas,
generacin de resmenes automticos, anlisis de sentimientos, entre otras. En este artculo
se presentan conceptos y algunas herramientas con el fin de contribuir al entendimiento del
procesamiento de texto con tcnicas de PLN, con el propsito de extraer informacin relevante
que pueda ser usada en un gran rango de aplicaciones. Se pueden desarrollar clasificadores
automticos que permitan categorizar documentos y recomendar etiquetas; estos clasificadores
deben ser independientes de la plataforma, fcilmente personalizables para poder ser integrados
en diferentes proyectos y que sean capaces de aprender a partir de ejemplos. En el presente
artculo se introducen estos algoritmos de clasificacin, se analizan algunas herramientas de
cdigo abierto disponibles actualmente para llevar a cabo estas tareas y se comparan diversas
implementaciones utilizando la mtrica F en la evaluacin de los clasificadores.

Palabras clave: Procesamiento de lenguaje natural, clasificadores, categorizar, etiquetar,


aprendizaje supervisado, aprendizaje no supervisado, aprendizaje automtico.

Abstract: The field of natural language processing (NLP) has grown tremendously in
recent years, its research interests include: information retrieval and extraction, data mining,
machine translation systems, question answering systems, automatic summarization, sentiment
analysis, among others. In this paper we present some concepts and tools in order to contribute
to the understanding of text processing with NLP techniques, to extract relevant information
that can be used in a wide range of applications. Automatic classifiers can be developed to
categorize documents and recommend labels, these classifiers should be platform independent,
easily customizable in order to be integrated in different projects and to be able to learn from
examples. In this article we introduce the algorithms for classification, we discuss some open
source tools currently available to perform these tasks and different implementations are
compared using F metrics to evaluate classifiers.

Keywords:Natural language processing, classify, categorize, tagging, supervised learning,


unsupervised learning, machine learning.

1. INTRODUCCIN sin el Procesamiento de Lenguaje Natural (PLN) es dif-


cil aprovecharla. El procesamiento del lenguaje involucra
El instrumento que los seres humanos utilizamos para una transformacin a una representacin formal, manipula
comunicar el conocimiento es el lenguaje natural. Ac- esta representacin y por ltimo, si es necesario, lleva los
tualmente, buena parte del saber humano se encuen- resultados nuevamente a lenguaje natural. Los campos
tra en forma digital en distintos tipos de colecciones de desarrollo de PLN incluyen la recuperacin y extrac-
de datos. Los volmenes de informacin son inmensos, cin de informacin, traduccin automtica, sistemas de
segn la International Data Corporation [8], el mundo bsquedas de respuestas, generacin de resmenes au-
gener 1,8 zettabytes de informacin digital en 2011 y tomticos, minera de datos, anlisis de sentimientos, en-
en 2020 el mundo va a generar 50 veces [esa cantidad] tre otras. Este artculo est organizado de la siguiente
[13]. Las computadoras archivan esta informacin pero manera: se presentan conceptos de los campos de PLN

Revista Politcnica - Julio 2013, Vol. 32, No. 1, Pginas: 8796 87


Hernndez M.; Gmez J.

mencionados, con nfasis en recuperacin y extraccin La dimensin de propiedades tiene que ver con la
de informacin con el propsito de conocer mtodos de forma como se presentan las relaciones entre los trmi-
extraccin de informacin relevante que pueda ser usada nos/palabras del documento en el espacio vectorial, rela-
en un gran rango de aplicaciones. Se introducen algoritmos ciones que pueden ser ortogonales e independientes o de-
de clasificacin, se analizan herramientas de cdigo abierto pendientes [22].
disponibles actualmente para llevar a cabo estas tareas y se
Una vez que se ha logrado acceso a los contenidos buscados
comparan diversas implementaciones utilizando resultados
y se tiene control sobre los datos, en muchas aplicaciones se
reportados por distintos autores.
hace necesario el siguiente proceso que es el de extraccin
de la informacin (EI), que consiste en la obtencin de las
2. CONCEPTOS DE PROCESAMIENTO DE partes que interesan en el texto para pasarlas a un formato
LENGUAJE NATURAL de base de datos, es decir a un formato estructurado.
Los sistemas de EI pueden ser de utilidad an si no
2.1 Recuperacin y extraccin de informacin presentan una puntuacin perfecta en las medidas de
recuperacin y precisin. En el caso de colecciones muy
La recuperacin de informacin (RI), es el proceso de grandes, es preferible tener resultados parcialmente correc-
encontrar en un repositorio grande de datos, material tos antes que realizar la extraccin por mtodos no au-
(usualmente documentos) de naturaleza no estructurada tomticos. Las medidas utilizadas en estos sistemas para
(usualmente texto) o semiestructurada (pginas Web, por medir su rendimiento son:
ejemplo), que satisfaga una necesidad de informacin [22]. Cobertura = (nmero de documentos recuperados) /
Los datos no estructurados no tienen un esquema claro, (nmero total de documentos relevantes)
no estn listos para procesar y son lo opuesto a los datos Precisin = (nmero de documentos recuperados que son
con un esquema estructurados como los que se encuentran relevantes) / (nmero total de documentos recuperados)
en bases de datos. Los datos semiestructurados estn
en documentos esquema estructurados como los que se Los clasificadores se evalan usando la mtrica F, que es
encuentran en bases de datos. Los datos semiestructurados igual a la media armnica de la precisin y la cobertura.
estn en documentos con marcas explcitas como el cdigo La forma de calcular las medidas de micro promedio y el
HTML. La informacin encontrada debe ser pertinente y macro promedio de la mtrica F (micro-F1 y macro-F1),
relevante. La relevancia es la medida de cmo una pregunta se puede consultar en [24].
se ajusta a un documento y la pertinencia es la medida de En estos casos los resultados deben pasar por un sistema
cmo un documento se ajusta a una necesidad informativa de auditora que permita corregir manualmente los errores
[15]. en cuanto a precisin (que es una tarea relativamente
Las estrategias de recuperacin de informacin involucran fcil puesto que slo hay que comprobar los resultados
la transformacin del texto en representaciones adecuadas recuperados extrados) y cobertura (tarea ms compleja
de acuerdo a modelos especficos que cumplan con los al no poder saber exactamente cul es la cantidad real de
propsitos de las bsquedas. documentos relevantes en una gran coleccin de textos).

Como se muestra en la Figura1, los modelos pueden ubi- En general los sistemas de EI son tiles si: la informa-
carse en categoras de acuerdo a dos posibles dimensiones: cin a ser extrada est especificada explcitamente; o el
sus bases matemticas y sus propiedades [16]. documento puede resumirse con un nmero pequeo de
plantillas; o la informacin que se necesita est incluida
En la dimensin de bases matemticas, el texto puede completamente en el texto.
ser representado como: conjuntos de palabras o frases
en donde las coincidencias se logran realizando opera- Cada documento se procesa para encontrar entidades y
ciones de lgebra booleana; modelos algebraicos que intro- relaciones con significado y contenido. Primero se definen
ducen parmetros e ndices para recuperar informacin con los tipos de informacin semntica que van a ser extrados.
metadatos, calificar y clasificar documentos en respuesta La jerarqua entre marcos y caractersticas se presentan
a una consulta, lo que lleva a modelos en espacios vec- en forma de rbol, con los marcos como races y las
toriales, matriciales o agrupamientos irregulares; modelos caractersticas como hijos que se van aadiendo conforme
probabilsticos que enfocan la solucin de los problemas se las va descubriendo.
de bsqueda desde el punto de vista probabilstico, apli-
cando teoremas como el de Bayes; modelos basados en La salida del motor de EI es un conjunto de marcos anota-
caractersticas que se eligen y combinan y califican la rele- dos es decir etiquetados que son extrados de los documen-
vancia de las similaridades usando mtodos de aprendizaje tos. Los marcos pueblan una tabla en la que los campos
automtico. del marco son las filas de la tabla [7]. Hay cuatro tipos

88 Revista Politcnica - Julio 2013, Vol. 32, No. 1, Pginas: 8896


Aplicaciones de Procesamiento de Lenguaje Natural

Figura 1. Categorizacin de modelos de Recuperacin de Informacin. Adaptada a partir de [16]

bsicos de elementos que podran ser extrados: entidades, 2.2 Minera de datos
atributos (caractersticas de las entidades extradas), he-
chos (que relacionan entidades) y eventos (actividades u La minera de datos proporciona herramientas poderosas
ocurrencias en las que participan las entidades) [7]. para descubrir patrones ocultos y relaciones en datos
estructurados. Este proceso asume que los datos ya se
En la Figura 2, se muestra un ejemplo de documento
encuentran almacenados en un formato estructurado. Por
etiquetado con caractersticas que podrn ser extradas
esta razn su pre-procesamiento consiste en la limpieza y
usando un motor de EI.
normalizacin de los datos y la generacin de numerosos
enlaces entre las tablas de las bases de datos. La minera
de datos usa tcnicas y metodologas de RI, EI y corpus
procesados con tcnicas de lingstica computacional [7].

2.3 Traduccin automtica

La traduccin automtica tiene objetivos claros: tomar el


texto escrito en un lenguaje y traducirlo a otro, man-
teniendo el mismo significado. En general el proceso de
traduccin automtica sigue tres pasos: primero, el texto
en el lenguaje original se transforma a una representacin
intermedia, luego, de acuerdo a la morfologa del lenguaje
destino, se realizan modificaciones a esta representacin
intermedia y por ltimo sta se transforma al lenguaje
destino. La manera de evaluar si la traduccin es correcta
es un problema no trivial. Definir exactamente la pala-
Figura 2: Artculo de noticias etiquetado [7]
bra significado y luego poder medirlo presenta compli-
En [7] se listan algunas herramientas de cdigo abierto que caciones. Cmo saber que dos expresiones significan lo
se utilizan para etiquetado: mismo o algo parecido? Normalmente, se encarga este tipo
de tarea a traductores humanos, pero distintas personas
Etiquetador de Eric Brill [5] (C code)
realizan distintas traducciones de un mismo texto y dife-
Etiquetador de Lingua-EN-Tagger [19]
rentes evaluadores de una traduccin pueden no coincidir
Etiquetador de Illinois POS T [22]
sobre si el texto est bien traducido o no. Con un enfoque
Etiquetador Demo [3]
estadstico en la evaluacin de la traduccin automtica se
Etiquetador OpenNLP 1 [24]
puede llegar, con suficientes muestras, a una distribucin
verdadera con lo que se lograrn evaluaciones vlidas. Se
1 http://opennlp.sourceforge.net/models-1.5/ detectan reglas de traduccin extrayendo traducciones de

Revista Politcnica - Julio 2013, Vol. 32, No. 1, Pginas: 8996 89


Hernndez M.; Gmez J.

palabras en distintos contextos dentro de corpus. De esta nivel de colecciones de documentos que agrupan o separan
manera se establece alineamiento de palabras, un paso los documentos por tpicos y destacan las similitudes y
fundamental en cualquier modelo estadstico de traduccin diferencias de la informacin contenida en ellos.
automtica. Un corpus con palabras alineadas permite la
Los contenidos se relacionan entre ellos en un sentido
estimacin de modelos basados en frases y rboles, que son
semntico: cubren el mismo tpico, tienen similares cate-
los enfoques ms comunes hoy en da [4].
goras semnticas o conceptos estrechamente relacionados.
A pesar de los avances en esta tecnologa, todava hay mu-
chos retos en la traduccin especialmente entre lenguajes 2.6 Anlisis de sentimientos
con distinto orden de palabras y una morfologa compleja.
La investigacin en esta rea tiene muchas direcciones no De acuerdo a [7] el anlisis de sentimientos en textos es
exploradas: mtodos de aprendizaje avanzado en mode- la identificacin y extraccin de informacin subjetiva.
los estadsticos de traduccin, modelos sintcticos y sus Tambin llamado minera de opiniones, ese proceso ge-
representaciones, datos paralelos para entrenamiento de neralmente involucra el uso de herramientas de PLN y
modelos estadsticos, integracin de traduccin del habla software de anlisis de textos para automatizar el pro-
con otras aplicaciones como reconocimiento de voz y ceso. La forma bsica de anlisis de sentimientos es una
traduccin automtica. Afortunadamente, se dispone de clasificacin polarizada de sentimientos que puede asignar
muchas herramientas de cdigo abierto que pueden ser calificaciones de en un rango de -10 a 10 que se basa en el
usadas por los investigadores en estos campos [13]. aprendizaje para evaluar emociones tanto negativas como
positivas en corpus etiquetados de entrenamiento.
2.4 Sistemas de bsquedas de respuestas
Tcnicas avanzadas permiten analizar gramaticalmente y
descomponer la oracin. La minera de opiniones tiene un
Son sistemas diseados para tomar una pregunta en
mercado vido de conocer, indexar y resumir opiniones
lenguaje natural y proporcionar una respuesta. De esta
en grandes volmenes de texto con fines de mercadeo y
manera los usuarios no tendran que navegar y leer una o
manejo de imagen.
varias pginas de resultados de bsqueda. Estos sistemas
se construyen sobre motores de bsqueda y requieren con- Los algoritmos heursticos tienen el inconveniente de la
tenido como fuente para descubrir las respuestas. Deben dificultad de recopilar manualmente todos los patrones
tener mtodos para entender las preguntas del usuario y posibles que expresan sentimientos. Por ello, la siguiente
determinar el tipo de respuesta que debe dar, generar una fase de investigacin usa la informacin creciente existente
bsqueda significativa de la consulta, y finalmente calificar en Internet sobre con comentarios de distinta naturaleza.
los resultados obtenidos. De estos tres problemas el ms Se usan reglas gramaticales, tipo compiladores, para ex-
difcil de enfrentar es determinar el tipo de respuesta. traer inferencias.
Para hacerlo se realizan tres pasos: entrenamiento, frag-
El motor de reglas se aplica varias veces para transformar
mentacin y solo entonces la determinacin del tipo de
el texto etiquetado en oraciones que definen la asociacin
respuesta.
entre una palabra y una parte del habla con un sentimiento
Para construir un sistema de respuestas se necesita aplicar calificado. Para la implementacin se usan herramientas
tcnicas de PLN como: RI, EI con algoritmos de re- para etiquetar y una base de datos con claves / frases con
conocimiento de entidades y etiquetado, comparacin de evaluaciones de polaridad de emociones. Esta informacin
secuencias de caracteres, entre otras [22]. proviene de fuentes etiquetadas o por aprendizaje en
corpus. Dos fuentes de datos disponibles son: HDCUS [11]
2.5 Generacin de resmenes automticos y el WordNet-Affect [6]. En [13] se listan libreras de cdigo
abierto que pueden ser usadas para construir un modelo
En [2] se define el problema de la generacin de resmenes de anlisis de sentimientos: Gate [9], Balie [1], Mallet [20].
automticos a dos diferentes niveles: a nivel de documento
y a nivel de grupos de documentos. Los resmenes pueden 3. CLASIFICACIN, CATEGORIZACIN Y
ser con enfoque extractivo o abstractivo. Los mtodos ETIQUETADO
extractivos se basan en los mismos principios usados en
la identificacin de trminos, consisten en una coleccin Dado un grupo de objetos, la tarea de clasificarlos consiste
de trminos, frases o prrafos significativos que definen en asignarlos a un set pre especificado de categoras. Si
el significado del texto original. Los abstractivos depende estamos dentro del dominio de gestin documental, la
de tcnicas de parafraseo para producir las sntesis, las tarea se la conoce como categorizacin de texto, y con-
tcnicas an estn siendo desarrolladas. Un problema siste en hallar uno o ms tpicos en los que encajen los
comn es el de la existencia de mltiples documentos sobre contenidos de los documentos; teniendo como entrada un
un mismo tema, en este caso se habla de resmenes a grupo de categoras (sujetos temas) y un conjunto de

90 Revista Politcnica - Julio 2013, Vol. 32, No. 1, Pginas: 9096


Aplicaciones de Procesamiento de Lenguaje Natural

documentos de texto. La categorizacin automtica de a datos. Dado un conjunto de caractersticas de un objeto,


documentos es una forma de clasificacin de patrones, que un clasificador intenta asignar una etiqueta a ese objeto.
se es necesaria para la gestin eficiente de sistemas de in- El clasificador hace esto usando el conocimiento derivado
formacin de textos. Se aplica en el indexado de texto para de ejemplos de cmo otros objetos han sido etiquetados.
entrega comercial personalizada de texto, filtrado de spam,
Estos ejemplos, conocidos como datos de entrenamiento,
categorizacin de pginas web bajo catlogos jerrquicos,
sirven como fuente de conocimiento que el clasificador usa
generacin automtica de metadatos, deteccin de gnero
para tomar decisiones sobre objetos no analizados previa-
de textos, entre otros [7]. Hay dos enfoque principales a
mente. La categorizacin trata de asignar una categora a
la categorizacin de textos. Un enfoque de ingeniera del
un objeto. La categorizacin de documentos es el proceso
conocimiento en el que mediante reglas de clasificacin
de categorizar un documento de texto usando alguna(s)
se introduce conocimiento experto (reglas) y otro el de
caractersticas comunes.
aprendizaje automtico (ML: Machine Learning), en el que
procesos inductivos generales construyen un clasificador En este punto se tratan de categoras basadas en el
con aprendizaje basado en ejemplos preclasificados. sujeto, pero otras aplicaciones categorizan documentos
usando anlisis de sentimientos y tendremos entonces
Existen diversos resultados en cuanto a rendimiento en
categoras como positividad o negatividad en una revisin
el dominio de gestin documental comparando entre in-
de producto, o las emociones ocultas en un mensaje
geniera del conocimiento y sistemas ML, usualmente el
de email o en una solicitud de soporte al cliente. La
primero supera al segundo, pero esta diferencia se va
seleccin de caractersticas determina la calidad y el tipo
reduciendo debido a que muchas investigaciones, en los
del clasificador.
ltimos tiempo, se concentran en ML. Esto ltimo debido
a que el enfoque de ingeniera del conocimiento tiene
la desventaja de la dificultad para la creacin y mante- 3.1 Algoritmos de clasificacin
nimiento de las reglas de codificacin del conocimiento
mientras ML requiere un conjunto de ejemplos clasificados Segn [22] los clasificadores binarios indican si un objeto
manualmente que podran tener un costo menor. es o no miembro de una clase. A veces se combinan
para obtener una clasificacin multiclases. Dependiendo
De acuerdo a [7] el enfoque de ingeniera del conocimiento
del algoritmo, la salida ser una sola clase o un nmero de
se enfoca en el desarrollo de reglas de clasificacin
clases con pesos que describen la probabilidad de que el
obtenidas en forma no automtica. Un experto en el do-
objeto sea miembro de una clase determinada, como es el
minio define un conjunto de condiciones suficientes para
caso del algoritmo Mahout Bayes.
que un documento sea clasificado en una categora. El
desarrollo de las reglas de clasificacin puede ser una labor A veces los clasificadores jerrquicos estn organizados en
que toma muchas horas-hombre. estructuras tipo rboles. En estos casos un documento que
pertenece a la clase A, que tiene como hijos B y C, ser
Los sistemas de aprendizaje automtico generan etiquetas
evaluado con los clasificadores entrenados para reconocer
sobre el contenido en forma automtica o semiautomtica.
si est en la clase B o C. Si coincide con B, ser evaluado
Se usan algoritmos para observar como los objetos se eti-
para los hijos de esa clase y as sucesivamente hasta llegar
quetan y se sugieren alternativas para etiquetas existentes
al ltimo nivel del rbol.
o nuevas para contenido no etiquetado.
Un ejemplo de categorizador multiclases es el de mxima
Los algoritmos de clasificacin aprenden con ejemplos
entropa. El categorizador usa las palabras encontradas
usando datos que han sido organizados en clases en forma
en documentos como caractersticas y los temas como
manual o a travs de algn proceso automtico. A travs
categoras. El proceso de entrenamiento construye un
del proceso de entrenamiento, los algoritmos de clasifi-
modelo de las relaciones entre las palabras y los temas.
cacin determinan las propiedades o caractersticas que
En un documento no categorizado el modelo determina
indican que un objeto pertenece a una clase dada. Cuando
los pesos de las categoras y los usa para producir una
han sido entrenados, los algoritmos pueden clasificar datos
salida que describe el tema del documento.
que no tienen todava etiquetas. En la categorizacin de
documentos se asigna, a un documento, una etiqueta rela- En los enfoques que usan el modelo del espacio vectorial, la
cionada con una categora o un tpico. distancia del vector espacio entre los documentos que han
sido clasificados es comparada a un documento que no ha
Un algoritmo de categorizacin construye un modelo de
sido clasificado y el resultado se usa para determinar la
trminos individuales y otras caractersticas como longitud
clasificacin apropiada para el documento. El documento
o estructura. Al final el modelo puede ser usado para
no categorizado se convierte en una consulta que se usa
categorizar nuevos documentos. En un sentido computa-
para recuperar documentos que son clasificados o docu-
cional, el proceso de clasificacin busca asignar etiquetas
mentos que representan los contenidos de cada categora.

Revista Politcnica - Julio 2013, Vol. 32, No. 1, Pginas: 9196 91


Hernndez M.; Gmez J.

3.2 Proceso de clasificacin esquemas para asignar peso a las palabras con el propsito
de escoger caractersticas para determinar clases.
De acuerdo a [7] el proceso de clasificacin es el mismo Otro tipo de caractersticas pueden ser combinaciones de
para todos los algoritmos. En la Figura 3, se muestra este palabras. N-grams se usa para capturar combinaciones
proceso que consta de las fases de: preparacin, entre- frecuentes de palabras que se identifican estadsticamente
namiento, prueba y produccin. A menudo este proceso para eliminar aquellas combinaciones que proporcionan
se repite varias veces para ajustar el comportamiento del poco valor.
clasificador y producir los mejores resultados.
Tambin se pueden usar como caractersticas como:
Una vez que un clasificador entra en fase de produccin, metadatos que indican autores, fuentes; longitud para re-
a menudo va a requerir extenderlo para cubrir casos conocer entre artculos, emails, o tuits.
adicionales no cubiertos por los datos de entrenamiento.
Se pueden usar fuentes de recursos lxicos para expandir
trminos y aadir sinnimos de documentos claves como
caracterstica.

3.4 La importancia de los datos de entrenamiento

Indica [4] que se requiere un nmero suficientemente


Figura 3: Fases del proceso usado para desarrollar un clasificador grande de ejemplos para que el clasificador sea capaz
automtico. Adaptado de [22].
de determinar cmo las caractersticas se relacionan con
En la fase de preparacin se procesan los datos para el las categoras. ste nmero de muestras depender de la
proceso de entrenamiento. Se escogen las etiquetas de complejidad de la tarea de clasificacin como es el nmero
acuerdo a las caractersticas relevantes y se transforma los de clases, caractersticas, dimensionalidad de las reglas de
datos al formato del algoritmo de entrenamiento. clasificacin, etc. y no puede ser definido a priori [26].
En la fase de entrenamiento cada caracterstica se asocia Los datos de entrenamiento se pueden conseguir ya eti-
con la etiqueta asignada al documento y el algoritmo quetados en agencias de noticias como Reuters, Freebase y
de entrenamiento identifica las caractersticas que son dems proyectos disponibles en Internet. Tambin pueden
importantes para distinguir entre clases y modela las ser derivados usando procesos automticos.
relaciones entre caractersticas y etiquetas de clase. En
la fase de prueba, el algoritmo evala si las clases de los 4. ALGUNOS ALGORITMOS DE CLASIFICACIN
ejemplos corresponden a las asignadas por el clasificador.
4.1 K. Nearest Neighbor
Con el nmero de asignaciones correctas e incorrectas, se
calcula la precisin del algoritmo. Algunos clasificadores De acuerdo a [13] el algoritmo de k Nearest Neighbor
producen una salida de la fase de entrenamiento que o clasificador kNN determina el lmite de decisin local-
permite conocer cmo estn interpretando los datos de mente. Por cada 1NN se asigna cada documento a la clase
entrenamiento para poder ajustar los parmetros. El en- de su vecino ms cercano.
trenamiento se puede realizar algunas veces aadiendo o
removiendo ejemplos, cambiando la forma como se extraen Para kNN se asigna cada documento a la clase con los k
las caractersticas, modificando las clases, o modificando vecinos ms cercanos (menor distancia), donde k es un
los parmetros del algoritmo. Algunos algoritmos, como el parmetro. Es un mtodo simple que trabaja bien an
de mxima entropa, repiten el proceso hasta llegar a la en tareas de clasificacin con documentos de mltiples
mejor respuesta. Cuando el clasificador est listo, se pone categoras. Su desventaja es que kNN requiere ms tiempo
en produccin, pero puede ser reentrenado despus para clasificando los objetos cuando se tiene un gran nmero de
extender el dominio con nuevas etiquetas o clases. ejemplos de entrenamiento [29].
Este algoritmo puede implementarse como un mtodo con-
tenido en Waikato Environment for Knowledge Analysis -
3.3 Identificacin de caractersticas Weka [29], que es un software de cdigo abierto escrito en
Java, desarrollado en la Universidad de Waikato. Weka es
Segn [7] la identificacin de caractersticas es un elemento un software libre distribuido bajo licencia GNU-GPL.
clave en la precisin de un clasificador automtico. Para
identificar caractersticas el enfoque ms simple es el que 4.2 Algoritmo de Rocchio
trata a los documentos como un conjunto de palabras.
Cada palabra se considera una caracterstica que se pesa de Segn [3] este algoritmo los lmites entre las clases son
acuerdo a su frecuencia de ocurrencia. Tambin hay otros hiperplanos en una representacin multidimensional del

92 Revista Politcnica - Julio 2013, Vol. 32, No. 1, Pginas: 9296


Aplicaciones de Procesamiento de Lenguaje Natural

espacio vectorial de las clases. Por ejemplo, si se tienen


tres clases, China, Inglaterra y Kenia.
En el espacio vectorial los lmites entre regiones se habrn
definido durante el entrenamiento. Se desea clasificar un
nuevo documento dibujado como una estrella en la Figura
4, el algoritmo clasificar el documento como China,
porque se encuentra en la regin correspondiente. Este
algoritmo puede utilizar centroides definidos como centros
de gravedad de los planos o representaciones vectoriales
con diferentes pesos.
El algoritmo es fcil de implementar, eficiente computa-
cionalmente, de rpido aprendizaje y tiene un mecanismo Figura 5: rboles de decisin [22]

de realimentacin de relevancia. El algoritmo de Rocchio


falla a menudo en la clasificacin de clases multimodales y 4.4 Algoritmo Iterativo de Nave Bayes
relaciones. [22].
Segn [7], este algoritmo es un clasificador estadstico que
se basa en el teorema de Bayes. La idea es encontrar el
modelo ms probable a partir de documentos etiquetados
y no etiquetados.
El algoritmo entrena el modelo sobre documentos etique-
tados, luego los siguientes pasos son iteraciones hasta que
haya convergencia. En el paso E: los documentos no etique-
tados son clasificados en el modelo considerado; en el paso
M: el modelo se entrena sobre el corpus combinado. En el
paso M, la asignacin de categoras de los documentos no
etiquetados se asumen como fraccionales de acuerdo a las
probabilidades producidas en el paso E.
Este algoritmo puede implementarse como un mtodo
contenido en Weka [29].

Figura 4: Clasificacin de Rocchio. Adaptado de [3].


4.5 Back Propagation Networks
Rocchio podra implementarse con Weka [29], como un
algoritmo propio desarrollado a partir de las clases y es-
quemas que se encuentran disponibles en esa herramienta. En este mtodo el texto se categoriza por una red neural
no lineal alimentada hacia adelante, entrenada con la
regla de aprendizaje de Back Propagation. Se aplica a
clasificaciones de texto usando aprendizaje supervisado. Es
til para reconocer patrones complejos y realizar funciones
no triviales de mapeo [24].
4.3 rboles de decisin
Segn [22] las redes neurales pueden construirse para rea-
lizar categorizacin de texto. Los perceptrones multicapa
Es un clasificador simblico. Es un rbol con nodos in-
que usan algoritmos de Back Propagation son considerados
ternos etiquetados como trminos, ramas etiquetadas con
estndar para procesos de aprendizaje supervisado que
los pesos que tienen en el documento de texto y hojas
permiten soluciones para problemas complejos, el apren-
etiquetadas con las categoras. Cada nodo en el rbol se
dizaje ocurre en el perceptrn evaluando errores y cam-
asocia con un conjunto de casos. Los rboles contienen
biando en consecuencia los pesos de conexin despus de
decisiones binarias.
que cada dato ha sido procesado.
En la Figura 5 se muestra un ejemplo que corresponde
Como se ve en la Figura 6, usualmente, los nodos de
a una regla de decisin para construccin (enfoque de
entrada de la red reciben los valores de caractersticas, los
ingeniera del conocimiento) [22].
nodos de salida producen el estado de caracterizacin, y los
Este algoritmo puede implementarse como un mtodo pesos de los enlaces representan relaciones de dependencia.
contenido en WEKA [28]. Los nodos pueden conectarse en redes con varias capas.

Revista Politcnica - Julio 2013, Vol. 32, No. 1, Pginas: 9396 93


Hernndez M.; Gmez J.

4.6 Support Vector Machines (SVM)

De acuerdo con [7] los SVM ejecutan algoritmos de clasi-


ficaciones supervisadas en forma rpida y efectiva. En
trminos geomtricos un clasificador SVM puede ser visto
como un hiperplano en el espacio multidimensional de
caractersticas que separa los puntos que representan las
instancias positivas de la categora de los puntos que repre-
sentan las instancias negativas.
El hiperplano se escoge durante el entrenamiento y tiene
un margen mximo que es la distancia desde el hiperplano
al punto ms cercano de los conjuntos positivo y negativo.
Segn [29] todas las categoras son linealmente separables.
La idea de SVM es encontrar los separadores. Un ejem-
plo de separador lineal se ve en la Figura 7. Los SVM
pueden mapear los datos de entrada en un espacio multi-
dimensional y utilizar distintos mtodos para construir un
hiperplano ptimo que los clasifique. En esta construccin
se pueden usar, por ejemplo: el mtodo de Least Square,
las funciones kernel, que pueden ser polinomiales (Figura
8), radial basis function conocidas como rbf, que tienen un
Figura 6: El Perceptrn (a) funcionamiento de un nodo y (b) Red amplio campo de aplicacin. La Figura 9 muestra que las
neural multicapa. Adaptado de [29].
funciones kernel de mapeo son muy poderosas porque la
clasificacin es ms fcil en un espacio con mayor nmero
de dimensiones.

Figura 8: Comparacin entre clasificacin con lmites lineales vs.


Figura 7: Diagrama de un SVM lineal de dos dimensiones. Adaptado Polinomiales. Adaptado de [29]
de [7]

Para clasificar un documento, los pesos de las caracters-


4.7 Comparacin de precisin entre distintas
ticas se cargan con los nodos de entrada; los nodos de
implementaciones de clasificadores
activacin se propagan hacia adelante a travs de la red,
y los valores finales de los nodos de salida determinan las
decisiones de categorizacin. En la Tabla 1, se presenta una comparacin de diferentes
tipos de enfoques en algoritmos de clasificacin: vectorial,
Las redes neurales se entrenan con propagacin hacia vectorial ponderada, jerrquica y SVM [28] sobre las
atrs, donde los documentos de entrenamiento son car- colecciones de datos Reuters21578 2 y 20Newsgroup 3 .
gados en los nodos de entrada. Si ocurre un error de clasi-
ficacin, el error se propaga hacia atrs a travs de la red El primer corpus contiene 21578 documentos en 135 cate-
y modifica los pesos de los enlaces para minimizar el error. goras y el segundo tiene alrededor de 20000 documentos
La clase ms simple de red neural es el perceptrn que tomados de 20 temticas noticiosas.
tiene dos capas (nodos de entrada y salida). Este algoritmo 2 http://kdd.ics.uci.edu/databases/reuters21578/
puede implementarse como un mtodo contenido en Weka reuters21578.html
3 http://kdd.ics.uci.edu/databases/20newsgroups/
[29].
20newsgroups.data.html

94 Revista Politcnica - Julio 2013, Vol. 32, No. 1, Pginas: 9496


Aplicaciones de Procesamiento de Lenguaje Natural

Tabla 1. Resultados de la comparacin entre diferentes algoritmos de clasificacin obtenidos con conjuntos de datos. Adaptado de [28].

Se puede observar que el clasificador SVM tiene valores


mejores de precisin en clasificacin de textos para los
dos conjuntos de datos usados en comparacin con los
otros algoritmos considerados. Estos resultados confirman
estudios previos que apuntan en esta misma lnea a la hora
de clasificar textos [27]. Lamentablemente, los artculos
utilizados para obtener los valores de la tabla no aportan
informacin sobre la relevancia estadstica de los mismos.
Estos algoritmos pueden implementarse como un mtodo Figura 9: Clasificacin ms simple en espacios con mayor nmero de
contenido en Weka [29]. dimensiones. Adaptado de [28]

6. AGRADECIMIENTOS

5. CONCLUSIONES Este trabajo ha sido parcialmente financiado por el


proyecto LEGOLANG (TIN2012-31224) y el proyecto
La Extraccin de Informacin (EI) es la base de los proce- TEXTMESS 2.0 (TIN2009-13391-C04- 01) del gobierno
sos que se realizan con lenguaje natural. Para realizar EI se espaol.
utilizan distintos modelos para el reconocimiento y etique-
tado de entidades que sern comparadas y clasificadas en REFERENCIAS
dos o ms clases. La clasificacin y categorizacin de textos [1] Balie, Libreras de cdigo abierto, [Online] Available:
son los problemas ms investigados en procesamiento de http://balie.sourceforge.net/
lenguaje natural debido a la creciente cantidad de docu- [2] S. Bandyopadhyay, S. Naskar and A. Ekbal, Emerg-
mentos electrnicos existentes en libreras digitales. Como ing applications of natural language processing, IGI
una medida de comparacin del rendimiento global de Global, October 31, 2012. [Also Online]. Available:
distintos algoritmos en grupos de datos de entrenamiento www.safaribooksonline.com
ya etiquetados, se recopilan reportes de distintos autores, [3] Cognitive Computation Group, Etiquetador Demo,
que aplican clasificadores con representaciones vectorial, [Online] Available: http://cogcomp.cs.illinois.
jerrquica y SVM en recopilaciones disponibles en Inter- edu/demo/pos/
net: Reuters 21578 y 20Newsgroup. Estas evaluaciones [4] D. Bikel and I. Zitouni, Multilingual natural lan-
pueden servir como una aproximacin inicial para la elec- guage processing applications: from theory to prac-
cin de algoritmos de clasificacin para distintos escenarios tice, IBM Press, May 10, 2012. [Also Online].
de implementacin de sistemas de EI. Available:www.safaribooksonline.com

Revista Politcnica - Julio 2013, Vol. 32, No. 1, Pginas: 9596 95


Hernndez M.; Gmez J.

[5] E. Brill, Etiquetador, [Online] Available:http:// 735.


gposttl.sourceforge.net/ (C code) [18] C. Y. Liang, L. Guo, Z. H. Xia, F. G. Nie, X.
[6] Fondazione Bruno Kessler, [Online] Available: Li, L. Su, and Z. Y. Yang, Dictionary-based text
http://wndomains.fbk.eu/wnaffect.html y categorization of chemical web pages, International
http://www.cse.unt.edu/~rada/affectivetext/ Journal Information Processing and Management,
[7] R. Feldman and J. Sanger, The text min- vol. 42, no. 4, July 2006, pp.1072 1029.
ing handbook, Cambridge University Press, De- [19] Lingua-EN, Etiquetador, [Online] Available:http://
cember 11, 2006. [Also Online]. Available:www. search.cpan.org/~acoburn/Lingua-EN-Tagger/
safaribooksonline.com Tagger.pm
[8] J. F. Gantz and D. Reinsel, Extracting [20] Mallet, [Online] Available:http://mallet.cs.
value from chaos. International Data Cor- umass.edu/
poration. 2011. [Online]. Available: http:// [21] S. Manjunath, B.S. Harish, Representation and clas-
www.emc.com/collateral/analyst-reports/ sification of text documents : A brief review IJCA
idc-extracting-value-from-chaos-ar.pdf Special Issue on Recent Trends in Image Processing
[9] Gate, Libreras de cdigo abierto, [Online] Available: and Pattern Recognition, TIPPR, 2010, pp. 110-119.
http://gate.ac.uk/ [22] C. D. Manning, Prabhakar Raghavan, and Hin-
[10] P. Y. Hao, J. H. Chaing, and Y. K. Tu, Hierar- rich Schtze, Introduction to information retrieval,
chically SVM classification based on support vector Cambridge University Press, July 7, 2008. [Also On-
clustering method and its application to document line]. Available: www.safaribooksonline.com
categorization, International Journal ExpertSystems [23] H. A. Mubaid, and L. Umair 2006, A new text cat-
with Applications, vol. 33, no. 3, October 2007, pp. egorization technique using distributional clustering
1-5. and learning logic, IEEE Trans. on Knowledge and
[11] Hdcus, Fuente de corpus de sentimientos, [On- Data Engineering, vol.18, no..9, September 2006, pp.
line] Available: http://hdcus.com/ y http://www. 1156 1165.
hdcus.com/manuals/wdalman.pdf [24] A, zgr, L. zgr and T. Gngr, Text Catego-
[12] Illinois POS T, Etiquetador, [Online] Available: rization with class-based and corpus-based keyword
- http://cogcomptest.cs.illinois.edu/page/ selection, Computer and Information Sciences - IS-
software_view/3 CIS 2005. Lecture Notes in Computer Science, vol.
[13] G. S. Ingersoll, T. S. Morton, and A. L. Farris, 3723, pp 606-615, 2005.
Taming text: how to find, organize, and manipulate [25] P. Y. Pawar and S. H. Gawande, "A comparative
It, Manning Publications, December 28, 2012. [Also study on different types of approaches to text catego-
Online]. Available: www.safaribooksonline.com rization", International Journal of Machine Learning
[14] Y. J. KO, J. Park, and J. Seo, Improving text and Computing vol. 2, no. 4, pp. 423-426, 2012.
categorization using the importance of sentences, [26] S. J. Raudys and A. K. Jain, Small Sample Size
on International Journal Information Processing and Effects in Statistical Pattern Recognition: Recom-
Management, vol. 40, no. 1, January 2004, pp. 65-79. mendations for Practitioners, in IEEE Transactions
[15] R. Korfhage, Information storage and retrieval, on Pattern Anaysis and Machine Intelligence, vol. 13,
New York: John Wiley, 2007. [Also Online]. NO. 3. March 1991.
Available:www.safaribooksonline.com [27] F. Sebastiani, Machine learning in automated text
[16] D. Kuropka, Modelle zur reprsentation categorization, ACM computing surveys (CSUR),
natrlichsprachlicher dokumente. ontologie-basiertes vol. 34, n. 1, pp. 1-47, 2002.
information-filtering und -retrieval mit relationalen [28] S.Tan, X. Cheng, M. Ghanem, B,Wang, . and H. Xu,
datenbanken, in Advances in Information Systems A novel refinement approach for text Categoriza-
and Management Science, Bd. 10, 2004, pp. 110. tion, CIKM. 2005, pp. 469-476.
[17] C. L. Lan, J. Su, and Y. Lu, Supervised and tra- [29] I. H. Witten, E. F. Mark and A. Hall, Data mining:
ditional term weighting methods for automatic text practical machine learning tools and techniques, in
categorization, IEEE Trans. on Pattern Analysis and The Morgan Kaufmann Series in Data Management
Machine Intelligence, vol. 31, no 4, April 2009, pp. 721 Systems, Third Edition, January 20, 2011.

96 Revista Politcnica - Julio 2013, Vol. 32, No. 1, Pginas: 9696

Você também pode gostar