Escolar Documentos
Profissional Documentos
Cultura Documentos
Abstract: The field of natural language processing (NLP) has grown tremendously in
recent years, its research interests include: information retrieval and extraction, data mining,
machine translation systems, question answering systems, automatic summarization, sentiment
analysis, among others. In this paper we present some concepts and tools in order to contribute
to the understanding of text processing with NLP techniques, to extract relevant information
that can be used in a wide range of applications. Automatic classifiers can be developed to
categorize documents and recommend labels, these classifiers should be platform independent,
easily customizable in order to be integrated in different projects and to be able to learn from
examples. In this article we introduce the algorithms for classification, we discuss some open
source tools currently available to perform these tasks and different implementations are
compared using F metrics to evaluate classifiers.
mencionados, con nfasis en recuperacin y extraccin La dimensin de propiedades tiene que ver con la
de informacin con el propsito de conocer mtodos de forma como se presentan las relaciones entre los trmi-
extraccin de informacin relevante que pueda ser usada nos/palabras del documento en el espacio vectorial, rela-
en un gran rango de aplicaciones. Se introducen algoritmos ciones que pueden ser ortogonales e independientes o de-
de clasificacin, se analizan herramientas de cdigo abierto pendientes [22].
disponibles actualmente para llevar a cabo estas tareas y se
Una vez que se ha logrado acceso a los contenidos buscados
comparan diversas implementaciones utilizando resultados
y se tiene control sobre los datos, en muchas aplicaciones se
reportados por distintos autores.
hace necesario el siguiente proceso que es el de extraccin
de la informacin (EI), que consiste en la obtencin de las
2. CONCEPTOS DE PROCESAMIENTO DE partes que interesan en el texto para pasarlas a un formato
LENGUAJE NATURAL de base de datos, es decir a un formato estructurado.
Los sistemas de EI pueden ser de utilidad an si no
2.1 Recuperacin y extraccin de informacin presentan una puntuacin perfecta en las medidas de
recuperacin y precisin. En el caso de colecciones muy
La recuperacin de informacin (RI), es el proceso de grandes, es preferible tener resultados parcialmente correc-
encontrar en un repositorio grande de datos, material tos antes que realizar la extraccin por mtodos no au-
(usualmente documentos) de naturaleza no estructurada tomticos. Las medidas utilizadas en estos sistemas para
(usualmente texto) o semiestructurada (pginas Web, por medir su rendimiento son:
ejemplo), que satisfaga una necesidad de informacin [22]. Cobertura = (nmero de documentos recuperados) /
Los datos no estructurados no tienen un esquema claro, (nmero total de documentos relevantes)
no estn listos para procesar y son lo opuesto a los datos Precisin = (nmero de documentos recuperados que son
con un esquema estructurados como los que se encuentran relevantes) / (nmero total de documentos recuperados)
en bases de datos. Los datos semiestructurados estn
en documentos esquema estructurados como los que se Los clasificadores se evalan usando la mtrica F, que es
encuentran en bases de datos. Los datos semiestructurados igual a la media armnica de la precisin y la cobertura.
estn en documentos con marcas explcitas como el cdigo La forma de calcular las medidas de micro promedio y el
HTML. La informacin encontrada debe ser pertinente y macro promedio de la mtrica F (micro-F1 y macro-F1),
relevante. La relevancia es la medida de cmo una pregunta se puede consultar en [24].
se ajusta a un documento y la pertinencia es la medida de En estos casos los resultados deben pasar por un sistema
cmo un documento se ajusta a una necesidad informativa de auditora que permita corregir manualmente los errores
[15]. en cuanto a precisin (que es una tarea relativamente
Las estrategias de recuperacin de informacin involucran fcil puesto que slo hay que comprobar los resultados
la transformacin del texto en representaciones adecuadas recuperados extrados) y cobertura (tarea ms compleja
de acuerdo a modelos especficos que cumplan con los al no poder saber exactamente cul es la cantidad real de
propsitos de las bsquedas. documentos relevantes en una gran coleccin de textos).
Como se muestra en la Figura1, los modelos pueden ubi- En general los sistemas de EI son tiles si: la informa-
carse en categoras de acuerdo a dos posibles dimensiones: cin a ser extrada est especificada explcitamente; o el
sus bases matemticas y sus propiedades [16]. documento puede resumirse con un nmero pequeo de
plantillas; o la informacin que se necesita est incluida
En la dimensin de bases matemticas, el texto puede completamente en el texto.
ser representado como: conjuntos de palabras o frases
en donde las coincidencias se logran realizando opera- Cada documento se procesa para encontrar entidades y
ciones de lgebra booleana; modelos algebraicos que intro- relaciones con significado y contenido. Primero se definen
ducen parmetros e ndices para recuperar informacin con los tipos de informacin semntica que van a ser extrados.
metadatos, calificar y clasificar documentos en respuesta La jerarqua entre marcos y caractersticas se presentan
a una consulta, lo que lleva a modelos en espacios vec- en forma de rbol, con los marcos como races y las
toriales, matriciales o agrupamientos irregulares; modelos caractersticas como hijos que se van aadiendo conforme
probabilsticos que enfocan la solucin de los problemas se las va descubriendo.
de bsqueda desde el punto de vista probabilstico, apli-
cando teoremas como el de Bayes; modelos basados en La salida del motor de EI es un conjunto de marcos anota-
caractersticas que se eligen y combinan y califican la rele- dos es decir etiquetados que son extrados de los documen-
vancia de las similaridades usando mtodos de aprendizaje tos. Los marcos pueblan una tabla en la que los campos
automtico. del marco son las filas de la tabla [7]. Hay cuatro tipos
bsicos de elementos que podran ser extrados: entidades, 2.2 Minera de datos
atributos (caractersticas de las entidades extradas), he-
chos (que relacionan entidades) y eventos (actividades u La minera de datos proporciona herramientas poderosas
ocurrencias en las que participan las entidades) [7]. para descubrir patrones ocultos y relaciones en datos
estructurados. Este proceso asume que los datos ya se
En la Figura 2, se muestra un ejemplo de documento
encuentran almacenados en un formato estructurado. Por
etiquetado con caractersticas que podrn ser extradas
esta razn su pre-procesamiento consiste en la limpieza y
usando un motor de EI.
normalizacin de los datos y la generacin de numerosos
enlaces entre las tablas de las bases de datos. La minera
de datos usa tcnicas y metodologas de RI, EI y corpus
procesados con tcnicas de lingstica computacional [7].
palabras en distintos contextos dentro de corpus. De esta nivel de colecciones de documentos que agrupan o separan
manera se establece alineamiento de palabras, un paso los documentos por tpicos y destacan las similitudes y
fundamental en cualquier modelo estadstico de traduccin diferencias de la informacin contenida en ellos.
automtica. Un corpus con palabras alineadas permite la
Los contenidos se relacionan entre ellos en un sentido
estimacin de modelos basados en frases y rboles, que son
semntico: cubren el mismo tpico, tienen similares cate-
los enfoques ms comunes hoy en da [4].
goras semnticas o conceptos estrechamente relacionados.
A pesar de los avances en esta tecnologa, todava hay mu-
chos retos en la traduccin especialmente entre lenguajes 2.6 Anlisis de sentimientos
con distinto orden de palabras y una morfologa compleja.
La investigacin en esta rea tiene muchas direcciones no De acuerdo a [7] el anlisis de sentimientos en textos es
exploradas: mtodos de aprendizaje avanzado en mode- la identificacin y extraccin de informacin subjetiva.
los estadsticos de traduccin, modelos sintcticos y sus Tambin llamado minera de opiniones, ese proceso ge-
representaciones, datos paralelos para entrenamiento de neralmente involucra el uso de herramientas de PLN y
modelos estadsticos, integracin de traduccin del habla software de anlisis de textos para automatizar el pro-
con otras aplicaciones como reconocimiento de voz y ceso. La forma bsica de anlisis de sentimientos es una
traduccin automtica. Afortunadamente, se dispone de clasificacin polarizada de sentimientos que puede asignar
muchas herramientas de cdigo abierto que pueden ser calificaciones de en un rango de -10 a 10 que se basa en el
usadas por los investigadores en estos campos [13]. aprendizaje para evaluar emociones tanto negativas como
positivas en corpus etiquetados de entrenamiento.
2.4 Sistemas de bsquedas de respuestas
Tcnicas avanzadas permiten analizar gramaticalmente y
descomponer la oracin. La minera de opiniones tiene un
Son sistemas diseados para tomar una pregunta en
mercado vido de conocer, indexar y resumir opiniones
lenguaje natural y proporcionar una respuesta. De esta
en grandes volmenes de texto con fines de mercadeo y
manera los usuarios no tendran que navegar y leer una o
manejo de imagen.
varias pginas de resultados de bsqueda. Estos sistemas
se construyen sobre motores de bsqueda y requieren con- Los algoritmos heursticos tienen el inconveniente de la
tenido como fuente para descubrir las respuestas. Deben dificultad de recopilar manualmente todos los patrones
tener mtodos para entender las preguntas del usuario y posibles que expresan sentimientos. Por ello, la siguiente
determinar el tipo de respuesta que debe dar, generar una fase de investigacin usa la informacin creciente existente
bsqueda significativa de la consulta, y finalmente calificar en Internet sobre con comentarios de distinta naturaleza.
los resultados obtenidos. De estos tres problemas el ms Se usan reglas gramaticales, tipo compiladores, para ex-
difcil de enfrentar es determinar el tipo de respuesta. traer inferencias.
Para hacerlo se realizan tres pasos: entrenamiento, frag-
El motor de reglas se aplica varias veces para transformar
mentacin y solo entonces la determinacin del tipo de
el texto etiquetado en oraciones que definen la asociacin
respuesta.
entre una palabra y una parte del habla con un sentimiento
Para construir un sistema de respuestas se necesita aplicar calificado. Para la implementacin se usan herramientas
tcnicas de PLN como: RI, EI con algoritmos de re- para etiquetar y una base de datos con claves / frases con
conocimiento de entidades y etiquetado, comparacin de evaluaciones de polaridad de emociones. Esta informacin
secuencias de caracteres, entre otras [22]. proviene de fuentes etiquetadas o por aprendizaje en
corpus. Dos fuentes de datos disponibles son: HDCUS [11]
2.5 Generacin de resmenes automticos y el WordNet-Affect [6]. En [13] se listan libreras de cdigo
abierto que pueden ser usadas para construir un modelo
En [2] se define el problema de la generacin de resmenes de anlisis de sentimientos: Gate [9], Balie [1], Mallet [20].
automticos a dos diferentes niveles: a nivel de documento
y a nivel de grupos de documentos. Los resmenes pueden 3. CLASIFICACIN, CATEGORIZACIN Y
ser con enfoque extractivo o abstractivo. Los mtodos ETIQUETADO
extractivos se basan en los mismos principios usados en
la identificacin de trminos, consisten en una coleccin Dado un grupo de objetos, la tarea de clasificarlos consiste
de trminos, frases o prrafos significativos que definen en asignarlos a un set pre especificado de categoras. Si
el significado del texto original. Los abstractivos depende estamos dentro del dominio de gestin documental, la
de tcnicas de parafraseo para producir las sntesis, las tarea se la conoce como categorizacin de texto, y con-
tcnicas an estn siendo desarrolladas. Un problema siste en hallar uno o ms tpicos en los que encajen los
comn es el de la existencia de mltiples documentos sobre contenidos de los documentos; teniendo como entrada un
un mismo tema, en este caso se habla de resmenes a grupo de categoras (sujetos temas) y un conjunto de
3.2 Proceso de clasificacin esquemas para asignar peso a las palabras con el propsito
de escoger caractersticas para determinar clases.
De acuerdo a [7] el proceso de clasificacin es el mismo Otro tipo de caractersticas pueden ser combinaciones de
para todos los algoritmos. En la Figura 3, se muestra este palabras. N-grams se usa para capturar combinaciones
proceso que consta de las fases de: preparacin, entre- frecuentes de palabras que se identifican estadsticamente
namiento, prueba y produccin. A menudo este proceso para eliminar aquellas combinaciones que proporcionan
se repite varias veces para ajustar el comportamiento del poco valor.
clasificador y producir los mejores resultados.
Tambin se pueden usar como caractersticas como:
Una vez que un clasificador entra en fase de produccin, metadatos que indican autores, fuentes; longitud para re-
a menudo va a requerir extenderlo para cubrir casos conocer entre artculos, emails, o tuits.
adicionales no cubiertos por los datos de entrenamiento.
Se pueden usar fuentes de recursos lxicos para expandir
trminos y aadir sinnimos de documentos claves como
caracterstica.
Tabla 1. Resultados de la comparacin entre diferentes algoritmos de clasificacin obtenidos con conjuntos de datos. Adaptado de [28].
6. AGRADECIMIENTOS