Você está na página 1de 56

Minera de Texto

Minera de Texto
Problema: Y si el minado y descubrimiento
de conocimientos se realiza a partir de
informacin textual?
Solucin:
Text

Text Mining = Data Mining


2
2

Definicin
Minera de Texto es un proceso de:
La extraccin de nuevos conocimientos, vlida y
aplicable en documentos de texto dispersos.

Utilizar este conocimiento para organizar mejor la


informacin para futuras tomas de decisiones o
referencias.

DM v/s TM
Minera de Datos

Minera de Texto

Objetivo de
investigacin

Numricas y datos
categorizados

Textos

Estructura

Base de datos relacionales

Textos formatos libres

Meta

Predecir futuras
situaciones

Recuperar informacin
pertinente, extraer el significado,
categorizar y ofrecer alternativas

Metodos

Clasificacin, Asociacin,
agrupamiento, regresin.

Indexacin, procesamiento
especial de redes neuronales, la
lingstica, las ontologas

Madurez

Implementacin desde
1994

Implementacin comenzada en
el ao 2000
4

Minera de Texto
La minera de textos analiza textos en lengua natural
mediante procedimientos automticos para:
Extraer los temas
Determinar la estructura de un texto: localizacin de
las rupturas
Visualizar la proximidad entre documentos y/o entre
trminos
Indexar los documentos (multi-indexacin)
Construir bases de documentos para una bsqueda
automtica posterior

Minera de Texto
Bsqueda de informacin (BI) versus
Extraccin de informacin (EI)

BI: Determinar cuales son los documentos de una


coleccin que satisfacen una necesidad
informacin de un usuario (Information Retrieval)

de

EI: Localizar las porciones de texto que contengan


informacin relevante para una necesidades concretas
de un usuario/s y proporcionar dicha informacin de
forma adecuada para su proceso (de forma manual o
automtica) (Information Extraction)
6

Extraccin de informacin

Extraccin de informacin vs
Recuperacin de informacin

Extraccin de informacin.
Arquitectura

El Rol de Minera de Texto

10
10

Aspectos Claves
Representacn (Cmo representar la informacin
textual (lenguaje natural)?)
Descubrimiento/Minado (Qu conocimiento se puede
descubrir y cmo?)
Evaluacin (Qu tan novedoso e interesante es el
conocimiento descubierto?)
Presentacin
(Cmo
se
puede
presentar
comprensiblemente el conocimiento descubrimiento?)

11

Problemas ...
Lenguaje Natural es ambigo.
Texto en lenguaje natural conlleva conocimiento sintctico,
semntico y retrico que es implcito y a la vez complejo de
capturar.
La minera de textos implica usar grandes masas de
informacin textual para reunir evidencia que soporte las
hiptesis que se han descubierto.
La evaluacin del conocimiento descubierto implica
(hipotticamente) cognitivamente el uso de recursos
conceptuales que representen lo que ya es actualmente
conocido en el dominio de los documentos textuales.

12

Ambigedad?

JCC, Noviembre 2003, Chilln

13

Minera de texto: tcnicas


Anlisis de Datos Exploratorio (Swanson)
Uso de grandes colecciones de textos para reunir
evidencia que soporte (o refute) las hiptesis
producidas que:
no son conocidas al autor: establecer links entre
conceptos de muchos textos
no son autoreferenciadas: trabajar dentro del dominio
de los textos (ej. Medicina).

14

Tcnicas: Anlisis Exploratorio


Representacin basada en keywords de los ttulos de journals
de medicina.
El objetivo es descubrir relaciones causales entre conceptos a
nivel de sntomas, drogas, resultados. Ej: A cause B AND
B cause C THEN A cause C.
Modelo de Swanson (1991) encontr relaciones interesantes
a esa fecha. Por ejemplo, migraas y stress, stress conducente
a prdida de magnecio, magnecio es un bloqueador de
canales de calcio natural, etc.

15

Tcnicas: Anlisis Exploratorio


Enfoque medianamente exitoso: varias hiptesis generadas
han sido verificadas experimentalmente por humanos.
La tcnica est parcialmente automatizada.

Requiere experiencia del dominio (ej. medicina).


Requiere saber de antemano, el tipo de relacin causal a
instanciar.
Fuerte suposicin: conocimiento reside en el ttulo de los
documentos (til para propsitos de IR pero intil para
anlisis de textos).
16

Tcnicas de MT: Enfoques de Bajo Nivel


(keywords/terms)
Arquitectura tpica:
Taxonoma

Textos

Extraccin
Terminolgica

Operaciones de KDD

Visualizacin
17

Enfoques de Bajo Nivel (keywords/terms):


Tcnicas Tpicas
Asociaciones Regulares (Feldman): asociaciones entre
conceptos en base a niveles de confidence y support.
Ejemplo:
IF (Arabe, Egipto, Iran)
THEN Petrleo

JCC, Noviembre 2003, Chilln

18

Enfoques de Bajo Nivel: Tcnicas Tpicas


Jerarquas de Conceptos (Feldman,
Muller):
Los documentos se rotulan (etiquetan)
segn los trminos que se encuentran en
una jerarqua de conceptos.
Se establecen medidas estadsticas de coocurrencias
entre
conceptos
que
comparten links en dicha jerarqua (la
relacin especfica no se conoce por lo que
tampoco se establece una ontologa)

Combustible

Petrleo

?
Pas Arabe

Iran

Egipto

19

Enfoques de Bajo Nivel: Tcnicas Tpicas


Clustering
Conceptual:
agrupar
conceptos
(keywords,
terms)
extrados desde los documentos en
base a similitudes.
Tcnicas de clustering usuales
incluyen mtodos estadsticos
tales como K-Means, y mtodos
no tradicionales basados en Redes
Neuronales del tipo Kohonen
(Self-Organizing Maps).

20

Enfoques Estructurados para MT


Se caracterizan por hacer mayor uso del conocimiento de
lenguaje natural que conlleva el texto.
Realizar tratamiento automtico de textos completos en
lenguaje natural no es tan eficiente cuando se procesan
grandes cantidades de datos.

Una tcnica intermedia para capturar informacin parcial


desde los textos para su posterior minado se denomina
Information Extraction.

21

Extraccin de informacin (IE, Information


Extraction)
Information Extraction (Extraccin
de Informacin) consiste en
aplicacin
de
tcnicas
de
procesamiento de lenguaje natural
en forma parcial con el fin de
identificar unidades de discurso. Su
salida
representa
templates
instanciados con informacin clave
extrada.

22

Extraccin de informacin (IE,


Information Extraction)
Objetivo: obtener informacin estructurada a partir de textos en
lenguaje natural (desestructurados)

Por ejemplo:
Vendo Peugot 205 con 100.000 km. 6500 mill de pesos. Tef
981123456. Llamar despus 20:00.

23

Extraccin de informacin (IE,


Information Extraction)
Sistemas altamente especializados de mbito restringido
Subtareas involucradas:
-Reconocimiento de entidades: personas, organizaciones,
lugares, expresiones temporales y numricas, etc.
-Resolucin de correferencias.

- Extraccin
relevantes

terminolgica:

identicacin

de

trminos

24

Tratamiento de la variacin
morfolgica: stemming
Reducir de una palabra a su stem o raz
supuesta eliminando su terminacin segn una
lista de sujos
- Stem o raz contiene semntica bsica

Tratamiento de la variacin
morfolgica: stemming
Ventajas
Simplicidad

Desventajas.
- Problemas con idiomas de morfologas compleja. Ej. espaol:
- Adjetivos/nombres: +20 grupos variacin genero +10
grupos nmero
- Verbos: 3 grupos regulares, 40 irregulares; 118 formas
exivas cada grupo
- Prdida de informacin de cara a procesamiento futuro.

Tratamiento de la variacin
morfolgica: stemming
Desventajas.
- Sobre-stemming: palabras no relacionadas dan igual stem

-Sub-stemming:
diferentes

palabras

relacionadas

dan

stems

Tratamiento de la variacin
morfolgica: otras aprox.
Expansin de la consulta con variantes.
Google: busca simultneamente el trmino en masculino y
femenino, singular y plural
Lematizacin: sustituir palabra por su lema
- Ejemplo: decir es el lema de dije, pero tambin
de dir odijramos; guapo es el lema de guapas; mesa es el
lema de mesas.
- Mejora resultados con idiomas de morfologa compleja
- Reduce la prdida de informacin

Tratamiento de la variacin lxico-semntica


Mtodo independiente del dominio que permite el
descubrimiento automtico de relaciones en WordNet.
WordNet: base de datos lxica (thesaurus)
Sinnimos, antnimos, hipnimos, hipernimos, etc.
Ingls. EuroWordNet para lenguas europeas
-- Aproximaciones clsicas:
Expansin de la consulta con sinnimos, etc.
Google: operador ~
~simio simio, mono, ...
Google: tambin ya internamente
crema de man mantequilla de man
29

Tratamiento de la variacin sintctica


IR clsica basada en paradigma bag-of-terms:
Consultas/documentos como conjuntos de trminos
(desordenados)
Consulta y documentos relacionados si comparten
trminos

Problema:

Solucin: indexar tambin frases (ms precisas)


30

Tratamiento de la variacin sintctica:


identificacin y extraccin
Tcnicas estadsticas

Secuencias de palabras coocurren frecuentemente


Anlisis estadstico (frecuencias, coocurrencias, etc.)
Sin base lingstica (a veces resultados extraos)
Mayor simplicidad

Sintcticas

Secuencias de palabras satisfacen relaciones sintcticas


Anlisis sintctico (complejidad diversa)
S base lingstica (tericamente superiores)
Mayor complejidad
31

Tratamiento de la variacin sintctica:


representacin y correspondencia
Como conjuntos de palabras
Almacenar rbol de anlisis
Tcnicas de comparacin de arboles: gran complejidad

Almacenar solo las relaciones sintcticas que


interesan

Sustantivomodicador
Sujetoverbo
VerboObjeto
..

32

Tratamiento de la variacin sintctica: en


buscadores
Operadores de frase
Operadores comodn * a nivel de palabra
completa
Aproximar sintaxis mediante distancias
Palabras
cercanas
se
suponen
sintcticamente
Proximidad como indicador relevancia

relacionadas

33

Bsqueda de respuestas (QA,


Question Answering)
Objetivo: dar respuestas concretas a preguntas precisas
y arbitrarias de los usuarios en base al contenido de una
coleccin de documentos

Ejemplo:
sistema
(http://start.csail.mit.edu)

START

del

MIT

Bsqueda de respuestas (QA,


Question Answering)
Combina tcnicas de IR e IE:
- IR: localiza documentos relacionados con el tema
de la consulta, pero no extrae la informacin
requerida.
- IE: extrae la informacin requerida, pero no
permiten procesar consultas arbitrarias (sistemas
muy especializados)

Bsqueda de respuestas (QA,


Question Answering)

Traduccin automtica (MT,


Machine Translation)
Objetivo: traduccin de textos por computadora
Tambin sistemas semiautomticos (interaccin con
el usuario)
SYSTRAN (http://www.systran.co.uk): empleado por
ANTERIORMENTE por herrs. del idioma de Google
Babel Fish de Yahoo (http://babelfish.yahoo.com)
Babel
Fish
de
Altavista
(http://babelfish.altavista.com)

Traduccin automtica (MT,


Machine Translation)
Tcnicas:
Mediante diccionarios (dictionary-based): susticin
palabra por palabra empleando diccionarios bilinges

Estadstica
(statistical):
tcnicas
empleando corpus paralelos bilinges.

estadticas

Basada en ejemplos (example-based): online por


analoga empleando corpus paralelos bilinges

Traduccin automtica (MT,


Machine Translation)
Tcnicas:
Mediante
interlingua
(interlingual):
gran
complejidad, en 2 fases:
1 Decodicar texto en lengua origen: paso a
interlingua (representacin independiente del
idioma)
2 Re-codicar en lengua destino

Pero .. Qu pasa en DM/KDD?


. Algunas tendencias:
Templates: unidades que se llenan previamente con
conocimiento que es interesante, luego ..mtricas de
comparacin.
Beliefs: los mtodos consideran un conjunto de
expectativas o creencias formales acerca del dominio del
problema.
Information Gain: se mide el grado de inters
(relacionado a sorpresividad) mediante la computacin
del grado de entropa de las caractersticas de un patrn.

40

Pero .. Qu pasa en DM/KDD?


. Algunas tendencias:
Database: se utiliza una base de datos del dominio para
evaluar el nivel de accuracy y coverage de los patrones
generados (solo medida estadstica).
Actionability and statistical Deviations: el grado de
inters se visualiza a partir de desviacines
interesantes y su accionabilidad, o sea, donde el usuario
puede actuar a su propia ventaja.
Evolutionary Interestingness: un enfoque basado en GA
genera patrones supuestamente interesantes mediante
un ranking, luego un usuario los evala para
retroalimentar la estrategia de aprendizaje.
41

EJEMPLO:
Los nios y la lectura

Encuesta Lectura
Preguntas cerradas
1. En la escuela, leemos
2. En casa, tenemos
3. Leo
4. Leo
5. Libros dados por maestro
6. Leo cuando
7. Prefiero leer
8. Leer los libros escolares

(poco, bastante, mucho)


(pocos, bastantes, muchos libros)
(poco, bastante, mucho)
(muy fcilmente, fcilmente, con dificultades)
(me gustan, no me gustan)
(me gusta, hago trabajos, los dos)
(en silencio, en voz alta, las dos cosas)
(me gusta, no me gusta, depende)

Preguntas abiertas (datos textuales)


Para m leer es
Creo que leer es importante porque

Ejemplos de respuestas
----A130
es un rollo porque hay muchas letras
++++
si no sabes leer no sabes escribir

----D214
como vivir otra clase de vida, aprendo, me divierto y
me entrego, no s como explicarlo, pero me gusta leer
++++
aprendes cosas nuevas

ABIERTO y
J127
CERRADO
Respuestas cerradas: leo bastante, leo muy fcilmente

Respuestas abiertas:
---- para m, leer es
es muy interesante porque te puedes ir al mundo de la fantasa.
por ejemplo puedes viajar a la edad media o estar en la
prehistoria
++++ Leer es importante por que
sin la lectura no podra viajar

N314
Respuestas cerradas: leo bastante, leo muy fcilmente
Respuestas abiertas:
---- para m, leer es
aprender
++++ Leer es importante por que
se aprenden cosas nuevas

En el ejemplo: tabla mltiple mixta

Primer plano
factorial:
Individuos

3.0

Axis 2

Factor 2

l2=1.2; 1.7%

N314

1.5

Axis 1
l1=1.4; 2%

-1.5

-3.0
-2

J127

Factor 1

eje 2 (l2=1.2, 1.7%)


entretenido

importantes
1.50

roll

aprende

interesante

divierto
divertido

divertirme

CLASE SOCIAL ELEVADA


entretenimiento

0.75

PADRE EST. SUP

aburrido

Ieo poco

aprendo
aprender NOTA GLOBAL: EXCELENTE

Leo mucho

aprendes
NOTA GLOBAL:
importante
SUSPENSO
0
importante
fantasia
diversion
-1
PADRE.: SIN ESTUDIOS 1
imaginacin
aventuras

diviertes

aventuras

saber

Leo bastante

leo fcilmente

imaginacion
ensea

Leo con dificultades


aburrimiento

Leo muy fcilmente

aventura -0.75
mundo

entrar

divertida

-1.50

sino
2

eje 1

( l =1.4, 2%)
1
3

Anlisis Cluster de los individuos a partir


de sus coordenadas sobre los 7 primeros
ejes

Mtodo jerrquico, con el criterio de Ward

7 clases (una residual cluster con 11 nios)

GRUPO

220 NIOS

CERRADAS

Leo mucho (50% ; 28%)


Leo muy fcilmente (81%; 58%)
.

PARA MI, LEER ES

PALABRAS SOBRE-REPRESENTADAS
pasar (pasar un buen rato), diversin, aventura, rato
tiempo, divertirme, mundo, libro entrar, fantasia,
forma
MEDIA: 8.8 PALABRAS
RESPUESTAS MODALES
-Entrar en el libro que estoy leyendo y pasar las
aventuras que hay en el libro
-Entrar en el libro, ser el protagonista y pasar
aventuras leyendo

MEDIA EN LA MUESTRA

6.8 PALABRAS

CREO QUE LEER ES PALABRAS SOBRE-REPRESENTADAS


IMPORTANTE PORQUE imaginacin, hace , aprende, vocabulario,
MEDIA EN LA MUESTRA
7.4 PALABRAS

divertido, ayuda, aventura


MEDIA: 8.7 PALABRAS
RESPUESTAS MODALES
-Te ensea palabras nuevas. Viajas a paises con la
imaginacin
-Aprendo ortografa, se me abre la imaginacin

Pregunta

Coef. de Cramer
2
V
n min( r 1,c 1 )

En casa tenemos (cantidad de libros)


Leer los libros escolares
Leo (cantidad de lectura)
Para m, leer es (abierta)
Leo (facilidad de lectura)
Leer es importante porque (abierta)
Los libros dados por el maestro
Prefiero leer (forma de leer)
Leo cuando (contexto de la lectura)
En la escuela leemos (cantidad de lectura
escolar)

0.52
0.44
0.41
0.38
0.35
0.27
0.26
0.20
0.20
0.14

Si slo se tiene en cuenta las preguntas cerradas,


tomando las palabras y respuestas como ilustrativas
Se obtiene

GRUPO

168 NIOS

CERRADAS

CATEGORIAS SOBREREPRESENTADAS
LEO MUCHO (82%; 28%)
LEO MUY FCILMENTE (93%; 58%)

PARA MI, LEER ES

PALABRAS SOBRE-REPRESENTADAS
NINGUNA

MEDIA EN LA MUESTRA
6.8 PALABRAS

MEDIA, 7.6 PALABRAS

CREO QUE LEER ES PALABRAS SOBRE-REPRESENTADAS


IMPORTANTE PORQUE
Aprende, cosas
MEDIA EN LA MUESTRA
7.4 PALABRAS

MEDIA 7.8 PALABRAS

RESPUESTAS MODALES
-Se aprende
-Se aprende

Pregunta
Leo (cantidad de lectura)
Leo con (facilidad de lectura)
Leo cuando (contexto de lectura)
Los libros dados por el maestro
Leer los libros escolares
En la escuela, leemos (cantidad)
I prefer reading (manera de leer)
At home, we have (cantidad de libros)
For me, to read means (open-ended)
Reading is important because (openended)

Coeficiente de
Cramer
0,62
0.50
0.45
0.43
0.39
0.39
0.32
0.30
0.17
0.15

TEMAS
-Anlisis de Datos Exploratorio
- Clustering Conceptual
- Information Extraction
-Anlisis Lxico-sintcticos
-Question Answering
- Ontologa
- Stemmer de Porter
-Information Retrieval
- Lematizacin

Minera de Texto

Você também pode gostar