Você está na página 1de 19

UNIVERSIDAD JOSE CARLOS MARIATEGUI

Ingeniera de Sistemas e Informtica


Sistemas de Informacin II

Tcnicas de Mtodos Relacionales y Estructurales


basadas en procedimientos relacionales
Mervy Villanueva
Edgar lvarez Valdez
Ana Mara Condori
Mogrovejo
at_ti_cus19@hotmail. edgar_45_3@hotmail
merry_c_v
@hotmail.com
com
.com
UNIVERSIDAD JOSE CARLOS MARIATEGUI SEDE ILO

RESUMEN
Data mining a lo largo de la historia ha sido llamado de distintas
maneras. A partir de los aos sesenta los estadsticos utilizaban el
termino de data fishing (pesca de datos) o data dredging (filtracin
de datos) con la idea de encontrar correlaciones sin una hiptesis
previa en bases de datos con ruido.
Uno de los aspectos que se debe tener claro en el proceso KDD es
distinguir entre una tarea y un mtodo de minera de datos, existen
una serie delimitada de tareas descriptivas y predictivas las cuales
requieren mtodos, tcnicas o algoritmos, en este paper de
investigacin tocaremos solamente todo lo que concierne a los
mtodos

relacionales

estructurales

como

por

ejemplo

Programacin lgica inductiva (ILP por sus siglas en ingles),


Aprendizaje

basado

relacionales,
distancia,
asociacin

en

grafos,

Aproximaciones

Arboles

de

relacionales,

Modelos

probabilsticos

relacionales

decisin

relacionales,

Induccin

de

basadas
Reglas

programas

en
de

lgico-

funcionales., los cuales favorecern a un trabajo ms organizado y


sistematizado durante el anlisis y al validar los resultados todo esto
evaluando en s que tcnicas usar para el anlisis respectivo.

UNIVERSIDAD JOSE CARLOS MARIATEGUI


Ingeniera de Sistemas e Informtica
Sistemas de Informacin II
Palabras

Claves:

mtodos

relacionales

estructurales,

programacin lgica inductiva, aprendizaje basado en grafos,


modelos probabilsticos relacionales, aproximaciones relacionales
basadas en distancia, arboles de decisin relacionales, reglas de
asociacin relacionales, Induccin de programas lgico-funcionales

Summary:
Data mining throughout history it has been called in different ways.
From the sixties that the statistical used the term data fishing data)
or data dredging (data leakage) with the idea of finding correlations
without a previous hypothesis in databases with noise.

One of the aspects that should be very clear in the KDD process is to
distinguish between a task and a method of data mining, there are a
defined series of descriptive and predictive tasks which require
methods, techniques or algorithms, in this research paper stringed
instruments only everything that affects the relational and structural
methods As for example inductive logic programming (ILP by its
acronym in English), learning based on graphs, probabilistic
relational models, approximations based on relational distance,
relational decision trees, association rules relational, induction
programs of logical-functional., which will be good for a work more
organized and systematized during the analysis and to validate the
results all this evaluating if what techniques to use for analysis.

Key Words: Relational and structural methods, inductive logic


programming, learning based on graphs, probabilistic relational
models, approximations based on relational distance, relational

UNIVERSIDAD JOSE CARLOS MARIATEGUI


Ingeniera de Sistemas e Informtica
Sistemas de Informacin II
decision

trees,

association

rules

relational,

logical

induction

programs-functional

1. INTRODUCCION
Una de las partes de mayor variedad dentro de la obtencin de
conocimiento a partir de bases de datos es la que corresponde
a las tcnicas de mineras de datos, esto debido a muchas
caractersticas que pueden influir a la hora de tomar la
decisin, como el objetivo del proyecto, los tipos de variables
que influyen en este, limpieza de los mismos, entre muchos
otros que existen. Para esto se lleva a cabo un proceso de
extraccin de conocimiento como se puede observar en la
Figura 1.

Figura 1. PROCESO KDD


Como se mencion anteriormente hay que tener claro que los
conceptos de tarea y mtodo de minera de datos, las tareas de
DM se conforman en 2 grandes grupos:

UNIVERSIDAD JOSE CARLOS MARIATEGUI


Ingeniera de Sistemas e Informtica
Sistemas de Informacin II

Predictivas: tratan de problemas y tareas en los que hay


que predecir uno o ms valores para uno o ms ejemplos.
Dependiendo de cmo se ha la correspondencia entre los
ejemplos como por ejemplo :
Clasificacin(discrimi

Clasificacin

Estimacin de

nacin)

suave
Preferencias o

probabilidad

Categorizacin

Regresin

priorizacin

Descriptivas: Buscan describir los datos existentes,


algunas tareas descriptivas ms delimitadas:
Agrupamient

Correlaciones y

Reglas de

Factorizaciones

asociacin
Deteccin de

Dependencias

valores e

Funcionales

instancias
anmalas

Cada una de las tareas mencionadas requieren mtodos,


tcnicas o algoritmos para resolverlas, como:

UNIVERSIDAD JOSE CARLOS MARIATEGUI


Ingeniera de Sistemas e Informtica
Sistemas de Informacin II

Relacionales y
estructurales

Algebraicas y
estadisticas

Bayesianas

Basadas en
conteos de
frecuencias y
tablas de
contingencia

Arboles de
decisin y
sistemas de
aprendizaje de
reglas

redes
neuronales
artificiales

Ncleo y
mquinas de
soporte
vectorial

Estocsticas y
difusas

casos, en
densidad o
distancia

Este trabajo se enfoca propiamente a la tcnica de mtodos


relacionales y estructurales, que es una tcnica bastante
expresiva y que maneja los datos de manera estructural,
permitiendo obtener patrones de relaciones y recursivos. Otra
caracterstica de este es que permite definir el conocimiento
previo en forma de reglas. Es considerado como una de los
modelos de mayor compresibilidad entre toda la variedad que
existe.

El objetivo de los mtodos de minera de datos es extraer conocimiento de


grandes volmenes de datos.
Ejemplo Sencillo:

Si se usa un sistema de aprendizaje atributo valor podramos descubrir


algunos patrones.

UNIVERSIDAD JOSE CARLOS MARIATEGUI


Ingeniera de Sistemas e Informtica
Sistemas de Informacin II

SI Duracin (Curso)
Si Duracin (Curso) <15 ENTONCES Seminario (Curso)

Pero no se podran obtener patrones complejos que involucren registros de


ambas tablas, por ejemplo quien es el profesor del estudiante. Para patrones
complejos se usan los mtodos RDM (relation data mining) o una relacin
universal.

UNIVERSIDAD JOSE CARLOS MARIATEGUI


Ingeniera de Sistemas e Informtica
Sistemas de Informacin II

2. Programacin Lgica y Base de datos


La programacin lgica es un paradigma de programacin que
surgi en los aos 70s y fue idea de Colmerauer Kowalski de
que la lgica de primer orden, o un subconjunto de ella podran
usarse como lenguaje de programacin.
La programacin lgica tiene como fundamento la lgica de las
clusulas de Horn1:
B <- A1, A2, ..., An

Poda tener una o varias condiciones A1, A2, ..., An, pero con
una nica conclusin B1. Por lo que si A1, A2, ..., An son
ciertas, se puede inferir que B1 es cierta. Horn tambin
demostr que cualquier problema que pueda expresarse en
forma lgica clausal se puede transformar en un conjunto de
clusulas de Horn2.
As, el ejemplo anterior de la paternidad, que presentaba
ambigedad, se deba haber escrito de la forma:

Hijo (Luis, Fernando, Mara)


Hijo (Beatriz, Esteban, Teresa)
Padre (Y) <- hijo (X, Y, Z)
Madre (Z) <- hijo (X, Y, Z)
NOTA: Indica el primer aserto que Luis es hijo de Fernando y
Mara; y el segundo, que Beatriz es hija de Esteban y Teresa.
Las reglas lgicas sealan que si X es hijo de Y y Z, entonces Y
es el padre y Z es la madre.

Por lo que a la pregunta


(cuestin lgica):
? Padre (X)

Y a la pregunta:
? Madre (X)
El sistema responder:

1 Alfred Horn, un lgico alemn, quin en 1951 lleg a la conclusin que


para realizar una inferencia correcta y as eliminar las ambigedades, las
clusulas slo deban de tener una conclusin
2

UNIVERSIDAD JOSE CARLOS MARIATEGUI


Ingeniera de Sistemas e Informtica
Sistemas de Informacin II

El sistema responder:
> X= Fernando, Esteban

> X= Mara, Teresa

3. Programacin Lgica Inductiva


Este tipo de programacin est basada en el paradigma lgico.
Segn
(Hernndez,

Ramrez,

&

Ferri,

Mtodos

relacionales

estructurales, 2004), el mtodo ILP se define como la


inferencia de una teora P (un programa lgico) desde una
evidencia E. Para llegar a este punto se necesita una teora de
conocimiento, que es otro programa lgico.
Lo interesante

del

ILP

es

que es

la

va

contraria

la

programacin lgica: mientras que este utiliza reglas para


obtener y encontrar hechos, la ILP utiliza hechos para
encontrar reglas, es decir, la programacin lgica es un
proceso deductivo, mientras que la ILP es un proceso
inductivo.
El ILP se puede definir semnticamente de la siguiente forma:
(FIGURA 2).

Figura 2: Formas semnticas ILP


Dnde: el smbolo

representa la consecuencia lgica

UNIVERSIDAD JOSE CARLOS MARIATEGUI


Ingeniera de Sistemas e Informtica
Sistemas de Informacin II

Se tiene que buscar hiptesis completas, que cubran todos los


ejemplos positivos y ninguno de los negativos, para esto se utiliza los
mtodos top-Down y bottom-up.

3.1.

Subsuncin

Uno de los mayores problemas del ILP es que pueden surgir


muchas teoras a partir de los eventos o hechos analizados, de
los cuales, muchos de esto pueden ser ms generales que
otros, lo que puede provocar una verdadera confusin de cul
es la teora que ms nos sirve para nuestro propsito final. La
-subsuncin nos permite indicar si una regla es ms general
que otra, y por lo tanto, considerarla como una regla ms
confiable o que va a abarcar un mayor grupo de datos en una
misma regla. Esto es importante a la hora de utilizar mtodos
top Down o bottom-up para obtener las reglas.

3.2.

Mtodo TOP DOWN

Este es una de los mtodos que se utiliza en la tcnica ILP. La


idea es ir buscando las hiptesis o clusulas que cubran los
ejemplos positivos de una forma especializada, es decir,
comenzando desde la clusula ms general y van buscando
clausulas ms especficas que cubran lo esperado.
Alguno de los sistemas que utilizan este mtodo son FOIL y
FILP.
Los programas van creando las clusulas de una en una,
usando la especializacin.
Figura 3: Mtodo Top Down

UNIVERSIDAD JOSE CARLOS MARIATEGUI


Ingeniera de Sistemas e Informtica
Sistemas de Informacin II

10

3.3.

Mtodo Bottom Down

Contrario al mtodo top-Down, el mtodo bottom-up parte de


las clausulas ms especficas para ir obteniendo las clausulas
ms generales, buscando as todas las reglas posibles que
cubran el problema.
Algunos operadores clsicos de generalizacin de clusulas
tenemos:
Eliminacin de condiciones.
Transformacin de constantes en variables.
Transformacin de conjunciones en disyunciones.
Pero el ILP ha desarrollado sus propios operadores para llegar
a este propsito.

UNIVERSIDAD JOSE CARLOS MARIATEGUI


Ingeniera de Sistemas e Informtica
Sistemas de Informacin II

11

Los dos operadores ms importantes son los siguientes:

Generalizacin menos general de dos clausulas: Este


operador busca la generalizacin menos general que
cubra dos clausulas, es decir, de las clausulas simples, se
busca la que sea la ms especfica, pero que a la vez, sea
general para ambas.
Resolucin inversa: este operador lo que hace es
invertir los pasos de resolucin. Los que hace es si se
tiene una clausula y su resultado, se busca otra clusula
que puede llegar a tener el mismo resultado. Lo
interesante de este operador es que puede utilizar
predicados que no existen en el grupo original de
predicados, permitiendo que la bsqueda sea menos
sesgada.

3.4.

Bias inductivas de programacin lgica inductiva

Un bias inductivo es cualquier informacin que influye en el


aprendizaje inductivo desde ejemplos. Uno de los problemas de
los ejemplos de aprendizaje es que puede llegar a ser muy
ineficiente, en especial, en cuestin de tiempo.

En ILP hay 3 tipos:

Bias del lenguaje :


Busca que el algoritmo de induccin mejore
por medio de la reduccin del espacio de la
hiptesis.
Bias de bsqueda:

UNIVERSIDAD JOSE CARLOS MARIATEGUI


Ingeniera de Sistemas e Informtica
Sistemas de Informacin II

12

Reduce el espacio de bsqueda, explorando


solo parcialmente todo el espacio disponible.
Criterio de parada:
Indica parmetros o condiciones de paradas.
3.5.

ILP y Recursividad

La recursividad es una herramienta que es muy til a la hora


de que las hiptesis de aprendizajes sean muchos mejores, ya
que pueden encontrar
Patrones que no se ven a primer nivel de datos de ejemplos.
Sin embargo, para el ILP, este ha sido uno de los problemas por
resolver ms grandes. Actualmente los ILPs pueden resolver
sistemas recursivos sencillos, pero se quedan muy cortos a la
hora de sistemas recursivos ms complejos.
4. Programacin lgica inductiva y minera de datos

Como muchos otros mtodos y tcnicas de minera de datos, el


ILP se puede utilizar para dos propsitos, ya sea predictiva
(para aprender la definicin de un predicado) o descriptiva,
que nos permite aprender patrones generales

4.1.

Aproximacin Directa

Este tipo de aproximacin utiliza tanto tcnicas predictivas


como descriptivas trabajando directamente sobre la base de

UNIVERSIDAD JOSE CARLOS MARIATEGUI


Ingeniera de Sistemas e Informtica
Sistemas de Informacin II
datos,

aunque

muchas

veces

13

es

necesario

un

pre

procesamiento inicial.
Muchas veces se trabaja sobre bases de datos relacionales,
cuyo primer paso es el de transformar los datos a un formato
textual que entienda el ILP. Esto puede ser muy difcil ya que
muchos lenguajes lgicos no utilizan tipificacin de variables,
algo que si existe en los lenguajes relacionales.
Cuando ya se tiene el sistema traducido, se dispone de
especificar las tareas.
Muchos sistemas solo pueden realizar una tarea a la vez. Si el
propsito es predictivo, se debe indicar cul es el predicado
principal. Si el propsito es descriptivo, se debe indicar el
atributo o argumento clave.
4.2.

Aproximacin mediante proposicionalizacion

Lo que muchos sistemas hacen, es una combinacin de los dos.


Basados en una base de datos relacional, se obtiene los datos
necesarios y se transforman a un sistema proposicional
(atributo-valor) y a partir de aqu se aplica algoritmos basados
en este tipo de minera de datos. Cuando se obtienen los
resultados, se transforman de nuevo a un mtodo relacional.
Muchas

veces

esto

es

preferible

ya

que

los

mtodos

proposicionales pueden ser mucho ms veloces o devolver


valores numricos ms precisos que los relacionales.
4.3.

Base de datos Inductivas

Una base de datos inductiva es una base de datos en la que se


almacenan los patrones inducidos por alguna tcnica de
minera de datos, y puede ser interrogado usando lenguajes de
consulta

UNIVERSIDAD JOSE CARLOS MARIATEGUI


Ingeniera de Sistemas e Informtica
Sistemas de Informacin II

14

5. Otros mtodos relacionales y estructurales

Existen otros mtodos, que aunque menos estudiados que el


ILP,

tambin

son

tiles

para

sistemas

relacionales

estructurales.
5.1.

Aprendizaje basado en grafos

Hay muchas reas, como son la qumica por medio de


molculas, o sistemas de transportes, donde la estructura de
datos ms adecuada de ser analizada es por medio de grafos.
La idea de este mtodo es el de representar las evidencias en
forma de grafo.
Teniendo

la

evidencia

deseada

transformada

en

una

representacin de grafos, se dispone de encontrar el o los


subgrafos que generalizan o que permita encontrar la hiptesis
o el patrn deseado.
Representacin de una evidencia positiva con notacin de
grafos: (Figura 4)

UNIVERSIDAD JOSE CARLOS MARIATEGUI


Ingeniera de Sistemas e Informtica
Sistemas de Informacin II

15

Figura 4: Evidencia positiva notacin de


grafos
Para encontrar el subgrafo patrn, se puede utilizar alguna de
las siguientes tcnicas:
Aproximacin

basada

en

bsqueda

voraz:

buscan

encontrar la solucin ptima en cada paso. Si en un paso se ve


que

la

solucin

ptima

es

mejor

que

la

encontrada

anteriormente, esta pasa a ser la nueva solucin ptima, en


caso

contrario,

se

deja

la

solucin

ptima

encontrada

anteriormente.
Aproximacin basada en ILP: Se puede utilizar ILP para
este mtodo, ya que muchas veces uno puede representar los
grafos en representacin de primer orden, as como tener
conocimiento de base almacenado previamente para poder
resolver problemas de forma ms rpida.
Aproximacin basada en bases de datos inductivas:
Simplemente se almacena los subgrafos encontrados en una
base de datos inductivas para luego ser utilizados.
Aproximacin basada en la teora de grafos: Bsicamente
lo que se pretende con este tipo de aproximacin es el de
iniciar con grafos comunes, iniciando con alguno que tenga
solo un vrtice, y luego ir aumentando los vrtices, para ir
encontrando los patrones requeridos.
Aproximacin basada en funciones de ncleo: Ms que
trabajar sobre el grafo en s, realmente este utiliza la
informacin de los enlaces y de los vrtices, para encontrar un
origen en comn (ncleo) entre los distintos grafos a analizar.
5.2.

Modelos probabilsticos relacionales

UNIVERSIDAD JOSE CARLOS MARIATEGUI


Ingeniera de Sistemas e Informtica
Sistemas de Informacin II

16

Este modelo es una extensin de las redes bayesianas, que en


lugar de utilizar el lenguaje de Horn para este propsito, utiliza
el lenguaje relacional para su utilizacin. Lo que hace es que
van asignando probabilidades de que una relacin ocurre, y
despus, utilizando los valores de entradas, permite clasificar o
describir las relaciones ms comunes existentes.
5.3.

Aproximaciones relacionales basadas en distancia

Este mtodo va analizando los predicados de ejemplos que se


tienen y luego se va estudiando la distancia a distintos niveles,
donde el nivel inicial o cero son los predicados originales, luego
el nivel 1 son los predicados relacionados directamente con los
predicados del nivel cero y as va sucesivamente hasta llegar a
las relaciones ms profundas

5.4.

Arboles de decision relacionales

Son similares a los arboles de decision proposicionales, pero


cambiando el sistema de valor/atributo con el de expresiones
de un lenguaje relacional. (FIGURA 5)
FIGURA
relacional

5:

Ejemplo

de

rbol

de

decision

UNIVERSIDAD JOSE CARLOS MARIATEGUI


Ingeniera de Sistemas e Informtica
Sistemas de Informacin II

5.5.

17

Induccin de programas lgico-funcionales

En la programacin lgica las funciones deben tratarse


artificialmente a travs de predicados con un argumento ms
que

representa

el

resultado

de

la

funcin.

(Predicado

(entrada1, entrada2, entrada3, entrada N, salida)).


Los ejemplos de minera se caracterizan por usar solo ejemplos
positivos mientras que muchos sistemas de ILP requieren de
presencia de ejemplos negativos.
Usar lenguajes lgicos funcionales (IFLP(inductive functional
logic programming)) para la representacin del conocimiento
nos permite disponer de las ventajas como: la presencia de
variables lgicas propias de la programacin lgica.
Las disponibilidad de utilizar informacin de tipos y de definir
funciones, propias de la programacin funcional.

6. Conclusiones
Los mtodos relacionales y estructurales son ms tiles para
problemas donde existe una gran variedad de estructuras y
relacin entre ellas, como anlisis de molculas.

UNIVERSIDAD JOSE CARLOS MARIATEGUI


Ingeniera de Sistemas e Informtica
Sistemas de Informacin II

18

El mtodo de programacin lgica inductiva es el mtodo


ms estudiado y utilizado dentro de todo el conjunto de
mtodos.
Normalmente se utiliza alguna regla o dato para permitir
definir cuando una hiptesis es la que se busca o no. Esta regla
busca encontrar la generalizacin de las mismas y es llamada
con el nombre de -subsuncin
Hay dos formas de utilizar el ILP: el top-Down y el bottom-up.
Varios mtodos muchas veces utilizan la combinacin de dos
o ms metodologas para encontrar una solucin al problema,
explotando de mejor forma las caractersticas de cada una
El ILP tiene actualmente serios problemas a la hora de
considerar recursividad entre estructuras y relaciones.
La gran mayora de estos mtodos se basan en paradigmas
lgicos, explotando fuertemente las caractersticas de este
paradigma.

UNIVERSIDAD JOSE CARLOS MARIATEGUI


Ingeniera de Sistemas e Informtica
Sistemas de Informacin II

19

7. Referencias y Linkografia
Por Francisco Jose Correa Zabala , Departamento de
Sistemas

Informatica

Computacion

Universidad

Politecnica de Valencia, Tesis para Optar el ttulo de doctor


en Informatica., Julio del 2002
http://www.dsic.upv.es/docs/bib-dig/tesis/etd-1027200301496/principal.pdf
Descripcion en VHDL de arquitecturas para implementar el
algoritmo CORDIC, proyecto de investigacin para optar el
ttulo de Ingeniero Informatico
http://sedici.unlp.edu.ar/bitstream/handle/10915/3835/Docu
mento_completo.pdf?sequence=15
Enciclopedia Didactica LeeColima.com.Mx
La Clusula de Horn Programacion Logica
http://leecolima.net/2012_a/leecolima.noip.org/2012/leediccionario.dll8503.html?
&pase=94761&art_frace=La%20cl%E1usula%20de
%20Horn%20-%20programaci%F3n%20L%F3gica%20Fue
%20Alfred%20Horn,%20un%20l%F3gico%20alem%E1n,
%20qui%E9n%20en%201951%20lleg%F3%20a%20l
Por Mercerdes Ramirez, Caracas 30 de Julio 2003
Base de datos
http://www.monografias.com/trabajos14/basededatos/basede
datos.shtml
Por Andrey Garbanzo Vargas, Tarea 1 Base de datos II ,
Centro Interuniversitario de Alajuela, provincia de Costa
Rica, 09 de Octubre del 2011
http://es.scribd.com/doc/68122945/Metodos-relacionales-yestructurales
Por GA Osorio Zuluaga - 2009, Apuntes de mineria de datos,
http://www.bdigital.unal.edu.co/2037/2/germanaugustoosori
ozuluaga_Parte2.pdf

Você também pode gostar