Você está na página 1de 40

Proceso de Minera de Datos

Estudiante:
Marilia Rivero Catari
Bases de Datos Avanzadas
Julio 2014
Minera de Datos
EXTRACCION
EXTRAER
Proceso de Minera de Datos
Proceso de Minera de Datos
Los pasos a seguir para la realizacin de un proyecto de minera de
datos son:

1. La Determinacin de los Objetivos. Trata sobre la delimitacin de
los objetivos que el cliente desea

2. Pre procesamiento de los Datos. Se refiere a la seleccin, la
limpieza, el enriquecimiento, la reduccin y transformacin de las
bases de datos.

3. Determinacin del Modelo. Se comienza realizando unos anlisis
estadsticos de los datos y despus se lleva a cabo una visualizacin
grfica de los mismos para tener una primera aproximacin. Segn
los objetivos planteados y la tarea que debe llevarse a cabo son los
algoritmos a utilizarse.

4. Anlisis de los Resultados. Verifica si los resultados obtenidos son
coherentes con los obtenidos por el anlisis y la visualizacin grfica.
Y el cliente determina si le aporta nuevos conocimientos que le
permita la toma de decisiones.
Proceso de Minera de Datos
Principales Caractersticas de MD
Explorar los datos que se encuentran en las profundidades de las bases
de datos, o almacenes de datos, que algunas veces contienen informacin
almacenada durante varios aos.
El entorno de la minera de datos suele tener una arquitectura cliente-
servidor.
Las herramientas de la minera de datos ayudan a extraer el mineral de
la informacin enterrado en archivos corporativos o en registros pblicos
archivados.
Las herramientas de la minera de datos se combinan fcilmente y
pueden analizarse y procesarse rpidamente.
La minera de datos produce cinco tipos de informacin:
Asociaciones.
Secuencias.
Clasificaciones.
Agrupamientos.
Pronsticos.
Aplicaciones de Minera de Datos
Qu es el proceso de KDD?
Extraccin de Conocimiento en Bases de Datos

- Es la extraccin automatizada de conocimiento o patrones
interesantes, no triviales, implcitos, previamente
desconocidos, potencialmente tiles y predictivos de la
informacin de grandes Bases de Datos.(3)

- El proceso de KDD consiste en usar mtodos de minera de
datos(algoritmos) para extraer (identificar) lo que se
considera como conocimiento de acuerdo a la
especificacin de ciertos parmetros usando una base de
datos junto con preprocesamientos y post-procesamientos.



Fases del KDD
Fases del KDD
Determinar las fuentes de informacin.
Disear el esquema de un almacn de datos (Data Warehouse): que
consiga unificar de manera operativa toda la informacin recogida.
Implantacin del almacn de datos: que permita la navegacin y
visualizacin previa de sus datos, para decidir qu aspectos puede
interesar que sean estudiados.
Seleccin, limpieza y transformacin de los datos que se van a analizar:
la seleccin incluye tanto una divisin o fusin horizontal (filas) como
vertical (atributos).La limpieza y prepocesamiento de datos se logra
diseando una estrategia adecuada para manejar errores, valores
incompletos, secuencias de tiempo, etc.
Seleccionar y aplicar el mtodo de minera de datos apropiado: esto
incluye la seleccin de la tarea de descubrimiento a realizar, por ejemplo,
clasificacin, agrupamiento o clustering, regresin, etc. La
transformacin de los datos al formato requerido por el algoritmo
especfico de minera de datos.
Fases del KDD
Evaluacin, interpretacin, transformacin y representacin de los
patrones extrados, interpretar los resultados y posiblemente regresar a
los pasos anteriores. Esto puede involucrar repetir el proceso, quizs con
otros datos, otros algoritmos, otras metas y otras estrategias.

Difusin y uso del nuevo conocimiento. Incorporar el conocimiento
descubierto al sistema lo cual puede incluir resolver conflictos existentes.
El conocimiento se obtiene para realizar acciones o la toma de decisiones.

1
2
TCNICAS DE
DATA MINING
IMPLANTAR
MODELO DE
DATA MINING
DATOS
PROBLEMAS
Estadstica o Inteligencia Artificial
A
L
G
O
R
I
T
M
O
S
No esttico
1
3
Con el modelado se construye un modelo en una situacin donde se
conoce la respuesta y luego se aplica en otra situacin de la cual se
desconoce la respuesta.
1
4
CLASIFICACION DE ALGORITMOS DE
MINERIA DE DATOS
1
5
Descripcin
Normalmente esta tcnica es usada para anlisis preliminar de
los datos (resumen, caractersticas de los datos, etc.).

Describir un comportamiento en una base de datos compleja
para aumentar el conocimiento y entendimiento sobre gente,
productos, procesos etc. (Visualizacin Diferenciacin)
Establecer que las mujeres presentan menor siniestralidad en
seguros de automvil que los hombres
Identificar las caractersticas de personas que apoya uno u otro
partido poltico
1
6
Ejemplo
Gestin de personal de una empresa: Qu clases de empleados
hay contratados?


Datos:



Modelo generado:







Minera de datos
Grupo 1: Sin nios y en una casa alquilada. Bajo nmero de uniones. Muchos das enfermos
Grupo 2: Sin nios y con coche. Alto nmero de uniones. Pocos das enfermos. Ms mujeres y en una casa alquilada
Grupo 3: Con nios, casados y con coche. Ms hombres y normalmente propietarios de casa. Bajo nmero de uniones
1
7
Prediccin
La meta es inducir un modelo para poder predecir una
clase dados los valores de los atributos
Ejemplo: Diagnostico medico, deteccin de fraude o que
producto compraran ms unos clientes, clasificar solicitudes
de crdito (alto, medio, bajo)
Se usan arboles de decisin, reglas, anlisis de
discriminantes, etc.
Clasificacin
La meta es inducir un modelo para poder predecir el
valor de la clase dados los valores de los atributos
Ejemplo: Estimar el valor del ingreso total de un grupo
familiar, Determinar probabilidad de transaccin sea
fraudulenta , Estimar nmero de hijos en un grupo
familiar
Se usan rboles de regresin, regresin lineal, redes
neuronales, maquinas de vectores, etc.
Estimacin
o Regresin
ALGORITMOS DE MINERIA DE DATOS
rboles de decisin
SE SELECCIONA EL NODO
RAIZ Y ESTE SE DIVIDE DE
ACUERDO A LOS VALORES
DEL ATRIBUTO RAIZ







> $5000 <=$5000


M F >35 <= 35


0 Casado Soltera F M >=4 >4

0 1 0 1 0 1
If (Ingreso=>5000 AND Genero=F AND Estado = Soltera Then P(Coche)=1
Representan reglas donde atributos independientes determinan los valores finales. En
estos rboles cada nodo representa una propiedad que puede tomar diversos valores,
cada uno de los cuales genera una rama. Los nodos hojas representan las clasificaciones
finales.
Nos pueden servir para tareas como:
Clasificacin en general y validaciones
Usadas donde se deben tomar decisiones a partir de varias alternativas
Son tiles en problemas de alta dimensionalidad y pequeo numero de valores
para cada atributo.


Modelo predictivo generado
1
9
Ingreso
Ingreso
Genero Edad
Genero Antigedad
rboles de decisin
rboles de decisin
2
1
rboles de decisin

Agente comercial: Debo conceder una hipoteca a un cliente?

Datos:




Modelo generado:



Minera de datos
If Defaulter-accounts > 0 then Returns-credit = no
If Defaulter-accounts = 0 and [(Salary > 2500) or (Credit-p > 10)] then Returns-credit = yes
2
2
Ejemplo
Tienda de TV: Cuntas televisiones planas se vendern el
prximo mes?

Datos:



Modelo generado:





Minera de datos
Modelo lineal: nmero de televisiones para el prximo mes
V(month)flatTV = 0.62 V(Month-1)flat-TV + 0.33 V(Month-2)flat-TV + 0.12 V(Month-1)DVD-Recorder 0.05
2
3
Exploracin
Una dependencia funcional es un patrn en el que se
establece que uno a ms atributos determinan el valor
de otro.
Se puede utilizar redes bayesianas, redes casuales.
Por ejemplo si un paciente ingresa por maternidad
determina su sexo


Dependencia


Detecta eventos que ocurren de manera simultnea
Se usan por ejemplo las reglas de asociacin.
Ejemplo: Un cliente que compra cerveza, compra
paales con prb P1, Un cliente que compra Pizza,
compra Vino con prb P1, Un cliente que compra Vino,
compra Pizza con prb P2
Asociacin
ALGORITMOS DE MINERIA DE DATOS
2
4
Neural Network (Redes neuronales)

Al igual que los rboles de decisin, este algoritmo tambin resuelve problemas de
clasificacin y regresin. Puede ser adecuado para detectar patrones no lineales,
difcilmente descriptibles por medio de reglas.









Se usa como alternativa al algoritmo de arboles de decisin
Nos pueden servir para tareas como:
Las mismas tareas que los rboles de decisin.
Regresiones (similar a la clasificacin, pero predice una magnitud continua).
Son usadas para reconocimiento de patrones, clasificaciones de voz e imagen,
procesamiento de lenguaje natural, prediccin y optimizacin.

2
5
Segmentacin

Separacin de los datos en subgrupos o clases interesantes
Se usan algoritmos de clustering, SOM(sef-organizacin), EM(expectation
maximizacin), K-means etc.
Sirve sobre todo para buscar elementos afines dentro de un conjunto.
Por ejemplo, podemos usarlo para saber que en una poblacin hay
hombres y mujeres jvenes solteros, hombres mayores solteros, hombres
y mujeres mayores casados... pero no mujeres mayores solteras.
Nos puede servir para:
Segmentar un mercado.
Validaciones (las entradas que no pertenecen a un cluster,
pueden ser "outliners" o elementos anmalos).

ALGORITMOS DE MINERIA DE DATOS
2
6

Algoritmo de Naive Bayes


Este algoritmo busca correlaciones entre atributos y pertenece a la
clasificacin de dependencias .
Cuando no tenemos muy claro qu atributo se puede predecir en funcin
de otros, una tcnica muy habitual es tratar de utilizar el algoritmo de Naive
Bayes tratando de predecir el valor de todos los atributos en funcin de
todos los atributos (un "todos contra todos").
El resultado de esta correlaciones suele ser un modelo en el que tenemos
ms o menos claro qu vamos a poder predecir en esos datos.
Ventaja: se entrena muy rpido
Desventaja: No es muy preciso.
Se usa para: Exploracin inicial de los dato


ALGORITMOS DE MINERIA DE DATOS
2
7
Anlisis de Canasta

(Market Basket Analysis)
Reglas de Asociacin
Anlisis de Canasta
2
8
Ejemplo
Un ejemplo tradicional de minera de datos es el
relacionado con una bsqueda en una bodega de datos, de
un negocio de cadena, de hechos comunes y relevantes:
Luego del proceso se dio como resultado la siguiente:

Si edad < 35;
y sexo = masculino;
y dia = jueves
entonces compras incluyen
paales;
y cerveza

Esto sirvi para que empresa tomara medidas relacionada
con la ubicacin de ciertos productos en sitios comunes.

2
9
Anlisis de Canasta (Market Basket Analysis)
Los hbitos de compra de los clientes pueden ser representados a travs de
asociaciones o correlaciones entre los diferentes productos que compran en
sus canastas.

Cliente 1:
Arroz, pur, bebida
Cliente 2:
Arroz, helado,
pan


Cliente 1:
Arroz, bebida,
cerveza


3
0
Anlisis de Canasta: Indicadores
Las relaciones entre productos se miden por:

Importancia Relativa (support):indica el porcentaje de transacciones que llevan
el antecedente y el consecuente, con respecto al total de transacciones analizadas

Ejemplo:
{arroz, pur, cerveza}, {arroz, helado, pan}, {arroz, bebida, cerveza}

Importancia Relativa(arroz cerveza)= 2/3=66%

Este indicador seala que tan frecuente es la relacin entre productos con respecto al
universo de boletas. Pero no indica si existe vnculo entre ambos productos.
3
1
Anlisis de Canasta: Indicadores
Confiabilidad (confidence) : Indica el porcentaje de transacciones que llevan el
antecedente y el consecuente juntos, con respecto al total de transacciones que llevan el
antecedente.

Ejemplo: {arroz, pur, cerveza}, {arroz, helado, pan}, {arroz, bebida, cerveza}

Confianza (cerveza pur)= 1/2=50%

Esta relacin seala el vnculo entre ambos productos (probabilidad condicional).
Pero, qu pasa en el siguiente caso:

Confianza(helado arroz)=1/1= 100%

Quiere decir que hay una fuerte relacin entre estos productos?

3
2
Anlisis de Canasta: Indicadores
Ganancia (gain or Improvement): puntaje que representa el aumento en la
probabilidad de seleccin del consecuente, al ser comprado en conjunto con el
antecedente.

Ganancia (AB)=Confianza(AB)/Importancia Relativa(B)

Ejemplo: {arroz, pur, cerveza}, {arroz, helado, pan}, {arroz, bebida, cerveza}

Ganancia(helado arroz)=1/1= 1
Ganancia(bebida pur)=0,5/0,3= 1,5


Con estos indicadores podemos entender las relaciones entre clientes
3
3
Ejemplo
Supermercado: Cundo los clientes compran huevos, tambin
compran aceite?

Datos:




Modelo generado:



Minera de datos
Eggs -> Oil: Confianza = 75%, Soporte = 37%
3
4
Las relaciones entre productos permiten apoyar decisiones como:
Armado de Packs (Consulta de Canasta)
o Entre 2 productos de alta rotacin de distintas categoras pero del mismo proveedor + un producto
de baja rotacin y alto margen.
o Entre 2 productos de alta rotacin de categoras y proveedores distintos + un producto de baja
rotacin y alto margen.
Descuentos: Polticas agresivas para productos que se venden juntos, con alta confiabilidad
Relaciones entre proveedores y sus productos
Identificacin de preferencias y gustos de los clientes
Reforzar esas preferencias
Incentivar a otros clientes a tomar estas preferencias
Se encuentran relaciones entre productos de distintas categoras por ejemplo:
Detergente con Yogurt, Detergente con Leche o Yogurt con Mayonesa
Anticipar cambios en las preferencias de los clientes y actuar oportunamente
Aumento en las ventas de la cadena


Beneficios para el Supermercado:
Herramientas de software
3
5

Existen muchas herramientas de software para el desarrollo de modelos de
minera de datos tanto libres como comerciales como, por ejemplo:



KNIME
SPSS Clementine
(software)
SAS Enterprise
Miner
RapidMiner
Weka
KXEN
Orange
3
6
Herramienta Weka
La Weka (Gallirallus australis) es un ave originaria
de Nueva Zelanda. Esta Gallincea en peligro de
extincin es famosa por su curiosidad y agresividad.
De aspecto pardo y tamao similar a una gallina, las
wekas se alimentan fundamentalmente de insectos
y frutos.
Weka es un software programado en Java que est orientado a la extraccin
de conocimientos desde bases de datos con grandes cantidades de
informacin.
3
7
Herramienta Weka
Caractersticas principales de Weka:

Est disponible libremente bajo la licencia pblica
General de GNU.
Es muy portable porque est completamente
implementado en Java y puede correr en casi cualquier
plataforma.
Contiene una extensa coleccin de tcnicas para
preprocesamiento de datos y modelado.
Es fcil de utilizar por un principiante gracias a su
interfaz grfica de usuario.
3
8
Herramienta Weka
3
9
Herramienta Weka

Você também pode gostar