Você está na página 1de 57

MINERA DE DATOS

Introduccin

Introduccin
Qu es Minera de Datos?
Extraccin de informacin o de patrones
(no trivial, implcita, previamente
desconocida y potencialmente til) de
grandes bases de datos.

Introduccin
Qu es Minera de Datos?
Es analizar datos para encontrar patrones
ocultos usando medios automatizados.

Introduccin

Qu es Minera de Datos?

La Minera de Datos es un proceso no elemental de


bsqueda de relaciones, correlaciones,
dependencias, asociaciones, modelos, estructuras,
tendencias, clases (clsteres), segmentos, los cuales
que se obtienen de grandes juegos de datos, los
cuales generalmente estn almacenados en bases de
datos (relacionales o no).
Esta bsqueda se lleva a cabo utilizando mtodos
matemticos, estadsticos o algortmicos.

Introduccin
Qu es Minera de Datos?

Se considera la Minera de Datos como un el


proceso, lo ms automatizado posible, que va de los
datos elementales disponibles en una Bodega de
Datos a la decisin.
El objetivo principal de la Minera de Datos es crear
un proceso automatizado que toma como punto de
partida los datos y cuya meta es la ayuda a la toma
de decisiones.

Introduccin
Minera de Datos versus KDD (Knowledge
Discovery in Databases)
Usualmente ambos trminos son
intercambiables.
KDD (Knowledge Discovery in Databases): Es
el proceso de encontrar informacin y/o
patrones tiles en los datos.
Minera de Datos: es el uso de algoritmos para
extraer informacin y/o patrones como parte
del proceso KDD.

Minera de Datos: Es parte del proceso KDD


La Minera de Datos: El corazn
del Proceso de Descubrimiento
del Conocimiento
Minera de Datos
Objetivo del Anlisis
Bodega de Datos

Seleccin

Limpieza de Datos
Integracin de Datos
Bases de Datos

Evaluacin
de Patrones

Introduccin
Minera de Datos versus Estadstica
La estadstica generalmente analiza muestras de
datos para luego hacer inferencia a toda la poblacin,
mientras que la minera de datos pretende buscar
informacin til usando toda la base datos.
La estadstica en la mayora de los casos supone que
los datos se comportan de acuerdo a ciertas
distribuciones de probabilidad (normal, binomial,
geomtrica, Poisson, etc), mientras que la minera de
datos usa tcnicas mucho ms exploratorias que
vienen de la IA, o del Analyse des Donnes.

Introduccin
Minera de Datos versus Anlisis de Datos

Con el advenimiento de las computadoras, aproximadamente en


1960, un nuevo concepto surgi del matrimonio entre la
informtica y la estadstica: El Anlisis de Datos (conocido en
como: Analyse des Donnes - Exploratory Data Analysis).

Esta nueva manera de analizar los datos con un objetivo


decisional usa mucho ms la informtica y los mtodos analticos
(el anlisis de factorial, la clasificacin automtica, la
discriminacin, etc.) que los mtodos estadsticos clsicos, las
pruebas de hiptesis, que parten de supuestos matemticos muy
difciles de verificar en la prctica. (Ej. no se supone que los datos
siguen cierta distribucin de probabilidad los datos se muestran
por si mismos).

A diferencia de la minera de datos, el anlisis de datos


usualmente no es automatizado, ni trata con volmenes de datos
tan grandes.

Introduccin
Minera de Datos versus Bodegas de Datos

Una Bodega de Datos es un almacn de datos de una compaa


que contiene algunos datos operacionales, datos agregados
(sumarizaciones), datos del histricos, datos evolutivos y
posiblemente aquellos datos externos a la compaa pero que
tienen una posible relacin con las actividades de esta.

Estos datos se depositan en una o ms bases de datos


relacionales y son accesibles a todas las aplicaciones orientadas a
la toma de decisiones.

Evidentemente bodegas de datos y minera de datos son cosas


muy diferentes. Una bodega de datos es usualmente apenas el
punto de partida de la minera de datos. Podra decirse que
ambos, las bodegas de datos y la minera de datos son parte del
proceso KDD.

Introduccin
Minera de Datos versus Machine Learning
Machine Learning: es un rea de la Inteligencia
Artificial (IA) que trata sobre como escribir programas
puedan aprender.
En Data Mining es usualmente usado para
prediccin y clasificacin.
Se divide en dos: aprendizaje supervisado (learns by
example) y aprendizaje no supervisado.

La Minera de Datos: Confluencia de Mltiples Disciplinas


Tecnologa
de Bases de Datos

Matemtica

Ciencias de
la Informacin

Minera
de Datos

Estadstica

Visualizacin

Otras
disciplinas

Aplicaciones de la Minera de Datos


Retencin de Clientes Cules clientes se van ir
para la competencia?
Patrones de Compra Cundo un cliente compra
un producto cul otro le podra interesar?
Deteccin de Fraude Cules transacciones son
fraudulentas?
Manejo del Riesgo A qu clientes les doy un
prstamo?
Segmentacin de clientes Quines son mis
clientes?
Prediccin de Ventas Cunto voy a vender el
prximos mes?

Porqu usar Minera de Datos?

Muchos datos estn siendo generados y almacenados,


datos de la Web, comercio electrnico.
Las compras
Bancos / tarjeta de crdito
Millones de transacciones

Proporcionar mejores y ms servicios personalizados

Tareas de la Minera de Datos

Descriptivas:
Buscar patrones humano-interpretables que
describen los datos

Predictivas:
Utiliza algunas de las variables para predecir
los valores futuros desconocidos de la misma
variable o bien de otras variables

Tareas de la Minera de Datos

Descriptivas:
OLAP (visualizacin).
Clustering.
Mtodos Factoriales como ACP, AFC.

Predictivas:
Series de Tiempo.
Anlisis Discriminante.
Regresin.
rboles de Decisin.

Tareas de la Minera de Datos


Clustering: (clasificacin no supervisada, aprendizaje
no supervizado): Es similar a la clasificacin, excepto que
los grupos no son predefinidos. El objetivo es particionar
o segmentar un conjunto de datos o individuos en grupos
que pueden ser disjuntos o no. Los grupos se forman
basados en la similaridad de los datos o individuos en
ciertas variables. Como los grupos no son dados a priori
el experto debe dar una interpretacin de los grupos que
se forman.
Mtodos:
Clasificacin Jerrquica (grupos disjuntos).
Nubes Dinmicas (grupos disjuntos).
Clasificacin Piramidal (grupos NO disjuntos).

Clustering o Bsqueda de Conglomerados

Tareas de la Minera de Datos


Clasificacin (discriminacin): Mapea o
asocia datos a grupos predefinidos
(aprendizaje supervisado).
Encuentra modelos (funciones) que describen
y distinguen clases o conceptos para futuras
predicciones.
Ejemplos: Credit scoring.
Mtodos: Anlisis discriminante, decision-tree,
classification rule, neural network

v1

v5
v3

v2

v8
v4

v6

Tareas de la Minera de Datos

Descubrimiento de Factores (Anlisis Factorial):


El anlisis factorial es un nombre genrico que se da a una clase de mtodos
multivariantes cuyo propsito principal es encontrar la estructura subyacente
en una tabla de datos (factores ocultos).
Generalmente hablando, aborda el problema de cmo analizar la estructura
de las interrelaciones (correlaciones) entre un gran nmero de variables con la
definicin de una serie de dimensiones subyacentes comunes, conocidas
como factores.

Mtodos:

Anlisis en Componentes Principales (ACP).


Anlisis Factorial de Correspondencias simples y mltiples (AFC).
Anlisis Cannico (AC).
Anlisis Discriminante (AD).

Tareas de la Minera de Datos


Regresin: Se usa una regresin para predecir
los valores ausentes de una variable basndose
en su relacin con otras variables del conjunto de
datos.
Hay regresin lineal, no lineal, logstica,
logartmica, univariada, multivariada, entre otras.

Regresin
Y1

Y1

y=x+1

X1

Tareas de la Minera de Datos

Descubrimiento de secuencias:
Secuential analysis es usado para descubrir
secuencias de patrones en los datos, estos
patrones son similares a los encontrados con
reglas de asociacin pero tales relaciones son
basadas en el tiempo.

Mtodos:
Redes neuronales.
Series de tiempo.

Tareas de la Minera de Datos

Series de Tiempo: Una serie de tiempo corresponde


a un conjunto de observaciones hechas respecto a
una variable en momentos equidistantes en el
tiempo, pasos:
1.
2.
3.
4.
5.

Xt : Serie de tiempo.
Corregir errores sistemticos.
Transformaciones matemticas.
Xt=Tendencia+Estacionalidad+Ciclos+Et.
Para Et (Si no es un ruido blanco)
1. Elegir el modelo (Box-Jenkings).
1. ARMA(p,q) (AutoRegressive Moving Average)
2. ARIMA(p,d,q) (AutoRegressive-Integrated Moving Average)
2. Estimar parmetros.

6. Pronsticos.

Tareas de la Minera de Datos


Sumarizacin:
Los mtodos de sumarizacin asignan los datos a
conjuntos (individuos de segundo orden) que tienen
asociadas descripciones.
Estos mtodos permiten extraer o derivar datos
representativos de una base de datos.
Permite el anlisis de conceptos.

Mtodos:
Anlisis de datos simblicos.
Lgica difusa.
Interval Analysis.

Tareas de la Minera de Datos


Asociacin o Anlisis de afinidad:
Conocido como Link Analysis se refiere a
encontrar relaciones no evidentes en los datos.

Mtodos:
Reglas de asociacin (association rules) .
Anlisis de Correlation y de Causalidad.

Minera de Datos: En qu tipo de datos?

Bases de datos relacionales


Bodegas de datos
Bases de datos transaccionales
Bases de datos orientadas a objetos y simblicas
Bases de datos espaciales Sistemas de Informacin
Geogrfica - GIS
Series cronolgicas de datos y los datos temporales
Bases de datos de texto
Bases de datos multimedia
www (web mining)

Minera de Datos y Business Intelligence


Aumenta el potencial
para apoyar
decisiones de negocios

Toma de
Decisiones
Presentacin de Datos
Tcnicas de visualizacin
Minera de Datos
Descubrimiento de Informacin

Usuario Final

Analista de Negocios

Analista de Datos

Exploracin de Datos
Anlisis estadstico, Consultas e informes

Bodegas de Datos/ Mercados de Datos


OLAP, MDA
Origen de los Datos
Papel, archivos, proveedores de informacin, sistemas de bases de datos

DBA

Ciclo de un proyecto de minera de datos


1.
2.
3.
4.
5.
6.
7.
8.
9.

Aprender sobre el negocio


Recolectar los datos. Usualmente las compaas
tienes muchas bases de datos que deben ser
centralizadas.
Limpieza y transformacin de datos (mucho esfuerzo).
Definir la meta del proyecto y as encontrar el modelo
adecuado.
Escoger los algoritmos que permitan optimizar el
modelo.
Generar reportes.
Generar predicciones y/o Scoring.
Aplicacin de los resultados en el negocio.
Actualizacin de los modelos (calibracin constante de
los modelos).

Estndares en Minera de Datos

En Minera de Datos estamos como en Base de Datos hace 20 aos,


es decir, se estn haciendo esfuerzos por definir estndares.

XML for Analysis: es otro estndar de la industria y est a cargo del


XML / A Council. As surge el lenguaje de consultas query language
Data Mining eXtensions (DMX) que permite consultas basadas en
XML a los servidores de Minera de Datos.

SQL MM: (SQL/ Multimedia for Data Mining) fue propuesto por IBM.

Java Data Mining API. Es un paquete JAVA para minera de datos


propuesto por ORACLE. El objetivo es permitir a las aplicaciones JAVA
con motores de minera de datos.

PMML, Crisp-DM, CMW (extensin de UML) y otros.

CRISP-DM
Metodologa para el Desarrollo
de Proyectos en Minera de
Datos

CRISP-DM
CRoss-Industry Standard Process
for Data Mining

Por qu debera ser un proceso estndar?


El proceso de minera de datos debe ser
confiable y repetible para personas con
escasos conocimientos de minera de datos.

CRISP-DM
No tiene propietario
Aplicacin / Industria
neutral
Se centra en cuestiones
de negocios
As como en el anlisis
tcnico y de mtodos

Metodologas utilizadas en Minera de Datos

Fases de CRISP-DM
CRISP-DM, est dividida en una serie de
seis fases:

Fases de CRISP-DM
La sucesin de fases no es necesariamente
rgida.
Cada fase es estructurada en varias tareas
generales de segundo nivel.
Las tareas generales se proyectan a tareas
especficas, donde finalmente se describen
las acciones que deben ser desarrolladas
para situaciones especficas.

Qu es una Bodega de Datos?


(Data Warehouse)
Una bodega de datos es una base de
datos orientada a consultas, como
resultado de un anlisis extenso y de la
transformacin de datos de la empresa.
La bodega de datos se usa como punto
de partida de un sistema de toma de
decisiones.

Qu es una Bodega de Datos?


(Data Warehouse)
Una bodega de datos tiene datos
consolidados y consistentes, orientados
hacia un tema, histricos y solamente
de lectura.
Una bodega de datos podra ser el
resumen un conjunto de bases de datos
de una empresa.

Qu es una Bodega de Datos?


(Data Warehouse)

Proceso de
Minera de Datos

Bodega de Datos vrs BDR

Qu es un Mercado de Datos?
(Data Mart)
Un Mercado de Datos (Data Mart) tiene
las mismas caractersticas que una
bodega de datos, pero a un nivel ms
refinado, pues contiene informacin
ms detallada perteneciente a un solo
departamento de la empresa.

Qu es OLAP?
OLAP (Online Analytical Processing)
OLAP es una tecnologa que procesa
informacin de una bodega de datos en
estructuras multidimensionales que
proporcionan una respuesta rpida a consultas
complejas.
El objetivo de OLAP es resumir y organizar
grandes cantidades de datos para se
analizados y evaluados rpidamente.

Modelo Estrella

Modelo Estrella
Tabla de Hechos (fact table): Corresponde a los
hechos del negocio. En general son valores
numricos y sumables lo que permitir sumarizar
los millones de registros haciendo agregados.
Debe estar altamente normalizada.
Tablas de Dimensiones (dimensions tables):
Permiten describir los hechos desde diferentes
ngulos permitiendo anlisis muy diversos. En
general, tienen una descripcin textual muy clara.
Generalmente no estn normalizadas.

Ejemplo de un Modelo Estrella


time

item

time_key day
day_of_the_week
month
quarter
year

Sales Fact Table


time_key
item_key
location_key
units_sold

dollars_sold
avg_sales
Measures

item_key
item_name
brand
type
supplier_type

location
location_key
street
city
province_or_street
country

Ejemplo de un Modelo Estrella


time

item

time_key day
day_of_the_week
month
quarter
year

Sales Fact Table


time_key
item_key
supplier_key

Supplier
supplier_key
supplier_name
supplier_type

location_key
units_sold
dollars_sold
avg_sales

Measures

item_key
item_name
brand
type
supplier_type

location
location_key
street
city
province_or_street
country

Qu NO es Minera de Datos?

Qu NO es Minera de Datos?
En general la Minera de Datos NO se
basa en modelos Determinsticos.
Un modelo Determinstico es un modelo
matemtico donde las mismas entradas
producirn invariablemente las mismas
salidas, no contemplndose la existencia
del azar ni el principio de incertidumbre.

Qu NO es Minera de Datos?
En general la Minera de Datos se basa en
modelos Probabilsticos.
Un modelo Probabilstico es un modelo
matemtico que nos ayuda a predecir la
conducta de futuras repeticiones de un
experimento aleatorio mediante la
estimacin de una probabilidad de
ocurrencia de dicho evento concreto.

Dnde obtener ms informacin?

Você também pode gostar