Escolar Documentos
Profissional Documentos
Cultura Documentos
Introduccin
Introduccin
Qu es Minera de Datos?
Extraccin de informacin o de patrones
(no trivial, implcita, previamente
desconocida y potencialmente til) de
grandes bases de datos.
Introduccin
Qu es Minera de Datos?
Es analizar datos para encontrar patrones
ocultos usando medios automatizados.
Introduccin
Qu es Minera de Datos?
Introduccin
Qu es Minera de Datos?
Introduccin
Minera de Datos versus KDD (Knowledge
Discovery in Databases)
Usualmente ambos trminos son
intercambiables.
KDD (Knowledge Discovery in Databases): Es
el proceso de encontrar informacin y/o
patrones tiles en los datos.
Minera de Datos: es el uso de algoritmos para
extraer informacin y/o patrones como parte
del proceso KDD.
Seleccin
Limpieza de Datos
Integracin de Datos
Bases de Datos
Evaluacin
de Patrones
Introduccin
Minera de Datos versus Estadstica
La estadstica generalmente analiza muestras de
datos para luego hacer inferencia a toda la poblacin,
mientras que la minera de datos pretende buscar
informacin til usando toda la base datos.
La estadstica en la mayora de los casos supone que
los datos se comportan de acuerdo a ciertas
distribuciones de probabilidad (normal, binomial,
geomtrica, Poisson, etc), mientras que la minera de
datos usa tcnicas mucho ms exploratorias que
vienen de la IA, o del Analyse des Donnes.
Introduccin
Minera de Datos versus Anlisis de Datos
Introduccin
Minera de Datos versus Bodegas de Datos
Introduccin
Minera de Datos versus Machine Learning
Machine Learning: es un rea de la Inteligencia
Artificial (IA) que trata sobre como escribir programas
puedan aprender.
En Data Mining es usualmente usado para
prediccin y clasificacin.
Se divide en dos: aprendizaje supervisado (learns by
example) y aprendizaje no supervisado.
Matemtica
Ciencias de
la Informacin
Minera
de Datos
Estadstica
Visualizacin
Otras
disciplinas
Descriptivas:
Buscar patrones humano-interpretables que
describen los datos
Predictivas:
Utiliza algunas de las variables para predecir
los valores futuros desconocidos de la misma
variable o bien de otras variables
Descriptivas:
OLAP (visualizacin).
Clustering.
Mtodos Factoriales como ACP, AFC.
Predictivas:
Series de Tiempo.
Anlisis Discriminante.
Regresin.
rboles de Decisin.
v1
v5
v3
v2
v8
v4
v6
Mtodos:
Regresin
Y1
Y1
y=x+1
X1
Descubrimiento de secuencias:
Secuential analysis es usado para descubrir
secuencias de patrones en los datos, estos
patrones son similares a los encontrados con
reglas de asociacin pero tales relaciones son
basadas en el tiempo.
Mtodos:
Redes neuronales.
Series de tiempo.
Xt : Serie de tiempo.
Corregir errores sistemticos.
Transformaciones matemticas.
Xt=Tendencia+Estacionalidad+Ciclos+Et.
Para Et (Si no es un ruido blanco)
1. Elegir el modelo (Box-Jenkings).
1. ARMA(p,q) (AutoRegressive Moving Average)
2. ARIMA(p,d,q) (AutoRegressive-Integrated Moving Average)
2. Estimar parmetros.
6. Pronsticos.
Mtodos:
Anlisis de datos simblicos.
Lgica difusa.
Interval Analysis.
Mtodos:
Reglas de asociacin (association rules) .
Anlisis de Correlation y de Causalidad.
Toma de
Decisiones
Presentacin de Datos
Tcnicas de visualizacin
Minera de Datos
Descubrimiento de Informacin
Usuario Final
Analista de Negocios
Analista de Datos
Exploracin de Datos
Anlisis estadstico, Consultas e informes
DBA
SQL MM: (SQL/ Multimedia for Data Mining) fue propuesto por IBM.
CRISP-DM
Metodologa para el Desarrollo
de Proyectos en Minera de
Datos
CRISP-DM
CRoss-Industry Standard Process
for Data Mining
CRISP-DM
No tiene propietario
Aplicacin / Industria
neutral
Se centra en cuestiones
de negocios
As como en el anlisis
tcnico y de mtodos
Fases de CRISP-DM
CRISP-DM, est dividida en una serie de
seis fases:
Fases de CRISP-DM
La sucesin de fases no es necesariamente
rgida.
Cada fase es estructurada en varias tareas
generales de segundo nivel.
Las tareas generales se proyectan a tareas
especficas, donde finalmente se describen
las acciones que deben ser desarrolladas
para situaciones especficas.
Proceso de
Minera de Datos
Qu es un Mercado de Datos?
(Data Mart)
Un Mercado de Datos (Data Mart) tiene
las mismas caractersticas que una
bodega de datos, pero a un nivel ms
refinado, pues contiene informacin
ms detallada perteneciente a un solo
departamento de la empresa.
Qu es OLAP?
OLAP (Online Analytical Processing)
OLAP es una tecnologa que procesa
informacin de una bodega de datos en
estructuras multidimensionales que
proporcionan una respuesta rpida a consultas
complejas.
El objetivo de OLAP es resumir y organizar
grandes cantidades de datos para se
analizados y evaluados rpidamente.
Modelo Estrella
Modelo Estrella
Tabla de Hechos (fact table): Corresponde a los
hechos del negocio. En general son valores
numricos y sumables lo que permitir sumarizar
los millones de registros haciendo agregados.
Debe estar altamente normalizada.
Tablas de Dimensiones (dimensions tables):
Permiten describir los hechos desde diferentes
ngulos permitiendo anlisis muy diversos. En
general, tienen una descripcin textual muy clara.
Generalmente no estn normalizadas.
item
time_key day
day_of_the_week
month
quarter
year
dollars_sold
avg_sales
Measures
item_key
item_name
brand
type
supplier_type
location
location_key
street
city
province_or_street
country
item
time_key day
day_of_the_week
month
quarter
year
Supplier
supplier_key
supplier_name
supplier_type
location_key
units_sold
dollars_sold
avg_sales
Measures
item_key
item_name
brand
type
supplier_type
location
location_key
street
city
province_or_street
country
Qu NO es Minera de Datos?
Qu NO es Minera de Datos?
En general la Minera de Datos NO se
basa en modelos Determinsticos.
Un modelo Determinstico es un modelo
matemtico donde las mismas entradas
producirn invariablemente las mismas
salidas, no contemplndose la existencia
del azar ni el principio de incertidumbre.
Qu NO es Minera de Datos?
En general la Minera de Datos se basa en
modelos Probabilsticos.
Un modelo Probabilstico es un modelo
matemtico que nos ayuda a predecir la
conducta de futuras repeticiones de un
experimento aleatorio mediante la
estimacin de una probabilidad de
ocurrencia de dicho evento concreto.