Escolar Documentos
Profissional Documentos
Cultura Documentos
Introduccin
Minera de Datos versus KDD (Knowledge Discovery in Databases) Usualmente ambos trminos son intercambiables. KDD (Knowledge Discovery in Databases): Es el proceso de encontrar informacin y/o patrones tiles en los datos. Minera de Datos: es el uso de algoritmos para extraer informacin y/o patrones derivados del proceso KDD.
Introduccin
Minera de Datos versus Estadstica
La estadstica generalmente analiza muestras de datos para luego hacer inferencia a toda la poblacin, mientras que la minera de datos pretende buscar informacin til usando toda la base datos. La estadstica en la mayora de los casos supone que los datos se comportan de acuerdo a ciertas distribuciones de probabilidad (normal, binomial, geomtrica, Poisson, etc), mientras que la minera de datos usa tcnicas mucho ms exploratorias que vienen de la IA, o del Analyse des Donnes.
Introduccin
Minera de Datos versus Anlisis de Datos
Con el advenimiento de las computadoras, aproximadamente en 1960, un nuevo concepto surgi del matrimonio entre la informtica y la estadstica: El Anlisis de Datos (conocido en como: Analyse des Donnes - Exploratory Data Analysis). Esta nueva manera de analizar los datos con un objetivo decisional usa mucho ms la informtica y los mtodos analticos (el anlisis de factorial, la clasificacin automtica, la discriminacin, etc.) que los mtodos estadsticos clsicos, las pruebas de hiptesis, que parten de supuestos matemticos muy difciles de verificar en la prctica. (Ej. no se supone que los datos siguen cierta distribucin de probabilidad los datos se muestran por si mismos). A diferencia de la minera de datos, el anlisis de datos usualmente no es automatizado, ni trata con volmenes de datos tan grandes.
Introduccin
Minera de Datos versus Bodegas de Datos
Una Bodega de Datos es un almacn de datos de una compaa que contiene algunos datos operacionales, datos agregados (sumarizaciones), datos del histricos, datos evolutivos y posiblemente aquellos datos externos a la compaa pero que tienen una posible relacin con las actividades de esta. Estos datos se depositan en una o ms bases de datos relacionales y son accesibles a todas las aplicaciones orientadas a la toma de decisiones. Evidentemente bodegas de datos y minera de datos son cosas muy diferentes. Una bodega de datos es usualmente apenas el punto de partida de la minera de datos. Podra decirse que ambos, las bodegas de datos y la minera de datos son parte del proceso KDD.
Introduccin
Minera de Datos versus Machine Learning
Machine Learning: es un rea de la Inteligencia Artificial (IA) que trata sobre como escribir programas puedan aprender. En Data Mining es usualmente usado para prediccin y clasificacin. Se divide en dos: aprendizaje supervisado (learns by example) y aprendizaje no supervisado.
Estadstica
Matemtica
Minera de Datos
Visualizacin
Ciencias de la Informacin
Otras disciplinas
Predictivas:
Series de Tiempo. Anlisis Discriminante. Regresin. rboles de Decisin.
Cluster Analysis
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
Tareas de la Minera de Datos Clasificacin (discriminacin): Mapea o asocia datos a grupos predefinidos (aprendizaje supervisado).
Encuentra modelos (funciones) que describen y distinguen clases o conceptos para futuras predicciones. Ejemplos: Credit scoring. Mtodos: Anlisis discriminante, decision-tree, classification rule, neural network
v5 v3 v8
v1 v2
v4
v6
Mtodos:
Anlisis en Componentes Principales (ACP). Anlisis Factorial de Correspondencias simples y mltiples (AFC). Anlisis Cannico (AC). Anlisis Discriminante (AD).
Tabla de Datos
Componentes
100% de la informacin
80%
16%
0.02%
Regresin: Se usa una regresin para predecir los valores ausentes de una variable basndose en su relacin con otras variables del conjunto de datos. Hay regresin lineal, no lineal, logstica, logartmica, univariada, multivariada, etc.
Regresin
Y1
Y1
y=x+1
X1
6. Pronsticos.
Mtodos:
Anlisis de datos simblicos. Lgica difusa. Interval Analysis.
Mtodos:
Reglas de asociacin (association rules) . Anlisis de Correlation y de Causalidad.
Mtodos:
Redes neuronales. Series de tiempo.
Data Mining: On What Kind of Data? Relational databases Data warehouses Transactional databases Advanced DB and information repositories
Object-oriented and symbolic databases Spatial databases (location component, Geographic Information Systems - GIS) Time-series data and temporal data Text databases and multimedia databases Heterogeneous and legacy databases www (web mining)
2. 3. 4.
Creating a target data set: data selection Data cleaning and preprocessing: (may take 60% of effort!) Data reduction and transformation:
Find useful features, dimensionality/variable reduction, invariant representation.
5.
6. 7. 8.
Choosing the mining algorithm(s) Data mining: search for patterns of interest Pattern evaluation and knowledge presentation
visualization, transformation, removing redundant patterns, etc.
9.
Making Decisions Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration Statistical Analysis, Querying and Reporting
End User
Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP
DBA
Knowledge-base
Databases
Data Warehouse
o Numricas
Qu es OLAP?
Modelo Estrella
Tabla de Hechos (fact table): Corresponde a los hechos del negocio. En general son valores numricos y sumables lo que permitir sumarizar los millones de registros haciendo agregados. Debe estar altamente normalizada. Tablas de Dimensiones (dimensions tables): Permiten describir los hechos desde diferentes ngulos permitiendo anlisis muy diversos. En general, tienen una descripcin textual muy clara. Generalmente no estn normalizadas.
item
Sales Fact Table time_key item_key location_key units_sold dollars_sold avg_sales Measures
item_key item_name brand type supplier_type
location
location_key street city province_or_street country
item
Sales Fact Table time_key item_key supplier_key
item_key item_name brand type supplier_type
Supplier
supplier_key supplier_name supplier_type
location
location_key street city province_or_street country
Gracias.