Você está na página 1de 52

EIA-434-Optativo Minera de Datos I

Dr. Oldemar Rodrguez R. Escuela de Informtica Universidad Nacional

Conceptos Bsicos y Herramientas OLAP

Introduccin Qu es Minera de Datos?


Extraccin de informacin o de patrones (no trivial, implcita, previamente desconocida y potencialmente til) de grandes bases de datos.

Introduccin Qu es Minera de Datos?


Es analizar datos para encontrar patrones ocultos usando medios automatizados.

Introduccin Qu es Minera de Datos?


La Minera de Datos es un proceso no elemental de bsqueda de relaciones, correlaciones, dependencias, asociaciones, modelos, estructuras, tendencias, clases (clusters), segmentos, los cuales que se obtienen de grandes juegos de datos, los cuales generalmente estn almacenados en bases de datos (relacionales o no). Esta bsqueda se lleva a cabo utilizando mtodos matemticos, estadsticos o algortmicos.

Introduccin Qu es Minera de Datos?


Se considera la Minera de Datos como un el proceso, lo ms automatizado posible, qu va de los datos elementales disponibles en una Bodega de Datos a la decisin. El objetivo principal de la Minera de Datos es crear un proceso automatizado que toma como punto de partida los datos y cuya meta es la ayuda a la toma de decisiones.

Introduccin
Minera de Datos versus KDD (Knowledge Discovery in Databases) Usualmente ambos trminos son intercambiables. KDD (Knowledge Discovery in Databases): Es el proceso de encontrar informacin y/o patrones tiles en los datos. Minera de Datos: es el uso de algoritmos para extraer informacin y/o patrones derivados del proceso KDD.

Minera de Datos: A KDD Process


La Minera de Datos: Es el centro del proceso de descubrimiento del conocimiento (KDD Process = Knowledge Discovery in Data Bases Process).

Introduccin
Minera de Datos versus Estadstica
La estadstica generalmente analiza muestras de datos para luego hacer inferencia a toda la poblacin, mientras que la minera de datos pretende buscar informacin til usando toda la base datos. La estadstica en la mayora de los casos supone que los datos se comportan de acuerdo a ciertas distribuciones de probabilidad (normal, binomial, geomtrica, Poisson, etc), mientras que la minera de datos usa tcnicas mucho ms exploratorias que vienen de la IA, o del Analyse des Donnes.

Introduccin
Minera de Datos versus Anlisis de Datos
Con el advenimiento de las computadoras, aproximadamente en 1960, un nuevo concepto surgi del matrimonio entre la informtica y la estadstica: El Anlisis de Datos (conocido en como: Analyse des Donnes - Exploratory Data Analysis). Esta nueva manera de analizar los datos con un objetivo decisional usa mucho ms la informtica y los mtodos analticos (el anlisis de factorial, la clasificacin automtica, la discriminacin, etc.) que los mtodos estadsticos clsicos, las pruebas de hiptesis, que parten de supuestos matemticos muy difciles de verificar en la prctica. (Ej. no se supone que los datos siguen cierta distribucin de probabilidad los datos se muestran por si mismos). A diferencia de la minera de datos, el anlisis de datos usualmente no es automatizado, ni trata con volmenes de datos tan grandes.

Introduccin
Minera de Datos versus Bodegas de Datos
Una Bodega de Datos es un almacn de datos de una compaa que contiene algunos datos operacionales, datos agregados (sumarizaciones), datos del histricos, datos evolutivos y posiblemente aquellos datos externos a la compaa pero que tienen una posible relacin con las actividades de esta. Estos datos se depositan en una o ms bases de datos relacionales y son accesibles a todas las aplicaciones orientadas a la toma de decisiones. Evidentemente bodegas de datos y minera de datos son cosas muy diferentes. Una bodega de datos es usualmente apenas el punto de partida de la minera de datos. Podra decirse que ambos, las bodegas de datos y la minera de datos son parte del proceso KDD.

Introduccin
Minera de Datos versus Machine Learning
Machine Learning: es un rea de la Inteligencia Artificial (IA) que trata sobre como escribir programas puedan aprender. En Data Mining es usualmente usado para prediccin y clasificacin. Se divide en dos: aprendizaje supervisado (learns by example) y aprendizaje no supervisado.

La Minera de Datos: Confluencia de Mltiples Disciplinas

Tecnologa de Bases de Datos

Estadstica

Matemtica

Minera de Datos

Visualizacin

Ciencias de la Informacin

Otras disciplinas

Aplicaciones de la Minera de Datos


Retencin de Clientes Cules clientes se van ir para la competencia? Patrones de Compra Cundo un cliente compra un producto cul otro le podra interesar? Deteccin de Fraude Cules transacciones son fraudulentas? Manejo del Riesgo A qu clientes les doy un prstamo? Segmentacin de clientes Quines son mis clientes? Prediccin de Ventas Cunto voy a vender el prximos mes?

Tareas de la Minera de Datos Descriptivas:


OLAP (visualizacin). Clustering. Mtodos Factoriales como ACP, AFC.

Predictivas:
Series de Tiempo. Anlisis Discriminante. Regresin. rboles de Decisin.

Tareas de la Minera de Datos


Clustering: (clasificacin no supervisada, aprendizaje no supervizado): Es similar a la clasificacin, excepto que los grupos no son predefinidos. El objetivo es particionar o segmentar un conjunto de datos o individuos en grupos que pueden ser disjuntos o no. Los grupos se forman basados en la similaridad de los datos o individuos en ciertas variables. Como los grupos no son dados a priori el experto debe dar una interpretacin de los grupos que se forman. Mtodos:
Clasificacin Jerrquica (grupos disjuntos). Nubes Dinmicas (grupos disjuntos). Clasificacin Piramidal (grupos NO disjuntos).

Cluster Analysis

The K-Means Clustering Method (nubes dinmicas)


10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10

10 9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10

Tareas de la Minera de Datos Clasificacin (discriminacin): Mapea o asocia datos a grupos predefinidos (aprendizaje supervisado).
Encuentra modelos (funciones) que describen y distinguen clases o conceptos para futuras predicciones. Ejemplos: Credit scoring. Mtodos: Anlisis discriminante, decision-tree, classification rule, neural network

v5 v3 v8

v1 v2

v4

v6

Tareas de la Minera de Datos


Descubrimiento de Factores (Anlisis Factorial):
El anlisis factorial es un nombre genrico que se da a una clase de mtodos multivariantes cuyo propsito principal es encontrar la estructura subyacente en una tabla de datos (factores ocultos). Generalmente hablando, aborda el problema de cmo analizar la estructura de las interrelaciones (correlaciones) entre un gran nmero de variables con la definicin de una serie de dimensiones subyacentes comunes, conocidas como factores. Se puede considerar cada factor como una variable dependiente que es funcin del conjunto entero de las variables observadas. El objetivo central es el resumen y la reduccin de datos.

Mtodos:
Anlisis en Componentes Principales (ACP). Anlisis Factorial de Correspondencias simples y mltiples (AFC). Anlisis Cannico (AC). Anlisis Discriminante (AD).

Tabla de Datos

Componentes

100% de la informacin

80%

16%

0.02%

Tareas de la Minera de Datos

Regresin: Se usa una regresin para predecir los valores ausentes de una variable basndose en su relacin con otras variables del conjunto de datos. Hay regresin lineal, no lineal, logstica, logartmica, univariada, multivariada, etc.

Regresin
Y1

Y1

y=x+1

X1

Tareas de la Minera de Datos


Series de Tiempo: Una serie de tiempo corresponde a un conjunto de observaciones hechas respecto a una variable en momentos equidistantes en el tiempo. Pasos:
1. 2. 3. 4. 5. Xt : Serie de tiempo. Corregir errores sistemticos. Transformaciones matemticas. Xt=Tendencia+Estacionalidad+Ciclos+Et. Para Et (Si no es un ruido blanco)
1. Elegir el modelo (Box-Jenkings). 1. ARMA(p,q) (AutoRegressive Moving Average) 2. ARIMA(p,d,q) (AutoRegressive-Integrated Moving Average) 2. Estimar parmetros.

6. Pronsticos.

Tareas de la Minera de Datos


Sumarizacin:
Los mtodos de sumarizacin asignan los datos a conjuntos (individuos de segundo orden) que tienen asociadas descripciones. Estos mtodos permiten extraer o derivar datos representativos de una base de datos. Permite el anlisis de conceptos.

Mtodos:
Anlisis de datos simblicos. Lgica difusa. Interval Analysis.

Tareas de la Minera de Datos Asociacin o Anlisis de afinidad:


Conocido como Link Analysis se refiere a encontrar relaciones no evidentes en los datos.

Mtodos:
Reglas de asociacin (association rules) . Anlisis de Correlation y de Causalidad.

Tareas de la Minera de Datos Descubrimiento de secuencias:


Secuential analysis es usado para descubrir secuencias de patrones en los datos, estos patrones son similares a los encontrados con reglas de asociacin pero tales relaciones son basadas en el tiempo.

Mtodos:
Redes neuronales. Series de tiempo.

Data Mining: On What Kind of Data? Relational databases Data warehouses Transactional databases Advanced DB and information repositories
Object-oriented and symbolic databases Spatial databases (location component, Geographic Information Systems - GIS) Time-series data and temporal data Text databases and multimedia databases Heterogeneous and legacy databases www (web mining)

Steps of a KDD Process


1.

Learning the application domain:


Relevant prior knowledge and goals of application

2. 3. 4.

Creating a target data set: data selection Data cleaning and preprocessing: (may take 60% of effort!) Data reduction and transformation:
Find useful features, dimensionality/variable reduction, invariant representation.

5.

Choosing functions (methods) of data mining


Summarization, classification, regression, association, clustering.

6. 7. 8.

Choosing the mining algorithm(s) Data mining: search for patterns of interest Pattern evaluation and knowledge presentation
visualization, transformation, removing redundant patterns, etc.

9.

Use of discovered knowledge

Ciclo de un proyecto de minera de datos


1. Recolectar los datos. Usualmente las compaias tienes muchas bases de datos que deben ser centralizadas. 2. Limpieza y transformacin de datos. 3. Definir la meta del proyecto y as encontrar el modelo adecuado. 4. Escoger los algoritmos que permitan optimizar el modelo. 5. Generar reportes. 6. Generar predicciones y/o Scoring. 7. Aplicacin de los resultados en el negocio. 8. Actualizacin de los modelos. (calibracin constante de los modelos)

Data Mining and Business Intelligence


Increasing potential to support business decisions

Making Decisions Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration Statistical Analysis, Querying and Reporting

End User

Business Analyst Data Analyst

Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP

DBA

Architecture of a Typical Data Mining System


Graphical user interface

Pattern evaluation Data mining engine


Database or data warehouse server
Data cleaning & data integration Filtering

Knowledge-base

Databases

Data Warehouse

Estndares en Minera de Datos


En Minera de Datos estamos como en Base de Datos hace 20 aos, es decir, se estn haciendo esfuerzos por definir estndares. OLE DB for DM: define un nuevo lenguaje para la minera de datos que permite la creacin de modelos, aprendizaje y prediccin. Tambin define un modelo de datos para los mtodos y algoritmos de minera de datos. XML for Analysis: es otro estndar de la industria y est a cargo del XML / A Council. As surge el lenguaje de consultas query language Data Mining eXtensions (DMX) que permite consultas basadas en XML a los servidores de Minera de Datos. SQL MM: (SQL/ Multimedia for Data Mining) fue propuesto por IBM. Java Data Mining API. Es un paquete JAVA para minera de datos propuesto por ORACLE. El objetivo es permitir a las aplicaciones JAVA con motores de minera de datos. PMML, Crisp-DM, CMW (extensin de UML) y otros.

Qu es una Bodega de Datos? (Data Warehouse)


Una bodega de datos es una base de datos orientada a consultas, como resultado de un anlisis extenso y de la transformacin de datos de la empresa. La bodega de datos se usa como punto de partida de un sistema de toma de decisiones (tales como OLAP, DataLab).

Qu es una Bodega de Datos? (Data Warehouse)


Una bodega de datos tiene datos consolidados y consistentes, orientados hacia un tema, histricos y solamente de lectura. Una bodega de datos podra ser el resumen un conjunto de bases de datos de una empresa.

Qu es una Bodega de Datos? Simblicas (Data Warehouse)

o Numricas

Proceso de Minera de Datos

Bodega de Datos vrs BDR

Qu es un Mercado de Datos? (Data Mart)


Un Mercado de Datos (Data Mart) tiene las mismas caractersticas que una bodega de datos, pero a un nivel ms refinado, pues contiene informacin ms detallada perteneciente a un solo departamento de la empresa.

Cmo se construyen las Bodegas de Datos y los Mercados de Datos?


Para esto se sigue el manual The Data The Warehouse Toolkit. Toolkit El objetivo es evitar inconsistencias y errores en los datos. Este proceso en muy difcil de automatizar dada la gran cantidad de formatos de datos que existen en las empresas.

Minera de Datos vrs OLAP Qu es Minera de Datos?


Son herramientas y tcnicas cuyo objetivo es extraer informacin valiosa de las bodegas de datos (Data Warehouse) y de los mercados de datos (Data Mart). Busca grupos de clientes, segmentos, patrones etc.

Minera de Datos vrs OLAP Qu es OLAP?


OLAP (Online Analytical Processing) OLAP es una tecnologa que procesa informacin de una bodega de datos en estructuras multidimensionales que proporcionan una respuesta rpida a consultas complejas. El objetivo de OLAP es resumir y organizar grandes cantidades de datos para se analizados y evaluados rpidamente.

Qu es OLAP?

Modelo Estrella
Tabla de Hechos (fact table): Corresponde a los hechos del negocio. En general son valores numricos y sumables lo que permitir sumarizar los millones de registros haciendo agregados. Debe estar altamente normalizada. Tablas de Dimensiones (dimensions tables): Permiten describir los hechos desde diferentes ngulos permitiendo anlisis muy diversos. En general, tienen una descripcin textual muy clara. Generalmente no estn normalizadas.

Example of Star Schema


time
time_key day day_of_the_week month quarter year

item
Sales Fact Table time_key item_key location_key units_sold dollars_sold avg_sales Measures
item_key item_name brand type supplier_type

location
location_key street city province_or_street country

Example of Star Schema


time
time_key day day_of_the_week month quarter year

item
Sales Fact Table time_key item_key supplier_key
item_key item_name brand type supplier_type

Supplier
supplier_key supplier_name supplier_type

location
location_key street city province_or_street country

location_key units_sold dollars_sold avg_sales Measures

Gracias.

Você também pode gostar