Escolar Documentos
Profissional Documentos
Cultura Documentos
Capítulo 1
Conceptos Básicos
y
Herramientas OLAP
1
Introducción
Introducción
2
Introducción
Introducción
3
Introducción
4
Introducción
Introducción
Minería de Datos versus Análisis de Datos
Con el advenimiento de las computadoras, aproximadamente en
1960, un nuevo concepto surgió del “matrimonio” entre la
informática y la estadística: El Análisis de Datos (conocido en
como: Analyse des Données - Exploratory Data Analysis).
Esta nueva manera de analizar los datos con un objetivo
decisional usa mucho más la informática y los métodos analíticos
(el análisis de factorial, la clasificación automática, la
discriminación, etc.) que los métodos estadísticos clásicos, las
pruebas de hipótesis, que parten de supuestos matemáticos muy
difíciles de verificar en la práctica. (Ej. no se supone que los datos
siguen cierta distribución de probabilidad – los datos se muestran
por si mismos).
A diferencia de la minería de datos, el análisis de datos
usualmente no es automatizado, ni trata con volúmenes de datos
tan grandes.
EPB 603 Sistemas del Conocimiento
5
Introducción
Introducción
6
La Minería de Datos: Confluencia de Múltiples Disciplinas
" #$ % !
7
Tareas de la Minería de Datos
• Descriptivas:
– OLAP (visualización).
– “Clustering”.
– Métodos Factoriales como ACP, AFC.
• Predictivas:
– Series de Tiempo.
– Análisis Discriminante.
– Regresión.
– Árboles de Decisión.
8
Cluster Analysis
10 10
9 9
8 8
7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
10 10
9 9
8 8
7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
9
Tareas de la Minería de Datos
v5 v1
v2
v3 v8
v4
v6
10
Tareas de la Minería de Datos
• Descubrimiento de Factores (Análisis Factorial):
• Métodos:
– Análisis en Componentes Principales (ACP).
– Análisis Factorial de Correspondencias simples y múltiples (AFC).
– Análisis Canónico (AC).
– Análisis Discriminante (AD).
11
EPB 603 Sistemas del Conocimiento
12
Regression y
Y1
Y1’ y=x+1
X1 x
1. Xt : Serie de tiempo.
2. Corregir errores sistemáticos.
3. Transformaciones matemáticas.
4. Xt=Tendencia+Estacionalidad+Ciclos+Et.
5. Para Et (Si no es un ruido blanco)
1. Elegir el modelo (Box-Jenkings).
1. ARMA(p,q) (AutoRegressive Moving Average)
2. ARIMA(p,d,q) (AutoRegressive-Integrated Moving Average)
2. Estimar parámetros.
6. Pronósticos.
EPB 603 Sistemas del Conocimiento
13
EPB 603 Sistemas del Conocimiento
• Sumarización:
– Los métodos de sumarización asignan los datos a
conjuntos (individuos de segundo orden) que tienen
asociadas descripciones.
– Estos métodos permiten extraer o derivar datos
representativos de una base de datos.
– Permite el análisis de conceptos.
• Métodos:
– Análisis de datos simbólicos.
– Lógica difusa.
– Interval Analysis.
14
Tareas de la Minería de Datos
• Métodos:
– Reglas de asociación (association rules) .
– Análisis de Correlation y de Causalidad.
• Descubrimiento de secuencias:
– “Secuential analysis” es usado para descubrir
secuencias de patrones en los datos, estos
patrones son similares a los encontrados con
reglas de asociación pero tales relaciones son
basadas en el tiempo.
• Métodos:
– Redes neuronales.
– Series de tiempo.
15
Data Mining: On What Kind of Data?
• Relational databases
• Data warehouses
• Transactional databases
• Advanced DB and information repositories
– Object-oriented and symbolic databases
– Spatial databases (location component, Geographic
Information Systems - GIS)
– Time-series data and temporal data
– Text databases and multimedia databases
– Heterogeneous and legacy databases
– www (web mining)
EPB 603 Sistemas del Conocimiento
16
Ciclo de un proyecto de minería de datos
1. Recolectar los datos. Usualmente las compañias
tienes muchas bases de datos que deben ser
centralizadas.
2. Limpieza y transformación de datos.
3. Definir la meta del proyecto y así encontrar el
modelo adecuado.
4. Escoger los algoritmos que permitan optimizar el
modelo.
5. Generar reportes.
6. Generar predicciones y/o “Scoring”.
7. Aplicación de los resultados en el negocio.
8. Actualización de los modelos. (calibración
constante de los modelos)
EPB 603 Sistemas del Conocimiento
Increasing potential
to support
business decisions End User
Making
Decisions
Data Exploration
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
OLAP, MDA DBA
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
EPB 603 Sistemas del Conocimiento
17
Architecture of a Typical Data Mining System
* ( $
) $
+ ' &
&
' ($
Data cleaning & data integration Filtering
Data
Databases Warehouse
18
¿Qué es una Bodega de Datos?
(Data Warehouse)
• Una bodega de datos es una base de
datos orientada a consultas, como
resultado de un análisis extenso y de la
transformación de datos de la empresa.
• La bodega de datos se usa como punto
de partida de un sistema de toma de
decisiones (tales como OLAP, DataLab).
EPB 603 Sistemas del Conocimiento
19
¿Qué es una Bodega de Datos?
(Data Warehouse) Simbólicas
o
Numéricas
Proceso de
Minería de Datos
20
¿Qué es un Mercado de Datos?
(Data Mart)
• Un Mercado de Datos (Data Mart) tiene
las mismas características que una
bodega de datos, pero a un nivel más
refinado, pues contiene información
más detallada perteneciente a un solo
departamento de la empresa.
21
Minería de Datos vrs OLAP
¿Qué es OLAP?
• OLAP (Online Analytical Processing)
• OLAP es una tecnología que procesa
información de una bodega de datos en
estructuras multidimensionales que
proporcionan una respuesta rápida a consultas
complejas.
• El objetivo de OLAP es resumir y organizar
grandes cantidades de datos para se
analizados y evaluados rápidamente.
22
¿Qué es OLAP?
Modelo Estrella
23
Example of Star Schema
time
time_key item
day item_key
day_of_the_week Sales Fact Table item_name
month brand
quarter time_key type
year supplier_type
item_key
location_key
location
units_sold location_key
dollars_sold street
city
avg_sales province_or_street
Measures country
24
Example of Star Schema
time
time_key item
day item_key
day_of_the_week Sales Fact Table item_name
month brand
quarter time_key type
year supplier_type
item_key
supplier_key
Supplier location
location_key
supplier_key location_key
supplier_name units_sold street
supplier_type city
dollars_sold province_or_street
country
avg_sales
Measures
25
• OLAP (On Line Analytical Processing) fue
introducido por E.F.Codd, en creador del modelo
relacional de bases de datos, en un artículo que
escribió en 1994.
• El fuerte del OLAP son los cálculos agregados o
sumarizados. Ej. ¿Cuáles son los 10 productos
más vendidos el último mes?
• Mientras que el fuerte la Minería de Datos es la
búsqueda de patrones ocultos. Ej. ¿Cuál es el
perfil de los compradores de cámaras digitales?
Una Bodega de Datos (Data Warehouse) es un sistema que toma los datos
de una compañía (de sus bases de datos y de otras fuentes de los datos) y los
transforma en una estructura adecuada para el Análisis de Datos.
26
Definiciones importantes en Bodegas de Datos
Dos tipos tablas conforman una Bodega de datos: las Tablas de Hechos y
las Tablas de Dimensión.
Una llave foránea es un campo que liga la Tabla de Hechos con las Tablas
de Dimensión
27
La Tabla de Hechos
La Tabla de Hechos tiene como meta extraer los datos más importantes
desde el punto de vista de la toma de decisiones para el negocio.
Más bien, los datos muchas veces son agregaciones de otros por lo que se
tienen muchos datos pre-calculados con el objetivo de facilitar y optimizar la
consulta.
Tablas de Dimensiones
28
Dimensiones
Cubos
Se pueden construir los cubos desde una o más tablas de hechos y sus
dimensiones.
29
En la siguiente Figura se muestra un cubo de Ventas de Cerveza. Considere
la cara delantera del cubo que muestra números positivos. Este cubo tiene
tres dimensiones: Tiempo, Línea del Producto, y Estado dónde el producto fue
vendido.
Cada bloque del cubo se llama una celda y se identifica por un miembro en
cada dimensión. Por ejemplo, analice la celda de la esquina inferior-izquierda,
la cual tiene los valores 4,784 y $98,399. Los valores indican el número de
ventas y el monto de las ventas. Esta celda se refiere a las ventas de Cerveza
inglesa (Ale) en el estado de Washington (WA) durante julio del 2005. Esto se
representa como [WA, Ale, el Jul ' 05].
Si algunas celdas no tienen valor; esto es porque ningún dato está disponible
para esas celdas en la tabla de hecho.
30
El esquema tipo Estrella
Hay que una extensión del Esquema Estrella conocido como el esquema del
“Copo de Nieve”. Este tipo esquema es útil cuando una o más de tablas de
dimensión son a su vez una tablas de hechos.
31
1. Cargar “SQL Server Business Intelligence Development Studio”
32
Carpetas de un proyecto:
33
Adventureworks Sample Database
34
5. Crear un Cubo usando el “Cube Wizard” (Método Botton-up,
es decir se construye el cubo a partir de una base de datos)
35
36
6. Desplegando y visualizando un Cubo
37
CelIs (Celdas): Una Celda es una entidad de la que se pueden recuperar
datos que corresponde a la intersección de los Miembros de dimensiones.
Tuples (Tuplas): Una Tupla única identifica una celda o una sección de un
cubo.
Ejemplos:
Ejemplos:
38
¿Dónde ejecutar un Query MDX?
SSMS: SQL Server Management Studio
39
Ejemplo 1:
SELECT [Measures].[Sales Amount] on COLUMNS
FROM [Adventure Works DW]
WHERE ([Dim Sales Territory].[Sales Territory Group].[Pacific],
[Dim Promotion].[English Promotion Category].[Reseller])
40
Ejemplo 2:
SELECT [Measures].[Discount Amount - Fact Reseller Sales] on
COLUMNS
FROM [Adventure Works DW]
WHERE ([Dim Product].[Large Photo].&[213],
[Dim Sales Territory].[Sales Territory Region].[Canada])
Analizado Cubos
con Excel 2007
41
Paso 1: Establecer la conexión entre Excel y el BIDS
42
Paso 2: Creando el cubo en Excel a través de una tabla dinámica
43
Paso 3: Generando gráficos
44
Gracias….
45